<div dir="ltr"><div><div>Problem :<br><br></div>Many languages define aggregates and some way to manipulate them. LLVM define aggregates types (arrays and structs) to handle them. However, when aggregate are loaded or stored, LLVM will simply ignore these up to the legalization in the backend. This lead to many misoptimizations. Most frontend are using a set of trick to work around this limtation, but that an undesirable situation as it increase the work required to write a front end. Ideally that work should be done once by LLVM instead of every time by each frontend.<br><br></div><div>In previous discussion on the subject, many LLVM user have expressed interest in being able to use aggregate memory access. In addition, it is likely that it would have reduced the workload of some existing frontends.<br></div><div><br></div><div>The proposed solution is to transform aggregate loads and stores to something that the LLVM toolcahin already understand and is able to work with. The proposed solution will use InstCombine to do the transformation as it is done early and will allow subsequent passes to work with something familiar (basically, canonicalization).<br><br></div><div>Proposed solution :<br><br></div><div>Aggregate load and store are turned into aggregate load and store of a scalar of the same size and alignement. Binary manipulation, like mask and shift, are used to build the aggregate from the scalar after loading and the aggregate to a scalar when storing.<br><br></div><div>For instance, the following IR (extracted from a D frontend) :<br><br>%B__vtbl = type { i8*, i32 (%B*)* }<br>@B__vtblZ = constant %B__vtbl { i8* null, i32 (%B*)* @B.foo }<br><br>%0 = tail call i8* @allocmemory(i64 32)<br></div><div>%1 = bitcast i8* %0 to %B*<br>store %B { %B__vtbl* @B__vtblZ, i32 42 }, %B* %1, align 8<br><br></div><div>Would be canonized into :<br>%0 = tail call i8* @allocmemory(i64 32)<br>%1 = bitcast i8* %0 to i128*<br>store i128 or (i128 zext (i64 ptrtoint (%B__vtbl* @B__vtblZ to i64) to i128), i128 774763251095801167872), i128* %1, align 8<br></div><div><br></div><div>Which the rest of the LLVM pipeline can work with.<br></div><div><br></div><div>Limitations :<br><br></div><div>1/ This solution will not handle properly large (tens of kilobytes) aggregates. It is an accepted limitation, both for this proposal and other part of the pipeline that handle aggregates. Optionally, checks can be added both for this canonicalization  and SROA to disable them on very large aggregates as to avoid wasting work that won't yield good codegen at the end anyway. This limitation should not be a blocker as most aggregate are fairly small. For instance, some language make heavy use of fat pointers, and would greatly benefit from this canonicalization.<br><br></div><div>2/ This solution will generate loads and stores of value that may not be natively supported by the hardware. The hardware do not natively support aggregate to begin with, so both original IR and canonized IR will require optimization. This is not ideal, but the canonicalization is a plus for 2 reasons:<br> - A subset of these memory access won't need canonicalization anymore.<br></div><div> - Other passes in LLVM will be able to work with these load and perform adequate transformations.<br></div><div><br></div><div>Possible alternatives :<br><br></div><div>In order to mitigate 1/ it is possible to gate the canonicalization to aggregate under a certain size. This essentially avoiding to do work that will lead to bad codegen no matter what.<br></div><div>In order to mitigate 2/, it is possible to slice aggregates loads and stores according to the target's data layout. This CANNOT be implemented for atomic/volatile as it would change semantic, but can be done for regulars ones, which are the most commons.<br></div><div><div><br></div><div>Do that looks better as an RFC ?<br></div><div><div><div class="gmail_extra"><br><div class="gmail_quote">2015-08-19 22:11 GMT-07:00 Hal Finkel <span dir="ltr"><<a href="mailto:hfinkel@anl.gov" target="_blank">hfinkel@anl.gov</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">----- Original Message -----<br>
> From: "Mehdi Amini via llvm-dev" <<a href="mailto:llvm-dev@lists.llvm.org">llvm-dev@lists.llvm.org</a>><br>
> To: "deadal nix" <<a href="mailto:deadalnix@gmail.com">deadalnix@gmail.com</a>><br>
> Cc: "llvm-dev" <<a href="mailto:llvm-dev@lists.llvm.org">llvm-dev@lists.llvm.org</a>><br>
> Sent: Wednesday, August 19, 2015 7:24:28 PM<br>
> Subject: Re: [llvm-dev] [RFC] Aggreate load/store, proposed plan<br>
><br>
> Hi,<br>
><br>
> To be sure, because the RFC below is not detailed and assume everyone<br>
> knows about all the emails from 10 months ago,<br>
<br>
</span>I agree. The RFC needs to summarize the problems and the potential solutions.<br>
<span class=""><br>
> is there more to do<br>
> than what is proposed in <a href="http://reviews.llvm.org/D9766" rel="noreferrer" target="_blank">http://reviews.llvm.org/D9766</a> ?<br>
><br>
> So basically the proposal is that *InstCombine*<br>
<br>
</span>I think that fixing this early in the optimizer makes sense (InstCombine, etc.). This seems little different from any other canonicalization problem. These direct aggregate IR values are valid IR, but not our preferred canonical form, so we should transform the IR, when possible, into our preferred canonical form.<br>
<br>
 -Hal<br>
<div><div class="h5"><br>
> turns aggregate<br>
> load/store into a load/store using an integer of equivalent size and<br>
> insert the correct bitcast before/after, right?<br>
><br>
> Example is:<br>
><br>
>   %0 = tail call i8* @allocmemory(i64 32)<br>
>   %1 = bitcast i8* %0 to %B*<br>
>   store %B { %B__vtbl* @B__vtblZ, i32 42 }, %B* %1, align 8<br>
><br>
> into:<br>
><br>
> store i128 or (i128 zext (i64 ptrtoint (%B__vtbl* @B__vtblZ to i64)<br>
> to i128), i128 774763251095801167872), i128* %1, align 8<br>
><br>
> Where the aggregate is:<br>
><br>
> %B__vtbl = type { i8*, i32 (%B*)* }<br>
> @B__vtblZ = constant %B__vtbl { i8* null, i32 (%B*)* @B.foo }<br>
><br>
><br>
> Thanks,<br>
><br>
> —<br>
> Mehdi<br>
><br>
><br>
> > On Aug 19, 2015, at 5:02 PM, deadal nix via llvm-dev<br>
> > <<a href="mailto:llvm-dev@lists.llvm.org">llvm-dev@lists.llvm.org</a>> wrote:<br>
> ><br>
> > It is pretty clear people need this. Let's get this moving.<br>
> ><br>
> > I'll try to sum up the point that have been made and I'll try to<br>
> > address them carefully.<br>
> ><br>
> > 1/ There is no good solution for large aggregates.<br>
> > That is true. However, I don't think this is a reason to not<br>
> > address smaller aggregates, as they appear to be needed.<br>
> > Realistically, the proportion of aggregates that are very large is<br>
> > small, and there is no expectation that such a thing would map<br>
> > nicely to the hardware anyway (the hardware won't have enough<br>
> > registers to load it all anyway). I do think this is reasonable to<br>
> > expect a reasonable handling of relatively small aggregates like<br>
> > fat pointers while accepting that larges ones will be inefficient.<br>
> ><br>
> > This limitation is not unique to the current discussion, as SROA<br>
> > suffer from the same limitation.<br>
> > It is possible to disable to transformation for aggregates that are<br>
> > too large if this is too big of a concern. It should maybe also be<br>
> > done for SROA.<br>
> ><br>
> > 2/ Slicing the aggregate break the semantic of atomic/volatile.<br>
> > That is true. It means slicing the aggregate should not be done for<br>
> > atomic/volatile. It doesn't mean this should not be done for<br>
> > regular ones as it is reasonable to handle atomic/volatile<br>
> > differently. After all, they have different semantic.<br>
> ><br>
> > 3/ Not slicing can create scalar that aren't supported by the<br>
> > target. This is undesirable.<br>
> > Indeed. But as always, the important question is compared to what ?<br>
> ><br>
> > The hardware has no notion of aggregate, so an aggregate or a large<br>
> > scalar ends up both requiring legalization. Doing the<br>
> > transformation is still beneficial :<br>
> >  - Some aggregates will generate valid scalars. For such aggregate,<br>
> >  this is 100% win.<br>
> >  - For aggregate that won't, the situation is still better as<br>
> >  various optimization passes will be able to handle the load in a<br>
> >  sensible manner.<br>
> >  - The transformation never make the situation worse than it is to<br>
> >  begin with.<br>
> ><br>
> > On previous discussion, Hal Finkel seemed to think that the scalar<br>
> > solution is preferable to the slicing one.<br>
> ><br>
> > Is that a fair assessment of the situation ? Considering all of<br>
> > this, I think the right path forward is :<br>
> >  - Go for the scalar solution in the general case.<br>
> >  - If that is a problem, the slicing approach can be used for non<br>
> >  atomic/volatile.<br>
> >  - If necessary, disable the transformation for very large<br>
> >  aggregates (and consider doing so for SROA as well).<br>
> ><br>
> > Do we have a plan ?<br>
> ><br>
> > _______________________________________________<br>
> > LLVM Developers mailing list<br>
> > <a href="mailto:llvm-dev@lists.llvm.org">llvm-dev@lists.llvm.org</a><br>
> > <a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__lists.llvm.org_cgi-2Dbin_mailman_listinfo_llvm-2Ddev&d=BQIGaQ&c=eEvniauFctOgLOKGJOplqw&r=v-ruWq0KCv2O3thJZiK6naxuXK8mQHZUmGq5FBtAmZ4&m=KkqzAZMcLUlWa3Uwmbr4DQqJdYQAzN_pFY3M8dzVdZ8&s=SFb1jraizjgechN0Pq3738tzBZyK8dZRqIU8Zfi_Qns&e=" rel="noreferrer" target="_blank">https://urldefense.proofpoint.com/v2/url?u=http-3A__lists.llvm.org_cgi-2Dbin_mailman_listinfo_llvm-2Ddev&d=BQIGaQ&c=eEvniauFctOgLOKGJOplqw&r=v-ruWq0KCv2O3thJZiK6naxuXK8mQHZUmGq5FBtAmZ4&m=KkqzAZMcLUlWa3Uwmbr4DQqJdYQAzN_pFY3M8dzVdZ8&s=SFb1jraizjgechN0Pq3738tzBZyK8dZRqIU8Zfi_Qns&e=</a><br>
><br>
> _______________________________________________<br>
> LLVM Developers mailing list<br>
> <a href="mailto:llvm-dev@lists.llvm.org">llvm-dev@lists.llvm.org</a><br>
</div></div>> <a href="http://lists.llvm.org/cgi-bin/mailman/listinfo/llvm-dev" rel="noreferrer" target="_blank">http://lists.llvm.org/cgi-bin/mailman/listinfo/llvm-dev</a><br>
><br>
<span class="HOEnZb"><font color="#888888"><br>
--<br>
Hal Finkel<br>
Assistant Computational Scientist<br>
Leadership Computing Facility<br>
Argonne National Laboratory<br>
</font></span></blockquote></div><br></div></div></div></div></div>