<div dir="ltr"><div><div><div>Thanks, Ashutosh.<br><br></div>Yes, either TTI or TLI could be used to limit the transform if we do it in CGP rather than the DAG.<br><br></div>The real question I have is whether it is legal to read the extra memory, regardless of whether this is a masked load or something else.<br><br></div>Note that the x86 backend already does this, so either my proposal is ok for x86, or we're already doing an illegal optimization:<br><div><br>define <4 x i32> @load_bonus_bytes(i32* %addr1, <4 x i32> %v) {<br>  %ld1 = load i32, i32* %addr1<br>  %addr2 = getelementptr i32, i32* %addr1, i64 3<br>  %ld2 = load i32, i32* %addr2<br>  %vec1 = insertelement <4 x i32> undef, i32 %ld1, i32 0<br>  %vec2 = insertelement <4 x i32> %vec1, i32 %ld2, i32 3<br>  ret <4 x i32> %vec2<br>}<br><br>$ ./llc -o - loadcombine.ll <br>...<br>    movups    (%rdi), %xmm0<br>    retq<br><br><br><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Mar 10, 2016 at 10:22 PM, Nema, Ashutosh <span dir="ltr"><<a href="mailto:Ashutosh.Nema@amd.com" target="_blank">Ashutosh.Nema@amd.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">





<div link="blue" vlink="purple" lang="EN-US">
<div>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1f497d">This looks interesting, the main motivation appears to be replacing masked vector load with a general vector load followed by a select.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1f497d">Observed masked vector loads are in general expensive in comparison with a vector load.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1f497d">But if first & last element of a masked vector load are guaranteed to be accessed then it can be transformed to a vector load.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1f497d">In opt this can be driven by TTI, where the benefit of this transformation should be checked.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1f497d">Regards,<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1f497d">Ashutosh<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:11.0pt;font-family:"Calibri",sans-serif;color:#1f497d"><u></u> <u></u></span></p>
<p class="MsoNormal"><b><span style="font-size:11.0pt;font-family:"Calibri",sans-serif">From:</span></b><span style="font-size:11.0pt;font-family:"Calibri",sans-serif"> llvm-dev [mailto:<a href="mailto:llvm-dev-bounces@lists.llvm.org" target="_blank">llvm-dev-bounces@lists.llvm.org</a>]
<b>On Behalf Of </b>Sanjay Patel via llvm-dev<br>
<b>Sent:</b> Friday, March 11, 2016 3:37 AM<br>
<b>To:</b> llvm-dev<br>
<b>Subject:</b> [llvm-dev] masked-load endpoints optimization<u></u><u></u></span></p><div><div class="h5">
<p class="MsoNormal"><u></u> <u></u></p>
<div>
<div>
<div>
<p class="MsoNormal" style="margin-bottom:12.0pt">If we're loading the first and last elements of a vector using a masked load [1], can we replace the masked load with a full vector load?<br>
<br>
"The result of this operation is equivalent to a regular vector load instruction followed by a ‘select’ between the loaded and the passthru values, predicated on the same mask. However, using this intrinsic prevents exceptions on memory access to masked-off
 lanes."<br>
<br>
I think the fact that we're loading the endpoints of the vector guarantees that a full vector load can't have any different faulting/exception behavior on x86 and most (?) other targets. We would, however, be reading memory that the program has not explicitly
 requested.<u></u><u></u></p>
</div>
<p class="MsoNormal">IR example:<br>
<br>
define <4 x i32> @maskedload_endpoints(<4 x i32>* %addr, <4 x i32> %v) {<u></u><u></u></p>
</div>
<p class="MsoNormal">  ; load the first and last elements pointed to by %addr and shuffle those into %v<u></u><u></u></p>
<div>
<p class="MsoNormal" style="margin-bottom:12.0pt">  %res = call <4 x i32> @llvm.masked.load.v4i32(<4 x i32>* %addr, i32 4, <4 x i1> <i1 1, i1 0, i1 0, i1 1>, <4 x i32> %v)<br>
  ret <4 x i32> %res<br>
}<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal">would become something like:<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal"><br>
define <4 x i32> @maskedload_endpoints(<4 x i32>* %addr, <4 x i32> %v) {<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal">  %vecload = load <4 x i32>, <4 x i32>* %addr, align 4<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal">  %sel = select <4 x i1> <i1 1, i1 0, i1 0, i1 1>, <4 x i32> %vecload, <4 x i32> %v<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-bottom:12.0pt">  ret <4 x i32> %sel<br>
}<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal">If this isn't valid as an IR optimization, would it be acceptable as a DAG combine with target hook to opt in?<u></u><u></u></p>
</div>
<div>
<div>
<div>
<p class="MsoNormal"><br>
[1] <a href="http://llvm.org/docs/LangRef.html#llvm-masked-load-intrinsics" target="_blank">http://llvm.org/docs/LangRef.html#llvm-masked-load-intrinsics</a><u></u><u></u></p>
</div>
</div>
</div>
</div>
</div></div></div>
</div>

</blockquote></div><br></div>