<div dir="ltr">Right. What I forgot to say is that a 64-bit add is still legal but just roughly twice as expensive as a 32-bit add. Then, if we do the math, the cost w/ LSR is in general less than that w/o LSR. Consider for example<div><br></div><div>for (int i = ...; ...; ++i) {</div><div>  .. a[i + 5] ...</div><div>}</div><div><br></div><div>Computing &a[i + 5] w/o LSR costs 4 machine instructions on typical NVIDIA GPUs. </div><div>i + 5 // 32-bit add. cost = 1</div><div>4 * (i + 5) // 32-bit wide multiply. cost = 1</div><div>a + 4 * (i + 5) // 64-bit add. cost = 2</div><div><br></div><div>Computing that w/ LSR costs only 2 machine instructions. </div><div><previous address> + <stride> // 64-bit add. cost = 2.</div><div><div><div><br></div><div>LSR only promotes a variable to an indvar when doing that reduces the cost (computed per TTI). So we are good as long as NVPTX's cost model is correct. </div></div></div><div><br></div><div>Hope that makes sense. </div><div><br></div><div>Jingyue</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Jun 30, 2015 at 10:35 PM, Adam Nemet <span dir="ltr"><<a href="mailto:anemet@apple.com" target="_blank">anemet@apple.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word"><br><div><span class=""><blockquote type="cite"><div>On Jun 29, 2015, at 8:57 PM, Jingyue Wu <<a href="mailto:jingyue@google.com" target="_blank">jingyue@google.com</a>> wrote:</div><br><div><div dir="ltr">Hi Adam, <div><br></div><div>Indvar widening can sometimes be harmful for architectures (e.g. NVPTX and AMDGPU) where wider integer operations are more expensive (<a href="https://urldefense.proofpoint.com/v2/url?u=https-3A__llvm.org_bugs_show-5Fbug.cgi-3Fid-3D21148&d=AwMFaQ&c=8hUWFZcy2Z-Za5rBPlktOQ&r=Mfk2qtn1LTDThVkh6-oGglNfMADXfJdty4_bhmuhMHA&m=lwZEKs8DspZcDgKUGUpdprCcMmEmDdD31wL7fIrxoUQ&s=9hY2D2JTiD-rhM_G4J_MrwFFJcP3O-yQ85FxnqX6JyA&e=" target="_blank">https://llvm.org/bugs/show_bug.cgi?id=21148</a>). <span style="line-height:1.5;font-size:13.1999998092651px">For this reason, we disabled indvar widening in NVPTX in </span><span style="line-height:1.5;font-size:13.1999998092651px"><a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__reviews.llvm.org_D6196&d=AwMFaQ&c=8hUWFZcy2Z-Za5rBPlktOQ&r=Mfk2qtn1LTDThVkh6-oGglNfMADXfJdty4_bhmuhMHA&m=lwZEKs8DspZcDgKUGUpdprCcMmEmDdD31wL7fIrxoUQ&s=YVgtfFjTynOkmkzid4o7zmOk6iQl7sO5y2Fsdbs8xjc&e=" target="_blank">http://reviews.llvm.org/D6196</a>. </span><div><span style="font-size:13.1999998092651px;line-height:1.5"><br></span></div><div><span style="font-size:13.1999998092651px;line-height:1.5">Hope it helps. </span></div></div></div></div></blockquote><div><br></div></span><div>Hi Jingyue,</div><div><br></div><div>But at the same time, if I understand correctly, you do want to LSR the address arithmetic (scale by 4 and the 64-bit addition to the base) into a 64-bit increment of 4.  Correct?</div><span class="HOEnZb"><font color="#888888"><div><br></div><div>Adam</div></font></span><div><div class="h5"><br><blockquote type="cite"><div><div dir="ltr"><div><span style="font-size:13.1999998092651px;line-height:1.5"><br></span></div><div><span style="font-size:13.1999998092651px;line-height:1.5">Jingyue</span></div></div><br><div class="gmail_quote"><div dir="ltr">On Mon, Jun 29, 2015 at 11:59 AM Adam Nemet <<a href="mailto:anemet@apple.com" target="_blank">anemet@apple.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><br>
> On Jun 26, 2015, at 4:01 PM, Bjarke Roune <<a href="mailto:broune@google.com" target="_blank">broune@google.com</a>> wrote:<br>
><br>
> *** Summary<br>
> I'd like to propose (and implement) functionality in LLVM to determine when a poison value from an instruction is guaranteed to produce undefined behavior. I want to use that to improve handling of nsw, inbounds etc. flags in scalar evolution and LSR. I imagine that there would be other uses for it. I'd like feedback on this idea before I proceed with it.<br>
><br>
><br>
> *** Details<br>
> Poison values do produce undefined behavior if the poison becomes externally observable. A load or store to a poison address value is externally observable and I'd like to use that in a simple analysis pass to derive guarantees that certain overflows would produce undefined behavior, not just poison.<br>
><br>
> Scalar evolution (and hence LSR) cannot currently make much use of the nsw and similar flags on instructions. That is because two instructions can map to the same scev even if one instruction has the nsw flag and the other one does not. If we applied the nsw flag to the scev, the scev for the instruction without the nsw flag would then incorrectly have the nsw flag.<br>
><br>
> Scalar evolution would be able to use the nsw flag from an instruction for recurrences when the loop header dominates the entire loop, the instruction with nsw post-dominates the loop header and undefined behavior is guaranteed on wrap via the poison value analysis pass that I'd like to write.<br>
><br>
> What do you think? Do we already have something similar to this?<br>
><br>
> Bjarke<br>
><br>
><br>
><br>
> *** PS: What got me thinking about this:<br>
> My immediate motivation is that I'd like LSR to be able to create induction variables for expressions like &ptr[i + offset] where i and offset are 32 bit integers, ptr is a loop-invariant 64 bit pointer, i is an induction variable and offset is loop-invariant. For that to happen, scalar evolution needs to propagate the nsw flag from i + offset to the scev so that it can transform<br>
><br>
>   ((4 * (sext i32 {%offset,+,1}<nw><%loop> to i64))<nsw> + %ptr)<nsw><br>
><br>
> to<br>
><br>
>   {((4 * (sext i32 %offset to i64)) + %ptr),+,4}<nsw><%loop><br>
<br>
I guess what I am missing here why indvars does not create an i64 induction variable for this?<br>
<br>
Adam<br>
<br>
<br>
><br>
> Currently the inner <nsw> is actually <nw>, which blocks the transformation (the outer two nsw's shouldn't currently be there either, as it's the same issue for inbounds on GEP: see llvm bug 23527)<br>
> _______________________________________________<br>
> LLVM Developers mailing list<br>
> <a href="mailto:LLVMdev@cs.uiuc.edu" target="_blank">LLVMdev@cs.uiuc.edu</a>         <a href="http://llvm.cs.uiuc.edu/" rel="noreferrer" target="_blank">http://llvm.cs.uiuc.edu</a><br>
> <a href="http://lists.cs.uiuc.edu/mailman/listinfo/llvmdev" rel="noreferrer" target="_blank">http://lists.cs.uiuc.edu/mailman/listinfo/llvmdev</a><br>
<br>
<br>
_______________________________________________<br>
LLVM Developers mailing list<br>
<a href="mailto:LLVMdev@cs.uiuc.edu" target="_blank">LLVMdev@cs.uiuc.edu</a>         <a href="http://llvm.cs.uiuc.edu/" rel="noreferrer" target="_blank">http://llvm.cs.uiuc.edu</a><br>
<a href="http://lists.cs.uiuc.edu/mailman/listinfo/llvmdev" rel="noreferrer" target="_blank">http://lists.cs.uiuc.edu/mailman/listinfo/llvmdev</a><br>
</blockquote></div>
</div></blockquote></div></div></div><br></div></blockquote></div><br></div>