<div dir="ltr">I noticed something fishy going on in LSR, but I am not sure why or how to fix it. <div><br></div><div><b>Symptom</b></div><div><br></div><div>I managed to get a reduced test (lsr.ll), which is compiled from the following CUDA code (I believe similar problems exist for C++ in general). <br></div><div><br></div><div>for (int i = n; i != 0; --i) {</div><div>  int t0 = i * a;</div><div>  use(t0);</div><div>  t1 = t0 + i; // equivalent to t0 = i * (a + 1)</div><div>  use(t1);</div><div>}<br></div><div><br></div><div>The in-loop cost excluding "use" is </div><div>1 mul: i * a</div><div>1 add: t += i</div><div>1 sub: --i</div><div>1 compare: i != 0</div><div><br></div><div>LSR transforms that into (lsr.opt.ll)</div><div><br></div><div>int t0 = n * a;</div><div>int t1 = n * (a + 1);</div><div>int a1 = a + 1;</div><div>for (int i = n; i != 0; --i) {<br></div><div>  use(t0);</div><div>  use(t1);</div><div>  t0 -= a;</div><div>  t1 -= a1;</div><div>}</div><div><br></div><div>The in-loop cost excluding "use" is</div><div>3 sub: --i, t0 -= a, t1 -= a1</div><div>1 compare: i != 0</div><div><br></div><div>The total cost is unchanged, but the LSR'ed version uses more registers. Each indvar (i, t0, or t1) needs one register in the LSR'ed version, whereas in the original code, t0 and t1 can share the same register. The strides "a" and "a1" also cost registers. Register pressure might not be an issue for this reduced case, but it does degrades the performance in the real non-reduced benchmark. </div><div><br></div><div><b>Investigation</b></div><div><br></div><div>From the debug output, LSR chooses to put t0 and t1 in different IV chains, because their SCEVs look different: </div><div><br></div><div><div>  %0 = mul nsw i32 %i, %a</div><div>  -->  {(%a * %n),+,(-1 * %a)}<%loop></div><div>  %1 = add nsw i32 %0, %i</div><div>  -->  {((1 + %a) * %n),+,(-1 + (-1 * %a))}<%loop></div></div><div><br></div><div>Looks like this makes LSR to later process them separately and promote both to induction variables. If LSR realized %1 can be computed as %0 + %i instead of %i * (%a + 1), it could merge them into the same chain. </div><div><br></div><div>I am not sure if this is the root cause, because LSRInstance::Solve seems to be able to merge IV chains sometimes. So it could be that the IV chains are not merged in the way I want? </div><div><br></div><div>Jingyue</div></div>