<div dir="ltr">Kyle, I looked at Matt's case in more details. For this target, bb2 in is selected as fallthrough of bb in the final layout, so bb4  should not be a taildup'ed. Can you take a look what went wrong?<div><br></div><div>By comparison, on x86, the cloned bb4 is the layout successor of bb which is expected.   </div><div><br></div><div>David</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Jan 11, 2017 at 12:06 AM, Matt Arsenault <span dir="ltr"><<a href="mailto:arsenm2@gmail.com" target="_blank">arsenm2@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word"><span class=""><br><div><blockquote type="cite"><div>On Jan 10, 2017, at 19:13, Kyle Butt <<a href="mailto:iteratee@google.com" target="_blank">iteratee@google.com</a>> wrote:</div><div><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="m_7537539302510827896HOEnZb"><font color="#888888"><br></font></span></blockquote><div><br></div><div>I looked at the code in question. There are more compare instructions, but no codepath should execute more of them. Which codepath are you concerned about?</div><div><br></div><div>For the compare, and 1 of the branches, it occurs due to tail duplication, and so for those, this is not a regression, it is WAI.</div><div><br></div><div>Are you worried about the code size, or did this actually cause a performance regression?</div><div>If it did cause a regression, can you tell me which path is the hot path? </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="m_7537539302510827896HOEnZb"><font color="#888888">
-Matt<br>
<br>
</font></span></blockquote></div><br></div><div class="gmail_extra">Thanks,</div><div class="gmail_extra">Kyle.</div></div>
</div></blockquote></div><br></span><div>This changes from having a path where no branch occurs, to ensuring that a branch will occur, and branches are expensive. I noticed this from the code size changes, but I’m mostly surprised by replacing a fall through with a branch.</div><div><br></div><div>Looking at the expected cycle counts on all paths in the artificial testcase, the loads + waits are always skipped, which is good. I think if the waitcnts were inserted smarter, the original code CFG would be slightly better. I need to look more at the full testcase.</div><span class="HOEnZb"><font color="#888888"><div><br></div><div>-Matt</div></font></span></div></blockquote></div><br></div>