<div dir="ltr">Hi Nadav,<div><br></div><div>I think it's a great idea to have the slp vectorizer enabled, but maybe we should trim the horrible cases first (regressions, +5% compile time, etc). I don't mind sub-5% compile-time increase in O3, nor I mind sub-1% regressions in performance on some benchmarks IFF the majority of the benchmarks improve.</div>
<div><br></div><div><br><div class="gmail_extra"><div class="gmail_quote">On 15 July 2013 06:55, Nadav Rotem <span dir="ltr"><<a href="mailto:nrotem@apple.com" target="_blank">nrotem@apple.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">I suspected that the problem is the movupd's that load xmm0 and xmm1.</div></blockquote>
<div><br></div><div>I've seen this before on ARM, and I agree, it looks like the load is constrained by some other condition or pipeline stall before that. </div><div><br></div><div>cheers,</div><div>--renato</div></div>
</div></div></div>