<html><head><meta http-equiv="Content-Type" content="text/html charset=us-ascii"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><br><div><div>On May 5, 2013, at 6:53 AM, Hal Finkel <<a href="mailto:hfinkel@anl.gov">hfinkel@anl.gov</a>> wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><span style="font-family: Helvetica; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-align: -webkit-auto; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; display: inline !important; float: none; ">On PPC, however, the situation seems slightly more friendly than on x86 because we still do have a general-purpose permutation instruction, it is just faster (and lowers register pressure) to use an alternative sequence.</span></blockquote></div><br><div>ARM NEON has a general shuffle instruction as well (vtbl).  The problem is that we quite often encounter user code that was written with a specific shuffle-like instruction in mind.  If we munge that shuffle too much, it's quite possible that we'll fail to lower it back to a decent sequence, in which case we've pessimized what the user wrote.</div><div><br></div><div>--Owen</div></body></html>