<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html;
      charset=windows-1252">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    <div class="moz-cite-prefix">On 7/20/2018 11:02 AM, via cfe-dev
      wrote:<br>
    </div>
    <blockquote type="cite"
      cite="mid:004701d42053$c9109ab0$5b31d010$@gmail.com">
      <meta http-equiv="Content-Type" content="text/html;
        charset=windows-1252">
      <meta name="Generator" content="Microsoft Word 15 (filtered
        medium)">
      <style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
        {font-family:Consolas;
        panose-1:2 11 6 9 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri",sans-serif;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
      <div class="WordSection1">
        <p class="MsoNormal">Hello all!<o:p></o:p></p>
        <p class="MsoNormal"><o:p> </o:p></p>
        <p class="MsoNormal">I’ve been mucking around in an old codebase
          at work looking for easy performance wins. One avenue involves
          replacing a switch-based variable assignment with something
          derived from the parity of an input variable. I was pretty
          surprised when I saw the generated assembly, and I’m wondering
          about the reasoning behind it.<o:p></o:p></p>
        <p class="MsoNormal"><o:p> </o:p></p>
        <p class="MsoNormal">In short, it boils down to the assembly <span
            style="font-family:Consolas">__builtin_parity()</span>
          produces. Clang 6.0.1 (and trunk on Godbolt) produces:<o:p></o:p></p>
        <p class="MsoNormal"><o:p> </o:p></p>
        <p class="MsoNormal"><span style="font-family:Consolas">parity(int):                            
            # @parity(int)<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            mov     eax, edi<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            shr     eax<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            and     eax, 1431655765<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            sub     edi, eax<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            mov     eax, edi<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            and     eax, 858993459<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            shr     edi, 2<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            and     edi, 858993459<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            add     edi, eax<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            mov     eax, edi<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            shr     eax, 4<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            add     eax, edi<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            and     eax, 17764111<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            imul    eax, eax, 16843009<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            shr     eax, 24<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            and     eax, 1<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            ret<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas"><o:p> </o:p></span></p>
        <p class="MsoNormal">While GCC 8.1.0 (and trunk on Godbolt)
          produces<o:p></o:p></p>
        <p class="MsoNormal"><o:p> </o:p></p>
        <p class="MsoNormal"><span style="font-family:Consolas">parity(int):<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            mov     eax, edi<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            shr     edi, 16<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            xor     eax, edi<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            xor     al, ah<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            setnp   al<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            movzx   eax, al<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas">       
            ret<o:p></o:p></span></p>
        <p class="MsoNormal"><span style="font-family:Consolas"><o:p> </o:p></span></p>
        <p class="MsoNormal">I know a popcnt followed by an and would be
          better, but unfortunately some of my users don’t have
          computers that support the popcnt instruction, so I can’t use
          a newer -march flag.<o:p></o:p></p>
        <p class="MsoNormal"><o:p> </o:p></p>
        <p class="MsoNormal">Could someone explain why the difference
          between Clang and GCC here, and whether it should make a
          difference? The code in question is in a hot loop in my code,
          so I’d imagine the size difference could impact unrolling (and
          result in icache differences too), but I haven’t finished
          poking around with benchmarks.<o:p></o:p></p>
        <p class="MsoNormal"><o:p> </o:p></p>
      </div>
    </blockquote>
    <br>
    LLVM doesn't have any special support for computing parity, so it's
    just getting lowered to "popcount(x)&1"; if your target doesn't
    have a popcount instruction, it uses the generic expansion
    (something like
<a class="moz-txt-link-freetext" href="https://graphics.stanford.edu/~seander/bithacks.html#CountBitsSetParallel">https://graphics.stanford.edu/~seander/bithacks.html#CountBitsSetParallel</a>
    ).  This is obviously not the fastest lowering, but computing parity
    is not a common operation, so nobody has spent any time optimizing
    it.<br>
    <br>
    -Eli<br>
    <pre class="moz-signature" cols="72">-- 
Employee of Qualcomm Innovation Center, Inc.
Qualcomm Innovation Center, Inc. is a member of Code Aurora Forum, a Linux Foundation Collaborative Project</pre>
  </body>
</html>