<div dir="ltr">Sorry. I made a mistake. Cmov has been 1 cycle since Broadwell.<div><br clear="all"><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature">~Craig</div></div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Sun, Sep 6, 2020 at 12:39 PM Craig Topper <<a href="mailto:craig.topper@gmail.com">craig.topper@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>cmov has been 1 cycle since Sandy Bridge. Moves execute in the register renamer since Ivy Bridge. So mov+neg+cmov should be faster than cdq+add+xor on modern CPUs. Furthermore, cdq really ties the hands of the register allocator so probably doesn't make sense in a larger function with abs mixed with other code.</div><br clear="all"><div><div dir="ltr">~Craig</div></div><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Sun, Sep 6, 2020 at 12:30 PM Stefan Kanthak via cfe-dev <<a href="mailto:cfe-dev@lists.llvm.org" target="_blank">cfe-dev@lists.llvm.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">--- bugs-bunny.c ---<br>

// Copyleft © 2014-2020, Stefan Kanthak <<a href="mailto:stefan.kanthak@nexgo.de" target="_blank">stefan.kanthak@nexgo.de</a>><br>

<br>

#ifdef __amd64__<br>

__int128_t __absti2(__int128_t argument) {<br>

    return argument < 0 ? -argument : argument;<br>

}<br>

#else<br>

long long __absdi2(long long argument) {<br>

#ifdef BUNNY<br>

    return __builtin_llabs(argument);<br>

#else<br>

    return argument < 0 ? -argument : argument;<br>

#endif // BUNNY<br>

}<br>

<br>

long __abssi2(long argument) {<br>

#ifdef BUNNY<br>

    return __builtin_labs(argument);<br>

#else<br>

    return argument < 0 ? -argument : argument;<br>

#endif // BUNNY<br>

}<br>

#endif // __amd64__<br>

--- EOF ---<br>

<br>

Run clang -c -o- -O3 -S -target amd64-pc-linux bugs-bunny.c<br>

<br>

Left: inperformant original code # right: proper code,<br>

                                 #        faster and 3 bytes shorter<br>

<br>

__absti2:      # @__absti2<br>

# %bb.0:                         # .intel_syntax noprefix<br>

      xorl     %edx, %edx        #        mov    rax, rsi<br>

      movq     %rdi, %rax        #        cqo<br>

      negq     %rax              #        mov    rax, rdx<br>

      sbbq     %rsi, %rdx        #        add    rdi, rdx<br>

      testq    %rsi, %rsi        #        adc    rsi, rdx<br>

      cmovnsq  %rdi, %rax        #        xor    rax, rdi<br>

      cmovnsq  %rsi, %rdx        #        xor    rdx, rsi<br>

      retq                       #        ret<br>

<br>

CMOVcc introduces a data dependency here, WITHOUT necessity!<br>

<br>

<br>

Run clang -c -o- -O3 -S -target i386-pc-linux bugs-bunny.c<br>

<br>

Left: inperformant original code # right: proper code, runs even on real<br>

                                 #        i386, not just PentiumPro+<br>

<br>

___abssi2:    # @__abssi2<br>

# %bb.0:                         # .intel_syntax noprefix<br>

      movl    4(%esp), %ecx      #        mov    eax, [esp+4]<br>

      movl    %ecx, %eax         #        cdq<br>

      negl    %eax               #        add    eax, edx<br>

      cmovll  %ecx, %eax         #        xor    eax, edx<br>

      retl                       #        ret<br>

<br>

<br>

Writing shorter code for __absdi2() for i386 is left as an<br>

exercise to the reader.<br>

<br>

_______________________________________________<br>

cfe-dev mailing list<br>

<a href="mailto:cfe-dev@lists.llvm.org" target="_blank">cfe-dev@lists.llvm.org</a><br>

<a href="https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-dev" rel="noreferrer" target="_blank">https://lists.llvm.org/cgi-bin/mailman/listinfo/cfe-dev</a><br>

</blockquote></div>

</blockquote></div>