<div dir="ltr"><div>I'm not sure everyone would agree that the behavior of a __builtin_vector_hadd should do what the X86 instruction does. It takes two vectors and produces a result with elements from both vectors. Someone might argue that a horizontal add should just take one source and produce a vector with half the number of elements. Someone else might argue that a horizontal add should sum all the elements to a single scalar value. With different implementation choices like that its hard to say it should be a generic operation when the behavior might only make sense for one target's instruction set.</div><div><br></div><div>The behavior of the 256-bit vhaddps instruction on X86 is also weird since it treats the upper and lower 128-bits of the sources and destination independently. That quirk wouldn't make sense in a generic operation.</div><div><br></div><div>You can emulate __builtin_ia32_haddps generically using __builtin_shufflevector and the + operator.  The X86 backend should recognize it and use haddps.</div><div><br></div><div><div dir="ltr" data-smartmail="gmail_signature">~Craig</div></div><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Wed, Aug 19, 2020 at 10:54 AM Alexandre Bique via llvm-dev <<a href="mailto:llvm-dev@lists.llvm.org" target="_blank">llvm-dev@lists.llvm.org</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div>Hi,</div><div><br></div><div>I love llvm vectors, yet I wonder why some advanced vector operations are specific to some CPU targets?</div><div><br></div><div>Let me take an example:</div><div><br></div>/// Horizontally adds the adjacent pairs of values contained in two<br>///    128-bit vectors of [4 x float].<br>///<br>/// \headerfile <x86intrin.h><br>///<br>/// This intrinsic corresponds to the <c> VHADDPS </c> instruction.<br>///<br>/// \param __a<br>///    A 128-bit vector of [4 x float] containing one of the source operands.<br>///    The horizontal sums of the values are stored in the lower bits of the<br>///    destination.<br>/// \param __b<br>///    A 128-bit vector of [4 x float] containing one of the source operands.<br>///    The horizontal sums of the values are stored in the upper bits of the<br>///    destination.<br>/// \returns A 128-bit vector of [4 x float] containing the horizontal sums of<br>///    both operands.<br>static __inline__ __m128 __DEFAULT_FN_ATTRS<br>_mm_hadd_ps(__m128 __a, __m128 __b)<br>{<br>  return __builtin_ia32_haddps((__v4sf)__a, (__v4sf)__b);<br>}<br><div><br></div><div>Here clang will translate _mm_hadd_ps to a CPU specific feature.</div><div>Why not create __builtin_vector_hadd(a, b) which would select the CPU specific instruction or a fallback generic implementation?</div><div><br></div><div>Many thanks,</div><div>Alex</div></div>
_______________________________________________<br>
LLVM Developers mailing list<br>
<a href="mailto:llvm-dev@lists.llvm.org" target="_blank">llvm-dev@lists.llvm.org</a><br>
<a href="https://lists.llvm.org/cgi-bin/mailman/listinfo/llvm-dev" rel="noreferrer" target="_blank">https://lists.llvm.org/cgi-bin/mailman/listinfo/llvm-dev</a><br>
</blockquote></div>