<html>
    <head>
      <base href="https://bugs.llvm.org/">
    </head>
    <body><table border="1" cellspacing="0" cellpadding="8">
        <tr>
          <th>Bug ID</th>
          <td><a class="bz_bug_link 
          bz_status_NEW "
   title="NEW - Are these mask reductions optimal for arm v7+NEON ?"
   href="https://bugs.llvm.org/show_bug.cgi?id=38842">38842</a>
          </td>
        </tr>

        <tr>
          <th>Summary</th>
          <td>Are these mask reductions optimal for arm v7+NEON ?
          </td>
        </tr>

        <tr>
          <th>Product</th>
          <td>libraries
          </td>
        </tr>

        <tr>
          <th>Version</th>
          <td>trunk
          </td>
        </tr>

        <tr>
          <th>Hardware</th>
          <td>PC
          </td>
        </tr>

        <tr>
          <th>OS</th>
          <td>All
          </td>
        </tr>

        <tr>
          <th>Status</th>
          <td>NEW
          </td>
        </tr>

        <tr>
          <th>Severity</th>
          <td>enhancement
          </td>
        </tr>

        <tr>
          <th>Priority</th>
          <td>P
          </td>
        </tr>

        <tr>
          <th>Component</th>
          <td>Backend: ARM
          </td>
        </tr>

        <tr>
          <th>Assignee</th>
          <td>unassignedbugs@nondot.org
          </td>
        </tr>

        <tr>
          <th>Reporter</th>
          <td>gonzalobg88@gmail.com
          </td>
        </tr>

        <tr>
          <th>CC</th>
          <td>llvm-bugs@lists.llvm.org
          </td>
        </tr></table>
      <p>
        <div>
        <pre>The following LLVM IR just tests if all lanes of a <N x i1> vector are true
(<a href="https://gcc.godbolt.org/z/tEd1d_">https://gcc.godbolt.org/z/tEd1d_</a>):

declare i1 @llvm.experimental.vector.reduce.and.v32i1(<32 x i1>);
declare i1 @llvm.experimental.vector.reduce.and.v8i1(<8 x i1>);
declare i1 @llvm.experimental.vector.reduce.and.v4i1(<4 x i1>);
declare i1 @llvm.experimental.vector.reduce.and.v2i1(<2 x i1>);

define i1 @and64_x2(<2 x i32>) {
    %a = trunc <2 x i32> %0 to <2 x i1>
    %b = call i1 @llvm.experimental.vector.reduce.and.v2i1(<2 x i1> %a)
    ret i1 %b
}
define i1 @and64_x4(<4 x i16>) {
    %a = trunc <4 x i16> %0 to <4 x i1>
    %b = call i1 @llvm.experimental.vector.reduce.and.v4i1(<4 x i1> %a)
    ret i1 %b
}
define i1 @and64_x8(<8 x i16>) {
    %a = trunc <8 x i16> %0 to <8 x i1>
    %b = call i1 @llvm.experimental.vector.reduce.and.v8i1(<8 x i1> %a)
    ret i1 %b
}

define i1 @and128_x2(<2 x i64>) {
    %a = trunc <2 x i64> %0 to <2 x i1>
    %b = call i1 @llvm.experimental.vector.reduce.and.v2i1(<2 x i1> %a)
    ret i1 %b
}
define i1 @and128_x4(<4 x i32>) {
    %a = trunc <4 x i32> %0 to <4 x i1>
    %b = call i1 @llvm.experimental.vector.reduce.and.v4i1(<4 x i1> %a)
    ret i1 %b
}

define i1 @and128_x8(<8 x i8>) {
    %a = trunc <8 x i8> %0 to <8 x i1>
    %b = call i1 @llvm.experimental.vector.reduce.and.v8i1(<8 x i1> %a)
    ret i1 %b
}

define i1 @and256_x4(<4 x i64>) {
    %a = trunc <4 x i64> %0 to <4 x i1>
    %b = call i1 @llvm.experimental.vector.reduce.and.v4i1(<4 x i1> %a)
    ret i1 %b
}

define i1 @and256_x8(<8 x i32>) {
    %a = trunc <8 x i32> %0 to <8 x i1>
    %b = call i1 @llvm.experimental.vector.reduce.and.v8i1(<8 x i1> %a)
    ret i1 %b
}
define i1 @and256_x32(<32 x i8>) {
    %a = trunc <32 x i8> %0 to <32 x i1>
    %b = call i1 @llvm.experimental.vector.reduce.and.v32i1(<32 x i1> %a)
    ret i1 %b
}

produces this machine code:

and64_x2:
  vmov d16, r0, r1
  vdup.32 d17, d16[1]
  vand d16, d16, d17
  vmov.32 r0, d16[0]
  bx lr
and64_x4:
  vmov d16, r0, r1
  vext.16 d17, d16, d16, #2
  vand d16, d16, d17
  vdup.16 d17, d16[1]
  vand d16, d16, d17
  vmov.u16 r0, d16[0]
  bx lr
and64_x8:
  vmov d17, r2, r3
  vmov d16, r0, r1
  vmovn.i16 d16, q8
  vext.8 d17, d16, d16, #4
  vand d16, d16, d17
  vext.8 d17, d16, d16, #2
  vand d16, d16, d17
  vdup.8 d17, d16[1]
  vand d16, d16, d17
  vmov.u8 r0, d16[0]
  bx lr
and128_x2:
  vmov d17, r2, r3
  vmov d16, r0, r1
  vmovn.i64 d16, q8
  vdup.32 d17, d16[1]
  vand d16, d16, d17
  vmov.32 r0, d16[0]
  bx lr
and128_x4:
  vmov d17, r2, r3
  vmov d16, r0, r1
  vmovn.i32 d16, q8
  vext.16 d17, d16, d16, #2
  vand d16, d16, d17
  vdup.16 d17, d16[1]
  vand d16, d16, d17
  vmov.u16 r0, d16[0]
  bx lr
and128_x8:
  vmov d16, r0, r1
  vext.8 d17, d16, d16, #4
  vand d16, d16, d17
  vext.8 d17, d16, d16, #2
  vand d16, d16, d17
  vdup.8 d17, d16[1]
  vand d16, d16, d17
  vmov.u8 r0, d16[0]
  bx lr
and256_x4:
  vmov d17, r2, r3
  vmov d16, r0, r1
  mov r0, sp
  vld1.64 {d18, d19}, [r0]
  vmovn.i64 d16, q8
  vmovn.i64 d17, q9
  vuzp.16 d16, d17
  vext.16 d17, d16, d16, #2
  vand d16, d16, d17
  vdup.16 d17, d16[1]
  vand d16, d16, d17
  vmov.u16 r0, d16[0]
  bx lr
and256_x8:
  vmov d17, r2, r3
  vmov d16, r0, r1
  mov r0, sp
  vld1.64 {d18, d19}, [r0]
  vmovn.i32 d16, q8
  vmovn.i32 d17, q9
  vuzp.8 d16, d17
  vext.8 d17, d16, d16, #4
  vand d16, d16, d17
  vext.8 d17, d16, d16, #2
  vand d16, d16, d17
  vdup.8 d17, d16[1]
  vand d16, d16, d17
  vmov.u8 r0, d16[0]
  bx lr
and256_x32:
  vmov d17, r2, r3
  vmov d16, r0, r1
  mov r0, sp
  vld1.64 {d18, d19}, [r0]
  vand q8, q8, q9
  vext.8 q9, q8, q8, #8
  vand q8, q8, q9
  vext.8 q9, q8, q8, #4
  vand q8, q8, q9
  vext.8 q9, q8, q8, #2
  vand q8, q8, q9
  vdup.8 q9, d16[1]
  vand q8, q8, q9
  vmov.u8 r0, d16[0]
  bx lr

The generated machine code for and64_x2 looks "ok" but the one generated for
and64_x4 and and64_x8 looks very long. Is this optimal ? I have similar
questions about <1 x i128>, <2 x i128> and the or and xor experimental vector
reductions.</pre>
        </div>
      </p>


      <hr>
      <span>You are receiving this mail because:</span>

      <ul>
          <li>You are on the CC list for the bug.</li>
      </ul>
    </body>
</html>