<html>
<head>
<base href="https://bugs.llvm.org/">
</head>
<body><table border="1" cellspacing="0" cellpadding="8">
<tr>
<th>Bug ID</th>
<td><a class="bz_bug_link
bz_status_NEW "
title="NEW - Are these mask reductions optimal for arm v7+NEON ?"
href="https://bugs.llvm.org/show_bug.cgi?id=38842">38842</a>
</td>
</tr>
<tr>
<th>Summary</th>
<td>Are these mask reductions optimal for arm v7+NEON ?
</td>
</tr>
<tr>
<th>Product</th>
<td>libraries
</td>
</tr>
<tr>
<th>Version</th>
<td>trunk
</td>
</tr>
<tr>
<th>Hardware</th>
<td>PC
</td>
</tr>
<tr>
<th>OS</th>
<td>All
</td>
</tr>
<tr>
<th>Status</th>
<td>NEW
</td>
</tr>
<tr>
<th>Severity</th>
<td>enhancement
</td>
</tr>
<tr>
<th>Priority</th>
<td>P
</td>
</tr>
<tr>
<th>Component</th>
<td>Backend: ARM
</td>
</tr>
<tr>
<th>Assignee</th>
<td>unassignedbugs@nondot.org
</td>
</tr>
<tr>
<th>Reporter</th>
<td>gonzalobg88@gmail.com
</td>
</tr>
<tr>
<th>CC</th>
<td>llvm-bugs@lists.llvm.org
</td>
</tr></table>
<p>
<div>
<pre>The following LLVM IR just tests if all lanes of a <N x i1> vector are true
(<a href="https://gcc.godbolt.org/z/tEd1d_">https://gcc.godbolt.org/z/tEd1d_</a>):
declare i1 @llvm.experimental.vector.reduce.and.v32i1(<32 x i1>);
declare i1 @llvm.experimental.vector.reduce.and.v8i1(<8 x i1>);
declare i1 @llvm.experimental.vector.reduce.and.v4i1(<4 x i1>);
declare i1 @llvm.experimental.vector.reduce.and.v2i1(<2 x i1>);
define i1 @and64_x2(<2 x i32>) {
%a = trunc <2 x i32> %0 to <2 x i1>
%b = call i1 @llvm.experimental.vector.reduce.and.v2i1(<2 x i1> %a)
ret i1 %b
}
define i1 @and64_x4(<4 x i16>) {
%a = trunc <4 x i16> %0 to <4 x i1>
%b = call i1 @llvm.experimental.vector.reduce.and.v4i1(<4 x i1> %a)
ret i1 %b
}
define i1 @and64_x8(<8 x i16>) {
%a = trunc <8 x i16> %0 to <8 x i1>
%b = call i1 @llvm.experimental.vector.reduce.and.v8i1(<8 x i1> %a)
ret i1 %b
}
define i1 @and128_x2(<2 x i64>) {
%a = trunc <2 x i64> %0 to <2 x i1>
%b = call i1 @llvm.experimental.vector.reduce.and.v2i1(<2 x i1> %a)
ret i1 %b
}
define i1 @and128_x4(<4 x i32>) {
%a = trunc <4 x i32> %0 to <4 x i1>
%b = call i1 @llvm.experimental.vector.reduce.and.v4i1(<4 x i1> %a)
ret i1 %b
}
define i1 @and128_x8(<8 x i8>) {
%a = trunc <8 x i8> %0 to <8 x i1>
%b = call i1 @llvm.experimental.vector.reduce.and.v8i1(<8 x i1> %a)
ret i1 %b
}
define i1 @and256_x4(<4 x i64>) {
%a = trunc <4 x i64> %0 to <4 x i1>
%b = call i1 @llvm.experimental.vector.reduce.and.v4i1(<4 x i1> %a)
ret i1 %b
}
define i1 @and256_x8(<8 x i32>) {
%a = trunc <8 x i32> %0 to <8 x i1>
%b = call i1 @llvm.experimental.vector.reduce.and.v8i1(<8 x i1> %a)
ret i1 %b
}
define i1 @and256_x32(<32 x i8>) {
%a = trunc <32 x i8> %0 to <32 x i1>
%b = call i1 @llvm.experimental.vector.reduce.and.v32i1(<32 x i1> %a)
ret i1 %b
}
produces this machine code:
and64_x2:
vmov d16, r0, r1
vdup.32 d17, d16[1]
vand d16, d16, d17
vmov.32 r0, d16[0]
bx lr
and64_x4:
vmov d16, r0, r1
vext.16 d17, d16, d16, #2
vand d16, d16, d17
vdup.16 d17, d16[1]
vand d16, d16, d17
vmov.u16 r0, d16[0]
bx lr
and64_x8:
vmov d17, r2, r3
vmov d16, r0, r1
vmovn.i16 d16, q8
vext.8 d17, d16, d16, #4
vand d16, d16, d17
vext.8 d17, d16, d16, #2
vand d16, d16, d17
vdup.8 d17, d16[1]
vand d16, d16, d17
vmov.u8 r0, d16[0]
bx lr
and128_x2:
vmov d17, r2, r3
vmov d16, r0, r1
vmovn.i64 d16, q8
vdup.32 d17, d16[1]
vand d16, d16, d17
vmov.32 r0, d16[0]
bx lr
and128_x4:
vmov d17, r2, r3
vmov d16, r0, r1
vmovn.i32 d16, q8
vext.16 d17, d16, d16, #2
vand d16, d16, d17
vdup.16 d17, d16[1]
vand d16, d16, d17
vmov.u16 r0, d16[0]
bx lr
and128_x8:
vmov d16, r0, r1
vext.8 d17, d16, d16, #4
vand d16, d16, d17
vext.8 d17, d16, d16, #2
vand d16, d16, d17
vdup.8 d17, d16[1]
vand d16, d16, d17
vmov.u8 r0, d16[0]
bx lr
and256_x4:
vmov d17, r2, r3
vmov d16, r0, r1
mov r0, sp
vld1.64 {d18, d19}, [r0]
vmovn.i64 d16, q8
vmovn.i64 d17, q9
vuzp.16 d16, d17
vext.16 d17, d16, d16, #2
vand d16, d16, d17
vdup.16 d17, d16[1]
vand d16, d16, d17
vmov.u16 r0, d16[0]
bx lr
and256_x8:
vmov d17, r2, r3
vmov d16, r0, r1
mov r0, sp
vld1.64 {d18, d19}, [r0]
vmovn.i32 d16, q8
vmovn.i32 d17, q9
vuzp.8 d16, d17
vext.8 d17, d16, d16, #4
vand d16, d16, d17
vext.8 d17, d16, d16, #2
vand d16, d16, d17
vdup.8 d17, d16[1]
vand d16, d16, d17
vmov.u8 r0, d16[0]
bx lr
and256_x32:
vmov d17, r2, r3
vmov d16, r0, r1
mov r0, sp
vld1.64 {d18, d19}, [r0]
vand q8, q8, q9
vext.8 q9, q8, q8, #8
vand q8, q8, q9
vext.8 q9, q8, q8, #4
vand q8, q8, q9
vext.8 q9, q8, q8, #2
vand q8, q8, q9
vdup.8 q9, d16[1]
vand q8, q8, q9
vmov.u8 r0, d16[0]
bx lr
The generated machine code for and64_x2 looks "ok" but the one generated for
and64_x4 and and64_x8 looks very long. Is this optimal ? I have similar
questions about <1 x i128>, <2 x i128> and the or and xor experimental vector
reductions.</pre>
</div>
</p>
<hr>
<span>You are receiving this mail because:</span>
<ul>
<li>You are on the CC list for the bug.</li>
</ul>
</body>
</html>