[llvm] f91657d - [X86] Add tests showing failure to concat matching fma with a repeated vector op (#172985)

Fri Dec 19 03:19:24 PST 2025

Author: Simon Pilgrim
Date: 2025-12-19T11:19:19Z
New Revision: f91657dbd51c83a75e1c8cc219ffcab0101eedab

URL: https://github.com/llvm/llvm-project/commit/f91657dbd51c83a75e1c8cc219ffcab0101eedab
DIFF: https://github.com/llvm/llvm-project/commit/f91657dbd51c83a75e1c8cc219ffcab0101eedab.diff

LOG: [X86] Add tests showing failure to concat matching fma with a repeated vector op (#172985)

Added: 
    llvm/test/CodeGen/X86/combine-fma-concat.ll

Modified: 
    

Removed: 
    


################################################################################
diff  --git a/llvm/test/CodeGen/X86/combine-fma-concat.ll b/llvm/test/CodeGen/X86/combine-fma-concat.ll
new file mode 100644
index 0000000000000..0634dd5296704

--- /dev/null
+++ b/llvm/test/CodeGen/X86/combine-fma-concat.ll
@@ -0,0 +1,238 @@
+; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 5
+; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=bdver2 | FileCheck %s --check-prefixes=FMA4
+; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64-v3 | FileCheck %s --check-prefixes=FMA3,AVX2
+; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64-v4 | FileCheck %s --check-prefixes=FMA3,AVX512
+
+; 2 constants - only single operand to concat
+define <4 x double> @concat_fmadd_v4f64_v2f64_constants(<2 x double> %a0, <2 x double> %a1) {
+; FMA4-LABEL: concat_fmadd_v4f64_v2f64_constants:
+; FMA4:       # %bb.0:
+; FMA4-NEXT:    vmovapd {{.*#+}} xmm2 = [1.0E+0,1.0E+0]
+; FMA4-NEXT:    vmovapd {{.*#+}} xmm3 = [2.0E+0,2.0E+0]
+; FMA4-NEXT:    vfmaddpd {{.*#+}} xmm0 = (xmm0 * xmm3) + xmm2
+; FMA4-NEXT:    vfmaddpd {{.*#+}} xmm1 = (xmm1 * xmm3) + xmm2
+; FMA4-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
+; FMA4-NEXT:    retq
+;
+; AVX2-LABEL: concat_fmadd_v4f64_v2f64_constants:
+; AVX2:       # %bb.0:
+; AVX2-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
+; AVX2-NEXT:    vmovddup {{.*#+}} xmm2 = [1.0E+0,1.0E+0]
+; AVX2-NEXT:    # xmm2 = mem[0,0]
+; AVX2-NEXT:    vmovddup {{.*#+}} xmm3 = [2.0E+0,2.0E+0]
+; AVX2-NEXT:    # xmm3 = mem[0,0]
+; AVX2-NEXT:    vfmadd213pd {{.*#+}} xmm0 = (xmm3 * xmm0) + xmm2
+; AVX2-NEXT:    vfmadd213pd {{.*#+}} xmm1 = (xmm3 * xmm1) + xmm2
+; AVX2-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
+; AVX2-NEXT:    retq
+;
+; AVX512-LABEL: concat_fmadd_v4f64_v2f64_constants:
+; AVX512:       # %bb.0:
+; AVX512-NEXT:    vmovddup {{.*#+}} xmm2 = [1.0E+0,1.0E+0]
+; AVX512-NEXT:    # xmm2 = mem[0,0]
+; AVX512-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
+; AVX512-NEXT:    vmovddup {{.*#+}} xmm3 = [2.0E+0,2.0E+0]
+; AVX512-NEXT:    # xmm3 = mem[0,0]
+; AVX512-NEXT:    vfmadd213pd {{.*#+}} xmm0 = (xmm3 * xmm0) + xmm2
+; AVX512-NEXT:    vfmadd213pd {{.*#+}} xmm1 = (xmm3 * xmm1) + xmm2
+; AVX512-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
+; AVX512-NEXT:    retq
+  %v0 = call <2 x double> @llvm.fma.v2f64(<2 x double> %a0, <2 x double> splat (double 2.0), <2 x double> splat (double 1.0))
+  %v1 = call <2 x double> @llvm.fma.v2f64(<2 x double> %a1, <2 x double> splat (double 2.0), <2 x double> splat (double 1.0))
+  %res = shufflevector <2 x double> %v0, <2 x double> %v1, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
+  ret <4 x double> %res
+}
+
+; 1 sitofp + 1 constant - only single operand to concat
+define <8 x float> @concat_fmadd_v8f32_v4f32_constant_sitofp(<4 x float> %a0, <4 x float> %a1, <4 x i32> %b0, <4 x i32> %b1) {
+; FMA4-LABEL: concat_fmadd_v8f32_v4f32_constant_sitofp:
+; FMA4:       # %bb.0:
+; FMA4-NEXT:    vmovaps {{.*#+}} xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+; FMA4-NEXT:    vcvtdq2ps %xmm2, %xmm2
+; FMA4-NEXT:    vcvtdq2ps %xmm3, %xmm3
+; FMA4-NEXT:    vfmaddps {{.*#+}} xmm0 = (xmm0 * xmm2) + xmm4
+; FMA4-NEXT:    vfmaddps {{.*#+}} xmm1 = (xmm1 * xmm3) + xmm4
+; FMA4-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
+; FMA4-NEXT:    retq
+;
+; FMA3-LABEL: concat_fmadd_v8f32_v4f32_constant_sitofp:
+; FMA3:       # %bb.0:
+; FMA3-NEXT:    vcvtdq2ps %xmm2, %xmm2
+; FMA3-NEXT:    vcvtdq2ps %xmm3, %xmm3
+; FMA3-NEXT:    vbroadcastss {{.*#+}} xmm4 = [1.0E+0,1.0E+0,1.0E+0,1.0E+0]
+; FMA3-NEXT:    vfmadd213ps {{.*#+}} xmm2 = (xmm0 * xmm2) + xmm4
+; FMA3-NEXT:    vfmadd213ps {{.*#+}} xmm3 = (xmm1 * xmm3) + xmm4
+; FMA3-NEXT:    vinsertf128 $1, %xmm3, %ymm2, %ymm0
+; FMA3-NEXT:    retq
+  %i0 = sitofp <4 x i32> %b0 to <4 x float>
+  %i1 = sitofp <4 x i32> %b1 to <4 x float>
+  %v0 = call <4 x float> @llvm.fma.v4f32(<4 x float> %a0, <4 x float> %i0, <4 x float> splat (float 1.0))
+  %v1 = call <4 x float> @llvm.fma.v4f32(<4 x float> %a1, <4 x float> %i1, <4 x float> splat (float 1.0))
+  %res = shufflevector <4 x float> %v0, <4 x float> %v1, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
+  ret <8 x float> %res
+}
+
+; 1 fneg (fnmadd) + 2 constant - only single operand to concat
+define <8 x double> @concat_fnmadd_v8f64_v2f64_constants(<2 x double> %a0, <2 x double> %a1, <2 x double> %a2, <2 x double> %a3) {
+; FMA4-LABEL: concat_fnmadd_v8f64_v2f64_constants:
+; FMA4:       # %bb.0:
+; FMA4-NEXT:    vmovapd {{.*#+}} xmm4 = [1.0E+0,1.0E+0]
+; FMA4-NEXT:    vmovapd {{.*#+}} xmm5 = [-4.0E+0,-4.0E+0]
+; FMA4-NEXT:    vfnmaddpd {{.*#+}} xmm0 = -(xmm0 * xmm5) + xmm4
+; FMA4-NEXT:    vfnmaddpd {{.*#+}} xmm1 = -(xmm1 * xmm5) + xmm4
+; FMA4-NEXT:    vfnmaddpd {{.*#+}} xmm2 = -(xmm2 * xmm5) + xmm4
+; FMA4-NEXT:    vfnmaddpd {{.*#+}} xmm3 = -(xmm3 * xmm5) + xmm4
+; FMA4-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
+; FMA4-NEXT:    vinsertf128 $1, %xmm3, %ymm2, %ymm1
+; FMA4-NEXT:    retq
+;
+; AVX2-LABEL: concat_fnmadd_v8f64_v2f64_constants:
+; AVX2:       # %bb.0:
+; AVX2-NEXT:    # kill: def $xmm2 killed $xmm2 def $ymm2
+; AVX2-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
+; AVX2-NEXT:    vmovddup {{.*#+}} xmm4 = [1.0E+0,1.0E+0]
+; AVX2-NEXT:    # xmm4 = mem[0,0]
+; AVX2-NEXT:    vmovddup {{.*#+}} xmm5 = [-4.0E+0,-4.0E+0]
+; AVX2-NEXT:    # xmm5 = mem[0,0]
+; AVX2-NEXT:    vfnmadd213pd {{.*#+}} xmm0 = -(xmm5 * xmm0) + xmm4
+; AVX2-NEXT:    vfnmadd213pd {{.*#+}} xmm1 = -(xmm5 * xmm1) + xmm4
+; AVX2-NEXT:    vfnmadd213pd {{.*#+}} xmm2 = -(xmm5 * xmm2) + xmm4
+; AVX2-NEXT:    vfnmadd213pd {{.*#+}} xmm3 = -(xmm5 * xmm3) + xmm4
+; AVX2-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
+; AVX2-NEXT:    vinsertf128 $1, %xmm3, %ymm2, %ymm1
+; AVX2-NEXT:    retq
+;
+; AVX512-LABEL: concat_fnmadd_v8f64_v2f64_constants:
+; AVX512:       # %bb.0:
+; AVX512-NEXT:    # kill: def $xmm2 killed $xmm2 def $ymm2
+; AVX512-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
+; AVX512-NEXT:    vmovddup {{.*#+}} xmm4 = [1.0E+0,1.0E+0]
+; AVX512-NEXT:    # xmm4 = mem[0,0]
+; AVX512-NEXT:    vmovddup {{.*#+}} xmm5 = [-4.0E+0,-4.0E+0]
+; AVX512-NEXT:    # xmm5 = mem[0,0]
+; AVX512-NEXT:    vfnmadd213pd {{.*#+}} xmm0 = -(xmm5 * xmm0) + xmm4
+; AVX512-NEXT:    vfnmadd213pd {{.*#+}} xmm1 = -(xmm5 * xmm1) + xmm4
+; AVX512-NEXT:    vfnmadd213pd {{.*#+}} xmm2 = -(xmm5 * xmm2) + xmm4
+; AVX512-NEXT:    vfnmadd213pd {{.*#+}} xmm3 = -(xmm5 * xmm3) + xmm4
+; AVX512-NEXT:    vinsertf128 $1, %xmm3, %ymm2, %ymm2
+; AVX512-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
+; AVX512-NEXT:    vinsertf64x4 $1, %ymm2, %zmm0, %zmm0
+; AVX512-NEXT:    retq
+  %n0 = fneg <2 x double> %a0
+  %n1 = fneg <2 x double> %a1
+  %n2 = fneg <2 x double> %a2
+  %n3 = fneg <2 x double> %a3
+  %v0 = call <2 x double> @llvm.fma.v2f64(<2 x double> %n0, <2 x double> splat (double -4.0), <2 x double> splat (double 1.0))
+  %v1 = call <2 x double> @llvm.fma.v2f64(<2 x double> %n1, <2 x double> splat (double -4.0), <2 x double> splat (double 1.0))
+  %v2 = call <2 x double> @llvm.fma.v2f64(<2 x double> %n2, <2 x double> splat (double -4.0), <2 x double> splat (double 1.0))
+  %v3 = call <2 x double> @llvm.fma.v2f64(<2 x double> %n3, <2 x double> splat (double -4.0), <2 x double> splat (double 1.0))
+  %r01 = shufflevector <2 x double> %v0, <2 x double> %v1, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
+  %r23 = shufflevector <2 x double> %v2, <2 x double> %v3, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
+  %res = shufflevector <4 x double> %r01, <4 x double> %r23, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
+  ret <8 x double> %res
+}
+
+; self mul (dot product pattern)
+define <16 x float> @concat_fma_self_v16f32_v4f32(<4 x float> %a0, <4 x float> %a1, <4 x float> %a2, <4 x float> %a3) {
+; FMA4-LABEL: concat_fma_self_v16f32_v4f32:
+; FMA4:       # %bb.0:
+; FMA4-NEXT:    vmovaps {{.*#+}} xmm4 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+; FMA4-NEXT:    vfmaddps {{.*#+}} xmm0 = (xmm0 * xmm0) + xmm4
+; FMA4-NEXT:    vfmaddps {{.*#+}} xmm1 = (xmm1 * xmm1) + xmm4
+; FMA4-NEXT:    vfmaddps {{.*#+}} xmm2 = (xmm2 * xmm2) + xmm4
+; FMA4-NEXT:    vfmaddps {{.*#+}} xmm3 = (xmm3 * xmm3) + xmm4
+; FMA4-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
+; FMA4-NEXT:    vinsertf128 $1, %xmm3, %ymm2, %ymm1
+; FMA4-NEXT:    retq
+;
+; AVX2-LABEL: concat_fma_self_v16f32_v4f32:
+; AVX2:       # %bb.0:
+; AVX2-NEXT:    # kill: def $xmm2 killed $xmm2 def $ymm2
+; AVX2-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
+; AVX2-NEXT:    vbroadcastss {{.*#+}} xmm4 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+; AVX2-NEXT:    vfmadd213ps {{.*#+}} xmm0 = (xmm0 * xmm0) + xmm4
+; AVX2-NEXT:    vfmadd213ps {{.*#+}} xmm1 = (xmm1 * xmm1) + xmm4
+; AVX2-NEXT:    vfmadd213ps {{.*#+}} xmm2 = (xmm2 * xmm2) + xmm4
+; AVX2-NEXT:    vfmadd213ps {{.*#+}} xmm3 = (xmm3 * xmm3) + xmm4
+; AVX2-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
+; AVX2-NEXT:    vinsertf128 $1, %xmm3, %ymm2, %ymm1
+; AVX2-NEXT:    retq
+;
+; AVX512-LABEL: concat_fma_self_v16f32_v4f32:
+; AVX512:       # %bb.0:
+; AVX512-NEXT:    # kill: def $xmm2 killed $xmm2 def $ymm2
+; AVX512-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
+; AVX512-NEXT:    vbroadcastss {{.*#+}} xmm4 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
+; AVX512-NEXT:    vfmadd213ps {{.*#+}} xmm0 = (xmm0 * xmm0) + xmm4
+; AVX512-NEXT:    vfmadd213ps {{.*#+}} xmm1 = (xmm1 * xmm1) + xmm4
+; AVX512-NEXT:    vfmadd213ps {{.*#+}} xmm2 = (xmm2 * xmm2) + xmm4
+; AVX512-NEXT:    vfmadd213ps {{.*#+}} xmm3 = (xmm3 * xmm3) + xmm4
+; AVX512-NEXT:    vinsertf128 $1, %xmm3, %ymm2, %ymm2
+; AVX512-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
+; AVX512-NEXT:    vinsertf64x4 $1, %ymm2, %zmm0, %zmm0
+; AVX512-NEXT:    retq
+  %v0 = call <4 x float> @llvm.fma.v4f32(<4 x float> %a0, <4 x float> %a0, <4 x float> splat (float -0.0))
+  %v1 = call <4 x float> @llvm.fma.v4f32(<4 x float> %a1, <4 x float> %a1, <4 x float> splat (float -0.0))
+  %v2 = call <4 x float> @llvm.fma.v4f32(<4 x float> %a2, <4 x float> %a2, <4 x float> splat (float -0.0))
+  %v3 = call <4 x float> @llvm.fma.v4f32(<4 x float> %a3, <4 x float> %a3, <4 x float> splat (float -0.0))
+  %r01 = shufflevector <4 x float> %v0, <4 x float> %v1, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
+  %r23 = shufflevector <4 x float> %v2, <4 x float> %v3, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
+  %res = shufflevector <8 x float> %r01, <8 x float> %r23, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
+  ret <16 x float> %res
+}
+
+; 1 fneg (fmsub) + 2 constant - only single operand to concat
+define <16 x float> @concat_fmsub_v16f32_v8f32_constant_split(<8 x float> %a0, <8 x float> %a1, <16 x float> %b) {
+; FMA4-LABEL: concat_fmsub_v16f32_v8f32_constant_split:
+; FMA4:       # %bb.0:
+; FMA4-NEXT:    vmovaps {{.*#+}} ymm4 = [-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0]
+; FMA4-NEXT:    vfmsubps {{.*#+}} ymm0 = (ymm0 * ymm4) - ymm2
+; FMA4-NEXT:    vfmsubps {{.*#+}} ymm1 = (ymm1 * ymm4) - ymm3
+; FMA4-NEXT:    retq
+;
+; AVX2-LABEL: concat_fmsub_v16f32_v8f32_constant_split:
+; AVX2:       # %bb.0:
+; AVX2-NEXT:    vbroadcastss {{.*#+}} ymm4 = [-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0]
+; AVX2-NEXT:    vfmsub213ps {{.*#+}} ymm0 = (ymm4 * ymm0) - ymm2
+; AVX2-NEXT:    vfmsub213ps {{.*#+}} ymm1 = (ymm4 * ymm1) - ymm3
+; AVX2-NEXT:    retq
+;
+; AVX512-LABEL: concat_fmsub_v16f32_v8f32_constant_split:
+; AVX512:       # %bb.0:
+; AVX512-NEXT:    vextractf64x4 $1, %zmm2, %ymm3
+; AVX512-NEXT:    vbroadcastss {{.*#+}} ymm4 = [-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0,-8.0E+0]
+; AVX512-NEXT:    vfmsub231ps {{.*#+}} ymm2 = (ymm4 * ymm0) - ymm2
+; AVX512-NEXT:    vfmsub231ps {{.*#+}} ymm3 = (ymm4 * ymm1) - ymm3
+; AVX512-NEXT:    vinsertf64x4 $1, %ymm3, %zmm2, %zmm0
+; AVX512-NEXT:    retq
+  %b0 = shufflevector <16 x float> %b, <16 x float> poison, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
+  %b1 = shufflevector <16 x float> %b, <16 x float> poison, <8 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
+  %n0 = fneg <8 x float> %b0
+  %n1 = fneg <8 x float> %b1
+  %v0 = call <8 x float> @llvm.fma.v8f32(<8 x float> %a0, <8 x float> splat (float -8.0), <8 x float> %n0)
+  %v1 = call <8 x float> @llvm.fma.v8f32(<8 x float> %a1, <8 x float> splat (float -8.0), <8 x float> %n1)
+  %res = shufflevector <8 x float> %v0, <8 x float> %v1, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
+  ret <16 x float> %res
+}
+
+; negative - too many operands to concat
+define <8 x float> @concat_fmadd_v8f32_v4f32(<4 x float> %a0, <4 x float> %a1, <4 x float> %b0, <4 x float> %b1, <4 x float> %c0, <4 x float> %c1) {
+; FMA4-LABEL: concat_fmadd_v8f32_v4f32:
+; FMA4:       # %bb.0:
+; FMA4-NEXT:    vfmaddps {{.*#+}} xmm0 = (xmm0 * xmm2) + xmm4
+; FMA4-NEXT:    vfmaddps {{.*#+}} xmm1 = (xmm1 * xmm3) + xmm5
+; FMA4-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
+; FMA4-NEXT:    retq
+;
+; FMA3-LABEL: concat_fmadd_v8f32_v4f32:
+; FMA3:       # %bb.0:
+; FMA3-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
+; FMA3-NEXT:    vfmadd213ps {{.*#+}} xmm0 = (xmm2 * xmm0) + xmm4
+; FMA3-NEXT:    vfmadd213ps {{.*#+}} xmm1 = (xmm3 * xmm1) + xmm5
+; FMA3-NEXT:    vinsertf128 $1, %xmm1, %ymm0, %ymm0
+; FMA3-NEXT:    retq
+  %v0 = call <4 x float> @llvm.fma.v4f32(<4 x float> %a0, <4 x float> %b0, <4 x float> %c0)
+  %v1 = call <4 x float> @llvm.fma.v4f32(<4 x float> %a1, <4 x float> %b1, <4 x float> %c1)
+  %res = shufflevector <4 x float> %v0, <4 x float> %v1, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
+  ret <8 x float> %res
+}