[llvm] d3188c7 - [X86] Add ISD::ABDS/ABDU vXi64 support on SSE41+ targets
Simon Pilgrim via llvm-commits
llvm-commits at lists.llvm.org
Wed Feb 8 01:47:30 PST 2023
Author: Simon Pilgrim
Date: 2023-02-08T09:47:19Z
New Revision: d3188c7f14573d89a966b6194d927de2689e1d9a
URL: https://github.com/llvm/llvm-project/commit/d3188c7f14573d89a966b6194d927de2689e1d9a
DIFF: https://github.com/llvm/llvm-project/commit/d3188c7f14573d89a966b6194d927de2689e1d9a.diff
LOG: [X86] Add ISD::ABDS/ABDU vXi64 support on SSE41+ targets
If IMINMAX ops aren't legal, we can lower to the select(icmp(x,y),sub(x,y),sub(y,x)) pattern
Added:
Modified:
llvm/lib/Target/X86/X86ISelLowering.cpp
llvm/test/CodeGen/X86/abds-vector-128.ll
llvm/test/CodeGen/X86/abds-vector-256.ll
llvm/test/CodeGen/X86/abdu-vector-128.ll
llvm/test/CodeGen/X86/abdu-vector-256.ll
llvm/test/CodeGen/X86/midpoint-int-vec-128.ll
llvm/test/CodeGen/X86/midpoint-int-vec-256.ll
Removed:
################################################################################
diff --git a/llvm/lib/Target/X86/X86ISelLowering.cpp b/llvm/lib/Target/X86/X86ISelLowering.cpp
index c53e34684517a..55110e6e05797 100644
--- a/llvm/lib/Target/X86/X86ISelLowering.cpp
+++ b/llvm/lib/Target/X86/X86ISelLowering.cpp
@@ -1256,7 +1256,7 @@ X86TargetLowering::X86TargetLowering(const X86TargetMachine &TM,
setOperationAction(ISD::UMIN, MVT::v8i16, Legal);
setOperationAction(ISD::UMIN, MVT::v4i32, Legal);
- for (auto VT : {MVT::v16i8, MVT::v8i16, MVT::v4i32}) {
+ for (auto VT : {MVT::v16i8, MVT::v8i16, MVT::v4i32, MVT::v2i64}) {
setOperationAction(ISD::ABDS, VT, Custom);
setOperationAction(ISD::ABDU, VT, Custom);
}
@@ -1396,14 +1396,16 @@ X86TargetLowering::X86TargetLowering(const X86TargetMachine &TM,
// In the customized shift lowering, the legal v8i32/v4i64 cases
// in AVX2 will be recognized.
for (auto VT : { MVT::v32i8, MVT::v16i16, MVT::v8i32, MVT::v4i64 }) {
- setOperationAction(ISD::SRL, VT, Custom);
- setOperationAction(ISD::SHL, VT, Custom);
- setOperationAction(ISD::SRA, VT, Custom);
+ setOperationAction(ISD::SRL, VT, Custom);
+ setOperationAction(ISD::SHL, VT, Custom);
+ setOperationAction(ISD::SRA, VT, Custom);
+ setOperationAction(ISD::ABDS, VT, Custom);
+ setOperationAction(ISD::ABDU, VT, Custom);
if (VT == MVT::v4i64) continue;
- setOperationAction(ISD::ROTL, VT, Custom);
- setOperationAction(ISD::ROTR, VT, Custom);
- setOperationAction(ISD::FSHL, VT, Custom);
- setOperationAction(ISD::FSHR, VT, Custom);
+ setOperationAction(ISD::ROTL, VT, Custom);
+ setOperationAction(ISD::ROTR, VT, Custom);
+ setOperationAction(ISD::FSHL, VT, Custom);
+ setOperationAction(ISD::FSHR, VT, Custom);
}
// These types need custom splitting if their input is a 128-bit vector.
@@ -1499,8 +1501,6 @@ X86TargetLowering::X86TargetLowering(const X86TargetMachine &TM,
setOperationAction(ISD::UMAX, VT, HasInt256 ? Legal : Custom);
setOperationAction(ISD::SMIN, VT, HasInt256 ? Legal : Custom);
setOperationAction(ISD::UMIN, VT, HasInt256 ? Legal : Custom);
- setOperationAction(ISD::ABDS, VT, Custom);
- setOperationAction(ISD::ABDU, VT, Custom);
}
for (auto VT : {MVT::v16i16, MVT::v8i32, MVT::v4i64}) {
@@ -1968,8 +1968,6 @@ X86TargetLowering::X86TargetLowering(const X86TargetMachine &TM,
setOperationAction(ISD::SMIN, VT, Legal);
setOperationAction(ISD::UMIN, VT, Legal);
setOperationAction(ISD::ABS, VT, Legal);
- setOperationAction(ISD::ABDS, VT, Custom);
- setOperationAction(ISD::ABDU, VT, Custom);
}
for (auto VT : { MVT::v4i32, MVT::v8i32, MVT::v2i64, MVT::v4i64 }) {
@@ -29659,15 +29657,30 @@ static SDValue LowerABD(SDValue Op, const X86Subtarget &Subtarget,
if ((VT == MVT::v32i16 || VT == MVT::v64i8) && !Subtarget.useBWIRegs())
return splitVectorIntBinary(Op, DAG);
- // Default to expand: sub(smax(lhs,rhs),smin(lhs,rhs))
// TODO: Add TargetLowering expandABD() support.
SDLoc dl(Op);
bool IsSigned = Op.getOpcode() == ISD::ABDS;
SDValue LHS = DAG.getFreeze(Op.getOperand(0));
SDValue RHS = DAG.getFreeze(Op.getOperand(1));
- SDValue Max = DAG.getNode(IsSigned ? ISD::SMAX : ISD::UMAX, dl, VT, LHS, RHS);
- SDValue Min = DAG.getNode(IsSigned ? ISD::SMIN : ISD::UMIN, dl, VT, LHS, RHS);
- return DAG.getNode(ISD::SUB, dl, VT, Max, Min);
+ const TargetLowering &TLI = DAG.getTargetLoweringInfo();
+
+ // abds(lhs, rhs) -> sub(smax(lhs,rhs), smin(lhs,rhs))
+ // abdu(lhs, rhs) -> sub(umax(lhs,rhs), umin(lhs,rhs))
+ unsigned MaxOpc = IsSigned ? ISD::SMAX : ISD::UMAX;
+ unsigned MinOpc = IsSigned ? ISD::SMIN : ISD::UMIN;
+ if (TLI.isOperationLegal(MaxOpc, VT) && TLI.isOperationLegal(MinOpc, VT)) {
+ SDValue Max = DAG.getNode(MaxOpc, dl, VT, LHS, RHS);
+ SDValue Min = DAG.getNode(MinOpc, dl, VT, LHS, RHS);
+ return DAG.getNode(ISD::SUB, dl, VT, Max, Min);
+ }
+
+ // abds(lhs, rhs) -> select(sgt(lhs,rhs), sub(lhs,rhs), sub(rhs,lhs))
+ // abdu(lhs, rhs) -> select(ugt(lhs,rhs), sub(lhs,rhs), sub(rhs,lhs))
+ EVT CCVT = TLI.getSetCCResultType(DAG.getDataLayout(), *DAG.getContext(), VT);
+ ISD::CondCode CC = IsSigned ? ISD::CondCode::SETGT : ISD::CondCode::SETUGT;
+ SDValue Cmp = DAG.getSetCC(dl, CCVT, LHS, RHS, CC);
+ return DAG.getSelect(dl, VT, Cmp, DAG.getNode(ISD::SUB, dl, VT, LHS, RHS),
+ DAG.getNode(ISD::SUB, dl, VT, RHS, LHS));
}
static SDValue LowerMUL(SDValue Op, const X86Subtarget &Subtarget,
diff --git a/llvm/test/CodeGen/X86/abds-vector-128.ll b/llvm/test/CodeGen/X86/abds-vector-128.ll
index 6b2d56a833ce6..1b493fe8c04f6 100644
--- a/llvm/test/CodeGen/X86/abds-vector-128.ll
+++ b/llvm/test/CodeGen/X86/abds-vector-128.ll
@@ -501,89 +501,30 @@ define <2 x i64> @abd_ext_v2i64(<2 x i64> %a, <2 x i64> %b) nounwind {
;
; SSE42-LABEL: abd_ext_v2i64:
; SSE42: # %bb.0:
-; SSE42-NEXT: movq %xmm0, %rax
-; SSE42-NEXT: movq %rax, %rcx
-; SSE42-NEXT: sarq $63, %rcx
-; SSE42-NEXT: pextrq $1, %xmm0, %rdx
-; SSE42-NEXT: movq %rdx, %rsi
-; SSE42-NEXT: sarq $63, %rsi
-; SSE42-NEXT: movq %xmm1, %rdi
-; SSE42-NEXT: movq %rdi, %r8
-; SSE42-NEXT: sarq $63, %r8
-; SSE42-NEXT: pextrq $1, %xmm1, %r9
-; SSE42-NEXT: movq %r9, %r10
-; SSE42-NEXT: sarq $63, %r10
-; SSE42-NEXT: subq %r9, %rdx
-; SSE42-NEXT: sbbq %r10, %rsi
-; SSE42-NEXT: subq %rdi, %rax
-; SSE42-NEXT: sbbq %r8, %rcx
-; SSE42-NEXT: sarq $63, %rcx
-; SSE42-NEXT: xorq %rcx, %rax
-; SSE42-NEXT: subq %rcx, %rax
-; SSE42-NEXT: sarq $63, %rsi
-; SSE42-NEXT: xorq %rsi, %rdx
-; SSE42-NEXT: subq %rsi, %rdx
-; SSE42-NEXT: movq %rdx, %xmm1
-; SSE42-NEXT: movq %rax, %xmm0
-; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
+; SSE42-NEXT: movdqa %xmm0, %xmm2
+; SSE42-NEXT: pcmpgtq %xmm1, %xmm2
+; SSE42-NEXT: movdqa %xmm0, %xmm3
+; SSE42-NEXT: psubq %xmm1, %xmm3
+; SSE42-NEXT: psubq %xmm0, %xmm1
+; SSE42-NEXT: movdqa %xmm2, %xmm0
+; SSE42-NEXT: blendvpd %xmm0, %xmm3, %xmm1
+; SSE42-NEXT: movapd %xmm1, %xmm0
; SSE42-NEXT: retq
;
; AVX1-LABEL: abd_ext_v2i64:
; AVX1: # %bb.0:
-; AVX1-NEXT: vmovq %xmm0, %rax
-; AVX1-NEXT: movq %rax, %rcx
-; AVX1-NEXT: sarq $63, %rcx
-; AVX1-NEXT: vpextrq $1, %xmm0, %rdx
-; AVX1-NEXT: movq %rdx, %rsi
-; AVX1-NEXT: sarq $63, %rsi
-; AVX1-NEXT: vmovq %xmm1, %rdi
-; AVX1-NEXT: movq %rdi, %r8
-; AVX1-NEXT: sarq $63, %r8
-; AVX1-NEXT: vpextrq $1, %xmm1, %r9
-; AVX1-NEXT: movq %r9, %r10
-; AVX1-NEXT: sarq $63, %r10
-; AVX1-NEXT: subq %r9, %rdx
-; AVX1-NEXT: sbbq %r10, %rsi
-; AVX1-NEXT: subq %rdi, %rax
-; AVX1-NEXT: sbbq %r8, %rcx
-; AVX1-NEXT: sarq $63, %rcx
-; AVX1-NEXT: xorq %rcx, %rax
-; AVX1-NEXT: subq %rcx, %rax
-; AVX1-NEXT: sarq $63, %rsi
-; AVX1-NEXT: xorq %rsi, %rdx
-; AVX1-NEXT: subq %rsi, %rdx
-; AVX1-NEXT: vmovq %rdx, %xmm0
-; AVX1-NEXT: vmovq %rax, %xmm1
-; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
+; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
+; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm3
+; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX1-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: abd_ext_v2i64:
; AVX2: # %bb.0:
-; AVX2-NEXT: vmovq %xmm0, %rax
-; AVX2-NEXT: movq %rax, %rcx
-; AVX2-NEXT: sarq $63, %rcx
-; AVX2-NEXT: vpextrq $1, %xmm0, %rdx
-; AVX2-NEXT: movq %rdx, %rsi
-; AVX2-NEXT: sarq $63, %rsi
-; AVX2-NEXT: vmovq %xmm1, %rdi
-; AVX2-NEXT: movq %rdi, %r8
-; AVX2-NEXT: sarq $63, %r8
-; AVX2-NEXT: vpextrq $1, %xmm1, %r9
-; AVX2-NEXT: movq %r9, %r10
-; AVX2-NEXT: sarq $63, %r10
-; AVX2-NEXT: subq %r9, %rdx
-; AVX2-NEXT: sbbq %r10, %rsi
-; AVX2-NEXT: subq %rdi, %rax
-; AVX2-NEXT: sbbq %r8, %rcx
-; AVX2-NEXT: sarq $63, %rcx
-; AVX2-NEXT: xorq %rcx, %rax
-; AVX2-NEXT: subq %rcx, %rax
-; AVX2-NEXT: sarq $63, %rsi
-; AVX2-NEXT: xorq %rsi, %rdx
-; AVX2-NEXT: subq %rsi, %rdx
-; AVX2-NEXT: vmovq %rdx, %xmm0
-; AVX2-NEXT: vmovq %rax, %xmm1
-; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
+; AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
+; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm3
+; AVX2-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX2-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0
; AVX2-NEXT: retq
;
; AVX512-LABEL: abd_ext_v2i64:
@@ -634,89 +575,30 @@ define <2 x i64> @abd_ext_v2i64_undef(<2 x i64> %a, <2 x i64> %b) nounwind {
;
; SSE42-LABEL: abd_ext_v2i64_undef:
; SSE42: # %bb.0:
-; SSE42-NEXT: movq %xmm0, %rax
-; SSE42-NEXT: movq %rax, %rcx
-; SSE42-NEXT: sarq $63, %rcx
-; SSE42-NEXT: pextrq $1, %xmm0, %rdx
-; SSE42-NEXT: movq %rdx, %rsi
-; SSE42-NEXT: sarq $63, %rsi
-; SSE42-NEXT: movq %xmm1, %rdi
-; SSE42-NEXT: movq %rdi, %r8
-; SSE42-NEXT: sarq $63, %r8
-; SSE42-NEXT: pextrq $1, %xmm1, %r9
-; SSE42-NEXT: movq %r9, %r10
-; SSE42-NEXT: sarq $63, %r10
-; SSE42-NEXT: subq %r9, %rdx
-; SSE42-NEXT: sbbq %r10, %rsi
-; SSE42-NEXT: subq %rdi, %rax
-; SSE42-NEXT: sbbq %r8, %rcx
-; SSE42-NEXT: sarq $63, %rcx
-; SSE42-NEXT: xorq %rcx, %rax
-; SSE42-NEXT: subq %rcx, %rax
-; SSE42-NEXT: sarq $63, %rsi
-; SSE42-NEXT: xorq %rsi, %rdx
-; SSE42-NEXT: subq %rsi, %rdx
-; SSE42-NEXT: movq %rdx, %xmm1
-; SSE42-NEXT: movq %rax, %xmm0
-; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
+; SSE42-NEXT: movdqa %xmm0, %xmm2
+; SSE42-NEXT: pcmpgtq %xmm1, %xmm2
+; SSE42-NEXT: movdqa %xmm0, %xmm3
+; SSE42-NEXT: psubq %xmm1, %xmm3
+; SSE42-NEXT: psubq %xmm0, %xmm1
+; SSE42-NEXT: movdqa %xmm2, %xmm0
+; SSE42-NEXT: blendvpd %xmm0, %xmm3, %xmm1
+; SSE42-NEXT: movapd %xmm1, %xmm0
; SSE42-NEXT: retq
;
; AVX1-LABEL: abd_ext_v2i64_undef:
; AVX1: # %bb.0:
-; AVX1-NEXT: vmovq %xmm0, %rax
-; AVX1-NEXT: movq %rax, %rcx
-; AVX1-NEXT: sarq $63, %rcx
-; AVX1-NEXT: vpextrq $1, %xmm0, %rdx
-; AVX1-NEXT: movq %rdx, %rsi
-; AVX1-NEXT: sarq $63, %rsi
-; AVX1-NEXT: vmovq %xmm1, %rdi
-; AVX1-NEXT: movq %rdi, %r8
-; AVX1-NEXT: sarq $63, %r8
-; AVX1-NEXT: vpextrq $1, %xmm1, %r9
-; AVX1-NEXT: movq %r9, %r10
-; AVX1-NEXT: sarq $63, %r10
-; AVX1-NEXT: subq %r9, %rdx
-; AVX1-NEXT: sbbq %r10, %rsi
-; AVX1-NEXT: subq %rdi, %rax
-; AVX1-NEXT: sbbq %r8, %rcx
-; AVX1-NEXT: sarq $63, %rcx
-; AVX1-NEXT: xorq %rcx, %rax
-; AVX1-NEXT: subq %rcx, %rax
-; AVX1-NEXT: sarq $63, %rsi
-; AVX1-NEXT: xorq %rsi, %rdx
-; AVX1-NEXT: subq %rsi, %rdx
-; AVX1-NEXT: vmovq %rdx, %xmm0
-; AVX1-NEXT: vmovq %rax, %xmm1
-; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
+; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
+; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm3
+; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX1-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: abd_ext_v2i64_undef:
; AVX2: # %bb.0:
-; AVX2-NEXT: vmovq %xmm0, %rax
-; AVX2-NEXT: movq %rax, %rcx
-; AVX2-NEXT: sarq $63, %rcx
-; AVX2-NEXT: vpextrq $1, %xmm0, %rdx
-; AVX2-NEXT: movq %rdx, %rsi
-; AVX2-NEXT: sarq $63, %rsi
-; AVX2-NEXT: vmovq %xmm1, %rdi
-; AVX2-NEXT: movq %rdi, %r8
-; AVX2-NEXT: sarq $63, %r8
-; AVX2-NEXT: vpextrq $1, %xmm1, %r9
-; AVX2-NEXT: movq %r9, %r10
-; AVX2-NEXT: sarq $63, %r10
-; AVX2-NEXT: subq %r9, %rdx
-; AVX2-NEXT: sbbq %r10, %rsi
-; AVX2-NEXT: subq %rdi, %rax
-; AVX2-NEXT: sbbq %r8, %rcx
-; AVX2-NEXT: sarq $63, %rcx
-; AVX2-NEXT: xorq %rcx, %rax
-; AVX2-NEXT: subq %rcx, %rax
-; AVX2-NEXT: sarq $63, %rsi
-; AVX2-NEXT: xorq %rsi, %rdx
-; AVX2-NEXT: subq %rsi, %rdx
-; AVX2-NEXT: vmovq %rdx, %xmm0
-; AVX2-NEXT: vmovq %rax, %xmm1
-; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
+; AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
+; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm3
+; AVX2-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX2-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0
; AVX2-NEXT: retq
;
; AVX512-LABEL: abd_ext_v2i64_undef:
@@ -866,28 +748,29 @@ define <2 x i64> @abd_minmax_v2i64(<2 x i64> %a, <2 x i64> %b) nounwind {
; SSE42-LABEL: abd_minmax_v2i64:
; SSE42: # %bb.0:
; SSE42-NEXT: movdqa %xmm0, %xmm2
-; SSE42-NEXT: pcmpgtq %xmm1, %xmm0
-; SSE42-NEXT: movdqa %xmm2, %xmm3
-; SSE42-NEXT: blendvpd %xmm0, %xmm1, %xmm3
-; SSE42-NEXT: blendvpd %xmm0, %xmm2, %xmm1
-; SSE42-NEXT: psubq %xmm3, %xmm1
-; SSE42-NEXT: movdqa %xmm1, %xmm0
+; SSE42-NEXT: pcmpgtq %xmm1, %xmm2
+; SSE42-NEXT: movdqa %xmm0, %xmm3
+; SSE42-NEXT: psubq %xmm1, %xmm3
+; SSE42-NEXT: psubq %xmm0, %xmm1
+; SSE42-NEXT: movdqa %xmm2, %xmm0
+; SSE42-NEXT: blendvpd %xmm0, %xmm3, %xmm1
+; SSE42-NEXT: movapd %xmm1, %xmm0
; SSE42-NEXT: retq
;
; AVX1-LABEL: abd_minmax_v2i64:
; AVX1: # %bb.0:
; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
-; AVX1-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm3
-; AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
-; AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0
+; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm3
+; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX1-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: abd_minmax_v2i64:
; AVX2: # %bb.0:
; AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
-; AVX2-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm3
-; AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
-; AVX2-NEXT: vpsubq %xmm3, %xmm0, %xmm0
+; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm3
+; AVX2-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX2-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0
; AVX2-NEXT: retq
;
; AVX512-LABEL: abd_minmax_v2i64:
diff --git a/llvm/test/CodeGen/X86/abds-vector-256.ll b/llvm/test/CodeGen/X86/abds-vector-256.ll
index afb2107ad3c56..e4f4dc4d738ef 100644
--- a/llvm/test/CodeGen/X86/abds-vector-256.ll
+++ b/llvm/test/CodeGen/X86/abds-vector-256.ll
@@ -220,140 +220,25 @@ define <8 x i32> @abd_ext_v8i32_undef(<8 x i32> %a, <8 x i32> %b) nounwind {
define <4 x i64> @abd_ext_v4i64(<4 x i64> %a, <4 x i64> %b) nounwind {
; AVX1-LABEL: abd_ext_v4i64:
; AVX1: # %bb.0:
-; AVX1-NEXT: pushq %rbp
-; AVX1-NEXT: pushq %r15
-; AVX1-NEXT: pushq %r14
-; AVX1-NEXT: pushq %r13
-; AVX1-NEXT: pushq %r12
-; AVX1-NEXT: pushq %rbx
-; AVX1-NEXT: vmovq %xmm0, %r11
-; AVX1-NEXT: movq %r11, %r10
-; AVX1-NEXT: sarq $63, %r10
-; AVX1-NEXT: vpextrq $1, %xmm0, %rcx
-; AVX1-NEXT: movq %rcx, %r9
-; AVX1-NEXT: sarq $63, %r9
-; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
-; AVX1-NEXT: vmovq %xmm0, %rdx
-; AVX1-NEXT: movq %rdx, %r8
-; AVX1-NEXT: sarq $63, %r8
-; AVX1-NEXT: vpextrq $1, %xmm0, %rsi
-; AVX1-NEXT: movq %rsi, %rdi
-; AVX1-NEXT: sarq $63, %rdi
-; AVX1-NEXT: vmovq %xmm1, %rbx
-; AVX1-NEXT: movq %rbx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; AVX1-NEXT: sarq $63, %rbx
-; AVX1-NEXT: vpextrq $1, %xmm1, %r14
-; AVX1-NEXT: movq %r14, %r15
-; AVX1-NEXT: sarq $63, %r15
-; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm0
-; AVX1-NEXT: vmovq %xmm0, %r12
-; AVX1-NEXT: movq %r12, %r13
-; AVX1-NEXT: sarq $63, %r13
-; AVX1-NEXT: vpextrq $1, %xmm0, %rax
-; AVX1-NEXT: movq %rax, %rbp
-; AVX1-NEXT: sarq $63, %rbp
-; AVX1-NEXT: subq %rax, %rsi
-; AVX1-NEXT: sbbq %rbp, %rdi
-; AVX1-NEXT: subq %r12, %rdx
-; AVX1-NEXT: sbbq %r13, %r8
-; AVX1-NEXT: subq %r14, %rcx
-; AVX1-NEXT: sbbq %r15, %r9
-; AVX1-NEXT: subq {{[-0-9]+}}(%r{{[sb]}}p), %r11 # 8-byte Folded Reload
-; AVX1-NEXT: sbbq %rbx, %r10
-; AVX1-NEXT: sarq $63, %r10
-; AVX1-NEXT: xorq %r10, %r11
-; AVX1-NEXT: subq %r10, %r11
-; AVX1-NEXT: sarq $63, %r9
-; AVX1-NEXT: xorq %r9, %rcx
-; AVX1-NEXT: subq %r9, %rcx
-; AVX1-NEXT: sarq $63, %r8
-; AVX1-NEXT: xorq %r8, %rdx
-; AVX1-NEXT: subq %r8, %rdx
-; AVX1-NEXT: sarq $63, %rdi
-; AVX1-NEXT: xorq %rdi, %rsi
-; AVX1-NEXT: subq %rdi, %rsi
-; AVX1-NEXT: vmovq %rsi, %xmm0
-; AVX1-NEXT: vmovq %rdx, %xmm1
-; AVX1-NEXT: vmovq %rcx, %xmm2
-; AVX1-NEXT: vmovq %r11, %xmm3
-; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
-; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm2[0]
-; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
-; AVX1-NEXT: popq %rbx
-; AVX1-NEXT: popq %r12
-; AVX1-NEXT: popq %r13
-; AVX1-NEXT: popq %r14
-; AVX1-NEXT: popq %r15
-; AVX1-NEXT: popq %rbp
+; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
+; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
+; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4
+; AVX1-NEXT: vpsubq %xmm2, %xmm3, %xmm5
+; AVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2
+; AVX1-NEXT: vblendvpd %xmm4, %xmm5, %xmm2, %xmm2
+; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm3
+; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX1-NEXT: vblendvpd %xmm3, %xmm4, %xmm0, %xmm0
+; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: abd_ext_v4i64:
; AVX2: # %bb.0:
-; AVX2-NEXT: pushq %rbp
-; AVX2-NEXT: pushq %r15
-; AVX2-NEXT: pushq %r14
-; AVX2-NEXT: pushq %r13
-; AVX2-NEXT: pushq %r12
-; AVX2-NEXT: pushq %rbx
-; AVX2-NEXT: vmovq %xmm0, %r11
-; AVX2-NEXT: movq %r11, %r10
-; AVX2-NEXT: sarq $63, %r10
-; AVX2-NEXT: vpextrq $1, %xmm0, %rcx
-; AVX2-NEXT: movq %rcx, %r9
-; AVX2-NEXT: sarq $63, %r9
-; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
-; AVX2-NEXT: vmovq %xmm0, %rdx
-; AVX2-NEXT: movq %rdx, %r8
-; AVX2-NEXT: sarq $63, %r8
-; AVX2-NEXT: vpextrq $1, %xmm0, %rsi
-; AVX2-NEXT: movq %rsi, %rdi
-; AVX2-NEXT: sarq $63, %rdi
-; AVX2-NEXT: vmovq %xmm1, %rbx
-; AVX2-NEXT: movq %rbx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; AVX2-NEXT: sarq $63, %rbx
-; AVX2-NEXT: vpextrq $1, %xmm1, %r14
-; AVX2-NEXT: movq %r14, %r15
-; AVX2-NEXT: sarq $63, %r15
-; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0
-; AVX2-NEXT: vmovq %xmm0, %r12
-; AVX2-NEXT: movq %r12, %r13
-; AVX2-NEXT: sarq $63, %r13
-; AVX2-NEXT: vpextrq $1, %xmm0, %rax
-; AVX2-NEXT: movq %rax, %rbp
-; AVX2-NEXT: sarq $63, %rbp
-; AVX2-NEXT: subq %rax, %rsi
-; AVX2-NEXT: sbbq %rbp, %rdi
-; AVX2-NEXT: subq %r12, %rdx
-; AVX2-NEXT: sbbq %r13, %r8
-; AVX2-NEXT: subq %r14, %rcx
-; AVX2-NEXT: sbbq %r15, %r9
-; AVX2-NEXT: subq {{[-0-9]+}}(%r{{[sb]}}p), %r11 # 8-byte Folded Reload
-; AVX2-NEXT: sbbq %rbx, %r10
-; AVX2-NEXT: sarq $63, %r10
-; AVX2-NEXT: xorq %r10, %r11
-; AVX2-NEXT: subq %r10, %r11
-; AVX2-NEXT: sarq $63, %r9
-; AVX2-NEXT: xorq %r9, %rcx
-; AVX2-NEXT: subq %r9, %rcx
-; AVX2-NEXT: sarq $63, %r8
-; AVX2-NEXT: xorq %r8, %rdx
-; AVX2-NEXT: subq %r8, %rdx
-; AVX2-NEXT: sarq $63, %rdi
-; AVX2-NEXT: xorq %rdi, %rsi
-; AVX2-NEXT: subq %rdi, %rsi
-; AVX2-NEXT: vmovq %rsi, %xmm0
-; AVX2-NEXT: vmovq %rdx, %xmm1
-; AVX2-NEXT: vmovq %rcx, %xmm2
-; AVX2-NEXT: vmovq %r11, %xmm3
-; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
-; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm2[0]
-; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
-; AVX2-NEXT: popq %rbx
-; AVX2-NEXT: popq %r12
-; AVX2-NEXT: popq %r13
-; AVX2-NEXT: popq %r14
-; AVX2-NEXT: popq %r15
-; AVX2-NEXT: popq %rbp
+; AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2
+; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm3
+; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm0
+; AVX2-NEXT: vblendvpd %ymm2, %ymm3, %ymm0, %ymm0
; AVX2-NEXT: retq
;
; AVX512-LABEL: abd_ext_v4i64:
@@ -373,140 +258,25 @@ define <4 x i64> @abd_ext_v4i64(<4 x i64> %a, <4 x i64> %b) nounwind {
define <4 x i64> @abd_ext_v4i64_undef(<4 x i64> %a, <4 x i64> %b) nounwind {
; AVX1-LABEL: abd_ext_v4i64_undef:
; AVX1: # %bb.0:
-; AVX1-NEXT: pushq %rbp
-; AVX1-NEXT: pushq %r15
-; AVX1-NEXT: pushq %r14
-; AVX1-NEXT: pushq %r13
-; AVX1-NEXT: pushq %r12
-; AVX1-NEXT: pushq %rbx
-; AVX1-NEXT: vmovq %xmm0, %r11
-; AVX1-NEXT: movq %r11, %r10
-; AVX1-NEXT: sarq $63, %r10
-; AVX1-NEXT: vpextrq $1, %xmm0, %rcx
-; AVX1-NEXT: movq %rcx, %r9
-; AVX1-NEXT: sarq $63, %r9
-; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
-; AVX1-NEXT: vmovq %xmm0, %rdx
-; AVX1-NEXT: movq %rdx, %r8
-; AVX1-NEXT: sarq $63, %r8
-; AVX1-NEXT: vpextrq $1, %xmm0, %rsi
-; AVX1-NEXT: movq %rsi, %rdi
-; AVX1-NEXT: sarq $63, %rdi
-; AVX1-NEXT: vmovq %xmm1, %rbx
-; AVX1-NEXT: movq %rbx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; AVX1-NEXT: sarq $63, %rbx
-; AVX1-NEXT: vpextrq $1, %xmm1, %r14
-; AVX1-NEXT: movq %r14, %r15
-; AVX1-NEXT: sarq $63, %r15
-; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm0
-; AVX1-NEXT: vmovq %xmm0, %r12
-; AVX1-NEXT: movq %r12, %r13
-; AVX1-NEXT: sarq $63, %r13
-; AVX1-NEXT: vpextrq $1, %xmm0, %rax
-; AVX1-NEXT: movq %rax, %rbp
-; AVX1-NEXT: sarq $63, %rbp
-; AVX1-NEXT: subq %rax, %rsi
-; AVX1-NEXT: sbbq %rbp, %rdi
-; AVX1-NEXT: subq %r12, %rdx
-; AVX1-NEXT: sbbq %r13, %r8
-; AVX1-NEXT: subq %r14, %rcx
-; AVX1-NEXT: sbbq %r15, %r9
-; AVX1-NEXT: subq {{[-0-9]+}}(%r{{[sb]}}p), %r11 # 8-byte Folded Reload
-; AVX1-NEXT: sbbq %rbx, %r10
-; AVX1-NEXT: sarq $63, %r10
-; AVX1-NEXT: xorq %r10, %r11
-; AVX1-NEXT: subq %r10, %r11
-; AVX1-NEXT: sarq $63, %r9
-; AVX1-NEXT: xorq %r9, %rcx
-; AVX1-NEXT: subq %r9, %rcx
-; AVX1-NEXT: sarq $63, %r8
-; AVX1-NEXT: xorq %r8, %rdx
-; AVX1-NEXT: subq %r8, %rdx
-; AVX1-NEXT: sarq $63, %rdi
-; AVX1-NEXT: xorq %rdi, %rsi
-; AVX1-NEXT: subq %rdi, %rsi
-; AVX1-NEXT: vmovq %rsi, %xmm0
-; AVX1-NEXT: vmovq %rdx, %xmm1
-; AVX1-NEXT: vmovq %rcx, %xmm2
-; AVX1-NEXT: vmovq %r11, %xmm3
-; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
-; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm2[0]
-; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
-; AVX1-NEXT: popq %rbx
-; AVX1-NEXT: popq %r12
-; AVX1-NEXT: popq %r13
-; AVX1-NEXT: popq %r14
-; AVX1-NEXT: popq %r15
-; AVX1-NEXT: popq %rbp
+; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
+; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
+; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4
+; AVX1-NEXT: vpsubq %xmm2, %xmm3, %xmm5
+; AVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2
+; AVX1-NEXT: vblendvpd %xmm4, %xmm5, %xmm2, %xmm2
+; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm3
+; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX1-NEXT: vblendvpd %xmm3, %xmm4, %xmm0, %xmm0
+; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: abd_ext_v4i64_undef:
; AVX2: # %bb.0:
-; AVX2-NEXT: pushq %rbp
-; AVX2-NEXT: pushq %r15
-; AVX2-NEXT: pushq %r14
-; AVX2-NEXT: pushq %r13
-; AVX2-NEXT: pushq %r12
-; AVX2-NEXT: pushq %rbx
-; AVX2-NEXT: vmovq %xmm0, %r11
-; AVX2-NEXT: movq %r11, %r10
-; AVX2-NEXT: sarq $63, %r10
-; AVX2-NEXT: vpextrq $1, %xmm0, %rcx
-; AVX2-NEXT: movq %rcx, %r9
-; AVX2-NEXT: sarq $63, %r9
-; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
-; AVX2-NEXT: vmovq %xmm0, %rdx
-; AVX2-NEXT: movq %rdx, %r8
-; AVX2-NEXT: sarq $63, %r8
-; AVX2-NEXT: vpextrq $1, %xmm0, %rsi
-; AVX2-NEXT: movq %rsi, %rdi
-; AVX2-NEXT: sarq $63, %rdi
-; AVX2-NEXT: vmovq %xmm1, %rbx
-; AVX2-NEXT: movq %rbx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; AVX2-NEXT: sarq $63, %rbx
-; AVX2-NEXT: vpextrq $1, %xmm1, %r14
-; AVX2-NEXT: movq %r14, %r15
-; AVX2-NEXT: sarq $63, %r15
-; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0
-; AVX2-NEXT: vmovq %xmm0, %r12
-; AVX2-NEXT: movq %r12, %r13
-; AVX2-NEXT: sarq $63, %r13
-; AVX2-NEXT: vpextrq $1, %xmm0, %rax
-; AVX2-NEXT: movq %rax, %rbp
-; AVX2-NEXT: sarq $63, %rbp
-; AVX2-NEXT: subq %rax, %rsi
-; AVX2-NEXT: sbbq %rbp, %rdi
-; AVX2-NEXT: subq %r12, %rdx
-; AVX2-NEXT: sbbq %r13, %r8
-; AVX2-NEXT: subq %r14, %rcx
-; AVX2-NEXT: sbbq %r15, %r9
-; AVX2-NEXT: subq {{[-0-9]+}}(%r{{[sb]}}p), %r11 # 8-byte Folded Reload
-; AVX2-NEXT: sbbq %rbx, %r10
-; AVX2-NEXT: sarq $63, %r10
-; AVX2-NEXT: xorq %r10, %r11
-; AVX2-NEXT: subq %r10, %r11
-; AVX2-NEXT: sarq $63, %r9
-; AVX2-NEXT: xorq %r9, %rcx
-; AVX2-NEXT: subq %r9, %rcx
-; AVX2-NEXT: sarq $63, %r8
-; AVX2-NEXT: xorq %r8, %rdx
-; AVX2-NEXT: subq %r8, %rdx
-; AVX2-NEXT: sarq $63, %rdi
-; AVX2-NEXT: xorq %rdi, %rsi
-; AVX2-NEXT: subq %rdi, %rsi
-; AVX2-NEXT: vmovq %rsi, %xmm0
-; AVX2-NEXT: vmovq %rdx, %xmm1
-; AVX2-NEXT: vmovq %rcx, %xmm2
-; AVX2-NEXT: vmovq %r11, %xmm3
-; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
-; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm2[0]
-; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
-; AVX2-NEXT: popq %rbx
-; AVX2-NEXT: popq %r12
-; AVX2-NEXT: popq %r13
-; AVX2-NEXT: popq %r14
-; AVX2-NEXT: popq %r15
-; AVX2-NEXT: popq %rbp
+; AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2
+; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm3
+; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm0
+; AVX2-NEXT: vblendvpd %ymm2, %ymm3, %ymm0, %ymm0
; AVX2-NEXT: retq
;
; AVX512-LABEL: abd_ext_v4i64_undef:
@@ -629,25 +399,25 @@ define <8 x i32> @abd_minmax_v8i32(<8 x i32> %a, <8 x i32> %b) nounwind {
define <4 x i64> @abd_minmax_v4i64(<4 x i64> %a, <4 x i64> %b) nounwind {
; AVX1-LABEL: abd_minmax_v4i64:
; AVX1: # %bb.0:
-; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
-; AVX1-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm3
-; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4
-; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
-; AVX1-NEXT: vpcmpgtq %xmm4, %xmm5, %xmm6
-; AVX1-NEXT: vblendvpd %xmm6, %xmm4, %xmm5, %xmm7
-; AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
-; AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0
-; AVX1-NEXT: vblendvpd %xmm6, %xmm5, %xmm4, %xmm1
-; AVX1-NEXT: vpsubq %xmm7, %xmm1, %xmm1
-; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
+; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
+; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
+; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4
+; AVX1-NEXT: vpsubq %xmm2, %xmm3, %xmm5
+; AVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2
+; AVX1-NEXT: vblendvpd %xmm4, %xmm5, %xmm2, %xmm2
+; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm3
+; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX1-NEXT: vblendvpd %xmm3, %xmm4, %xmm0, %xmm0
+; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: abd_minmax_v4i64:
; AVX2: # %bb.0:
; AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2
-; AVX2-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm3
-; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
-; AVX2-NEXT: vpsubq %ymm3, %ymm0, %ymm0
+; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm3
+; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm0
+; AVX2-NEXT: vblendvpd %ymm2, %ymm3, %ymm0, %ymm0
; AVX2-NEXT: retq
;
; AVX512-LABEL: abd_minmax_v4i64:
diff --git a/llvm/test/CodeGen/X86/abdu-vector-128.ll b/llvm/test/CodeGen/X86/abdu-vector-128.ll
index c445b20cf905d..69c999ae18ae4 100644
--- a/llvm/test/CodeGen/X86/abdu-vector-128.ll
+++ b/llvm/test/CodeGen/X86/abdu-vector-128.ll
@@ -339,71 +339,39 @@ define <2 x i64> @abd_ext_v2i64(<2 x i64> %a, <2 x i64> %b) nounwind {
;
; SSE42-LABEL: abd_ext_v2i64:
; SSE42: # %bb.0:
-; SSE42-NEXT: movq %xmm0, %rax
-; SSE42-NEXT: pextrq $1, %xmm0, %rcx
-; SSE42-NEXT: movq %xmm1, %rdx
-; SSE42-NEXT: pextrq $1, %xmm1, %rsi
-; SSE42-NEXT: xorl %edi, %edi
-; SSE42-NEXT: subq %rsi, %rcx
-; SSE42-NEXT: movl $0, %esi
-; SSE42-NEXT: sbbq %rsi, %rsi
-; SSE42-NEXT: subq %rdx, %rax
-; SSE42-NEXT: sbbq %rdi, %rdi
-; SSE42-NEXT: sarq $63, %rdi
-; SSE42-NEXT: xorq %rdi, %rax
-; SSE42-NEXT: subq %rdi, %rax
-; SSE42-NEXT: sarq $63, %rsi
-; SSE42-NEXT: xorq %rsi, %rcx
-; SSE42-NEXT: subq %rsi, %rcx
-; SSE42-NEXT: movq %rcx, %xmm1
-; SSE42-NEXT: movq %rax, %xmm0
-; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
+; SSE42-NEXT: movdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
+; SSE42-NEXT: movdqa %xmm1, %xmm3
+; SSE42-NEXT: pxor %xmm2, %xmm3
+; SSE42-NEXT: pxor %xmm0, %xmm2
+; SSE42-NEXT: pcmpgtq %xmm3, %xmm2
+; SSE42-NEXT: movdqa %xmm0, %xmm3
+; SSE42-NEXT: psubq %xmm1, %xmm3
+; SSE42-NEXT: psubq %xmm0, %xmm1
+; SSE42-NEXT: movdqa %xmm2, %xmm0
+; SSE42-NEXT: blendvpd %xmm0, %xmm3, %xmm1
+; SSE42-NEXT: movapd %xmm1, %xmm0
; SSE42-NEXT: retq
;
; AVX1-LABEL: abd_ext_v2i64:
; AVX1: # %bb.0:
-; AVX1-NEXT: vmovq %xmm0, %rax
-; AVX1-NEXT: vpextrq $1, %xmm0, %rcx
-; AVX1-NEXT: vmovq %xmm1, %rdx
-; AVX1-NEXT: vpextrq $1, %xmm1, %rsi
-; AVX1-NEXT: xorl %edi, %edi
-; AVX1-NEXT: subq %rsi, %rcx
-; AVX1-NEXT: movl $0, %esi
-; AVX1-NEXT: sbbq %rsi, %rsi
-; AVX1-NEXT: subq %rdx, %rax
-; AVX1-NEXT: sbbq %rdi, %rdi
-; AVX1-NEXT: sarq $63, %rdi
-; AVX1-NEXT: xorq %rdi, %rax
-; AVX1-NEXT: subq %rdi, %rax
-; AVX1-NEXT: sarq $63, %rsi
-; AVX1-NEXT: xorq %rsi, %rcx
-; AVX1-NEXT: subq %rsi, %rcx
-; AVX1-NEXT: vmovq %rcx, %xmm0
-; AVX1-NEXT: vmovq %rax, %xmm1
-; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
+; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
+; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3
+; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2
+; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
+; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm3
+; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX1-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: abd_ext_v2i64:
; AVX2: # %bb.0:
-; AVX2-NEXT: vmovq %xmm0, %rax
-; AVX2-NEXT: vpextrq $1, %xmm0, %rcx
-; AVX2-NEXT: vmovq %xmm1, %rdx
-; AVX2-NEXT: vpextrq $1, %xmm1, %rsi
-; AVX2-NEXT: xorl %edi, %edi
-; AVX2-NEXT: subq %rsi, %rcx
-; AVX2-NEXT: movl $0, %esi
-; AVX2-NEXT: sbbq %rsi, %rsi
-; AVX2-NEXT: subq %rdx, %rax
-; AVX2-NEXT: sbbq %rdi, %rdi
-; AVX2-NEXT: sarq $63, %rdi
-; AVX2-NEXT: xorq %rdi, %rax
-; AVX2-NEXT: subq %rdi, %rax
-; AVX2-NEXT: sarq $63, %rsi
-; AVX2-NEXT: xorq %rsi, %rcx
-; AVX2-NEXT: subq %rsi, %rcx
-; AVX2-NEXT: vmovq %rcx, %xmm0
-; AVX2-NEXT: vmovq %rax, %xmm1
-; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
+; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
+; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3
+; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm2
+; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
+; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm3
+; AVX2-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX2-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0
; AVX2-NEXT: retq
;
; AVX512-LABEL: abd_ext_v2i64:
@@ -448,71 +416,39 @@ define <2 x i64> @abd_ext_v2i64_undef(<2 x i64> %a, <2 x i64> %b) nounwind {
;
; SSE42-LABEL: abd_ext_v2i64_undef:
; SSE42: # %bb.0:
-; SSE42-NEXT: movq %xmm0, %rax
-; SSE42-NEXT: pextrq $1, %xmm0, %rcx
-; SSE42-NEXT: movq %xmm1, %rdx
-; SSE42-NEXT: pextrq $1, %xmm1, %rsi
-; SSE42-NEXT: xorl %edi, %edi
-; SSE42-NEXT: subq %rsi, %rcx
-; SSE42-NEXT: movl $0, %esi
-; SSE42-NEXT: sbbq %rsi, %rsi
-; SSE42-NEXT: subq %rdx, %rax
-; SSE42-NEXT: sbbq %rdi, %rdi
-; SSE42-NEXT: sarq $63, %rdi
-; SSE42-NEXT: xorq %rdi, %rax
-; SSE42-NEXT: subq %rdi, %rax
-; SSE42-NEXT: sarq $63, %rsi
-; SSE42-NEXT: xorq %rsi, %rcx
-; SSE42-NEXT: subq %rsi, %rcx
-; SSE42-NEXT: movq %rcx, %xmm1
-; SSE42-NEXT: movq %rax, %xmm0
-; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
+; SSE42-NEXT: movdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
+; SSE42-NEXT: movdqa %xmm1, %xmm3
+; SSE42-NEXT: pxor %xmm2, %xmm3
+; SSE42-NEXT: pxor %xmm0, %xmm2
+; SSE42-NEXT: pcmpgtq %xmm3, %xmm2
+; SSE42-NEXT: movdqa %xmm0, %xmm3
+; SSE42-NEXT: psubq %xmm1, %xmm3
+; SSE42-NEXT: psubq %xmm0, %xmm1
+; SSE42-NEXT: movdqa %xmm2, %xmm0
+; SSE42-NEXT: blendvpd %xmm0, %xmm3, %xmm1
+; SSE42-NEXT: movapd %xmm1, %xmm0
; SSE42-NEXT: retq
;
; AVX1-LABEL: abd_ext_v2i64_undef:
; AVX1: # %bb.0:
-; AVX1-NEXT: vmovq %xmm0, %rax
-; AVX1-NEXT: vpextrq $1, %xmm0, %rcx
-; AVX1-NEXT: vmovq %xmm1, %rdx
-; AVX1-NEXT: vpextrq $1, %xmm1, %rsi
-; AVX1-NEXT: xorl %edi, %edi
-; AVX1-NEXT: subq %rsi, %rcx
-; AVX1-NEXT: movl $0, %esi
-; AVX1-NEXT: sbbq %rsi, %rsi
-; AVX1-NEXT: subq %rdx, %rax
-; AVX1-NEXT: sbbq %rdi, %rdi
-; AVX1-NEXT: sarq $63, %rdi
-; AVX1-NEXT: xorq %rdi, %rax
-; AVX1-NEXT: subq %rdi, %rax
-; AVX1-NEXT: sarq $63, %rsi
-; AVX1-NEXT: xorq %rsi, %rcx
-; AVX1-NEXT: subq %rsi, %rcx
-; AVX1-NEXT: vmovq %rcx, %xmm0
-; AVX1-NEXT: vmovq %rax, %xmm1
-; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
+; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
+; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3
+; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2
+; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
+; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm3
+; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX1-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: abd_ext_v2i64_undef:
; AVX2: # %bb.0:
-; AVX2-NEXT: vmovq %xmm0, %rax
-; AVX2-NEXT: vpextrq $1, %xmm0, %rcx
-; AVX2-NEXT: vmovq %xmm1, %rdx
-; AVX2-NEXT: vpextrq $1, %xmm1, %rsi
-; AVX2-NEXT: xorl %edi, %edi
-; AVX2-NEXT: subq %rsi, %rcx
-; AVX2-NEXT: movl $0, %esi
-; AVX2-NEXT: sbbq %rsi, %rsi
-; AVX2-NEXT: subq %rdx, %rax
-; AVX2-NEXT: sbbq %rdi, %rdi
-; AVX2-NEXT: sarq $63, %rdi
-; AVX2-NEXT: xorq %rdi, %rax
-; AVX2-NEXT: subq %rdi, %rax
-; AVX2-NEXT: sarq $63, %rsi
-; AVX2-NEXT: xorq %rsi, %rcx
-; AVX2-NEXT: subq %rsi, %rcx
-; AVX2-NEXT: vmovq %rcx, %xmm0
-; AVX2-NEXT: vmovq %rax, %xmm1
-; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
+; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
+; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3
+; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm2
+; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
+; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm3
+; AVX2-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX2-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0
; AVX2-NEXT: retq
;
; AVX512-LABEL: abd_ext_v2i64_undef:
@@ -659,44 +595,39 @@ define <2 x i64> @abd_minmax_v2i64(<2 x i64> %a, <2 x i64> %b) nounwind {
;
; SSE42-LABEL: abd_minmax_v2i64:
; SSE42: # %bb.0:
-; SSE42-NEXT: movdqa %xmm0, %xmm2
-; SSE42-NEXT: movdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
+; SSE42-NEXT: movdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
+; SSE42-NEXT: movdqa %xmm1, %xmm3
+; SSE42-NEXT: pxor %xmm2, %xmm3
+; SSE42-NEXT: pxor %xmm0, %xmm2
+; SSE42-NEXT: pcmpgtq %xmm3, %xmm2
; SSE42-NEXT: movdqa %xmm0, %xmm3
-; SSE42-NEXT: pxor %xmm4, %xmm3
-; SSE42-NEXT: pxor %xmm1, %xmm4
-; SSE42-NEXT: movdqa %xmm4, %xmm0
-; SSE42-NEXT: pcmpgtq %xmm3, %xmm0
-; SSE42-NEXT: movdqa %xmm1, %xmm5
-; SSE42-NEXT: blendvpd %xmm0, %xmm2, %xmm5
-; SSE42-NEXT: pcmpgtq %xmm4, %xmm3
-; SSE42-NEXT: movdqa %xmm3, %xmm0
-; SSE42-NEXT: blendvpd %xmm0, %xmm2, %xmm1
-; SSE42-NEXT: psubq %xmm5, %xmm1
-; SSE42-NEXT: movdqa %xmm1, %xmm0
+; SSE42-NEXT: psubq %xmm1, %xmm3
+; SSE42-NEXT: psubq %xmm0, %xmm1
+; SSE42-NEXT: movdqa %xmm2, %xmm0
+; SSE42-NEXT: blendvpd %xmm0, %xmm3, %xmm1
+; SSE42-NEXT: movapd %xmm1, %xmm0
; SSE42-NEXT: retq
;
; AVX1-LABEL: abd_minmax_v2i64:
; AVX1: # %bb.0:
; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
-; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm3
-; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm2
-; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm4
-; AVX1-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
-; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
-; AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
-; AVX1-NEXT: vpsubq %xmm4, %xmm0, %xmm0
+; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3
+; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2
+; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
+; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm3
+; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX1-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: abd_minmax_v2i64:
; AVX2: # %bb.0:
; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
-; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm3
-; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm2
-; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm4
-; AVX2-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
-; AVX2-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
-; AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
-; AVX2-NEXT: vpsubq %xmm4, %xmm0, %xmm0
+; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3
+; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm2
+; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
+; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm3
+; AVX2-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX2-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0
; AVX2-NEXT: retq
;
; AVX512-LABEL: abd_minmax_v2i64:
diff --git a/llvm/test/CodeGen/X86/abdu-vector-256.ll b/llvm/test/CodeGen/X86/abdu-vector-256.ll
index 52a678d21b0aa..abc73ce3b0cee 100644
--- a/llvm/test/CodeGen/X86/abdu-vector-256.ll
+++ b/llvm/test/CodeGen/X86/abdu-vector-256.ll
@@ -220,92 +220,33 @@ define <8 x i32> @abd_ext_v8i32_undef(<8 x i32> %a, <8 x i32> %b) nounwind {
define <4 x i64> @abd_ext_v4i64(<4 x i64> %a, <4 x i64> %b) nounwind {
; AVX1-LABEL: abd_ext_v4i64:
; AVX1: # %bb.0:
-; AVX1-NEXT: vmovq %xmm0, %rax
-; AVX1-NEXT: vpextrq $1, %xmm0, %rcx
-; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
-; AVX1-NEXT: vmovq %xmm0, %rdx
-; AVX1-NEXT: vpextrq $1, %xmm0, %rsi
-; AVX1-NEXT: vmovq %xmm1, %r8
-; AVX1-NEXT: vpextrq $1, %xmm1, %r9
-; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm0
-; AVX1-NEXT: vmovq %xmm0, %r10
-; AVX1-NEXT: vpextrq $1, %xmm0, %rdi
-; AVX1-NEXT: xorl %r11d, %r11d
-; AVX1-NEXT: subq %rdi, %rsi
-; AVX1-NEXT: movl $0, %edi
-; AVX1-NEXT: sbbq %rdi, %rdi
-; AVX1-NEXT: subq %r10, %rdx
-; AVX1-NEXT: movl $0, %r10d
-; AVX1-NEXT: sbbq %r10, %r10
-; AVX1-NEXT: subq %r9, %rcx
-; AVX1-NEXT: movl $0, %r9d
-; AVX1-NEXT: sbbq %r9, %r9
-; AVX1-NEXT: subq %r8, %rax
-; AVX1-NEXT: sbbq %r11, %r11
-; AVX1-NEXT: sarq $63, %r11
-; AVX1-NEXT: xorq %r11, %rax
-; AVX1-NEXT: subq %r11, %rax
-; AVX1-NEXT: sarq $63, %r9
-; AVX1-NEXT: xorq %r9, %rcx
-; AVX1-NEXT: subq %r9, %rcx
-; AVX1-NEXT: sarq $63, %r10
-; AVX1-NEXT: xorq %r10, %rdx
-; AVX1-NEXT: subq %r10, %rdx
-; AVX1-NEXT: sarq $63, %rdi
-; AVX1-NEXT: xorq %rdi, %rsi
-; AVX1-NEXT: subq %rdi, %rsi
-; AVX1-NEXT: vmovq %rsi, %xmm0
-; AVX1-NEXT: vmovq %rdx, %xmm1
-; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
-; AVX1-NEXT: vmovq %rcx, %xmm1
-; AVX1-NEXT: vmovq %rax, %xmm2
-; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
-; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
+; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
+; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]
+; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm4
+; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
+; AVX1-NEXT: vpxor %xmm3, %xmm5, %xmm6
+; AVX1-NEXT: vpcmpgtq %xmm4, %xmm6, %xmm4
+; AVX1-NEXT: vpsubq %xmm2, %xmm5, %xmm6
+; AVX1-NEXT: vpsubq %xmm5, %xmm2, %xmm2
+; AVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2
+; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm4
+; AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm3
+; AVX1-NEXT: vpcmpgtq %xmm4, %xmm3, %xmm3
+; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX1-NEXT: vblendvpd %xmm3, %xmm4, %xmm0, %xmm0
+; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: abd_ext_v4i64:
; AVX2: # %bb.0:
-; AVX2-NEXT: vmovq %xmm0, %rax
-; AVX2-NEXT: vpextrq $1, %xmm0, %rcx
-; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
-; AVX2-NEXT: vmovq %xmm0, %rdx
-; AVX2-NEXT: vpextrq $1, %xmm0, %rsi
-; AVX2-NEXT: vmovq %xmm1, %r8
-; AVX2-NEXT: vpextrq $1, %xmm1, %r9
-; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0
-; AVX2-NEXT: vmovq %xmm0, %r10
-; AVX2-NEXT: vpextrq $1, %xmm0, %rdi
-; AVX2-NEXT: xorl %r11d, %r11d
-; AVX2-NEXT: subq %rdi, %rsi
-; AVX2-NEXT: movl $0, %edi
-; AVX2-NEXT: sbbq %rdi, %rdi
-; AVX2-NEXT: subq %r10, %rdx
-; AVX2-NEXT: movl $0, %r10d
-; AVX2-NEXT: sbbq %r10, %r10
-; AVX2-NEXT: subq %r9, %rcx
-; AVX2-NEXT: movl $0, %r9d
-; AVX2-NEXT: sbbq %r9, %r9
-; AVX2-NEXT: subq %r8, %rax
-; AVX2-NEXT: sbbq %r11, %r11
-; AVX2-NEXT: sarq $63, %r11
-; AVX2-NEXT: xorq %r11, %rax
-; AVX2-NEXT: subq %r11, %rax
-; AVX2-NEXT: sarq $63, %r9
-; AVX2-NEXT: xorq %r9, %rcx
-; AVX2-NEXT: subq %r9, %rcx
-; AVX2-NEXT: sarq $63, %r10
-; AVX2-NEXT: xorq %r10, %rdx
-; AVX2-NEXT: subq %r10, %rdx
-; AVX2-NEXT: sarq $63, %rdi
-; AVX2-NEXT: xorq %rdi, %rsi
-; AVX2-NEXT: subq %rdi, %rsi
-; AVX2-NEXT: vmovq %rsi, %xmm0
-; AVX2-NEXT: vmovq %rdx, %xmm1
-; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
-; AVX2-NEXT: vmovq %rcx, %xmm1
-; AVX2-NEXT: vmovq %rax, %xmm2
-; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
-; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
+; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
+; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3
+; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm2
+; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2
+; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm3
+; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm0
+; AVX2-NEXT: vblendvpd %ymm2, %ymm3, %ymm0, %ymm0
; AVX2-NEXT: retq
;
; AVX512-LABEL: abd_ext_v4i64:
@@ -325,92 +266,33 @@ define <4 x i64> @abd_ext_v4i64(<4 x i64> %a, <4 x i64> %b) nounwind {
define <4 x i64> @abd_ext_v4i64_undef(<4 x i64> %a, <4 x i64> %b) nounwind {
; AVX1-LABEL: abd_ext_v4i64_undef:
; AVX1: # %bb.0:
-; AVX1-NEXT: vmovq %xmm0, %rax
-; AVX1-NEXT: vpextrq $1, %xmm0, %rcx
-; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
-; AVX1-NEXT: vmovq %xmm0, %rdx
-; AVX1-NEXT: vpextrq $1, %xmm0, %rsi
-; AVX1-NEXT: vmovq %xmm1, %r8
-; AVX1-NEXT: vpextrq $1, %xmm1, %r9
-; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm0
-; AVX1-NEXT: vmovq %xmm0, %r10
-; AVX1-NEXT: vpextrq $1, %xmm0, %rdi
-; AVX1-NEXT: xorl %r11d, %r11d
-; AVX1-NEXT: subq %rdi, %rsi
-; AVX1-NEXT: movl $0, %edi
-; AVX1-NEXT: sbbq %rdi, %rdi
-; AVX1-NEXT: subq %r10, %rdx
-; AVX1-NEXT: movl $0, %r10d
-; AVX1-NEXT: sbbq %r10, %r10
-; AVX1-NEXT: subq %r9, %rcx
-; AVX1-NEXT: movl $0, %r9d
-; AVX1-NEXT: sbbq %r9, %r9
-; AVX1-NEXT: subq %r8, %rax
-; AVX1-NEXT: sbbq %r11, %r11
-; AVX1-NEXT: sarq $63, %r11
-; AVX1-NEXT: xorq %r11, %rax
-; AVX1-NEXT: subq %r11, %rax
-; AVX1-NEXT: sarq $63, %r9
-; AVX1-NEXT: xorq %r9, %rcx
-; AVX1-NEXT: subq %r9, %rcx
-; AVX1-NEXT: sarq $63, %r10
-; AVX1-NEXT: xorq %r10, %rdx
-; AVX1-NEXT: subq %r10, %rdx
-; AVX1-NEXT: sarq $63, %rdi
-; AVX1-NEXT: xorq %rdi, %rsi
-; AVX1-NEXT: subq %rdi, %rsi
-; AVX1-NEXT: vmovq %rsi, %xmm0
-; AVX1-NEXT: vmovq %rdx, %xmm1
-; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
-; AVX1-NEXT: vmovq %rcx, %xmm1
-; AVX1-NEXT: vmovq %rax, %xmm2
-; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
-; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
+; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
+; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]
+; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm4
+; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
+; AVX1-NEXT: vpxor %xmm3, %xmm5, %xmm6
+; AVX1-NEXT: vpcmpgtq %xmm4, %xmm6, %xmm4
+; AVX1-NEXT: vpsubq %xmm2, %xmm5, %xmm6
+; AVX1-NEXT: vpsubq %xmm5, %xmm2, %xmm2
+; AVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2
+; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm4
+; AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm3
+; AVX1-NEXT: vpcmpgtq %xmm4, %xmm3, %xmm3
+; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX1-NEXT: vblendvpd %xmm3, %xmm4, %xmm0, %xmm0
+; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: abd_ext_v4i64_undef:
; AVX2: # %bb.0:
-; AVX2-NEXT: vmovq %xmm0, %rax
-; AVX2-NEXT: vpextrq $1, %xmm0, %rcx
-; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
-; AVX2-NEXT: vmovq %xmm0, %rdx
-; AVX2-NEXT: vpextrq $1, %xmm0, %rsi
-; AVX2-NEXT: vmovq %xmm1, %r8
-; AVX2-NEXT: vpextrq $1, %xmm1, %r9
-; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0
-; AVX2-NEXT: vmovq %xmm0, %r10
-; AVX2-NEXT: vpextrq $1, %xmm0, %rdi
-; AVX2-NEXT: xorl %r11d, %r11d
-; AVX2-NEXT: subq %rdi, %rsi
-; AVX2-NEXT: movl $0, %edi
-; AVX2-NEXT: sbbq %rdi, %rdi
-; AVX2-NEXT: subq %r10, %rdx
-; AVX2-NEXT: movl $0, %r10d
-; AVX2-NEXT: sbbq %r10, %r10
-; AVX2-NEXT: subq %r9, %rcx
-; AVX2-NEXT: movl $0, %r9d
-; AVX2-NEXT: sbbq %r9, %r9
-; AVX2-NEXT: subq %r8, %rax
-; AVX2-NEXT: sbbq %r11, %r11
-; AVX2-NEXT: sarq $63, %r11
-; AVX2-NEXT: xorq %r11, %rax
-; AVX2-NEXT: subq %r11, %rax
-; AVX2-NEXT: sarq $63, %r9
-; AVX2-NEXT: xorq %r9, %rcx
-; AVX2-NEXT: subq %r9, %rcx
-; AVX2-NEXT: sarq $63, %r10
-; AVX2-NEXT: xorq %r10, %rdx
-; AVX2-NEXT: subq %r10, %rdx
-; AVX2-NEXT: sarq $63, %rdi
-; AVX2-NEXT: xorq %rdi, %rsi
-; AVX2-NEXT: subq %rdi, %rsi
-; AVX2-NEXT: vmovq %rsi, %xmm0
-; AVX2-NEXT: vmovq %rdx, %xmm1
-; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
-; AVX2-NEXT: vmovq %rcx, %xmm1
-; AVX2-NEXT: vmovq %rax, %xmm2
-; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
-; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
+; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
+; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3
+; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm2
+; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2
+; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm3
+; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm0
+; AVX2-NEXT: vblendvpd %ymm2, %ymm3, %ymm0, %ymm0
; AVX2-NEXT: retq
;
; AVX512-LABEL: abd_ext_v4i64_undef:
@@ -533,36 +415,33 @@ define <8 x i32> @abd_minmax_v8i32(<8 x i32> %a, <8 x i32> %b) nounwind {
define <4 x i64> @abd_minmax_v4i64(<4 x i64> %a, <4 x i64> %b) nounwind {
; AVX1-LABEL: abd_minmax_v4i64:
; AVX1: # %bb.0:
-; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
-; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm3
-; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm4
-; AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm5
-; AVX1-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm5
-; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm6
-; AVX1-NEXT: vpxor %xmm2, %xmm6, %xmm7
-; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm8
-; AVX1-NEXT: vpxor %xmm2, %xmm8, %xmm2
-; AVX1-NEXT: vpcmpgtq %xmm7, %xmm2, %xmm9
-; AVX1-NEXT: vblendvpd %xmm9, %xmm6, %xmm8, %xmm9
+; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
+; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]
+; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm4
+; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
+; AVX1-NEXT: vpxor %xmm3, %xmm5, %xmm6
+; AVX1-NEXT: vpcmpgtq %xmm4, %xmm6, %xmm4
+; AVX1-NEXT: vpsubq %xmm2, %xmm5, %xmm6
+; AVX1-NEXT: vpsubq %xmm5, %xmm2, %xmm2
+; AVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2
+; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm4
+; AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm3
; AVX1-NEXT: vpcmpgtq %xmm4, %xmm3, %xmm3
-; AVX1-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm0
-; AVX1-NEXT: vpsubq %xmm5, %xmm0, %xmm0
-; AVX1-NEXT: vpcmpgtq %xmm2, %xmm7, %xmm1
-; AVX1-NEXT: vblendvpd %xmm1, %xmm6, %xmm8, %xmm1
-; AVX1-NEXT: vpsubq %xmm9, %xmm1, %xmm1
-; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
+; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0
+; AVX1-NEXT: vblendvpd %xmm3, %xmm4, %xmm0, %xmm0
+; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: retq
;
; AVX2-LABEL: abd_minmax_v4i64:
; AVX2: # %bb.0:
; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
-; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm3
-; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm2
-; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm4
-; AVX2-NEXT: vblendvpd %ymm4, %ymm0, %ymm1, %ymm4
-; AVX2-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2
-; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
-; AVX2-NEXT: vpsubq %ymm4, %ymm0, %ymm0
+; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3
+; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm2
+; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2
+; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm3
+; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm0
+; AVX2-NEXT: vblendvpd %ymm2, %ymm3, %ymm0, %ymm0
; AVX2-NEXT: retq
;
; AVX512-LABEL: abd_minmax_v4i64:
diff --git a/llvm/test/CodeGen/X86/midpoint-int-vec-128.ll b/llvm/test/CodeGen/X86/midpoint-int-vec-128.ll
index 83471b902be40..bfcb9ce87d188 100644
--- a/llvm/test/CodeGen/X86/midpoint-int-vec-128.ll
+++ b/llvm/test/CodeGen/X86/midpoint-int-vec-128.ll
@@ -915,39 +915,34 @@ define <2 x i64> @vec128_i64_signed_reg_reg(<2 x i64> %a1, <2 x i64> %a2) nounwi
; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm2
; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
-; SSE41-NEXT: movdqa %xmm1, %xmm5
-; SSE41-NEXT: pxor %xmm0, %xmm5
+; SSE41-NEXT: movdqa %xmm1, %xmm3
+; SSE41-NEXT: pxor %xmm0, %xmm3
; SSE41-NEXT: pxor %xmm2, %xmm0
-; SSE41-NEXT: movdqa %xmm0, %xmm3
-; SSE41-NEXT: pcmpgtd %xmm5, %xmm3
-; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]
-; SSE41-NEXT: movdqa %xmm0, %xmm6
-; SSE41-NEXT: pcmpeqd %xmm5, %xmm6
-; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[1,1,3,3]
-; SSE41-NEXT: pand %xmm4, %xmm7
-; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
-; SSE41-NEXT: por %xmm7, %xmm3
-; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [1,1]
-; SSE41-NEXT: por %xmm3, %xmm4
-; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
-; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
-; SSE41-NEXT: pand %xmm6, %xmm0
-; SSE41-NEXT: por %xmm5, %xmm0
-; SSE41-NEXT: movdqa %xmm1, %xmm5
-; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
-; SSE41-NEXT: movdqa %xmm3, %xmm0
-; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
-; SSE41-NEXT: psubq %xmm5, %xmm1
-; SSE41-NEXT: movdqa %xmm1, %xmm0
+; SSE41-NEXT: movdqa %xmm0, %xmm4
+; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
+; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
+; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
+; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
+; SSE41-NEXT: pand %xmm5, %xmm3
+; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[1,1,3,3]
+; SSE41-NEXT: por %xmm3, %xmm6
+; SSE41-NEXT: por {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm6
+; SSE41-NEXT: pand %xmm5, %xmm0
+; SSE41-NEXT: por %xmm4, %xmm0
+; SSE41-NEXT: movdqa %xmm2, %xmm3
+; SSE41-NEXT: psubq %xmm1, %xmm3
+; SSE41-NEXT: psubq %xmm2, %xmm1
+; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
+; SSE41-NEXT: movapd %xmm1, %xmm0
; SSE41-NEXT: psrlq $1, %xmm0
; SSE41-NEXT: psrlq $33, %xmm1
-; SSE41-NEXT: pmuludq %xmm4, %xmm1
-; SSE41-NEXT: movdqa %xmm4, %xmm3
+; SSE41-NEXT: pmuludq %xmm6, %xmm1
+; SSE41-NEXT: movdqa %xmm6, %xmm3
; SSE41-NEXT: psrlq $32, %xmm3
; SSE41-NEXT: pmuludq %xmm0, %xmm3
; SSE41-NEXT: paddq %xmm1, %xmm3
; SSE41-NEXT: psllq $32, %xmm3
-; SSE41-NEXT: pmuludq %xmm4, %xmm0
+; SSE41-NEXT: pmuludq %xmm6, %xmm0
; SSE41-NEXT: paddq %xmm2, %xmm0
; SSE41-NEXT: paddq %xmm3, %xmm0
; SSE41-NEXT: retq
@@ -956,9 +951,9 @@ define <2 x i64> @vec128_i64_signed_reg_reg(<2 x i64> %a1, <2 x i64> %a2) nounwi
; AVX1-FALLBACK: # %bb.0:
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
; AVX1-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm4
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
@@ -975,9 +970,9 @@ define <2 x i64> @vec128_i64_signed_reg_reg(<2 x i64> %a1, <2 x i64> %a2) nounwi
; AVX2-FALLBACK: # %bb.0:
; AVX2-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
; AVX2-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
-; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm4
-; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1
+; AVX2-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; AVX2-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
@@ -994,10 +989,9 @@ define <2 x i64> @vec128_i64_signed_reg_reg(<2 x i64> %a1, <2 x i64> %a2) nounwi
; XOP: # %bb.0:
; XOP-NEXT: vpcomgtq %xmm1, %xmm0, %xmm2
; XOP-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
-; XOP-NEXT: vpcomltq %xmm1, %xmm0, %xmm4
-; XOP-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
-; XOP-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; XOP-NEXT: vpsubq %xmm4, %xmm1, %xmm1
+; XOP-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; XOP-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; XOP-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1
; XOP-NEXT: vpsrlq $1, %xmm1, %xmm2
; XOP-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
@@ -1130,39 +1124,34 @@ define <2 x i64> @vec128_i64_unsigned_reg_reg(<2 x i64> %a1, <2 x i64> %a2) noun
; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm2
; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]
-; SSE41-NEXT: movdqa %xmm1, %xmm5
-; SSE41-NEXT: pxor %xmm0, %xmm5
+; SSE41-NEXT: movdqa %xmm1, %xmm3
+; SSE41-NEXT: pxor %xmm0, %xmm3
; SSE41-NEXT: pxor %xmm2, %xmm0
-; SSE41-NEXT: movdqa %xmm0, %xmm3
-; SSE41-NEXT: pcmpgtd %xmm5, %xmm3
-; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]
-; SSE41-NEXT: movdqa %xmm0, %xmm6
-; SSE41-NEXT: pcmpeqd %xmm5, %xmm6
-; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[1,1,3,3]
-; SSE41-NEXT: pand %xmm4, %xmm7
-; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
-; SSE41-NEXT: por %xmm7, %xmm3
-; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [1,1]
-; SSE41-NEXT: por %xmm3, %xmm4
-; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
-; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
-; SSE41-NEXT: pand %xmm6, %xmm0
-; SSE41-NEXT: por %xmm5, %xmm0
-; SSE41-NEXT: movdqa %xmm1, %xmm5
-; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
-; SSE41-NEXT: movdqa %xmm3, %xmm0
-; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
-; SSE41-NEXT: psubq %xmm5, %xmm1
-; SSE41-NEXT: movdqa %xmm1, %xmm0
+; SSE41-NEXT: movdqa %xmm0, %xmm4
+; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
+; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
+; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
+; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
+; SSE41-NEXT: pand %xmm5, %xmm3
+; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[1,1,3,3]
+; SSE41-NEXT: por %xmm3, %xmm6
+; SSE41-NEXT: por {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm6
+; SSE41-NEXT: pand %xmm5, %xmm0
+; SSE41-NEXT: por %xmm4, %xmm0
+; SSE41-NEXT: movdqa %xmm2, %xmm3
+; SSE41-NEXT: psubq %xmm1, %xmm3
+; SSE41-NEXT: psubq %xmm2, %xmm1
+; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
+; SSE41-NEXT: movapd %xmm1, %xmm0
; SSE41-NEXT: psrlq $1, %xmm0
; SSE41-NEXT: psrlq $33, %xmm1
-; SSE41-NEXT: pmuludq %xmm4, %xmm1
-; SSE41-NEXT: movdqa %xmm4, %xmm3
+; SSE41-NEXT: pmuludq %xmm6, %xmm1
+; SSE41-NEXT: movdqa %xmm6, %xmm3
; SSE41-NEXT: psrlq $32, %xmm3
; SSE41-NEXT: pmuludq %xmm0, %xmm3
; SSE41-NEXT: paddq %xmm1, %xmm3
; SSE41-NEXT: psllq $32, %xmm3
-; SSE41-NEXT: pmuludq %xmm4, %xmm0
+; SSE41-NEXT: pmuludq %xmm6, %xmm0
; SSE41-NEXT: paddq %xmm2, %xmm0
; SSE41-NEXT: paddq %xmm3, %xmm0
; SSE41-NEXT: retq
@@ -1172,20 +1161,19 @@ define <2 x i64> @vec128_i64_unsigned_reg_reg(<2 x i64> %a1, <2 x i64> %a2) noun
; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
; AVX1-FALLBACK-NEXT: vpxor %xmm2, %xmm1, %xmm3
; AVX1-FALLBACK-NEXT: vpxor %xmm2, %xmm0, %xmm2
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm4
-; AVX1-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm4, %xmm5
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm2
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
+; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm3
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm3
-; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm3, %xmm1
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0
; AVX1-FALLBACK-NEXT: retq
@@ -1195,20 +1183,19 @@ define <2 x i64> @vec128_i64_unsigned_reg_reg(<2 x i64> %a1, <2 x i64> %a2) noun
; AVX2-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
; AVX2-FALLBACK-NEXT: vpxor %xmm2, %xmm1, %xmm3
; AVX2-FALLBACK-NEXT: vpxor %xmm2, %xmm0, %xmm2
-; AVX2-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm4
-; AVX2-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm4, %xmm5
-; AVX2-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2
-; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm2
-; AVX2-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpsubq %xmm2, %xmm1, %xmm1
+; AVX2-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2
+; AVX2-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
+; AVX2-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; AVX2-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm3
-; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm3
-; AVX2-FALLBACK-NEXT: vpaddq %xmm1, %xmm3, %xmm1
+; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
+; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX2-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX2-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
; AVX2-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX2-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0
; AVX2-FALLBACK-NEXT: retq
@@ -1217,10 +1204,9 @@ define <2 x i64> @vec128_i64_unsigned_reg_reg(<2 x i64> %a1, <2 x i64> %a2) noun
; XOP: # %bb.0:
; XOP-NEXT: vpcomgtuq %xmm1, %xmm0, %xmm2
; XOP-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
-; XOP-NEXT: vpcomltuq %xmm1, %xmm0, %xmm4
-; XOP-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
-; XOP-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; XOP-NEXT: vpsubq %xmm4, %xmm1, %xmm1
+; XOP-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; XOP-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; XOP-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1
; XOP-NEXT: vpsrlq $1, %xmm1, %xmm2
; XOP-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
@@ -1355,43 +1341,38 @@ define <2 x i64> @vec128_i64_signed_mem_reg(ptr %a1_addr, <2 x i64> %a2) nounwin
; SSE41-LABEL: vec128_i64_signed_mem_reg:
; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm1
-; SSE41-NEXT: movdqa (%rdi), %xmm3
+; SSE41-NEXT: movdqa (%rdi), %xmm2
; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
-; SSE41-NEXT: movdqa %xmm1, %xmm5
-; SSE41-NEXT: pxor %xmm0, %xmm5
-; SSE41-NEXT: pxor %xmm3, %xmm0
-; SSE41-NEXT: movdqa %xmm0, %xmm2
-; SSE41-NEXT: pcmpgtd %xmm5, %xmm2
-; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]
-; SSE41-NEXT: movdqa %xmm0, %xmm6
-; SSE41-NEXT: pcmpeqd %xmm5, %xmm6
-; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[1,1,3,3]
-; SSE41-NEXT: pand %xmm4, %xmm7
-; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
-; SSE41-NEXT: por %xmm7, %xmm2
-; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [1,1]
-; SSE41-NEXT: por %xmm2, %xmm4
-; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
-; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
-; SSE41-NEXT: pand %xmm6, %xmm0
-; SSE41-NEXT: por %xmm5, %xmm0
-; SSE41-NEXT: movdqa %xmm1, %xmm5
-; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm5
-; SSE41-NEXT: movdqa %xmm2, %xmm0
+; SSE41-NEXT: movdqa %xmm1, %xmm3
+; SSE41-NEXT: pxor %xmm0, %xmm3
+; SSE41-NEXT: pxor %xmm2, %xmm0
+; SSE41-NEXT: movdqa %xmm0, %xmm4
+; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
+; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
+; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
+; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
+; SSE41-NEXT: pand %xmm5, %xmm3
+; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[1,1,3,3]
+; SSE41-NEXT: por %xmm3, %xmm6
+; SSE41-NEXT: por {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm6
+; SSE41-NEXT: pand %xmm5, %xmm0
+; SSE41-NEXT: por %xmm4, %xmm0
+; SSE41-NEXT: movdqa %xmm2, %xmm3
+; SSE41-NEXT: psubq %xmm1, %xmm3
+; SSE41-NEXT: psubq %xmm2, %xmm1
; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
-; SSE41-NEXT: psubq %xmm5, %xmm1
-; SSE41-NEXT: movdqa %xmm1, %xmm0
+; SSE41-NEXT: movapd %xmm1, %xmm0
; SSE41-NEXT: psrlq $1, %xmm0
; SSE41-NEXT: psrlq $33, %xmm1
-; SSE41-NEXT: pmuludq %xmm4, %xmm1
-; SSE41-NEXT: movdqa %xmm4, %xmm2
-; SSE41-NEXT: psrlq $32, %xmm2
-; SSE41-NEXT: pmuludq %xmm0, %xmm2
-; SSE41-NEXT: paddq %xmm1, %xmm2
-; SSE41-NEXT: psllq $32, %xmm2
-; SSE41-NEXT: pmuludq %xmm4, %xmm0
-; SSE41-NEXT: paddq %xmm3, %xmm0
+; SSE41-NEXT: pmuludq %xmm6, %xmm1
+; SSE41-NEXT: movdqa %xmm6, %xmm3
+; SSE41-NEXT: psrlq $32, %xmm3
+; SSE41-NEXT: pmuludq %xmm0, %xmm3
+; SSE41-NEXT: paddq %xmm1, %xmm3
+; SSE41-NEXT: psllq $32, %xmm3
+; SSE41-NEXT: pmuludq %xmm6, %xmm0
; SSE41-NEXT: paddq %xmm2, %xmm0
+; SSE41-NEXT: paddq %xmm3, %xmm0
; SSE41-NEXT: retq
;
; AVX1-FALLBACK-LABEL: vec128_i64_signed_mem_reg:
@@ -1399,9 +1380,9 @@ define <2 x i64> @vec128_i64_signed_mem_reg(ptr %a1_addr, <2 x i64> %a2) nounwin
; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
; AVX1-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm4
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0
-; AVX1-FALLBACK-NEXT: vpsubq %xmm4, %xmm0, %xmm0
+; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm4
+; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm0
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm0, %xmm0
; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm2
; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0
; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm0, %xmm0
@@ -1419,9 +1400,9 @@ define <2 x i64> @vec128_i64_signed_mem_reg(ptr %a1_addr, <2 x i64> %a2) nounwin
; AVX2-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1
; AVX2-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
; AVX2-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
-; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm4
-; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0
-; AVX2-FALLBACK-NEXT: vpsubq %xmm4, %xmm0, %xmm0
+; AVX2-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm4
+; AVX2-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm0
+; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm0, %xmm0
; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm2
; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0
; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm0, %xmm0
@@ -1439,10 +1420,9 @@ define <2 x i64> @vec128_i64_signed_mem_reg(ptr %a1_addr, <2 x i64> %a2) nounwin
; XOP-NEXT: vmovdqa (%rdi), %xmm1
; XOP-NEXT: vpcomgtq %xmm0, %xmm1, %xmm2
; XOP-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
-; XOP-NEXT: vpcomltq %xmm0, %xmm1, %xmm4
-; XOP-NEXT: vblendvpd %xmm4, %xmm1, %xmm0, %xmm4
-; XOP-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0
-; XOP-NEXT: vpsubq %xmm4, %xmm0, %xmm0
+; XOP-NEXT: vpsubq %xmm0, %xmm1, %xmm4
+; XOP-NEXT: vpsubq %xmm1, %xmm0, %xmm0
+; XOP-NEXT: vblendvpd %xmm2, %xmm4, %xmm0, %xmm0
; XOP-NEXT: vpsrlq $1, %xmm0, %xmm2
; XOP-NEXT: vpsrlq $33, %xmm0, %xmm0
; XOP-NEXT: vpmuludq %xmm3, %xmm0, %xmm0
@@ -1577,42 +1557,38 @@ define <2 x i64> @vec128_i64_signed_reg_mem(<2 x i64> %a1, ptr %a2_addr) nounwin
; SSE41-LABEL: vec128_i64_signed_reg_mem:
; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm1
-; SSE41-NEXT: movdqa (%rdi), %xmm3
-; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
-; SSE41-NEXT: pxor %xmm5, %xmm0
-; SSE41-NEXT: pxor %xmm3, %xmm5
-; SSE41-NEXT: movdqa %xmm0, %xmm2
-; SSE41-NEXT: pcmpgtd %xmm5, %xmm2
-; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]
-; SSE41-NEXT: movdqa %xmm0, %xmm6
-; SSE41-NEXT: pcmpeqd %xmm5, %xmm6
-; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[1,1,3,3]
-; SSE41-NEXT: pand %xmm4, %xmm7
-; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
-; SSE41-NEXT: por %xmm7, %xmm2
-; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [1,1]
-; SSE41-NEXT: por %xmm2, %xmm4
-; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
-; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
-; SSE41-NEXT: pand %xmm6, %xmm0
-; SSE41-NEXT: por %xmm5, %xmm0
-; SSE41-NEXT: movdqa %xmm3, %xmm5
-; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
-; SSE41-NEXT: movdqa %xmm2, %xmm0
-; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
-; SSE41-NEXT: psubq %xmm5, %xmm3
-; SSE41-NEXT: movdqa %xmm3, %xmm0
+; SSE41-NEXT: movdqa (%rdi), %xmm2
+; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
+; SSE41-NEXT: movdqa %xmm1, %xmm3
+; SSE41-NEXT: pxor %xmm0, %xmm3
+; SSE41-NEXT: pxor %xmm2, %xmm0
+; SSE41-NEXT: movdqa %xmm3, %xmm4
+; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
+; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
+; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
+; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
+; SSE41-NEXT: pand %xmm5, %xmm3
+; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[1,1,3,3]
+; SSE41-NEXT: por %xmm3, %xmm6
+; SSE41-NEXT: por {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm6
+; SSE41-NEXT: pand %xmm5, %xmm0
+; SSE41-NEXT: por %xmm4, %xmm0
+; SSE41-NEXT: movdqa %xmm1, %xmm3
+; SSE41-NEXT: psubq %xmm2, %xmm3
+; SSE41-NEXT: psubq %xmm1, %xmm2
+; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2
+; SSE41-NEXT: movapd %xmm2, %xmm0
; SSE41-NEXT: psrlq $1, %xmm0
-; SSE41-NEXT: psrlq $33, %xmm3
-; SSE41-NEXT: pmuludq %xmm4, %xmm3
-; SSE41-NEXT: movdqa %xmm4, %xmm2
-; SSE41-NEXT: psrlq $32, %xmm2
-; SSE41-NEXT: pmuludq %xmm0, %xmm2
-; SSE41-NEXT: paddq %xmm3, %xmm2
-; SSE41-NEXT: psllq $32, %xmm2
-; SSE41-NEXT: pmuludq %xmm4, %xmm0
+; SSE41-NEXT: psrlq $33, %xmm2
+; SSE41-NEXT: pmuludq %xmm6, %xmm2
+; SSE41-NEXT: movdqa %xmm6, %xmm3
+; SSE41-NEXT: psrlq $32, %xmm3
+; SSE41-NEXT: pmuludq %xmm0, %xmm3
+; SSE41-NEXT: paddq %xmm2, %xmm3
+; SSE41-NEXT: psllq $32, %xmm3
+; SSE41-NEXT: pmuludq %xmm6, %xmm0
; SSE41-NEXT: paddq %xmm1, %xmm0
-; SSE41-NEXT: paddq %xmm2, %xmm0
+; SSE41-NEXT: paddq %xmm3, %xmm0
; SSE41-NEXT: retq
;
; AVX1-FALLBACK-LABEL: vec128_i64_signed_reg_mem:
@@ -1620,9 +1596,9 @@ define <2 x i64> @vec128_i64_signed_reg_mem(<2 x i64> %a1, ptr %a2_addr) nounwin
; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
; AVX1-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm4
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
@@ -1640,9 +1616,9 @@ define <2 x i64> @vec128_i64_signed_reg_mem(<2 x i64> %a1, ptr %a2_addr) nounwin
; AVX2-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1
; AVX2-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
; AVX2-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
-; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm4
-; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1
+; AVX2-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; AVX2-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
@@ -1660,10 +1636,9 @@ define <2 x i64> @vec128_i64_signed_reg_mem(<2 x i64> %a1, ptr %a2_addr) nounwin
; XOP-NEXT: vmovdqa (%rdi), %xmm1
; XOP-NEXT: vpcomgtq %xmm1, %xmm0, %xmm2
; XOP-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
-; XOP-NEXT: vpcomltq %xmm1, %xmm0, %xmm4
-; XOP-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
-; XOP-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; XOP-NEXT: vpsubq %xmm4, %xmm1, %xmm1
+; XOP-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; XOP-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; XOP-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1
; XOP-NEXT: vpsrlq $1, %xmm1, %xmm2
; XOP-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
@@ -1798,44 +1773,39 @@ define <2 x i64> @vec128_i64_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind
;
; SSE41-LABEL: vec128_i64_signed_mem_mem:
; SSE41: # %bb.0:
-; SSE41-NEXT: movdqa (%rdi), %xmm2
-; SSE41-NEXT: movdqa (%rsi), %xmm3
+; SSE41-NEXT: movdqa (%rdi), %xmm1
+; SSE41-NEXT: movdqa (%rsi), %xmm2
; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
-; SSE41-NEXT: movdqa %xmm3, %xmm5
-; SSE41-NEXT: pxor %xmm0, %xmm5
-; SSE41-NEXT: pxor %xmm2, %xmm0
-; SSE41-NEXT: movdqa %xmm0, %xmm1
-; SSE41-NEXT: pcmpgtd %xmm5, %xmm1
-; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,0,2,2]
-; SSE41-NEXT: movdqa %xmm0, %xmm6
-; SSE41-NEXT: pcmpeqd %xmm5, %xmm6
-; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[1,1,3,3]
-; SSE41-NEXT: pand %xmm4, %xmm7
-; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
-; SSE41-NEXT: por %xmm7, %xmm1
-; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [1,1]
-; SSE41-NEXT: por %xmm1, %xmm4
-; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
-; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
-; SSE41-NEXT: pand %xmm6, %xmm0
-; SSE41-NEXT: por %xmm5, %xmm0
-; SSE41-NEXT: movdqa %xmm3, %xmm5
-; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
-; SSE41-NEXT: movdqa %xmm1, %xmm0
-; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
-; SSE41-NEXT: psubq %xmm5, %xmm3
-; SSE41-NEXT: movdqa %xmm3, %xmm0
+; SSE41-NEXT: movdqa %xmm2, %xmm3
+; SSE41-NEXT: pxor %xmm0, %xmm3
+; SSE41-NEXT: pxor %xmm1, %xmm0
+; SSE41-NEXT: movdqa %xmm0, %xmm4
+; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
+; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
+; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
+; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
+; SSE41-NEXT: pand %xmm5, %xmm3
+; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[1,1,3,3]
+; SSE41-NEXT: por %xmm3, %xmm6
+; SSE41-NEXT: por {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm6
+; SSE41-NEXT: pand %xmm5, %xmm0
+; SSE41-NEXT: por %xmm4, %xmm0
+; SSE41-NEXT: movdqa %xmm1, %xmm3
+; SSE41-NEXT: psubq %xmm2, %xmm3
+; SSE41-NEXT: psubq %xmm1, %xmm2
+; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2
+; SSE41-NEXT: movapd %xmm2, %xmm0
; SSE41-NEXT: psrlq $1, %xmm0
-; SSE41-NEXT: psrlq $33, %xmm3
-; SSE41-NEXT: pmuludq %xmm4, %xmm3
-; SSE41-NEXT: movdqa %xmm4, %xmm1
-; SSE41-NEXT: psrlq $32, %xmm1
-; SSE41-NEXT: pmuludq %xmm0, %xmm1
-; SSE41-NEXT: paddq %xmm3, %xmm1
-; SSE41-NEXT: psllq $32, %xmm1
-; SSE41-NEXT: pmuludq %xmm4, %xmm0
-; SSE41-NEXT: paddq %xmm2, %xmm0
+; SSE41-NEXT: psrlq $33, %xmm2
+; SSE41-NEXT: pmuludq %xmm6, %xmm2
+; SSE41-NEXT: movdqa %xmm6, %xmm3
+; SSE41-NEXT: psrlq $32, %xmm3
+; SSE41-NEXT: pmuludq %xmm0, %xmm3
+; SSE41-NEXT: paddq %xmm2, %xmm3
+; SSE41-NEXT: psllq $32, %xmm3
+; SSE41-NEXT: pmuludq %xmm6, %xmm0
; SSE41-NEXT: paddq %xmm1, %xmm0
+; SSE41-NEXT: paddq %xmm3, %xmm0
; SSE41-NEXT: retq
;
; AVX1-FALLBACK-LABEL: vec128_i64_signed_mem_mem:
@@ -1844,9 +1814,9 @@ define <2 x i64> @vec128_i64_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind
; AVX1-FALLBACK-NEXT: vmovdqa (%rsi), %xmm1
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
; AVX1-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm4
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
@@ -1865,9 +1835,9 @@ define <2 x i64> @vec128_i64_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind
; AVX2-FALLBACK-NEXT: vmovdqa (%rsi), %xmm1
; AVX2-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
; AVX2-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
-; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm4
-; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1
+; AVX2-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; AVX2-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
@@ -1886,10 +1856,9 @@ define <2 x i64> @vec128_i64_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind
; XOP-NEXT: vmovdqa (%rsi), %xmm1
; XOP-NEXT: vpcomgtq %xmm1, %xmm0, %xmm2
; XOP-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3
-; XOP-NEXT: vpcomltq %xmm1, %xmm0, %xmm4
-; XOP-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
-; XOP-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; XOP-NEXT: vpsubq %xmm4, %xmm1, %xmm1
+; XOP-NEXT: vpsubq %xmm1, %xmm0, %xmm4
+; XOP-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; XOP-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1
; XOP-NEXT: vpsrlq $1, %xmm1, %xmm2
; XOP-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
diff --git a/llvm/test/CodeGen/X86/midpoint-int-vec-256.ll b/llvm/test/CodeGen/X86/midpoint-int-vec-256.ll
index b00c0e6a09681..da255045018cc 100644
--- a/llvm/test/CodeGen/X86/midpoint-int-vec-256.ll
+++ b/llvm/test/CodeGen/X86/midpoint-int-vec-256.ll
@@ -475,40 +475,40 @@ define <8 x i32> @vec256_i32_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind
define <4 x i64> @vec256_i64_signed_reg_reg(<4 x i64> %a1, <4 x i64> %a2) nounwind {
; AVX1-FALLBACK-LABEL: vec256_i64_signed_reg_reg:
; AVX1-FALLBACK: # %bb.0:
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
-; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm3
-; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm4
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm5
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm3, %xmm4, %xmm6
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm7
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm4, %xmm3, %xmm3
-; AVX1-FALLBACK-NEXT: vpsubq %xmm6, %xmm3, %xmm3
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm3, %xmm6
+; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm2
+; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm5
+; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm6
+; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm3, %xmm6
+; AVX1-FALLBACK-NEXT: vpsubq %xmm3, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7
; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
-; AVX1-FALLBACK-NEXT: vpor %xmm2, %xmm8, %xmm2
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm9
+; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9
; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm9, %xmm1
; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm2, %xmm7, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm3, %xmm3
-; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm3, %xmm3
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7
; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
-; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm7, %xmm3
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm3, %xmm3
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
-; AVX1-FALLBACK-NEXT: vpaddq %xmm4, %xmm5, %xmm4
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3
-; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm5, %xmm0
; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0
-; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
+; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-FALLBACK-NEXT: retq
;
; AVX2-LABEL: vec256_i64_signed_reg_reg:
@@ -516,9 +516,9 @@ define <4 x i64> @vec256_i64_signed_reg_reg(<4 x i64> %a1, <4 x i64> %a2) nounwi
; AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2
; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [1,1,1,1]
; AVX2-NEXT: vpor %ymm3, %ymm2, %ymm3
-; AVX2-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm4
-; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm1
-; AVX2-NEXT: vpsubq %ymm4, %ymm1, %ymm1
+; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm4
+; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm1
+; AVX2-NEXT: vblendvpd %ymm2, %ymm4, %ymm1, %ymm1
; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm2
; AVX2-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
@@ -533,82 +533,78 @@ define <4 x i64> @vec256_i64_signed_reg_reg(<4 x i64> %a1, <4 x i64> %a2) nounwi
;
; XOP-FALLBACK-LABEL: vec256_i64_signed_reg_reg:
; XOP-FALLBACK: # %bb.0:
-; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm0, %xmm2
-; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm3
-; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm4
-; XOP-FALLBACK-NEXT: vpcomgtq %xmm3, %xmm4, %xmm5
-; XOP-FALLBACK-NEXT: vpcomltq %xmm3, %xmm4, %xmm6
-; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm4, %xmm3, %xmm6
-; XOP-FALLBACK-NEXT: vpcomltq %xmm1, %xmm0, %xmm7
-; XOP-FALLBACK-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7
-; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm4, %xmm3, %xmm3
-; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm3, %xmm3
-; XOP-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm3, %xmm6
+; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm2
+; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3
+; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4
+; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm0, %xmm5
+; XOP-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm6
+; XOP-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpsubq %xmm2, %xmm3, %xmm6
+; XOP-FALLBACK-NEXT: vpsubq %xmm3, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7
; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
-; XOP-FALLBACK-NEXT: vpor %xmm2, %xmm8, %xmm2
-; XOP-FALLBACK-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm9
+; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9
; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm9, %xmm1
; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpmuludq %xmm2, %xmm7, %xmm2
-; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm3, %xmm3
-; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm3, %xmm3
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
+; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7
; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
-; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm7, %xmm3
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm3, %xmm3
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
-; XOP-FALLBACK-NEXT: vpaddq %xmm4, %xmm5, %xmm4
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3
-; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2
+; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm5, %xmm0
; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0
-; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
+; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOP-FALLBACK-NEXT: retq
;
; XOPAVX1-LABEL: vec256_i64_signed_reg_reg:
; XOPAVX1: # %bb.0:
-; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm0, %xmm2
-; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
-; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm4
-; XOPAVX1-NEXT: vpcomgtq %xmm3, %xmm4, %xmm5
-; XOPAVX1-NEXT: vpcomltq %xmm3, %xmm4, %xmm6
-; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm4, %xmm3, %xmm6
-; XOPAVX1-NEXT: vpcomltq %xmm1, %xmm0, %xmm7
-; XOPAVX1-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7
-; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm4, %xmm3, %xmm3
-; XOPAVX1-NEXT: vpsubq %xmm6, %xmm3, %xmm3
-; XOPAVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpsubq %xmm7, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpsrlq $1, %xmm3, %xmm6
+; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
+; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
+; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4
+; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm0, %xmm5
+; XOPAVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm6
+; XOPAVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpsubq %xmm2, %xmm3, %xmm6
+; XOPAVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2
+; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm6
; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm7
; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
-; XOPAVX1-NEXT: vpor %xmm2, %xmm8, %xmm2
-; XOPAVX1-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpsrlq $32, %xmm2, %xmm9
+; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm9
; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
; XOPAVX1-NEXT: vpaddq %xmm1, %xmm9, %xmm1
; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpmuludq %xmm2, %xmm7, %xmm2
-; XOPAVX1-NEXT: vpsrlq $33, %xmm3, %xmm3
-; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm3, %xmm3
-; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
+; XOPAVX1-NEXT: vpsrlq $33, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4
+; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm7
; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
-; XOPAVX1-NEXT: vpaddq %xmm3, %xmm7, %xmm3
-; XOPAVX1-NEXT: vpsllq $32, %xmm3, %xmm3
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
-; XOPAVX1-NEXT: vpaddq %xmm4, %xmm5, %xmm4
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; XOPAVX1-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
; XOPAVX1-NEXT: vpaddq %xmm3, %xmm4, %xmm3
-; XOPAVX1-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
+; XOPAVX1-NEXT: vpaddq %xmm0, %xmm5, %xmm0
; XOPAVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
-; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
+; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOPAVX1-NEXT: retq
;
; AVX512F-LABEL: vec256_i64_signed_reg_reg:
@@ -682,44 +678,42 @@ define <4 x i64> @vec256_i64_signed_reg_reg(<4 x i64> %a1, <4 x i64> %a2) nounwi
define <4 x i64> @vec256_i64_unsigned_reg_reg(<4 x i64> %a1, <4 x i64> %a2) nounwind {
; AVX1-FALLBACK-LABEL: vec256_i64_unsigned_reg_reg:
; AVX1-FALLBACK: # %bb.0:
-; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
-; AVX1-FALLBACK-NEXT: vpxor %xmm2, %xmm1, %xmm3
-; AVX1-FALLBACK-NEXT: vpxor %xmm2, %xmm0, %xmm4
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm5
-; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm6
-; AVX1-FALLBACK-NEXT: vpxor %xmm2, %xmm6, %xmm7
-; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm8
-; AVX1-FALLBACK-NEXT: vpxor %xmm2, %xmm8, %xmm2
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm7, %xmm2, %xmm9
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm7, %xmm2
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm8, %xmm6, %xmm2
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm4, %xmm3, %xmm3
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm3
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm9, %xmm8, %xmm6, %xmm4
-; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm4, %xmm2
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsubq %xmm3, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm3
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm4
+; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm3
+; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
+; AVX1-FALLBACK-NEXT: vpxor %xmm4, %xmm3, %xmm5
+; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm2
+; AVX1-FALLBACK-NEXT: vpxor %xmm4, %xmm2, %xmm6
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm5, %xmm6, %xmm5
+; AVX1-FALLBACK-NEXT: vpxor %xmm4, %xmm1, %xmm6
+; AVX1-FALLBACK-NEXT: vpxor %xmm4, %xmm0, %xmm4
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm6, %xmm4, %xmm4
+; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm6
+; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsubq %xmm3, %xmm2, %xmm6
+; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm3, %xmm3
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm3, %xmm3
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm3, %xmm6
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7
+; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
+; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm6 = [1,1]
-; AVX1-FALLBACK-NEXT: vpor %xmm6, %xmm5, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm4, %xmm7
-; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm7, %xmm1
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm9
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
+; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm9, %xmm1
; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm4, %xmm4
-; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpor %xmm6, %xmm9, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm6
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm6, %xmm3, %xmm6
-; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm6, %xmm2
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm3, %xmm3
; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm3, %xmm3
-; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm8, %xmm3
-; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm7, %xmm3
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm3, %xmm3
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
+; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm2, %xmm2
; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0
; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
@@ -730,103 +724,98 @@ define <4 x i64> @vec256_i64_unsigned_reg_reg(<4 x i64> %a1, <4 x i64> %a2) noun
; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3
; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm2
-; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm4
-; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm5 = [1,1,1,1]
-; AVX2-NEXT: vpor %ymm5, %ymm4, %ymm5
-; AVX2-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2
-; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm2
-; AVX2-NEXT: vblendvpd %ymm4, %ymm0, %ymm1, %ymm1
-; AVX2-NEXT: vpsubq %ymm2, %ymm1, %ymm1
+; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2
+; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [1,1,1,1]
+; AVX2-NEXT: vpor %ymm3, %ymm2, %ymm3
+; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm4
+; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm1
+; AVX2-NEXT: vblendvpd %ymm2, %ymm4, %ymm1, %ymm1
; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm2
; AVX2-NEXT: vpsrlq $33, %ymm1, %ymm1
-; AVX2-NEXT: vpmuludq %ymm5, %ymm1, %ymm1
-; AVX2-NEXT: vpsrlq $32, %ymm5, %ymm3
-; AVX2-NEXT: vpmuludq %ymm3, %ymm2, %ymm3
-; AVX2-NEXT: vpaddq %ymm1, %ymm3, %ymm1
+; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
+; AVX2-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX2-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX2-NEXT: vpaddq %ymm1, %ymm4, %ymm1
; AVX2-NEXT: vpsllq $32, %ymm1, %ymm1
-; AVX2-NEXT: vpmuludq %ymm5, %ymm2, %ymm2
+; AVX2-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
; AVX2-NEXT: retq
;
; XOP-FALLBACK-LABEL: vec256_i64_unsigned_reg_reg:
; XOP-FALLBACK: # %bb.0:
-; XOP-FALLBACK-NEXT: vpcomgtuq %xmm1, %xmm0, %xmm2
-; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm3
-; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm4
-; XOP-FALLBACK-NEXT: vpcomgtuq %xmm3, %xmm4, %xmm5
-; XOP-FALLBACK-NEXT: vpcomltuq %xmm3, %xmm4, %xmm6
-; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm4, %xmm3, %xmm6
-; XOP-FALLBACK-NEXT: vpcomltuq %xmm1, %xmm0, %xmm7
-; XOP-FALLBACK-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7
-; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm4, %xmm3, %xmm3
-; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm3, %xmm3
-; XOP-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm3, %xmm6
+; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm2
+; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3
+; XOP-FALLBACK-NEXT: vpcomgtuq %xmm2, %xmm3, %xmm4
+; XOP-FALLBACK-NEXT: vpcomgtuq %xmm1, %xmm0, %xmm5
+; XOP-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm6
+; XOP-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpsubq %xmm2, %xmm3, %xmm6
+; XOP-FALLBACK-NEXT: vpsubq %xmm3, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7
; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
-; XOP-FALLBACK-NEXT: vpor %xmm2, %xmm8, %xmm2
-; XOP-FALLBACK-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm9
+; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9
; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm9, %xmm1
; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpmuludq %xmm2, %xmm7, %xmm2
-; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm3, %xmm3
-; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm3, %xmm3
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
+; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7
; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
-; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm7, %xmm3
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm3, %xmm3
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
-; XOP-FALLBACK-NEXT: vpaddq %xmm4, %xmm5, %xmm4
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3
-; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2
+; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm5, %xmm0
; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0
-; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
+; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOP-FALLBACK-NEXT: retq
;
; XOPAVX1-LABEL: vec256_i64_unsigned_reg_reg:
; XOPAVX1: # %bb.0:
-; XOPAVX1-NEXT: vpcomgtuq %xmm1, %xmm0, %xmm2
-; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
-; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm4
-; XOPAVX1-NEXT: vpcomgtuq %xmm3, %xmm4, %xmm5
-; XOPAVX1-NEXT: vpcomltuq %xmm3, %xmm4, %xmm6
-; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm4, %xmm3, %xmm6
-; XOPAVX1-NEXT: vpcomltuq %xmm1, %xmm0, %xmm7
-; XOPAVX1-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7
-; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm4, %xmm3, %xmm3
-; XOPAVX1-NEXT: vpsubq %xmm6, %xmm3, %xmm3
-; XOPAVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpsubq %xmm7, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpsrlq $1, %xmm3, %xmm6
+; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
+; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
+; XOPAVX1-NEXT: vpcomgtuq %xmm2, %xmm3, %xmm4
+; XOPAVX1-NEXT: vpcomgtuq %xmm1, %xmm0, %xmm5
+; XOPAVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm6
+; XOPAVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpsubq %xmm2, %xmm3, %xmm6
+; XOPAVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2
+; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm6
; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm7
; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
-; XOPAVX1-NEXT: vpor %xmm2, %xmm8, %xmm2
-; XOPAVX1-NEXT: vpmuludq %xmm2, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpsrlq $32, %xmm2, %xmm9
+; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm9
; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
; XOPAVX1-NEXT: vpaddq %xmm1, %xmm9, %xmm1
; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpmuludq %xmm2, %xmm7, %xmm2
-; XOPAVX1-NEXT: vpsrlq $33, %xmm3, %xmm3
-; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm3, %xmm3
-; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
+; XOPAVX1-NEXT: vpsrlq $33, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4
+; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm7
; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
-; XOPAVX1-NEXT: vpaddq %xmm3, %xmm7, %xmm3
-; XOPAVX1-NEXT: vpsllq $32, %xmm3, %xmm3
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
-; XOPAVX1-NEXT: vpaddq %xmm4, %xmm5, %xmm4
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; XOPAVX1-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
; XOPAVX1-NEXT: vpaddq %xmm3, %xmm4, %xmm3
-; XOPAVX1-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
+; XOPAVX1-NEXT: vpaddq %xmm0, %xmm5, %xmm0
; XOPAVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
-; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
+; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOPAVX1-NEXT: retq
;
; AVX512F-LABEL: vec256_i64_unsigned_reg_reg:
@@ -902,41 +891,41 @@ define <4 x i64> @vec256_i64_unsigned_reg_reg(<4 x i64> %a1, <4 x i64> %a2) noun
define <4 x i64> @vec256_i64_signed_mem_reg(ptr %a1_addr, <4 x i64> %a2) nounwind {
; AVX1-FALLBACK-LABEL: vec256_i64_signed_mem_reg:
; AVX1-FALLBACK: # %bb.0:
-; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1
-; AVX1-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm2
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm3
-; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm4
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm4, %xmm2, %xmm5
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm4, %xmm2, %xmm6
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm7
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm2, %xmm4, %xmm4
-; AVX1-FALLBACK-NEXT: vpsubq %xmm6, %xmm4, %xmm4
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm3, %xmm1, %xmm0, %xmm0
-; AVX1-FALLBACK-NEXT: vpsubq %xmm7, %xmm0, %xmm0
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm4, %xmm6
+; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm1
+; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm2
+; AVX1-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm3
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm4
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm5
+; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm2, %xmm6
+; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm0, %xmm0
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm0, %xmm0
+; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm3, %xmm6
+; AVX1-FALLBACK-NEXT: vpsubq %xmm3, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm6
; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm7
; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0
; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
-; AVX1-FALLBACK-NEXT: vpor %xmm3, %xmm8, %xmm3
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm0, %xmm0
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm9
+; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm0, %xmm0
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9
; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm9, %xmm0
; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm0, %xmm0
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm7, %xmm3
-; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm4, %xmm4
-; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm4, %xmm4
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7
; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
-; AVX1-FALLBACK-NEXT: vpaddq %xmm4, %xmm7, %xmm4
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm4, %xmm4
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
-; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
-; AVX1-FALLBACK-NEXT: vpaddq %xmm4, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm7, %xmm1
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
+; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3
; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm3, %xmm1
-; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
-; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-FALLBACK-NEXT: retq
;
; AVX2-LABEL: vec256_i64_signed_mem_reg:
@@ -945,9 +934,9 @@ define <4 x i64> @vec256_i64_signed_mem_reg(ptr %a1_addr, <4 x i64> %a2) nounwin
; AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2
; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [1,1,1,1]
; AVX2-NEXT: vpor %ymm3, %ymm2, %ymm3
-; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm4
-; AVX2-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm0
-; AVX2-NEXT: vpsubq %ymm4, %ymm0, %ymm0
+; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm4
+; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm0
+; AVX2-NEXT: vblendvpd %ymm2, %ymm4, %ymm0, %ymm0
; AVX2-NEXT: vpsrlq $1, %ymm0, %ymm2
; AVX2-NEXT: vpsrlq $33, %ymm0, %ymm0
; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm0
@@ -962,84 +951,80 @@ define <4 x i64> @vec256_i64_signed_mem_reg(ptr %a1_addr, <4 x i64> %a2) nounwin
;
; XOP-FALLBACK-LABEL: vec256_i64_signed_mem_reg:
; XOP-FALLBACK: # %bb.0:
-; XOP-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1
-; XOP-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm2
-; XOP-FALLBACK-NEXT: vpcomgtq %xmm0, %xmm1, %xmm3
-; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm4
-; XOP-FALLBACK-NEXT: vpcomgtq %xmm4, %xmm2, %xmm5
-; XOP-FALLBACK-NEXT: vpcomltq %xmm4, %xmm2, %xmm6
-; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm2, %xmm4, %xmm6
-; XOP-FALLBACK-NEXT: vpcomltq %xmm0, %xmm1, %xmm7
-; XOP-FALLBACK-NEXT: vblendvpd %xmm7, %xmm1, %xmm0, %xmm7
-; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm2, %xmm4, %xmm4
-; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm4, %xmm4
-; XOP-FALLBACK-NEXT: vblendvpd %xmm3, %xmm1, %xmm0, %xmm0
-; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm0, %xmm0
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm4, %xmm6
+; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm1
+; XOP-FALLBACK-NEXT: vmovdqa (%rdi), %xmm2
+; XOP-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm3
+; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm3, %xmm4
+; XOP-FALLBACK-NEXT: vpcomgtq %xmm0, %xmm2, %xmm5
+; XOP-FALLBACK-NEXT: vpsubq %xmm0, %xmm2, %xmm6
+; XOP-FALLBACK-NEXT: vpsubq %xmm2, %xmm0, %xmm0
+; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm0, %xmm0
+; XOP-FALLBACK-NEXT: vpsubq %xmm1, %xmm3, %xmm6
+; XOP-FALLBACK-NEXT: vpsubq %xmm3, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm6
; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm7
; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0
; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
-; XOP-FALLBACK-NEXT: vpor %xmm3, %xmm8, %xmm3
-; XOP-FALLBACK-NEXT: vpmuludq %xmm3, %xmm0, %xmm0
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm9
+; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm0, %xmm0
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9
; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm9, %xmm0
; XOP-FALLBACK-NEXT: vpsllq $32, %xmm0, %xmm0
-; XOP-FALLBACK-NEXT: vpmuludq %xmm3, %xmm7, %xmm3
-; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm4, %xmm4
-; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm4, %xmm4
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
+; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7
; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
-; XOP-FALLBACK-NEXT: vpaddq %xmm4, %xmm7, %xmm4
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm4, %xmm4
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
-; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
-; XOP-FALLBACK-NEXT: vpaddq %xmm4, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm7, %xmm1
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
+; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3
; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm3, %xmm1
-; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
-; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
+; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; XOP-FALLBACK-NEXT: retq
;
; XOPAVX1-LABEL: vec256_i64_signed_mem_reg:
; XOPAVX1: # %bb.0:
-; XOPAVX1-NEXT: vmovdqa (%rdi), %xmm1
-; XOPAVX1-NEXT: vmovdqa 16(%rdi), %xmm2
-; XOPAVX1-NEXT: vpcomgtq %xmm0, %xmm1, %xmm3
-; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm4
-; XOPAVX1-NEXT: vpcomgtq %xmm4, %xmm2, %xmm5
-; XOPAVX1-NEXT: vpcomltq %xmm4, %xmm2, %xmm6
-; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm2, %xmm4, %xmm6
-; XOPAVX1-NEXT: vpcomltq %xmm0, %xmm1, %xmm7
-; XOPAVX1-NEXT: vblendvpd %xmm7, %xmm1, %xmm0, %xmm7
-; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm2, %xmm4, %xmm4
-; XOPAVX1-NEXT: vpsubq %xmm6, %xmm4, %xmm4
-; XOPAVX1-NEXT: vblendvpd %xmm3, %xmm1, %xmm0, %xmm0
-; XOPAVX1-NEXT: vpsubq %xmm7, %xmm0, %xmm0
-; XOPAVX1-NEXT: vpsrlq $1, %xmm4, %xmm6
+; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
+; XOPAVX1-NEXT: vmovdqa (%rdi), %xmm2
+; XOPAVX1-NEXT: vmovdqa 16(%rdi), %xmm3
+; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm3, %xmm4
+; XOPAVX1-NEXT: vpcomgtq %xmm0, %xmm2, %xmm5
+; XOPAVX1-NEXT: vpsubq %xmm0, %xmm2, %xmm6
+; XOPAVX1-NEXT: vpsubq %xmm2, %xmm0, %xmm0
+; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm6, %xmm0, %xmm0
+; XOPAVX1-NEXT: vpsubq %xmm1, %xmm3, %xmm6
+; XOPAVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1
+; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm6
; XOPAVX1-NEXT: vpsrlq $1, %xmm0, %xmm7
; XOPAVX1-NEXT: vpsrlq $33, %xmm0, %xmm0
; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
-; XOPAVX1-NEXT: vpor %xmm3, %xmm8, %xmm3
-; XOPAVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm0
-; XOPAVX1-NEXT: vpsrlq $32, %xmm3, %xmm9
+; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm0, %xmm0
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm9
; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
; XOPAVX1-NEXT: vpaddq %xmm0, %xmm9, %xmm0
; XOPAVX1-NEXT: vpsllq $32, %xmm0, %xmm0
-; XOPAVX1-NEXT: vpmuludq %xmm3, %xmm7, %xmm3
-; XOPAVX1-NEXT: vpsrlq $33, %xmm4, %xmm4
-; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm4, %xmm4
-; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
+; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4
+; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm7
; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
-; XOPAVX1-NEXT: vpaddq %xmm4, %xmm7, %xmm4
-; XOPAVX1-NEXT: vpsllq $32, %xmm4, %xmm4
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
-; XOPAVX1-NEXT: vpaddq %xmm2, %xmm5, %xmm2
-; XOPAVX1-NEXT: vpaddq %xmm4, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpaddq %xmm1, %xmm7, %xmm1
+; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
+; XOPAVX1-NEXT: vpaddq %xmm3, %xmm4, %xmm3
; XOPAVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1
-; XOPAVX1-NEXT: vpaddq %xmm0, %xmm1, %xmm0
-; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm5, %xmm2
+; XOPAVX1-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; XOPAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; XOPAVX1-NEXT: retq
;
; AVX512F-LABEL: vec256_i64_signed_mem_reg:
@@ -1117,37 +1102,37 @@ define <4 x i64> @vec256_i64_signed_reg_mem(<4 x i64> %a1, ptr %a2_addr) nounwin
; AVX1-FALLBACK: # %bb.0:
; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1
; AVX1-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm2
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm3
-; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm4
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm4, %xmm5
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm2, %xmm4, %xmm6
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm3, %xmm1, %xmm0, %xmm7
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm4, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm5
+; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm6
+; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm3, %xmm6
+; AVX1-FALLBACK-NEXT: vpsubq %xmm3, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2
; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7
; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
-; AVX1-FALLBACK-NEXT: vpor %xmm3, %xmm8, %xmm3
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm9
+; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9
; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm9, %xmm1
; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm7, %xmm3
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7
; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
-; AVX1-FALLBACK-NEXT: vpaddq %xmm4, %xmm5, %xmm4
-; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm4, %xmm2
-; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm3, %xmm0
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
+; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm5, %xmm0
; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0
; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-FALLBACK-NEXT: retq
@@ -1158,9 +1143,9 @@ define <4 x i64> @vec256_i64_signed_reg_mem(<4 x i64> %a1, ptr %a2_addr) nounwin
; AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2
; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [1,1,1,1]
; AVX2-NEXT: vpor %ymm3, %ymm2, %ymm3
-; AVX2-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm4
-; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm1
-; AVX2-NEXT: vpsubq %ymm4, %ymm1, %ymm1
+; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm4
+; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm1
+; AVX2-NEXT: vblendvpd %ymm2, %ymm4, %ymm1, %ymm1
; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm2
; AVX2-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
@@ -1177,39 +1162,37 @@ define <4 x i64> @vec256_i64_signed_reg_mem(<4 x i64> %a1, ptr %a2_addr) nounwin
; XOP-FALLBACK: # %bb.0:
; XOP-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1
; XOP-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm2
-; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm0, %xmm3
-; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm4
-; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm4, %xmm5
-; XOP-FALLBACK-NEXT: vpcomltq %xmm2, %xmm4, %xmm6
-; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm4, %xmm2, %xmm6
-; XOP-FALLBACK-NEXT: vpcomltq %xmm1, %xmm0, %xmm7
-; XOP-FALLBACK-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7
-; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm4, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3
+; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4
+; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm0, %xmm5
+; XOP-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm6
+; XOP-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpsubq %xmm2, %xmm3, %xmm6
+; XOP-FALLBACK-NEXT: vpsubq %xmm3, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2
; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7
; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
-; XOP-FALLBACK-NEXT: vpor %xmm3, %xmm8, %xmm3
-; XOP-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm9
+; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9
; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm9, %xmm1
; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpmuludq %xmm3, %xmm7, %xmm3
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
+; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7
; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
; XOP-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
-; XOP-FALLBACK-NEXT: vpaddq %xmm4, %xmm5, %xmm4
-; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm4, %xmm2
-; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm3, %xmm0
+; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
+; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2
+; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm5, %xmm0
; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0
; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOP-FALLBACK-NEXT: retq
@@ -1218,39 +1201,37 @@ define <4 x i64> @vec256_i64_signed_reg_mem(<4 x i64> %a1, ptr %a2_addr) nounwin
; XOPAVX1: # %bb.0:
; XOPAVX1-NEXT: vmovdqa (%rdi), %xmm1
; XOPAVX1-NEXT: vmovdqa 16(%rdi), %xmm2
-; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm0, %xmm3
-; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm4
-; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm4, %xmm5
-; XOPAVX1-NEXT: vpcomltq %xmm2, %xmm4, %xmm6
-; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm4, %xmm2, %xmm6
-; XOPAVX1-NEXT: vpcomltq %xmm1, %xmm0, %xmm7
-; XOPAVX1-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7
-; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm4, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; XOPAVX1-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpsubq %xmm7, %xmm1, %xmm1
+; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
+; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4
+; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm0, %xmm5
+; XOPAVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm6
+; XOPAVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm1
+; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpsubq %xmm2, %xmm3, %xmm6
+; XOPAVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2
+; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2
; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm6
; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm7
; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
-; XOPAVX1-NEXT: vpor %xmm3, %xmm8, %xmm3
-; XOPAVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpsrlq $32, %xmm3, %xmm9
+; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm9
; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
; XOPAVX1-NEXT: vpaddq %xmm1, %xmm9, %xmm1
; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpmuludq %xmm3, %xmm7, %xmm3
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
; XOPAVX1-NEXT: vpsrlq $33, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4
+; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm7
; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
; XOPAVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2
; XOPAVX1-NEXT: vpsllq $32, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
-; XOPAVX1-NEXT: vpaddq %xmm4, %xmm5, %xmm4
-; XOPAVX1-NEXT: vpaddq %xmm2, %xmm4, %xmm2
-; XOPAVX1-NEXT: vpaddq %xmm0, %xmm3, %xmm0
+; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
+; XOPAVX1-NEXT: vpaddq %xmm3, %xmm4, %xmm3
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
+; XOPAVX1-NEXT: vpaddq %xmm0, %xmm5, %xmm0
; XOPAVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOPAVX1-NEXT: retq
@@ -1332,36 +1313,36 @@ define <4 x i64> @vec256_i64_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind
; AVX1-FALLBACK-NEXT: vmovdqa 16(%rsi), %xmm1
; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm2
; AVX1-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm3
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm4
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm5
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm1, %xmm3, %xmm6
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm2, %xmm7
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm3, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsubq %xmm6, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm2, %xmm0, %xmm0
-; AVX1-FALLBACK-NEXT: vpsubq %xmm7, %xmm0, %xmm0
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm4
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm5
+; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm2, %xmm6
+; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm0, %xmm0
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm0, %xmm0
+; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm3, %xmm6
+; AVX1-FALLBACK-NEXT: vpsubq %xmm3, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm6
; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm7
; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0
; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
-; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm0, %xmm0
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm9
+; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm0, %xmm0
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9
; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm9, %xmm0
; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm0, %xmm0
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7
; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm7, %xmm1
; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
-; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
+; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3
; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm3, %xmm1
-; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm4, %xmm2
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-FALLBACK-NEXT: retq
@@ -1373,9 +1354,9 @@ define <4 x i64> @vec256_i64_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind
; AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2
; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [1,1,1,1]
; AVX2-NEXT: vpor %ymm3, %ymm2, %ymm3
-; AVX2-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm4
-; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm1
-; AVX2-NEXT: vpsubq %ymm4, %ymm1, %ymm1
+; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm4
+; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm1
+; AVX2-NEXT: vblendvpd %ymm2, %ymm4, %ymm1, %ymm1
; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm2
; AVX2-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
@@ -1390,86 +1371,82 @@ define <4 x i64> @vec256_i64_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind
;
; XOP-FALLBACK-LABEL: vec256_i64_signed_mem_mem:
; XOP-FALLBACK: # %bb.0:
-; XOP-FALLBACK-NEXT: vmovdqa (%rsi), %xmm1
-; XOP-FALLBACK-NEXT: vmovdqa 16(%rsi), %xmm2
-; XOP-FALLBACK-NEXT: vmovdqa (%rdi), %xmm0
+; XOP-FALLBACK-NEXT: vmovdqa (%rsi), %xmm0
+; XOP-FALLBACK-NEXT: vmovdqa 16(%rsi), %xmm1
+; XOP-FALLBACK-NEXT: vmovdqa (%rdi), %xmm2
; XOP-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm3
-; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm0, %xmm4
-; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm3, %xmm5
-; XOP-FALLBACK-NEXT: vpcomltq %xmm2, %xmm3, %xmm6
-; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; XOP-FALLBACK-NEXT: vpcomltq %xmm1, %xmm0, %xmm7
-; XOP-FALLBACK-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7
-; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm3, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7
-; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm3, %xmm4
+; XOP-FALLBACK-NEXT: vpcomgtq %xmm0, %xmm2, %xmm5
+; XOP-FALLBACK-NEXT: vpsubq %xmm0, %xmm2, %xmm6
+; XOP-FALLBACK-NEXT: vpsubq %xmm2, %xmm0, %xmm0
+; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm0, %xmm0
+; XOP-FALLBACK-NEXT: vpsubq %xmm1, %xmm3, %xmm6
+; XOP-FALLBACK-NEXT: vpsubq %xmm3, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm6
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm7
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0
; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
+; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm0, %xmm0
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9
+; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
+; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm9, %xmm0
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm0, %xmm0
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm9
-; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
-; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm9, %xmm1
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
-; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7
; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
-; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
-; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm5, %xmm3
-; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2
-; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
-; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0
-; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
+; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm7, %xmm1
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
+; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3
+; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm3, %xmm1
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
+; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; XOP-FALLBACK-NEXT: retq
;
; XOPAVX1-LABEL: vec256_i64_signed_mem_mem:
; XOPAVX1: # %bb.0:
-; XOPAVX1-NEXT: vmovdqa (%rsi), %xmm1
-; XOPAVX1-NEXT: vmovdqa 16(%rsi), %xmm2
-; XOPAVX1-NEXT: vmovdqa (%rdi), %xmm0
+; XOPAVX1-NEXT: vmovdqa (%rsi), %xmm0
+; XOPAVX1-NEXT: vmovdqa 16(%rsi), %xmm1
+; XOPAVX1-NEXT: vmovdqa (%rdi), %xmm2
; XOPAVX1-NEXT: vmovdqa 16(%rdi), %xmm3
-; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm0, %xmm4
-; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm3, %xmm5
-; XOPAVX1-NEXT: vpcomltq %xmm2, %xmm3, %xmm6
-; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; XOPAVX1-NEXT: vpcomltq %xmm1, %xmm0, %xmm7
-; XOPAVX1-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7
-; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm3, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpsubq %xmm7, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm6
-; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm7
-; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm3, %xmm4
+; XOPAVX1-NEXT: vpcomgtq %xmm0, %xmm2, %xmm5
+; XOPAVX1-NEXT: vpsubq %xmm0, %xmm2, %xmm6
+; XOPAVX1-NEXT: vpsubq %xmm2, %xmm0, %xmm0
+; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm6, %xmm0, %xmm0
+; XOPAVX1-NEXT: vpsubq %xmm1, %xmm3, %xmm6
+; XOPAVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1
+; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm6
+; XOPAVX1-NEXT: vpsrlq $1, %xmm0, %xmm7
+; XOPAVX1-NEXT: vpsrlq $33, %xmm0, %xmm0
; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
+; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm0, %xmm0
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm9
+; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
+; XOPAVX1-NEXT: vpaddq %xmm0, %xmm9, %xmm0
+; XOPAVX1-NEXT: vpsllq $32, %xmm0, %xmm0
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
+; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4
; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm9
-; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm9, %xmm9
-; XOPAVX1-NEXT: vpaddq %xmm1, %xmm9, %xmm1
-; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
-; XOPAVX1-NEXT: vpsrlq $33, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm7
; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
-; XOPAVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2
-; XOPAVX1-NEXT: vpsllq $32, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
-; XOPAVX1-NEXT: vpaddq %xmm3, %xmm5, %xmm3
-; XOPAVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
-; XOPAVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0
-; XOPAVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
-; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
+; XOPAVX1-NEXT: vpaddq %xmm1, %xmm7, %xmm1
+; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
+; XOPAVX1-NEXT: vpaddq %xmm3, %xmm4, %xmm3
+; XOPAVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm5, %xmm2
+; XOPAVX1-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; XOPAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; XOPAVX1-NEXT: retq
;
; AVX512F-LABEL: vec256_i64_signed_mem_mem:
More information about the llvm-commits
mailing list