[LLVMdev] RegisterCoalescing pass crashes with ImplicitDef registers

Sat Oct 20 13:23:46 PDT 2012

Hi,

below is an output of "llc -march=r600 -mcpu=cayman -print-before-all -debug-only=regalloc file.shader" command from llvm3.2svn.
The register coalescing pass crashes when joining vreg12:sel_z with vreg13 registers, because it tries to access the interval liveness of vreg13... which is undefined.

I don't know if it's a bug of the pass, or if my backend should do something specific before calling the pass.
It worked with llvm 3.1, I don't know if there was a requirement introduced between 3.1 and current trunk related to register coalescing.

Regards,
Vincent

*** IR Dump Before Preliminary module verification ***
define void @main() {
  call void @llvm.AMDGPU.reserve.reg(i32 0)
  call void @llvm.AMDGPU.reserve.reg(i32 1)
  call void @llvm.AMDGPU.reserve.reg(i32 2)
  call void @llvm.AMDGPU.reserve.reg(i32 3)
  %1 = call float @llvm.R600.load.input(i32 4)
  %2 = insertelement <4 x float> undef, float %1, i32 0
  %3 = call float @llvm.R600.load.input(i32 5)
  %4 = insertelement <4 x float> %2, float %3, i32 1
  %5 = call float @llvm.R600.load.input(i32 6)
  %6 = insertelement <4 x float> %4, float %5, i32 2
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = insertelement <4 x float> %6, float %7, i32 3
  %9 = shufflevector <4 x float> undef, <4 x float> %8, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %10 = shufflevector <4 x float> %8, <4 x float> %8, <2 x i32> <i32 0, i32 1>
  %11 = shufflevector <2 x float> %10, <2 x float> %10, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %12 = shufflevector <4 x float> undef, <4 x float> %11, <4 x i32> <i32 4, i32 5, i32 2, i32 3>
  %13 = fsub <2 x float> zeroinitializer, %10
  %14 = shufflevector <2 x float> %13, <2 x float> %13, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %15 = shufflevector <4 x float> %12, <4 x float> %14, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
  %16 = shufflevector <4 x float> undef, <4 x float> %15, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %17 = extractelement <4 x float> %16, i32 0
  call void @llvm.AMDGPU.store.output(float %17, i32 8)
  %18 = extractelement <4 x float> %16, i32 1
  call void @llvm.AMDGPU.store.output(float %18, i32 9)
  %19 = extractelement <4 x float> %16, i32 2
  call void @llvm.AMDGPU.store.output(float %19, i32 10)
  %20 = extractelement <4 x float> %16, i32 3
  call void @llvm.AMDGPU.store.output(float %20, i32 11)
  %21 = extractelement <4 x float> %9, i32 0
  call void @llvm.AMDGPU.store.output(float %21, i32 4)
  %22 = extractelement <4 x float> %9, i32 1
  call void @llvm.AMDGPU.store.output(float %22, i32 5)
  %23 = extractelement <4 x float> %9, i32 2
  call void @llvm.AMDGPU.store.output(float %23, i32 6)
  %24 = extractelement <4 x float> %9, i32 3
  call void @llvm.AMDGPU.store.output(float %24, i32 7)
  ret void
}
*** IR Dump Before Module Verifier ***
define void @main() {
  call void @llvm.AMDGPU.reserve.reg(i32 0)
  call void @llvm.AMDGPU.reserve.reg(i32 1)
  call void @llvm.AMDGPU.reserve.reg(i32 2)
  call void @llvm.AMDGPU.reserve.reg(i32 3)
  %1 = call float @llvm.R600.load.input(i32 4)
  %2 = insertelement <4 x float> undef, float %1, i32 0
  %3 = call float @llvm.R600.load.input(i32 5)
  %4 = insertelement <4 x float> %2, float %3, i32 1
  %5 = call float @llvm.R600.load.input(i32 6)
  %6 = insertelement <4 x float> %4, float %5, i32 2
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = insertelement <4 x float> %6, float %7, i32 3
  %9 = shufflevector <4 x float> undef, <4 x float> %8, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %10 = shufflevector <4 x float> %8, <4 x float> %8, <2 x i32> <i32 0, i32 1>
  %11 = shufflevector <2 x float> %10, <2 x float> %10, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %12 = shufflevector <4 x float> undef, <4 x float> %11, <4 x i32> <i32 4, i32 5, i32 2, i32 3>
  %13 = fsub <2 x float> zeroinitializer, %10
  %14 = shufflevector <2 x float> %13, <2 x float> %13, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %15 = shufflevector <4 x float> %12, <4 x float> %14, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
  %16 = shufflevector <4 x float> undef, <4 x float> %15, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %17 = extractelement <4 x float> %16, i32 0
  call void @llvm.AMDGPU.store.output(float %17, i32 8)
  %18 = extractelement <4 x float> %16, i32 1
  call void @llvm.AMDGPU.store.output(float %18, i32 9)
  %19 = extractelement <4 x float> %16, i32 2
  call void @llvm.AMDGPU.store.output(float %19, i32 10)
  %20 = extractelement <4 x float> %16, i32 3
  call void @llvm.AMDGPU.store.output(float %20, i32 11)
  %21 = extractelement <4 x float> %9, i32 0
  call void @llvm.AMDGPU.store.output(float %21, i32 4)
  %22 = extractelement <4 x float> %9, i32 1
  call void @llvm.AMDGPU.store.output(float %22, i32 5)
  %23 = extractelement <4 x float> %9, i32 2
  call void @llvm.AMDGPU.store.output(float %23, i32 6)
  %24 = extractelement <4 x float> %9, i32 3
  call void @llvm.AMDGPU.store.output(float %24, i32 7)
  ret void
}
*** IR Dump Before Lower Garbage Collection Instructions ***
define void @main() {
  call void @llvm.AMDGPU.reserve.reg(i32 0)
  call void @llvm.AMDGPU.reserve.reg(i32 1)
  call void @llvm.AMDGPU.reserve.reg(i32 2)
  call void @llvm.AMDGPU.reserve.reg(i32 3)
  %1 = call float @llvm.R600.load.input(i32 4)
  %2 = insertelement <4 x float> undef, float %1, i32 0
  %3 = call float @llvm.R600.load.input(i32 5)
  %4 = insertelement <4 x float> %2, float %3, i32 1
  %5 = call float @llvm.R600.load.input(i32 6)
  %6 = insertelement <4 x float> %4, float %5, i32 2
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = insertelement <4 x float> %6, float %7, i32 3
  %9 = shufflevector <4 x float> undef, <4 x float> %8, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %10 = shufflevector <4 x float> %8, <4 x float> %8, <2 x i32> <i32 0, i32 1>
  %11 = shufflevector <2 x float> %10, <2 x float> %10, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %12 = shufflevector <4 x float> undef, <4 x float> %11, <4 x i32> <i32 4, i32 5, i32 2, i32 3>
  %13 = fsub <2 x float> zeroinitializer, %10
  %14 = shufflevector <2 x float> %13, <2 x float> %13, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %15 = shufflevector <4 x float> %12, <4 x float> %14, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
  %16 = shufflevector <4 x float> undef, <4 x float> %15, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %17 = extractelement <4 x float> %16, i32 0
  call void @llvm.AMDGPU.store.output(float %17, i32 8)
  %18 = extractelement <4 x float> %16, i32 1
  call void @llvm.AMDGPU.store.output(float %18, i32 9)
  %19 = extractelement <4 x float> %16, i32 2
  call void @llvm.AMDGPU.store.output(float %19, i32 10)
  %20 = extractelement <4 x float> %16, i32 3
  call void @llvm.AMDGPU.store.output(float %20, i32 11)
  %21 = extractelement <4 x float> %9, i32 0
  call void @llvm.AMDGPU.store.output(float %21, i32 4)
  %22 = extractelement <4 x float> %9, i32 1
  call void @llvm.AMDGPU.store.output(float %22, i32 5)
  %23 = extractelement <4 x float> %9, i32 2
  call void @llvm.AMDGPU.store.output(float %23, i32 6)
  %24 = extractelement <4 x float> %9, i32 3
  call void @llvm.AMDGPU.store.output(float %24, i32 7)
  ret void
}
*** IR Dump Before Remove unreachable blocks from the CFG ***
define void @main() {
  call void @llvm.AMDGPU.reserve.reg(i32 0)
  call void @llvm.AMDGPU.reserve.reg(i32 1)
  call void @llvm.AMDGPU.reserve.reg(i32 2)
  call void @llvm.AMDGPU.reserve.reg(i32 3)
  %1 = call float @llvm.R600.load.input(i32 4)
  %2 = insertelement <4 x float> undef, float %1, i32 0
  %3 = call float @llvm.R600.load.input(i32 5)
  %4 = insertelement <4 x float> %2, float %3, i32 1
  %5 = call float @llvm.R600.load.input(i32 6)
  %6 = insertelement <4 x float> %4, float %5, i32 2
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = insertelement <4 x float> %6, float %7, i32 3
  %9 = shufflevector <4 x float> undef, <4 x float> %8, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %10 = shufflevector <4 x float> %8, <4 x float> %8, <2 x i32> <i32 0, i32 1>
  %11 = shufflevector <2 x float> %10, <2 x float> %10, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %12 = shufflevector <4 x float> undef, <4 x float> %11, <4 x i32> <i32 4, i32 5, i32 2, i32 3>
  %13 = fsub <2 x float> zeroinitializer, %10
  %14 = shufflevector <2 x float> %13, <2 x float> %13, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %15 = shufflevector <4 x float> %12, <4 x float> %14, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
  %16 = shufflevector <4 x float> undef, <4 x float> %15, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %17 = extractelement <4 x float> %16, i32 0
  call void @llvm.AMDGPU.store.output(float %17, i32 8)
  %18 = extractelement <4 x float> %16, i32 1
  call void @llvm.AMDGPU.store.output(float %18, i32 9)
  %19 = extractelement <4 x float> %16, i32 2
  call void @llvm.AMDGPU.store.output(float %19, i32 10)
  %20 = extractelement <4 x float> %16, i32 3
  call void @llvm.AMDGPU.store.output(float %20, i32 11)
  %21 = extractelement <4 x float> %9, i32 0
  call void @llvm.AMDGPU.store.output(float %21, i32 4)
  %22 = extractelement <4 x float> %9, i32 1
  call void @llvm.AMDGPU.store.output(float %22, i32 5)
  %23 = extractelement <4 x float> %9, i32 2
  call void @llvm.AMDGPU.store.output(float %23, i32 6)
  %24 = extractelement <4 x float> %9, i32 3
  call void @llvm.AMDGPU.store.output(float %24, i32 7)
  ret void
}
*** IR Dump Before Lower invoke and unwind, for unwindless code generators ***
define void @main() {
  call void @llvm.AMDGPU.reserve.reg(i32 0)
  call void @llvm.AMDGPU.reserve.reg(i32 1)
  call void @llvm.AMDGPU.reserve.reg(i32 2)
  call void @llvm.AMDGPU.reserve.reg(i32 3)
  %1 = call float @llvm.R600.load.input(i32 4)
  %2 = insertelement <4 x float> undef, float %1, i32 0
  %3 = call float @llvm.R600.load.input(i32 5)
  %4 = insertelement <4 x float> %2, float %3, i32 1
  %5 = call float @llvm.R600.load.input(i32 6)
  %6 = insertelement <4 x float> %4, float %5, i32 2
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = insertelement <4 x float> %6, float %7, i32 3
  %9 = shufflevector <4 x float> undef, <4 x float> %8, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %10 = shufflevector <4 x float> %8, <4 x float> %8, <2 x i32> <i32 0, i32 1>
  %11 = shufflevector <2 x float> %10, <2 x float> %10, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %12 = shufflevector <4 x float> undef, <4 x float> %11, <4 x i32> <i32 4, i32 5, i32 2, i32 3>
  %13 = fsub <2 x float> zeroinitializer, %10
  %14 = shufflevector <2 x float> %13, <2 x float> %13, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %15 = shufflevector <4 x float> %12, <4 x float> %14, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
  %16 = shufflevector <4 x float> undef, <4 x float> %15, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %17 = extractelement <4 x float> %16, i32 0
  call void @llvm.AMDGPU.store.output(float %17, i32 8)
  %18 = extractelement <4 x float> %16, i32 1
  call void @llvm.AMDGPU.store.output(float %18, i32 9)
  %19 = extractelement <4 x float> %16, i32 2
  call void @llvm.AMDGPU.store.output(float %19, i32 10)
  %20 = extractelement <4 x float> %16, i32 3
  call void @llvm.AMDGPU.store.output(float %20, i32 11)
  %21 = extractelement <4 x float> %9, i32 0
  call void @llvm.AMDGPU.store.output(float %21, i32 4)
  %22 = extractelement <4 x float> %9, i32 1
  call void @llvm.AMDGPU.store.output(float %22, i32 5)
  %23 = extractelement <4 x float> %9, i32 2
  call void @llvm.AMDGPU.store.output(float %23, i32 6)
  %24 = extractelement <4 x float> %9, i32 3
  call void @llvm.AMDGPU.store.output(float %24, i32 7)
  ret void
}
*** IR Dump Before Remove unreachable blocks from the CFG ***
define void @main() {
  call void @llvm.AMDGPU.reserve.reg(i32 0)
  call void @llvm.AMDGPU.reserve.reg(i32 1)
  call void @llvm.AMDGPU.reserve.reg(i32 2)
  call void @llvm.AMDGPU.reserve.reg(i32 3)
  %1 = call float @llvm.R600.load.input(i32 4)
  %2 = insertelement <4 x float> undef, float %1, i32 0
  %3 = call float @llvm.R600.load.input(i32 5)
  %4 = insertelement <4 x float> %2, float %3, i32 1
  %5 = call float @llvm.R600.load.input(i32 6)
  %6 = insertelement <4 x float> %4, float %5, i32 2
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = insertelement <4 x float> %6, float %7, i32 3
  %9 = shufflevector <4 x float> undef, <4 x float> %8, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %10 = shufflevector <4 x float> %8, <4 x float> %8, <2 x i32> <i32 0, i32 1>
  %11 = shufflevector <2 x float> %10, <2 x float> %10, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %12 = shufflevector <4 x float> undef, <4 x float> %11, <4 x i32> <i32 4, i32 5, i32 2, i32 3>
  %13 = fsub <2 x float> zeroinitializer, %10
  %14 = shufflevector <2 x float> %13, <2 x float> %13, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %15 = shufflevector <4 x float> %12, <4 x float> %14, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
  %16 = shufflevector <4 x float> undef, <4 x float> %15, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %17 = extractelement <4 x float> %16, i32 0
  call void @llvm.AMDGPU.store.output(float %17, i32 8)
  %18 = extractelement <4 x float> %16, i32 1
  call void @llvm.AMDGPU.store.output(float %18, i32 9)
  %19 = extractelement <4 x float> %16, i32 2
  call void @llvm.AMDGPU.store.output(float %19, i32 10)
  %20 = extractelement <4 x float> %16, i32 3
  call void @llvm.AMDGPU.store.output(float %20, i32 11)
  %21 = extractelement <4 x float> %9, i32 0
  call void @llvm.AMDGPU.store.output(float %21, i32 4)
  %22 = extractelement <4 x float> %9, i32 1
  call void @llvm.AMDGPU.store.output(float %22, i32 5)
  %23 = extractelement <4 x float> %9, i32 2
  call void @llvm.AMDGPU.store.output(float %23, i32 6)
  %24 = extractelement <4 x float> %9, i32 3
  call void @llvm.AMDGPU.store.output(float %24, i32 7)
  ret void
}
*** IR Dump Before Optimize for code generation ***
define void @main() {
  call void @llvm.AMDGPU.reserve.reg(i32 0)
  call void @llvm.AMDGPU.reserve.reg(i32 1)
  call void @llvm.AMDGPU.reserve.reg(i32 2)
  call void @llvm.AMDGPU.reserve.reg(i32 3)
  %1 = call float @llvm.R600.load.input(i32 4)
  %2 = insertelement <4 x float> undef, float %1, i32 0
  %3 = call float @llvm.R600.load.input(i32 5)
  %4 = insertelement <4 x float> %2, float %3, i32 1
  %5 = call float @llvm.R600.load.input(i32 6)
  %6 = insertelement <4 x float> %4, float %5, i32 2
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = insertelement <4 x float> %6, float %7, i32 3
  %9 = shufflevector <4 x float> undef, <4 x float> %8, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %10 = shufflevector <4 x float> %8, <4 x float> %8, <2 x i32> <i32 0, i32 1>
  %11 = shufflevector <2 x float> %10, <2 x float> %10, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %12 = shufflevector <4 x float> undef, <4 x float> %11, <4 x i32> <i32 4, i32 5, i32 2, i32 3>
  %13 = fsub <2 x float> zeroinitializer, %10
  %14 = shufflevector <2 x float> %13, <2 x float> %13, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %15 = shufflevector <4 x float> %12, <4 x float> %14, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
  %16 = shufflevector <4 x float> undef, <4 x float> %15, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %17 = extractelement <4 x float> %16, i32 0
  call void @llvm.AMDGPU.store.output(float %17, i32 8)
  %18 = extractelement <4 x float> %16, i32 1
  call void @llvm.AMDGPU.store.output(float %18, i32 9)
  %19 = extractelement <4 x float> %16, i32 2
  call void @llvm.AMDGPU.store.output(float %19, i32 10)
  %20 = extractelement <4 x float> %16, i32 3
  call void @llvm.AMDGPU.store.output(float %20, i32 11)
  %21 = extractelement <4 x float> %9, i32 0
  call void @llvm.AMDGPU.store.output(float %21, i32 4)
  %22 = extractelement <4 x float> %9, i32 1
  call void @llvm.AMDGPU.store.output(float %22, i32 5)
  %23 = extractelement <4 x float> %9, i32 2
  call void @llvm.AMDGPU.store.output(float %23, i32 6)
  %24 = extractelement <4 x float> %9, i32 3
  call void @llvm.AMDGPU.store.output(float %24, i32 7)
  ret void
}
*** IR Dump Before Insert stack protectors ***
define void @main() {
  call void @llvm.AMDGPU.reserve.reg(i32 0)
  call void @llvm.AMDGPU.reserve.reg(i32 1)
  call void @llvm.AMDGPU.reserve.reg(i32 2)
  call void @llvm.AMDGPU.reserve.reg(i32 3)
  %1 = call float @llvm.R600.load.input(i32 4)
  %2 = insertelement <4 x float> undef, float %1, i32 0
  %3 = call float @llvm.R600.load.input(i32 5)
  %4 = insertelement <4 x float> %2, float %3, i32 1
  %5 = call float @llvm.R600.load.input(i32 6)
  %6 = insertelement <4 x float> %4, float %5, i32 2
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = insertelement <4 x float> %6, float %7, i32 3
  %9 = shufflevector <4 x float> undef, <4 x float> %8, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %10 = shufflevector <4 x float> %8, <4 x float> %8, <2 x i32> <i32 0, i32 1>
  %11 = shufflevector <2 x float> %10, <2 x float> %10, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %12 = shufflevector <4 x float> undef, <4 x float> %11, <4 x i32> <i32 4, i32 5, i32 2, i32 3>
  %13 = fsub <2 x float> zeroinitializer, %10
  %14 = shufflevector <2 x float> %13, <2 x float> %13, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %15 = shufflevector <4 x float> %12, <4 x float> %14, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
  %16 = shufflevector <4 x float> undef, <4 x float> %15, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %17 = extractelement <4 x float> %16, i32 0
  call void @llvm.AMDGPU.store.output(float %17, i32 8)
  %18 = extractelement <4 x float> %16, i32 1
  call void @llvm.AMDGPU.store.output(float %18, i32 9)
  %19 = extractelement <4 x float> %16, i32 2
  call void @llvm.AMDGPU.store.output(float %19, i32 10)
  %20 = extractelement <4 x float> %16, i32 3
  call void @llvm.AMDGPU.store.output(float %20, i32 11)
  %21 = extractelement <4 x float> %9, i32 0
  call void @llvm.AMDGPU.store.output(float %21, i32 4)
  %22 = extractelement <4 x float> %9, i32 1
  call void @llvm.AMDGPU.store.output(float %22, i32 5)
  %23 = extractelement <4 x float> %9, i32 2
  call void @llvm.AMDGPU.store.output(float %23, i32 6)
  %24 = extractelement <4 x float> %9, i32 3
  call void @llvm.AMDGPU.store.output(float %24, i32 7)
  ret void
}
*** IR Dump Before Preliminary module verification ***
define void @main() {
  call void @llvm.AMDGPU.reserve.reg(i32 0)
  call void @llvm.AMDGPU.reserve.reg(i32 1)
  call void @llvm.AMDGPU.reserve.reg(i32 2)
  call void @llvm.AMDGPU.reserve.reg(i32 3)
  %1 = call float @llvm.R600.load.input(i32 4)
  %2 = insertelement <4 x float> undef, float %1, i32 0
  %3 = call float @llvm.R600.load.input(i32 5)
  %4 = insertelement <4 x float> %2, float %3, i32 1
  %5 = call float @llvm.R600.load.input(i32 6)
  %6 = insertelement <4 x float> %4, float %5, i32 2
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = insertelement <4 x float> %6, float %7, i32 3
  %9 = shufflevector <4 x float> undef, <4 x float> %8, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %10 = shufflevector <4 x float> %8, <4 x float> %8, <2 x i32> <i32 0, i32 1>
  %11 = shufflevector <2 x float> %10, <2 x float> %10, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %12 = shufflevector <4 x float> undef, <4 x float> %11, <4 x i32> <i32 4, i32 5, i32 2, i32 3>
  %13 = fsub <2 x float> zeroinitializer, %10
  %14 = shufflevector <2 x float> %13, <2 x float> %13, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %15 = shufflevector <4 x float> %12, <4 x float> %14, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
  %16 = shufflevector <4 x float> undef, <4 x float> %15, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %17 = extractelement <4 x float> %16, i32 0
  call void @llvm.AMDGPU.store.output(float %17, i32 8)
  %18 = extractelement <4 x float> %16, i32 1
  call void @llvm.AMDGPU.store.output(float %18, i32 9)
  %19 = extractelement <4 x float> %16, i32 2
  call void @llvm.AMDGPU.store.output(float %19, i32 10)
  %20 = extractelement <4 x float> %16, i32 3
  call void @llvm.AMDGPU.store.output(float %20, i32 11)
  %21 = extractelement <4 x float> %9, i32 0
  call void @llvm.AMDGPU.store.output(float %21, i32 4)
  %22 = extractelement <4 x float> %9, i32 1
  call void @llvm.AMDGPU.store.output(float %22, i32 5)
  %23 = extractelement <4 x float> %9, i32 2
  call void @llvm.AMDGPU.store.output(float %23, i32 6)
  %24 = extractelement <4 x float> %9, i32 3
  call void @llvm.AMDGPU.store.output(float %24, i32 7)
  ret void
}
*** IR Dump Before Module Verifier ***
define void @main() {
  call void @llvm.AMDGPU.reserve.reg(i32 0)
  call void @llvm.AMDGPU.reserve.reg(i32 1)
  call void @llvm.AMDGPU.reserve.reg(i32 2)
  call void @llvm.AMDGPU.reserve.reg(i32 3)
  %1 = call float @llvm.R600.load.input(i32 4)
  %2 = insertelement <4 x float> undef, float %1, i32 0
  %3 = call float @llvm.R600.load.input(i32 5)
  %4 = insertelement <4 x float> %2, float %3, i32 1
  %5 = call float @llvm.R600.load.input(i32 6)
  %6 = insertelement <4 x float> %4, float %5, i32 2
  %7 = call float @llvm.R600.load.input(i32 7)
  %8 = insertelement <4 x float> %6, float %7, i32 3
  %9 = shufflevector <4 x float> undef, <4 x float> %8, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %10 = shufflevector <4 x float> %8, <4 x float> %8, <2 x i32> <i32 0, i32 1>
  %11 = shufflevector <2 x float> %10, <2 x float> %10, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %12 = shufflevector <4 x float> undef, <4 x float> %11, <4 x i32> <i32 4, i32 5, i32 2, i32 3>
  %13 = fsub <2 x float> zeroinitializer, %10
  %14 = shufflevector <2 x float> %13, <2 x float> %13, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
  %15 = shufflevector <4 x float> %12, <4 x float> %14, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
  %16 = shufflevector <4 x float> undef, <4 x float> %15, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
  %17 = extractelement <4 x float> %16, i32 0
  call void @llvm.AMDGPU.store.output(float %17, i32 8)
  %18 = extractelement <4 x float> %16, i32 1
  call void @llvm.AMDGPU.store.output(float %18, i32 9)
  %19 = extractelement <4 x float> %16, i32 2
  call void @llvm.AMDGPU.store.output(float %19, i32 10)
  %20 = extractelement <4 x float> %16, i32 3
  call void @llvm.AMDGPU.store.output(float %20, i32 11)
  %21 = extractelement <4 x float> %9, i32 0
  call void @llvm.AMDGPU.store.output(float %21, i32 4)
  %22 = extractelement <4 x float> %9, i32 1
  call void @llvm.AMDGPU.store.output(float %22, i32 5)
  %23 = extractelement <4 x float> %9, i32 2
  call void @llvm.AMDGPU.store.output(float %23, i32 6)
  %24 = extractelement <4 x float> %9, i32 3
  call void @llvm.AMDGPU.store.output(float %24, i32 7)
  ret void
}
# *** IR Dump Before Expand ISel Pseudo-instructions ***:
# Machine code for function main: SSA
Function Live Ins: %T1_W in %vreg0, %T1_Z in %vreg1, %T1_Y in %vreg2, %T1_X in %vreg3
Function Live Outs: %T1_W %T1_Z %T1_Y %T1_X %T2_W %T2_Z %T2_Y %T2_X

BB#0: derived from LLVM BB %0
    Live Ins: %T1_W %T1_Z %T1_Y %T1_X
%vreg3<def> = COPY %T1_X; R600_TReg32:%vreg3
%vreg2<def> = COPY %T1_Y; R600_TReg32:%vreg2
%vreg1<def> = COPY %T1_Z; R600_TReg32:%vreg1
%vreg0<def> = COPY %T1_W; R600_TReg32:%vreg0
RESERVE_REG 0
%vreg4<def> = FNEG_R600 %vreg3; R600_Reg32:%vreg4 R600_TReg32:%vreg3
%vreg5<def> = MOV_IMM_F32 0.000000e+00; R600_Reg32:%vreg5
%vreg6<def> = ADD 0, 0, 1, 0, 0, 0, %vreg4<kill>, 0, 0, 0, %vreg5, 0, 0, 0, 1, pred:%PRED_SEL_OFF, 0; R600_Reg32:%vreg6,%vreg4,%vreg5
%vreg7<def> = FNEG_R600 %vreg2; R600_Reg32:%vreg7 R600_TReg32:%vreg2
%vreg8<def> = ADD 0, 0, 1, 0, 0, 0, %vreg7<kill>, 0, 0, 0, %vreg5, 0, 0, 0, 1, pred:%PRED_SEL_OFF, 0; R600_Reg32:%vreg8,%vreg7,%vreg5
%vreg10<def> = IMPLICIT_DEF; R600_Reg128:%vreg10
%vreg9<def,tied1> = INSERT_SUBREG %vreg10<tied0>, %vreg6<kill>, sel_x; R600_Reg128:%vreg9,%vreg10 R600_Reg32:%vreg6
RESERVE_REG 1
RESERVE_REG 2
%vreg11<def,tied1> = INSERT_SUBREG %vreg9<tied0>, %vreg8<kill>, sel_y; R600_Reg128:%vreg11,%vreg9 R600_Reg32:%vreg8
%vreg13<def> = IMPLICIT_DEF; R600_Reg32:%vreg13
%vreg12<def,tied1> = INSERT_SUBREG %vreg11<tied0>, %vreg13, sel_z; R600_Reg128:%vreg12,%vreg11 R600_Reg32:%vreg13
RESERVE_REG 3
%vreg15<def> = IMPLICIT_DEF; R600_Reg32:%vreg15
%vreg14<def,tied1> = INSERT_SUBREG %vreg12<tied0>, %vreg15, sel_w; R600_Reg128:%vreg14,%vreg12 R600_Reg32:%vreg15
%T2_X<def> = COPY %vreg3; R600_TReg32:%vreg3
%vreg16<def> = COPY %vreg14:sel_x; R600_Reg32:%vreg16 R600_Reg128:%vreg14
%T2_Y<def> = COPY %vreg2; R600_TReg32:%vreg2
%vreg17<def> = COPY %vreg14:sel_y; R600_Reg32:%vreg17 R600_Reg128:%vreg14
%T2_Z<def> = COPY %vreg16; R600_Reg32:%vreg16
%T2_W<def> = COPY %vreg17; R600_Reg32:%vreg17
%T1_X<def> = COPY %vreg3; R600_TReg32:%vreg3
%T1_Y<def> = COPY %vreg2; R600_TReg32:%vreg2
%T1_Z<def> = COPY %vreg1; R600_TReg32:%vreg1
%T1_W<def> = COPY %vreg0; R600_TReg32:%vreg0
RETURN