<div dir="ltr"><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">Hi Tim,</div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small"><br></div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">
I think this scenario is different from table lookup. </div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small"><br></div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">
For table lookup, the intrinsic functions for 64-bit vector list defines a very special semantic, and it is quite different from 128-bit vecor list, so this is why we'd prefer to lower it in front-end to make it implemented with 128-bit vector list by doing packing action.</div>
<div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small"><br></div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">For this ldst_one instruction class, the 64-bit vector list can be very naturally mapped to 128-bit vector list. On one hand, using SUBREG_TO_REG and EXTRACT_SUBREG in table gen don't really make differences from directly generating them with CPP code. On the other hand, we still provide very lower level representation and enough flexibility in IR and SelectionDAG, because the intrinsic like int_arm_neon_vld3lane is very close to instructions, and using the value types attached to it's operands we can easily determine the scope requirement of the lane for instruction ld3 {vt.h - vt3.h}[lane], [xn] (0<=lane<=3 or 0<=lane<=7).</div>
<div class="gmail_extra"><br></div><div class="gmail_extra"><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">Also, I think we already have precedents using the same solution, for example, vset_lane_u8 and vsetq_lane_u8. If you have any more insights, let's discuss more about it. </div>
</div><div class="gmail_extra"><br></div><div class="gmail_extra"><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">Thanks,</div><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small">
-Jiangning</div><br><div class="gmail_quote">2013/11/17 Hao Liu <span dir="ltr"><<a href="mailto:Hao.Liu@arm.com" target="_blank">Hao.Liu@arm.com</a>></span><br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
Hi Tim,<br>
<br>
I'm a little confused about this comment:<br>
<div class="im">================<br>
Comment at: lib/Target/AArch64/AArch64ISelDAGToDAG.cpp:883<br>
@@ +882,3 @@<br>
</div>+                               N->op_begin() + Vec0Idx + NumVecs);  if<br>
<div class="im">+ (is64BitVector)<br>
+    for (unsigned i = 0; i < Regs.size(); i++)<br>
----------------<br>
I tend to think this complexity ought to be handled in the front-end (like the legacy TBL/TBX you did recently): a shufflvector extension before calling  bona fide 128-bit intrinsic.<br>
<br>
<br>
</div>I have implemented in the front-end for vld2_lane. But I'm not sure whether the solution is correct. There are many shufflevectors, because we need to transfer the input from 64bit vector to 128bit, and also transfer the output from 128bit to 64bit.  For vld2_lane, there will be 4 more shufflevectors. And 8 more shufflevectors for vld4_lane.<br>

I haven't completed all the work yet. I just wonder if I implement the solution in a correct way?<br>
If it is correct, I can keep on completing this tomorrow.<br>
<br>
+  case AArch64::BI__builtin_neon_vld2q_lane_v:<br>
+    return EmitARMBuiltinExpr(ARM::BI__builtin_neon_vld2q_lane_v, E);<br>
+  case AArch64::BI__builtin_neon_vld2_lane_v: {<br>
+    Ops[2] = Builder.CreateBitCast(Ops[2], VTy);<br>
+    Ops[3] = Builder.CreateBitCast(Ops[3], VTy);<br>
+    Value *SV, *SV2;<br>
+    // Build a vector containing sequential number like (0, 1, 2, ..., 15)<br>
+    SmallVector<Constant*, 16> Indices, Indices2;<br>
+    for (unsigned i = 0, e = VTy->getNumElements(); i != e; ++i) {<br>
+      Indices.push_back(ConstantInt::get(Int32Ty, 2*i));<br>
+      Indices.push_back(ConstantInt::get(Int32Ty, 2*i+1));<br>
+      Indices2.push_back(ConstantInt::get(Int32Ty, i));<br>
+    }<br>
+    SV = llvm::ConstantVector::get(Indices);<br>
+    SV2 = llvm::ConstantVector::get(Indices2);<br>
+    Value *undef64 = UndefValue::get(VTy);<br>
+    Ops[2] = Builder.CreateShuffleVector(Ops[2], undef64, SV, "lane");<br>
+    Ops[3] = Builder.CreateShuffleVector(Ops[3], undef64, SV, "lane");<br>
+    llvm::VectorType *VTy64 = VTy;<br>
+    VTy = llvm::VectorType::get(VTy->getElementType(), VTy->getNumElements() * 2);<br>
+    Function *F = CGM.getIntrinsic(Intrinsic::arm_neon_vld2lane, VTy);<br>
+    Ops.push_back(Align);<br>
+    Ops[1] = Builder.CreateCall(F, makeArrayRef(Ops).slice(1), "vld2_lane");<br>
+    Value *Val0 = Builder.CreateExtractValue(Ops[1], 0);<br>
+    Value *Val1 = Builder.CreateExtractValue(Ops[1], 1);<br>
+    Value *undef128 = UndefValue::get(VTy);<br>
+    Val0 = Builder.CreateShuffleVector(Val0, undef128, SV2, "lane");<br>
+    Val1 = Builder.CreateShuffleVector(Val1, undef128, SV2, "lane");<br>
+    llvm::StructType *STy = llvm::StructType::get(VTy64, VTy64, NULL);<br>
+    Value *InsVal = Builder.CreateInsertValue(UndefValue::get(STy), Val0, 0);<br>
+    InsVal = Builder.CreateInsertValue(InsVal, Val1, 1);<br>
+    Ty = llvm::PointerType::getUnqual(InsVal->getType());<br>
+    Ops[0] = Builder.CreateBitCast(Ops[0], Ty);<br>
+    return Builder.CreateStore(InsVal, Ops[0]);<br>
+  }<br>
<br><div class="gmail_default" style="font-family:arial,helvetica,sans-serif;font-size:small;display:inline"></div><br></blockquote></div>
</div></div>