<div dir="ltr">Consider the following IR example:<div><br></div><div><div>define void @simple([4 x double] *%ptr, i64 %idx) {</div><div>    %stack = alloca [4 x double]</div><div>    %ptri8 = bitcast [4 x double] *%ptr to i8*</div><div>    %stacki8 = bitcast [4 x double] *%stack to i8*</div><div>    call void @llvm.memcpy.p0i8.p0i8.i32(i8 *%stacki8, i8 *%ptri8, i32 32, i32 0, i1 0)</div><div>    %dataptr = getelementptr inbounds [4 x double], [4 x double] *%ptr, i32 0, i64 %idx</div><div>    store double 0.0, double *%dataptr</div><div>    call void @llvm.memcpy.p0i8.p0i8.i32(i8 *%ptri8, i8 *%stacki8, i32 32, i32 0, i1 0)</div><div>    ret void</div><div>}</div></div><div><br></div><div><br></div><div>I would like to see this optimized to just a single store (into %ptr). Right now, even at -O3 that doesn't happen. My frontend guarantees that idx is always inbounds for the allocation, but I do think the transformation should be valid regardless because accessing beyond the bounds of the alloca should be undefined behavior. Now, my question is which pass should be responsible for doing this? SROA? DSE? GVN? A new pass just to do this kind of thing? Maybe there already is some pass that does this, just not in the default pipeline? Any hints would be much appreciated.<br></div><div><br></div><div>Thanks,</div><div>Keno</div></div>