<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=us-ascii">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri",sans-serif;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.25in 1.0in 1.25in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-US" link="#0563C1" vlink="#954F72">
<div class="WordSection1">
<p class="MsoNormal">Hi folks, <o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">I have a very simple c code as below:<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">void foo(int* in, int* out)<o:p></o:p></p>
<p class="MsoNormal">{<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">    int  inArray[4], outArray[4];<o:p></o:p></p>
<p class="MsoNormal">    int i;<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">    for(i=0; i<4; i++)<o:p></o:p></p>
<p class="MsoNormal">    {<o:p></o:p></p>
<p class="MsoNormal">      inArray[i] = in[8*i];<o:p></o:p></p>
<p class="MsoNormal">    }<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">    outArray[0] = inArray[0] *  inArray[1] + inArray[2] + inArray[3] + 0;<o:p></o:p></p>
<p class="MsoNormal">    outArray[1] = inArray[0] +  inArray[1] * inArray[2] + inArray[3] + 1;<o:p></o:p></p>
<p class="MsoNormal">    outArray[2] = inArray[0] +  inArray[1] + inArray[2] * inArray[3] + 2;<o:p></o:p></p>
<p class="MsoNormal">    outArray[3] = inArray[0] +  inArray[1] + inArray[2] + inArray[3] * 3;<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">    for (i=0; i<4; i++)<o:p></o:p></p>
<p class="MsoNormal">    {<o:p></o:p></p>
<p class="MsoNormal">      *out++ = outArray[i];<o:p></o:p></p>
<p class="MsoNormal">    }<o:p></o:p></p>
<p class="MsoNormal">}<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">The llvm IR code with O2 option is generated as:<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">define void @foo(i32* nocapture readonly %in, i32* nocapture %out) local_unnamed_addr #0 {<o:p></o:p></p>
<p class="MsoNormal">entry:<o:p></o:p></p>
<p class="MsoNormal">  %outArray = alloca [4 x i32], align 16<o:p></o:p></p>
<p class="MsoNormal">  %0 = bitcast [4 x i32]* %outArray to i8*<o:p></o:p></p>
<p class="MsoNormal">  call void @llvm.lifetime.start.p0i8(i64 16, i8* nonnull %0) #2<o:p></o:p></p>
<p class="MsoNormal">  %1 = load i32, i32* %in, align 4, !tbaa !2<o:p></o:p></p>
<p class="MsoNormal">  %arrayidx.1 = getelementptr inbounds i32, i32* %in, i64 8<o:p></o:p></p>
<p class="MsoNormal">  %2 = load i32, i32* %arrayidx.1, align 4, !tbaa !2<o:p></o:p></p>
<p class="MsoNormal">  %arrayidx.2 = getelementptr inbounds i32, i32* %in, i64 16<o:p></o:p></p>
<p class="MsoNormal">  %3 = load i32, i32* %arrayidx.2, align 4, !tbaa !2<o:p></o:p></p>
<p class="MsoNormal">  %arrayidx.3 = getelementptr inbounds i32, i32* %in, i64 24<o:p></o:p></p>
<p class="MsoNormal">  %4 = load i32, i32* %arrayidx.3, align 4, !tbaa !2<o:p></o:p></p>
<p class="MsoNormal">  %out56 = bitcast i32* %out to i8*<o:p></o:p></p>
<p class="MsoNormal">  %mul5 = mul nsw i32 %2, %1<o:p></o:p></p>
<p class="MsoNormal">  %add = add nsw i32 %mul5, %3<o:p></o:p></p>
<p class="MsoNormal">  %add8 = add nsw i32 %add, %4<o:p></o:p></p>
<p class="MsoNormal">  %arrayidx10 = getelementptr inbounds [4 x i32], [4 x i32]* %outArray, i64 0, i64 0<o:p></o:p></p>
<p class="MsoNormal">  store i32 %add8, i32* %arrayidx10, align 16, !tbaa !2<o:p></o:p></p>
<p class="MsoNormal">  %mul14 = mul nsw i32 %3, %2<o:p></o:p></p>
<p class="MsoNormal">  %add15 = add i32 %1, 1<o:p></o:p></p>
<p class="MsoNormal">  %add17 = add i32 %add15, %mul14<o:p></o:p></p>
<p class="MsoNormal">  %add18 = add i32 %add17, %4<o:p></o:p></p>
<p class="MsoNormal">  %arrayidx19 = getelementptr inbounds [4 x i32], [4 x i32]* %outArray, i64 0, i64 1<o:p></o:p></p>
<p class="MsoNormal">  store i32 %add18, i32* %arrayidx19, align 4, !tbaa !2<o:p></o:p></p>
<p class="MsoNormal">  %add22 = add nsw i32 %2, %1<o:p></o:p></p>
<p class="MsoNormal">  %mul25 = mul nsw i32 %4, %3<o:p></o:p></p>
<p class="MsoNormal">  %add26 = add i32 %add22, 2<o:p></o:p></p>
<p class="MsoNormal">  %add27 = add i32 %add26, %mul25<o:p></o:p></p>
<p class="MsoNormal">  %arrayidx28 = getelementptr inbounds [4 x i32], [4 x i32]* %outArray, i64 0, i64 2<o:p></o:p></p>
<p class="MsoNormal">  store i32 %add27, i32* %arrayidx28, align 8, !tbaa !2<o:p></o:p></p>
<p class="MsoNormal">  %add33 = add nsw i32 %add22, %3<o:p></o:p></p>
<p class="MsoNormal">  %mul35 = mul nsw i32 %4, 3<o:p></o:p></p>
<p class="MsoNormal">  %add36 = add nsw i32 %add33, %mul35<o:p></o:p></p>
<p class="MsoNormal">  %arrayidx37 = getelementptr inbounds [4 x i32], [4 x i32]* %outArray, i64 0, i64 3<o:p></o:p></p>
<p class="MsoNormal">  store i32 %add36, i32* %arrayidx37, align 4, !tbaa !2<o:p></o:p></p>
<p class="MsoNormal">  call void @llvm.memcpy.p0i8.p0i8.i64(i8* %out56, i8* nonnull %0, i64 16, i32 4, i1 false)<o:p></o:p></p>
<p class="MsoNormal">  call void @llvm.lifetime.end.p0i8(i64 16, i8* nonnull %0) #2<o:p></o:p></p>
<p class="MsoNormal">  ret void<o:p></o:p></p>
<p class="MsoNormal">}<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Stack allocation (%outArray = alloca [4 x i32]) is unnecessary and should be optimized for this case. I did some investigation on it and found `loop-idiom` pass transformed
<o:p></o:p></p>
<p class="MsoNormal">    for (i=0; i<4; i++)<o:p></o:p></p>
<p class="MsoNormal">    {<o:p></o:p></p>
<p class="MsoNormal">      *out++ = outArray[i];<o:p></o:p></p>
<p class="MsoNormal">    }<o:p></o:p></p>
<p class="MsoNormal">to memcpy, which blocked further optimization on local array (outArray).<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">I am not sure whether it’s a llvm bug. Manually unroll the 2<sup>nd</sup> loop would bypass this problem, but I prefer to fix it in compiler.<o:p></o:p></p>
<p class="MsoNormal">Any suggestion on potential solution to this issue?<o:p></o:p></p>
<p class="MsoNormal"><o:p> </o:p></p>
<p class="MsoNormal">Thx,<o:p></o:p></p>
<p class="MsoNormal">Wenbo<o:p></o:p></p>
</div>
</body>
</html>