<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=us-ascii"><meta name=Generator content="Microsoft Word 15 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:#0563C1;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:#954F72;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri",sans-serif;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link="#0563C1" vlink="#954F72"><div class=WordSection1><p class=MsoNormal>Hi,<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>In the file lib/CodeGen/MachineCombiner.cpp I see that in the function MachineCombiner::preservesCriticalPathLen <br>we try to determine whether the new combined instruction lengthens the critical path or not.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>In order to do this we compute the depth and latency for the current instruction (MUL+ADD) and the alternate instruction (MADD).<o:p></o:p></p><p class=MsoNormal>But we call two different set of APIs for the current and new instructions:<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>For new instruction we use:<o:p></o:p></p><p class=MsoNormal><i>unsigned NewRootDepth = getDepth(InsInstrs, InstrIdxForVirtReg, BlockTrace);<o:p></o:p></i></p><p class=MsoNormal><i>unsigned NewRootLatency = getLatency(Root, NewRoot, BlockTrace);<o:p></o:p></i></p><p class=MsoNormal><i><o:p> </o:p></i></p><p class=MsoNormal>While for the current instruction we use:<o:p></o:p></p><p class=MsoNormal><i>unsigned RootDepth = BlockTrace.getInstrCycles(Root).Depth;<o:p></o:p></i></p><p class=MsoNormal><i>unsigned RootLatency = TSchedModel.computeInstrLatency(Root);<o:p></o:p></i></p><p class=MsoNormal><i><o:p> </o:p></i></p><p class=MsoNormal>This has been introduced in the following commit:<i><o:p></o:p></i></p><p class=MsoNormal><b><i>commit e4fa341dde3c9521b7f11bd53ecdcbeb3f8fcbda<o:p></o:p></i></b></p><p class=MsoNormal><i>Author: Gerolf Hoflehner <ghoflehner@apple.com><o:p></o:p></i></p><p class=MsoNormal><i>Date:   Thu Aug 7 21:40:58 2014 +0000<o:p></o:p></i></p><p class=MsoNormal><i>    MachineCombiner Pass for selecting faster instruction sequence on AArch64<o:p></o:p></i></p><p class=MsoNormal><br>For this example code sequence:<o:p></o:p></p><p class=MsoNormal><i>  %mul = mul nuw nsw i32 %conv2, %conv<o:p></o:p></i></p><p class=MsoNormal><i>  %mul7 = mul nuw nsw i32 %conv6, %conv4<o:p></o:p></i></p><p class=MsoNormal><i>  %add = add nuw nsw i32 %mul7, %mul<o:p></o:p></i></p><p class=MsoNormal><i>  ret i32 %add<o:p></o:p></i></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>We generate the following assembly:<br><i>                mul         w8, w0, w1<o:p></o:p></i></p><p class=MsoNormal><i>                mul         w9, w2, w3<o:p></o:p></i></p><p class=MsoNormal><i>                add         w0, w9, w8<o:p></o:p></i></p><p class=MsoNormal><i>                ret<o:p></o:p></i></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Whereas I expected the MUL+ADD to be combined to MADD otherwise I see degraded performance in several of my tests.<o:p></o:p></p><p class=MsoNormal>Could someone please explain why we use two different APIs to compute depth and latency for the two instructions?<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Thanks,<o:p></o:p></p><p class=MsoNormal>Mandeep<o:p></o:p></p></div></body></html>