<div dir="ltr">The design is basically to augment the existing frequency data with one 64bit data which is the global hotness of the function entry (e.g. it be the entry execution count). With the execution count available, the BB  count (or global hotness if you will) is simply:<div><br></div><div>  count(BB)  = freq (BB) * count(ENTRY)/freq(ENTRY)</div><div><br></div><div>You can view count(ENTRY) as an extension to the current 'hot'/'cold' attribute</div><div><br></div><div>Note that for IPA, callsite count is obtained from enclosing BB's count.</div><div><br></div><div>David</div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Mar 24, 2015 at 12:53 PM, Chandler Carruth <span dir="ltr"><<a href="mailto:chandlerc@google.com" target="_blank">chandlerc@google.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div class="h5"><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Mar 24, 2015 at 12:50 PM, Xinliang David Li <span dir="ltr"><<a href="mailto:xinliangli@gmail.com" target="_blank">xinliangli@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div>On Tue, Mar 24, 2015 at 12:45 PM, Chandler Carruth <span dir="ltr"><<a href="mailto:chandlerc@google.com" target="_blank">chandlerc@google.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><span><br><div class="gmail_quote">On Tue, Mar 24, 2015 at 11:46 AM, Xinliang David Li <span dir="ltr"><<a href="mailto:xinliangli@gmail.com" target="_blank">xinliangli@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div>On Tue, Mar 24, 2015 at 11:29 AM, Chandler Carruth <span dir="ltr"><<a href="mailto:chandlerc@google.com" target="_blank">chandlerc@google.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_extra">Sorry I haven't responded earlier, but one point here still doesn't make sense to me:</div><span><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Mar 24, 2015 at 10:27 AM, Xinliang David Li <span dir="ltr"><<a href="mailto:davidxl@google.com" target="_blank">davidxl@google.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="overflow:hidden">Diego and I have discussed this according to the feedback received. We<br>
have revised plan for this (see Diego's last reply).  Here is a more<br>
detailed re-cap:<br>
<br>
1) keep MD_prof definition as it is today; also keep using the<br>
frequency propagation as it is (assuming programs with irreducible<br>
loops are not common and not important. If it turns out to be<br>
otherwise, we will revisit this).<br>
2) fix all problems that lead to wrong 'frequency/count' computed from<br>
the frequency propagation algorithm<br>
   2.1) relax 32bit limit</div></blockquote></div><br></div></span><div class="gmail_extra">I still don't understand why this is important or useful.... Maybe I'm just missing something.</div><div class="gmail_extra"><br></div><div class="gmail_extra">Given the current meaning of MD_prof, it seems like the result of limiting this to 32-bits is that the maximum relative ratio of probabilities between two successors of a basic block with N successors is (2 billion / N):1 -- what is the circumstance that makes this resolution insufficient?</div><div class="gmail_extra"><br></div><div class="gmail_extra">It also doesn't seem *bad* per-se, I just don't see what it improves, and it does cost memory...</div></div></blockquote><div><br></div></div></div><div>right -- there is some ambiguity here -- it is needed if we were to change MD_prof's definition to represent branch count.  However, with the new plan, the removal of the limit only applies to the function entry count representation planned. </div></blockquote></div><br></span>Ah, ok, that makes more sense.</div><div class="gmail_extra"><br></div><div class="gmail_extra">I'm still curious, is the ratio of 2 billion : 1 insufficient between the hottest basic block in the inner most loop and the entry block? My intuition is that this ratio encapsulates all the information we could meaningfully make decisions based upon, and I don't have any examples where it falls over, but perhaps you have some examples?</div></div></blockquote><div><br></div></div></div><div>The ratio is not the problem. The problem is that we can no longer effectively differentiate hot functions. 2 billion vs 4 billion will look the same with the small capping.</div></blockquote></div><br></div></div></div><div class="gmail_extra">The current design for the entry frequency is that it should be interpreted relative to the global hotness of the function. Today, we only have attributes "hot" and "cold" which are terrible models of this, but if you imagine having a function-level metadata signifying the detailed function profile weight, then you could interpret the basic block frequencies between two functions only after normalizing with these function-level weights.</div><div class="gmail_extra"><br></div><div class="gmail_extra">Does that make sense?</div><div class="gmail_extra"><br></div><div class="gmail_extra">(Note, I'm not actually saying that I think this is necessarily the right design, just that I believe it is the intent of the current design, and if it is flawed I think that flaw hasn't yet been effectively shown.)</div></div>
</blockquote></div><br></div>