<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Sep 11, 2015 at 5:34 PM, Duncan P. N. Exon Smith <span dir="ltr"><<a href="mailto:dexonsmith@apple.com" target="_blank">dexonsmith@apple.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex"><span class=""><br>
> On 2015-Sep-10, at 14:15, Xinliang David Li <<a href="mailto:davidxl@google.com">davidxl@google.com</a>> wrote:<br>
><br>
> Cong,  It is more common to use power of 2 as the scaling factor in<br>
> fixed point representation for computation efficiency.  For 32bit<br>
> width, 0x80000000 is common (noted as Q31).  Here are the benefits<br>
><br>
> 1) it is much faster to do the scale operation with Q31 -- instead of<br>
> using the current slow version of scale, it can call a faster version<br>
> to be introduced.<br>
><br>
> This will probably help resolve bug<br>
> <a href="https://llvm.org/bugs/show_bug.cgi?id=24620" rel="noreferrer" target="_blank">https://llvm.org/bugs/show_bug.cgi?id=24620</a> where 20% of the time is<br>
> spent in the slow version of the scale method.<br>
<br>
</span>Is there a way to speed up scaling with UINT32_MAX?  I suspect so, but<br>
haven't worked it out.  (E.g., you could scale to UINT64_C(1) << 32 and<br>
ignore the first dither; if there's no dithering, subtract 1 from the<br>
last.)<br></blockquote><div><br></div><div>The slowdown does not come from scaling  that forms the fixed point value, but from:</div><div> </div><div>static uint64_t scale(uint64_t Num, uint32_t N, uint32_t D) {<br></div><div>  ....</div><div>}</div><div><br></div><div>where the main contributor is the DIV/REM operations used in this method.</div><div><br></div><div>My profiling data shows that if DIV/REM operations are  replaced with shift/bitwise_and operation (when D is power of 2), the runtime of the method can be sped up by 6X.</div><div><br></div><div>If D is UINT32_MAX and if the constant value is actually exposed to the compiler (manually or through const prop and cloning which is done by GCC, not Clang), the instructor selector will convert the DIV/REM into IMUL and SHR, which can also get lots of speedup, but compared with the power of 2 case, this version of 'scale' is still 1.6X slower.</div><div><br></div><div>In other words, in terms of computation efficiency, Power of 2 Denominator has huge advantage, the implementation of Scale is also more readable.</div><div><br></div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<span class=""><br>
> 2) it allows negative fractional number to be represented<br>
<br>
</span>Not relevant for probabilities, though.<br>
<span class=""><br>
> 3) it is more precise for lots of common cases. For instance,<br>
> representation of 0.5, 0.25, 0.75 (i.e. 1/2, 1/4, 3/4) etc are<br>
> actually lossless with Q31 while the current choice of using<br>
> uint32_max can not represent them precisely.<br>
<br>
</span>It's less precise for lots of common cases, too.  2^32's only prime<br>
factor is 2, but 2^32-1 has 3, 5, 17, etc.<br>
<br>
This argument seems weak either way.<br></blockquote><div><br></div><div>I have done some experiments to compare the precision of two choices.  Here is how the experiment is set up:</div><div><br></div><div>1) first collect a set of unique fractional numbers N/D, where D increases from 2 to 100, and N increases from 1 to D-1. Skip N/D if GCD(D,N) is not 1.  The total number of ratios is 3403.<br></div><div><br></div><div>2) </div><div>     for any each value V in set [100, 1000000]</div><div>        for each (N,D) pair collected in 1) </div><div>             2.1) compute the reference scaled value for V</div><div>                 scale_val_ref =  scale(V, N, D)</div><div>             2.2)  compute the fixed point rep for N/D: </div><div>                  FixedPoint<SF> fp (N, D);</div><div>             2.3) compute scaled value  for V:</div><div>                  scale_val = scale(V, fp.N, SF)</div><div><br></div><div>             2.4) compare scale_val and scale_val_ref and collect statistics</div><div><br></div><div>In the above code, SF = 0x80000000 and UINT32_MAX</div><div>                  </div><div>In step 2.2) above, there are total ~3.4 billion scaled value computed. The experiment will collect the total number of scaling operations where scale_val != scale_val_ref for each SF. The max diff of scale_val, and scal_val_ref is also recorded.</div><div><br></div><div>Here is the result. In both cases, the max diff is 1.</div><div>When SF = 0x80000000, there are about 0.88% of total scaling operations that produce different result from the reference value;</div><div>When SF = UINT32_MAX, there are about 0.93% of total scaling results that differ from the references.</div><div><br></div><div>In short, the difference between the above two cases is 0.05%</div><div><br></div><div>Given the small precision difference, I tend to believe 0x80000000 is slightly better (given its efficiency and simplicity for div/rem ops).   </div><div><br></div><div>Regarding debugging print, you mentioned using 0xffffffff as denominator is easier to track. Is there a reason for that? I find large numbers are equally hard to track mentally.</div><div><br></div><div>thanks,</div><div><br></div><div>David</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left-width:1px;border-left-color:rgb(204,204,204);border-left-style:solid;padding-left:1ex">
<span class=""><br>
><br>
> (if needed in the future, we can also extend this to be a template<br>
> class where number of bits in the scaling factor is a template<br>
> parameter to support values > 1<br>
>   template <int bits> class FixedPoint {<br>
>     static const int ScalingFactor = 1 << bits;<br>
> };<br>
> )<br>
<br>
</span>Sure, applies to either.<br>
<span class=""><br>
><br>
> In the IR dump, I find it is easier to read<br>
> 1) percentage,<br>
> 2) M/N form when N is less than 10.<br>
<br>
</span>I think we should always print (and check) for a percentage, but if you're<br>
debugging something, you need to see exactly what's in memory, and the<br>
hex is precise and easy to reason about.<br>
<span class=""><br>
><br>
> Current dump of 0x10ffff/0xffffffff form is hard to read -- can then<br>
> be simplified to make the denominator < 10?<br>
><br>
><br>
> Duncan, what is your opinion?<br>
<br>
</span>If I'm going to be tracking down some bug by looking at DEBUG prints, I<br>
suspect I'll find 0xffffffff easier to reason about than 0x80000000.  So<br>
if we can keep UINT32_MAX, I'd prefer that.<br>
<div class=""><div class="h5"><br>
><br>
> thanks,<br>
><br>
> David<br>
><br>
><br>
><br>
><br>
><br>
> On Thu, Sep 10, 2015 at 12:21 PM, Cong Hou <<a href="mailto:congh@google.com">congh@google.com</a>> wrote:<br>
>> congh updated this revision to Diff 34474.<br>
>> congh added a comment.<br>
>><br>
>> Update the patch by fixing block frequency / branch probability unit tests failures.<br>
>><br>
>> I am not sure if this is the right way to update the unit tests. The fixed-point representation has precision issues comparing to the previous rational representation and that is why we need to update the comparison right answers in unit tests.<br>
>><br>
>><br>
>> <a href="http://reviews.llvm.org/D12603" rel="noreferrer" target="_blank">http://reviews.llvm.org/D12603</a><br>
>><br>
>> Files:<br>
>>  include/llvm/Analysis/BlockFrequencyInfoImpl.h<br>
>>  include/llvm/Support/BranchProbability.h<br>
>>  lib/Support/BranchProbability.cpp<br>
>>  lib/Target/ARM/ARMBaseInstrInfo.cpp<br>
>>  test/Analysis/BlockFrequencyInfo/basic.ll<br>
>>  test/Analysis/BlockFrequencyInfo/loops_with_profile_info.ll<br>
>>  test/Analysis/BranchProbabilityInfo/basic.ll<br>
>>  test/Analysis/BranchProbabilityInfo/loop.ll<br>
>>  test/Analysis/BranchProbabilityInfo/noreturn.ll<br>
>>  test/Analysis/BranchProbabilityInfo/pr18705.ll<br>
>>  test/Analysis/BranchProbabilityInfo/pr22718.ll<br>
>>  test/CodeGen/AArch64/fast-isel-branch-cond-split.ll<br>
>>  test/CodeGen/ARM/2013-10-11-select-stalls.ll<br>
>>  test/CodeGen/ARM/ifcvt4.ll<br>
>>  test/CodeGen/ARM/sjlj-prepare-critical-edge.ll<br>
>>  test/CodeGen/ARM/tail-merge-branch-weight.ll<br>
>>  test/CodeGen/ARM/test-sharedidx.ll<br>
>>  test/CodeGen/Thumb2/thumb2-ifcvt1.ll<br>
>>  test/Transforms/SampleProfile/branch.ll<br>
>>  test/Transforms/SampleProfile/calls.ll<br>
>>  test/Transforms/SampleProfile/discriminator.ll<br>
>>  test/Transforms/SampleProfile/fnptr.ll<br>
>>  test/Transforms/SampleProfile/propagate.ll<br>
>>  unittests/Support/BlockFrequencyTest.cpp<br>
>>  unittests/Support/BranchProbabilityTest.cpp<br>
>><br>
<br>
</div></div></blockquote></div><br></div></div>