<p><br>
On Jun 30, 2013 8:12 PM, "Anton Korobeynikov" <<a href="mailto:anton@korobeynikov.info">anton@korobeynikov.info</a>> wrote:<br>
><br>
> > Getting 10 samples at different commits will give you similar accuracy if<br>
> > behaviour doesn't change, and you can rely on 10-point blocks before and > after each change to have the same result.<br>
> Right. But this way you will have 10-commits delay. So, you will need<br>
> 3-4 additional test runs to pinpoint the offending commit in the worst<br>
> case.<br>
><br>
> > This is why I proposed something like moving averages.<br>
> Moving average will "smooth" the result. So, only really big changes<br>
> will be caught by it.<br>
></p>
<p>Like any result in statistics, the result should be quoted together with a +/- figure derived from the statistical method used. Generally, low sample size means high +/-.</p>
<p>Another option is to take a deterministic approach to measurement. The code should executive the same cpu  instructions every time it is run, so some method to measure just these instructions should be attempted. Maybe processing qemu logs when llvm is run inside qemu might give a possible solution?</p>

<p>James </p>