<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta name="Generator" content="Microsoft Word 15 (filtered medium)">
<style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoPlainText, li.MsoPlainText, div.MsoPlainText
        {mso-style-priority:99;
        mso-style-link:"Plain Text Char";
        margin:0in;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
span.PlainTextChar
        {mso-style-name:"Plain Text Char";
        mso-style-priority:99;
        mso-style-link:"Plain Text";
        font-family:"Calibri",sans-serif;}
.MsoChpDefault
        {mso-style-type:export-only;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang="EN-US" link="#0563C1" vlink="#954F72" style="word-wrap:break-word">
<div class="WordSection1">
<p class="MsoPlainText">Renato Golin made some comments in Bugzilla that I'd like to copy here because I think they further the discussion:<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText" style="margin-left:.5in">==========================<o:p></o:p></p>
<p class="MsoPlainText" style="margin-left:.5in"><o:p> </o:p></p>
<p class="MsoPlainText" style="margin-left:.5in">Image processing software can generate large binary outputs, that's why we hash the results and compare them. Of course, comparing as FP numbers is non-sense.<o:p></o:p></p>
<p class="MsoPlainText" style="margin-left:.5in"><o:p> </o:p></p>
<p class="MsoPlainText" style="margin-left:.5in">In the past, when I was looking at FP regressions in image processing tests, I had to change the test to dump the actual result and compare it pixel by pixel. What I found is that in some cases the precision
 changed the colours slightly in some edge cases, but the images "looked" the same.<o:p></o:p></p>
<p class="MsoPlainText" style="margin-left:.5in"><o:p> </o:p></p>
<p class="MsoPlainText" style="margin-left:.5in">This is expected when changing the precision of a multi-pass function on a large matrix, so I'm not surprised this one changes the result.<o:p></o:p></p>
<p class="MsoPlainText" style="margin-left:.5in"><o:p> </o:p></p>
<p class="MsoPlainText" style="margin-left:.5in">For the title of this bug, yes, hash results shouldn't be compared with fpcmp. This is a simple, but perhaps monotonous, mechanical change.<o:p></o:p></p>
<p class="MsoPlainText" style="margin-left:.5in"><o:p> </o:p></p>
<p class="MsoPlainText" style="margin-left:.5in">I'm more interested why the test failed and which platform this was. If the failure was due to the change in fp-contract, then we may have a harder time to fix.<o:p></o:p></p>
<p class="MsoPlainText" style="margin-left:.5in"><o:p> </o:p></p>
<p class="MsoPlainText" style="margin-left:.5in">For the record, here's a few things I did to fix FP imprecision in the past:<o:p></o:p></p>
<p class="MsoPlainText" style="margin-left:.5in"><o:p> </o:p></p>
<p class="MsoPlainText" style="margin-left:.5in">* Print less, aggregated, output. This allows intermediate precision differences to be "smoothed out". for example, adding 1.1e-10 to 1e10, instead of 1.2e-10 makes no difference, but if we print the operand,
 they're different.<o:p></o:p></p>
<p class="MsoPlainText" style="margin-left:.5in">* Change standard library implementations. Sometimes, the imprecision is in the C library (across OSs and archs), so having a single naive implementation makes it more stable.<o:p></o:p></p>
<p class="MsoPlainText" style="margin-left:.5in">* Reduce the number of passes, increase the number of iterations. For benchmarks, it doesn't matter the final result, just the speed, but the more you change the same data, the more precision will take an effect
 in the final result, making comparison harder.<o:p></o:p></p>
<p class="MsoPlainText" style="margin-left:.5in"><o:p> </o:p></p>
<p class="MsoPlainText" style="margin-left:.5in">Hope this helps.<o:p></o:p></p>
<p class="MsoPlainText" style="margin-left:.5in"><o:p> </o:p></p>
<p class="MsoPlainText" style="margin-left:.5in">==========================<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">Adding my own response to this…<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">I don't agree that the result doesn't matter for benchmarks. It seems that the benchmarks are some of the best tests we have for exercising optimizations like this and if the result is wrong by a wide enough margin that could indicate
 a problem. But I understand Renato’s point that the performance measurement is the primary purpose of the benchmarks, and some numeric differences should be acceptable.<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">The test that I mentioned in Bugzilla was Microbenchmarks/ImageProcessing/Blur. It was indeed failing because of fp-contract. I compared the non-hashed results with fp-contract=on to the non-hashed results with fp-contract=off, and found
 that in approximately 4MB of text data, there were four 8-bit integer values (pixels?) that were off by one. This is obviously acceptable, but the question is how do we make that obvious to a script?<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">In the previous discussion of this issue, Sebastian Pop proposed having the program run twice -- once with "precise" FP results, and once with the optimizations being tested. For the Blur test, the floating point results are only intermediate
 and the final (printed) results are a matrix of 8-bit integers. I’m not sure what would constitute an acceptable result for this program. For any given value, an off-by-one result seems acceptable, but if there are too many off-by-one values that would probably
 indicate a problem. In the Polybench tests, Sebastian modified the tests to do a comparison within the test itself. I don’t know if that’s practical for Blur or if it would be better to have two runs and use a custom comparison tool.<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">This is, of course, a difficult problem. Ideally, I'd like to be able to run the test suite with various fp-contract and fast-math settings to measure performance and have the tests pass if the optimizations are working correctly and
 fail if they aren’t. The decision of acceptable variance may be different from test to test, and some algorithms just might not work at all with fast-math enabled. Again, this raises the issues of test ownership and which tests are still considered valuable.<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">-Andy<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">-----Original Message-----<br>
From: llvm-dev <llvm-dev-bounces@lists.llvm.org> On Behalf Of Kaylor, Andrew via llvm-dev<br>
Sent: Thursday, June 24, 2021 11:05 AM<br>
To: Michael Kruse <llvmdev@meinersbur.de><br>
Cc: llvm-dev@lists.llvm.org<br>
Subject: Re: [llvm-dev] Floating point variance in the test suite</p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">> fpcmp is always used to compare program output, even with not
<o:p></o:p></p>
<p class="MsoPlainText">> tolerance specified<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">Are you saying fpcmp is used even when the test produces integer or non-numeric output that has to be compared?<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">-----Original Message-----<o:p></o:p></p>
<p class="MsoPlainText">From: Michael Kruse <<a href="mailto:llvmdev@meinersbur.de"><span style="color:windowtext;text-decoration:none">llvmdev@meinersbur.de</span></a>><o:p></o:p></p>
<p class="MsoPlainText">Sent: Wednesday, June 23, 2021 3:49 PM<o:p></o:p></p>
<p class="MsoPlainText">To: Kaylor, Andrew <<a href="mailto:andrew.kaylor@intel.com"><span style="color:windowtext;text-decoration:none">andrew.kaylor@intel.com</span></a>><o:p></o:p></p>
<p class="MsoPlainText">Cc: <a href="mailto:llvm-dev@lists.llvm.org"><span style="color:windowtext;text-decoration:none">llvm-dev@lists.llvm.org</span></a><o:p></o:p></p>
<p class="MsoPlainText">Subject: Re: [llvm-dev] Floating point variance in the test suite<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">Hi,<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">I would be looking forward to improving the tests. I had to fix the fpcmp program twice already because of how it backtracked to find the beginning of a number. If no tolerance is specified, it should be nearly equal to a binary comparison.
 fpcmp is always used to compare program output, even with not tolerance specified:<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">  if(REFERENCE_OUTPUT)<o:p></o:p></p>
<p class="MsoPlainText">    set(DIFFPROG ${FPCMP})<o:p></o:p></p>
<p class="MsoPlainText">    if(FP_TOLERANCE)<o:p></o:p></p>
<p class="MsoPlainText">      set(DIFFPROG "${DIFFPROG} -r ${FP_TOLERANCE}")<o:p></o:p></p>
<p class="MsoPlainText">    endif()<o:p></o:p></p>
<p class="MsoPlainText">    if(FP_ABSTOLERANCE)<o:p></o:p></p>
<p class="MsoPlainText">      set(DIFFPROG "${DIFFPROG} -a ${FP_ABSTOLERANCE}")<o:p></o:p></p>
<p class="MsoPlainText">    endif()<o:p></o:p></p>
<p class="MsoPlainText">    llvm_test_verify(WORKDIR ${CMAKE_CURRENT_BINARY_DIR}<o:p></o:p></p>
<p class="MsoPlainText">      ${DIFFPROG} %o ${REFERENCE_OUTPUT}<o:p></o:p></p>
<p class="MsoPlainText">    )<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">That is, the only issue should be the misleading message return by fpcmp. I was thinking adding a `-b` for strict binary switch to fpmcp, but I don't think that false positive due to `0` and `0.0` being considered equal being that much
 of a problem.<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">Add me as a reviewer if you are going to fix these.<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">Michael<o:p></o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText"><o:p> </o:p></p>
<p class="MsoPlainText">Am Mi., 23. Juni 2021 um 12:57 Uhr schrieb Kaylor, Andrew via llvm-dev<o:p></o:p></p>
<p class="MsoPlainText"><<a href="mailto:llvm-dev@lists.llvm.org"><span style="color:windowtext;text-decoration:none">llvm-dev@lists.llvm.org</span></a>>:<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> Hi everyone,<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> I’d like to restart an old discussion about how to handle floating point variance in the LLVM test suite. This was brought up years ago by Sebastian Pop (<a href="https://lists.llvm.org/pipermail/llvm-dev/2016-October/105730.html"><span style="color:windowtext;text-decoration:none">https://lists.llvm.org/pipermail/llvm-dev/2016-October/105730.html</span></a>)
 and Sebastian did some work to fix things at that time, but I’ve discovered recently that a lot of things aren’t working the way they are supposed to, and some fundamental problems were never addressed.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> The basic issue is that at least some tests fail if the floating point calculations don’t exactly match the reference results. In 2016, Sebastian attempted to modify the Polybench tests to allow some tolerance, but that attempt was
 not entirely successful. Other tests don’t seem to have a way to handle this. I don’t know how many.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> Melanie Blower has been trying for some time now to commit a change that would make the fp-contract=on the default setting for clang (as the documentation says it is), but this change caused failures in the test suite. Melanie recently
 committed a change (<a href="https://reviews.llvm.org/rT24550c3385e8e3703ed364e1ce20b06de97bbeee"><span style="color:windowtext;text-decoration:none">https://reviews.llvm.org/rT24550c3385e8e3703ed364e1ce20b06de97bbeee</span></a>) which overrides the default
 and sets fp-contract=off for the failing tests, but this is not a good long term solution, as it leaves fp contraction untested (though apparently it has been for quite some time).<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> The test suite attempts to handle floating point tests in several different ways (depending on the test configuration):<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> 1. Tests write floating point results to a text file and the fpcmp utility is used to compare them against reference output. The method allows absolute and relative tolerance to be specified, I think.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> 2. Tests write floating point results to a text file which is then hashed and compared against a reference hash value.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> 3. (Sebastian’s 2016 change) Tests are run with two kernels, one which is compiled with FMA explicitly disabled and one with the test suite configured options. The results of these kernels are compared with a specified tolerance, then
 the FMA-disabled results are written to a text file, hashed and compared to a reference output.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> I’ve discovered a few problems with this.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> First, many of the tests are producing hashed results but using fpcmp to compare the hash values. I created
<a href="https://bugs.llvm.org/show_bug.cgi?id=50818"><span style="color:windowtext;text-decoration:none">https://bugs.llvm.org/show_bug.cgi?id=50818</span></a> to track this problem. I don’t know the configuration well enough to fix it, but it seems like it
 should be a simple problem. If the hash values match, it works (for the wrong reasons). It doesn’t allow any FP tolerance, but that seems to be expected (hashing and FP tolerance cannot be combined in the configuration files). Personally, I don’t like the
 use of hashing with floating point results, so I’d like to get rid of method 2.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> Second, when the third method is used FMA is being disabled using the STDC FP_CONTRACT pragma. Currently, LLVM does not respect this pragma when fp-contract=fast is used. This seems to be accepted behavior, but in my opinion it’s obviously
 wrong. A new setting was added recently for fp-contract=fast-honor-pragmas. I would very much like to see this work the other way -- by default fp-contract=fast should honor the pragmas, and if someone needs a setting that doesn’t that can be added. In any
 event, the relevant information here is that Sebastian’s FMA disabling solution doesn’t work for fp-contract=fast. Both kernels are compiled with FMA enabled, so their results match, but the test fails the hash comparison because the “FMA disabled” kernel
 really had FMA enabled.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> Third, when the third method is used, it’s checking the intermediate results using “FP_ABSTOLERANCE” and in some cases FMA exceeds the tolerance currently configured. For example, in the Polybench symm test I got this output:<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> A[5][911] = 85644607039.746628 and B[5][911] = 85644607039.746643
<o:p></o:p></p>
<p class="MsoPlainText">> differ more than FP_ABSTOLERANCE = 0.000010<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> The difference there looks pretty reasonable to me, but because we’re looking for a minimal absolute difference, the test failed. Incidentally, the test failed with a message that said “fpcmp-target: FP Comparison failed, not a numeric
 difference between '0' and 'b'” because the above output got hashed and compared to a reference hash value using the tool that expected both hash values to be floating point values. The LNT bots don’t even give you this much information though, as far as I
 can tell, they just tell you the test failed. But I digress.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> Finally, a few of the Polybench tests are intending to use the third method above but aren’t actually calling the “strict” kernel so they fail with fp-contract=on.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> So, that’s what I know. There is an additional problem that has never been addressed regarding running the test suite with fast-math enabled.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> Now I suppose I should say what kind of feedback I’m looking for.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> I guess the first thing I want is to find out who is interested in the results and behavior of these tests. I assume there are people who care, but they get touched so infrequently and are in such a bad state that I don’t know if anyone
 is even paying attention beyond trying to keep the bots green. I don’t want to spend a lot of time cleaning up tests that aren’t useful to anyone just because they happen to be in the test suite.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> Beyond that, I’d like to get general feedback on the strategy that we should be adopting in the test suite. In the earlier discussion of this issue, the consensus seemed to be that the problems should be addressed on a case-by-case
 basis, doing the “right thing” for each test. This kind of implies a level of test ownership. I would like input for each test from someone who cares about that test.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> Finally, I’d like to hear some general opinions on whether the tests we have now are useful and sufficient for floating point behavior.<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> Thanks,<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> Andy<o:p></o:p></p>
<p class="MsoPlainText">><o:p> </o:p></p>
<p class="MsoPlainText">> _______________________________________________<o:p></o:p></p>
<p class="MsoPlainText">> LLVM Developers mailing list<o:p></o:p></p>
<p class="MsoPlainText">> <a href="mailto:llvm-dev@lists.llvm.org"><span style="color:windowtext;text-decoration:none">llvm-dev@lists.llvm.org</span></a><o:p></o:p></p>
<p class="MsoPlainText">> <a href="https://lists.llvm.org/cgi-bin/mailman/listinfo/llvm-dev">
<span style="color:windowtext;text-decoration:none">https://lists.llvm.org/cgi-bin/mailman/listinfo/llvm-dev</span></a><o:p></o:p></p>
<p class="MsoPlainText">_______________________________________________<o:p></o:p></p>
<p class="MsoPlainText">LLVM Developers mailing list<o:p></o:p></p>
<p class="MsoPlainText"><a href="mailto:llvm-dev@lists.llvm.org"><span style="color:windowtext;text-decoration:none">llvm-dev@lists.llvm.org</span></a><o:p></o:p></p>
<p class="MsoPlainText"><a href="https://lists.llvm.org/cgi-bin/mailman/listinfo/llvm-dev"><span style="color:windowtext;text-decoration:none">https://lists.llvm.org/cgi-bin/mailman/listinfo/llvm-dev</span></a><o:p></o:p></p>
</div>
</body>
</html>