<div dir="ltr">Okay.  I think for the time being, the XFAIL makes sense.  Per my previous email, though, I think we should move away from unexpected success (XPASS) being a "sometimes meaningful, sometimes meaningless" signal.  For almost all cases, an unexpected success is an actionable signal.  I don't want it to become the warning that everybody lives without fixing, and then it hides a real issue when one surfaces.<div><br></div><div>Thanks for explaining what I was seeing!</div><div><br></div><div>-Todd</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Mon, Oct 19, 2015 at 6:49 AM, Pavel Labath <span dir="ltr"><<a href="mailto:labath@google.com" target="_blank">labath@google.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I have created this test to reproduce a race condition in<br>
ProcessGDBRemote. Given that it tests a race condition, it cannot be<br>
failing 100% of the time, but I agree with Tamas that we should keep<br>
it as XFAIL to avoid noise in the buildbots.<br>
<br>
pl<br>
<br>
On 19 October 2015 at 12:30, Tamas Berghammer via lldb-dev<br>
<div><div class="h5"><<a href="mailto:lldb-dev@lists.llvm.org">lldb-dev@lists.llvm.org</a>> wrote:<br>
> The expected flakey works a bit differently then you are described:<br>
> * Run the tests<br>
> * If it passes, it goes as a successful test and we are done<br>
> * Run the test again<br>
> * If it is passes the 2nd time then record it as expected failure (IMO<br>
> expected falkey would be a better result, but we don't have that category)<br>
> * If it fails 2 times in a row then record it as a failure because a flakey<br>
> test should pass at least once in every 2 run (it means we need ~95% success<br>
> rate to keep the build bot green in most of the time). If it isn't passing<br>
> often enough for that then it should be marked as expected failure. This is<br>
> done this way to detect the case when a flakey test get broken completely by<br>
> a new change.<br>
><br>
> I checked some states for TestRaise on the build bot and in the current<br>
> definition of expected flakey we shouldn't mark it as flakey because it will<br>
> often fail 2 times in a row (it passing rate is ~50%) what will be reported<br>
> as a failure making the build bot red.<br>
><br>
> I will send you the full stats from the lass 100 build in a separate off<br>
> list mail as it is a too big for the mailing list. If somebody else is<br>
> interested in it then let me know.<br>
><br>
> Tamas<br>
><br>
> On Sun, Oct 18, 2015 at 2:18 AM Todd Fiala <<a href="mailto:todd.fiala@gmail.com">todd.fiala@gmail.com</a>> wrote:<br>
>><br>
>> Nope, no good either when I limit the flakey to DWO.<br>
>><br>
>> So perhaps I don't understand how the flakey marking works.  I thought it<br>
>> meant:<br>
>> * run the test.<br>
>> * If it passes, it goes as a successful test.  Then we're done.<br>
>> * run the test again.<br>
>> * If it passes, then we're done and mark it a successful test.  If it<br>
>> fails, then mark it an expected failure.<br>
>><br>
>> But that's definitely not the behavior I'm seeing, as a flakey marking in<br>
>> the above scheme should never produce a failing test.<br>
>><br>
>> I'll have to revisit the flakey test marking to see what it's really doing<br>
>> since my understanding is clearly flawed!<br>
>><br>
>> On Sat, Oct 17, 2015 at 5:57 PM, Todd Fiala <<a href="mailto:todd.fiala@gmail.com">todd.fiala@gmail.com</a>> wrote:<br>
>>><br>
>>> Hmm, the flakey behavior may be specific to dwo.  Testing it locally as<br>
>>> unconditionally flaky on Linux is failing on dwarf.  All the ones I see<br>
>>> succeed are dwo.  I wouldn't expect a diff there but that seems to be the<br>
>>> case.<br>
>>><br>
>>> So, the request still stands but I won't be surprised if we find that dwo<br>
>>> sometimes passes while dwarf doesn't (or at least not enough to get through<br>
>>> the flakey setting).<br>
>>><br>
>>> On Sat, Oct 17, 2015 at 4:57 PM, Todd Fiala <<a href="mailto:todd.fiala@gmail.com">todd.fiala@gmail.com</a>> wrote:<br>
>>>><br>
>>>> Hi Tamas,<br>
>>>><br>
>>>> I think you grabbed me stats on failing tests in the past.  Can you dig<br>
>>>> up the failure rate for TestRaise.py's test_restart_bug() variants on Ubuntu<br>
>>>> 14.04 x86_64?  I'd like to mark it as flaky on Linux, since it is passing<br>
>>>> most of the time over here.  But I want to see if that's valid across all<br>
>>>> Ubuntu 14.04 x86_64.  (If it is passing some of the time, I'd prefer marking<br>
>>>> it flakey so that we don't see unexpected successes).<br>
>>>><br>
>>>> Thanks!<br>
>>>><br>
>>>> --<br>
>>>> -Todd<br>
>>><br>
>>><br>
>>><br>
>>><br>
>>> --<br>
>>> -Todd<br>
>><br>
>><br>
>><br>
>><br>
>> --<br>
>> -Todd<br>
><br>
><br>
</div></div>> _______________________________________________<br>
> lldb-dev mailing list<br>
> <a href="mailto:lldb-dev@lists.llvm.org">lldb-dev@lists.llvm.org</a><br>
> <a href="http://lists.llvm.org/cgi-bin/mailman/listinfo/lldb-dev" rel="noreferrer" target="_blank">http://lists.llvm.org/cgi-bin/mailman/listinfo/lldb-dev</a><br>
><br>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature"><div dir="ltr">-Todd</div></div>
</div>