<div dir="ltr"><div>That's kind of my point - it turns load/store into lots of instrucitons, and the suggested solution that I got when I pointed that out was "well, you should use memcpy for large data structures, there is an intrinsic for it". This led to this little function:<br><a href="https://github.com/Leporacanthicus/lacsap/blob/master/expr.cpp#L305">https://github.com/Leporacanthicus/lacsap/blob/master/expr.cpp#L305</a><br></div><div>along with a few other bits and pieces that do similar "if it's big enough, call memcpy".<br></div><div><br></div><div>I'm not sure if the results are better on any other processor architecture - since my home setup consists only of x86-64 machines, I haven't experimented with anything else.<br></div><div><br>--<br></div>Mats<br></div><div class="gmail_extra"><br><div class="gmail_quote">On 17 August 2015 at 22:43, Mehdi Amini <span dir="ltr"><<a href="mailto:mehdi.amini@apple.com" target="_blank">mehdi.amini@apple.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">The instruction selection for X86 turns:<div><br></div><div>define void @P.p1(%1* byval) {<br>entry:<br>  %y = alloca %1, align 8<br>  %1 = load %1, %1* %0<br>  store %1 %1, %1* %y<br>  %valueindex2 = bitcast %1* %y to [8000 x i32]*<br>  %valueindex1 = getelementptr [8000 x i32], [8000 x i32]* %valueindex2, i32 0, i32 1<br>  %2 = load i32, i32* %valueindex1<br>  call void @__write_int(%0* @output, i32 %2, i32 1)<br>  call void @__write_nl(%0* @output)<br>  ret void<br>}<br><br></div><div>into 16014 instructions, it sounds pretty terrible :(</div><div><br></div><div>— </div><span class="HOEnZb"><font color="#888888"><div>Mehdi</div></font></span><div><div class="h5"><div><br></div><div><br><div><blockquote type="cite"><div>On Aug 17, 2015, at 2:35 PM, mats petersson <<a href="mailto:mats@planetcatfish.com" target="_blank">mats@planetcatfish.com</a>> wrote:</div><br><div><div dir="ltr"><div><div><div><div>Even if I turn to -O0 [in other words, no optimisation passes at all], it takes the same amount of time. <br><br></div>The time is spent in <br><br>  12.94%  lacsap   lacsap               [.] llvm::SDNode::use_iterator::operator==<br>   7.68%  lacsap   lacsap               [.] llvm::SDNode::use_iterator::operator*<br>   7.53%  lacsap   lacsap               [.] llvm::SelectionDAG::ReplaceAllUsesOfValueWith<br>   7.28%  lacsap   lacsap               [.] llvm::SDNode::use_iterator::operator++<br>   5.59%  lacsap   lacsap               [.] llvm::SDNode::use_iterator::operator!=<br>   4.65%  lacsap   lacsap               [.] llvm::SDNode::hasNUsesOfValue<br>   3.82%  lacsap   lacsap               [.] llvm::SDUse::getResNo<br>   2.33%  lacsap   lacsap               [.] llvm::SDValue::getResNo<br>   2.19%  lacsap   lacsap               [.] llvm::SDUse::getNext<br>   1.32%  lacsap   lacsap               [.] llvm::SDNode::use_iterator::getUse<br>   1.28%  lacsap   lacsap               [.] llvm::SDUse::getUser<br><br></div><div>Here's the LLVM IR generated:<br></div><a href="https://urldefense.proofpoint.com/v2/url?u=https-3A__gist.github.com_Leporacanthicus_9b662f88e0c4a471e51a&d=BQMFaQ&c=eEvniauFctOgLOKGJOplqw&r=v-ruWq0KCv2O3thJZiK6naxuXK8mQHZUmGq5FBtAmZ4&m=t42BDaUOTxvFWFFyDD5N6v0RTT2Ofi_0iiM2QD_GmsY&s=IvIKLNrYk-LiQRnykH-gcm2FbHLZmPhWP6sHJ4JQ310&e=" target="_blank">https://gist.github.com/Leporacanthicus/9b662f88e0c4a471e51a</a><br><br>And as can be seen here -O0 produces "no passes":<br><a href="https://urldefense.proofpoint.com/v2/url?u=https-3A__github.com_Leporacanthicus_lacsap_blob_master_lacsap.cpp-23L76&d=BQMFaQ&c=eEvniauFctOgLOKGJOplqw&r=v-ruWq0KCv2O3thJZiK6naxuXK8mQHZUmGq5FBtAmZ4&m=t42BDaUOTxvFWFFyDD5N6v0RTT2Ofi_0iiM2QD_GmsY&s=XmgT2qNVAYvxKgoiwtfHU7PmTKQCpJ25a-a0l8ZW6HM&e=" target="_blank">https://github.com/Leporacanthicus/lacsap/blob/master/lacsap.cpp#L76</a><br><br>../lacsap -no-memcpy -tt longcompile.pas  -O0<br>Time for Parse 0.502 ms<br>Time for Analyse 0.015 ms<br>Time for Compile 1.038 ms<br>Time for CreateObject 48134.541 ms<br>Time for CreateBinary 48179.720 ms<br>Time for Compile 48187.351 ms<br><br></div>And before someone says "but you are running a debug build", if I run the "production", it does speed things up quite nicely, about 3x, but still takes 17 seconds vs 45ms with that build of the compiler.<br><br><br>../lacsap -no-memcpy -tt longcompile.pas  -O0<br>Time for Parse 0.937 ms<br>Time for Analyse 0.005 ms<br>Time for Compile 0.559 ms<br>Time for CreateObject 17241.177 ms<br>Time for CreateBinary 17286.701 ms<br>Time for Compile 17289.187 ms<br><br>../lacsap -tt longcompile.pas<br>Time for Parse 0.274 ms<br>Time for Analyse 0.004 ms<br>Time for Compile 0.258 ms<br>Time for CreateObject 7.504 ms<br>Time for CreateBinary 45.405 ms<br>Time for Compile 46.670 ms<br><br></div><div>I believe I know what happens: The compiler is trying to figure out the best order of instructions, and looks at N^2 instructions that are pretty much independently executable with no code or data dependencies. So it iterates over a vast number of possible permutations, only to find that they are all pretty much equally good/bad... But like I said earlier, although I'm a professional software engineer, compilers are just a hobby-project for me, and I only started a little over a year back, so I make no pretense to know the answer. Using memcpy instead solves this problem, as it <br></div></div></div></blockquote><div><br></div><div><br></div><div><br></div><br><blockquote type="cite"><div><div dir="ltr"><div><br></div><div>--<br></div>Mats<br></div><div class="gmail_extra"><br><div class="gmail_quote">On 17 August 2015 at 22:05, Mehdi Amini <span dir="ltr"><<a href="mailto:mehdi.amini@apple.com" target="_blank">mehdi.amini@apple.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">Hi Mats,<div><br></div><div>The performance issue seems like a potential different issue.</div><div>Can you send the input IR in both cases and the list of passes you are running?</div><div><br></div><div>Thanks,</div><div><br></div><div>— </div><span><font color="#888888"><div>Mehdi</div></font></span><div><div><div> <br><div><blockquote type="cite"><div>On Aug 17, 2015, at 2:02 PM, mats petersson <<a href="mailto:mats@planetcatfish.com" target="_blank">mats@planetcatfish.com</a>> wrote:</div><br><div><div dir="ltr"><div><div><div><div><div><div>I've definitely "run into this problem", and I would very much love to remove my kludges [that are incomplete, because I keep finding places where I need to modify the code-gen to "fix" the same problem - this is probably par for the course from a complete amateur compiler writer and someone that has only spent the last 14 months working (as a hobby) with LLVM]. <br><br></div>So whilst I can't contribute much on the "what is the right solution" and "how do we solve this", I would very much like to see something that allows the user of LLVM to use load/store withing things like "is my thing that I'm storing big, if so don't generate a load, use a memcpy instead". Not only does this make the usage of LLVM harder, it also causes slow compilation [perhaps this is a separte problem, but I have a simple program that copies a large struct a few times, and if I turn off my "use memcpy for large things", the compile time gets quite a lot longer - approx 1000x, and 48 seconds is a long time to compile 37 lines of relatively straight forward code - even the Pascal compiler on PDP-11/70 that I used at my school in 1980's was capable of doing more than 1 line per second, and it didn't run anywhere near 2.5GHz and had 20-30 users anytime I could use it...]<br><br>../lacsap -no-memcpy -tt longcompile.pas <br>Time for Parse 0.657 ms<br>Time for Analyse 0.018 ms<br>Time for Compile 1.248 ms<br>Time for CreateObject 48803.263 ms<br>Time for CreateBinary 48847.631 ms<br>Time for Compile 48854.064 ms<br><br></div>compared with:<br>../lacsap -tt longcompile.pas <br>Time for Parse 0.455 ms<br>Time for Analyse 0.013 ms<br>Time for Compile 1.138 ms<br>Time for CreateObject 44.627 ms<br>Time for CreateBinary 82.758 ms<br>Time for Compile 95.797 ms<br><br></div>wc longcompile.pas <br> 37  84 410 longcompile.pas<br><br></div>Source here:<br><a href="https://urldefense.proofpoint.com/v2/url?u=https-3A__github.com_Leporacanthicus_lacsap_blob_master_test_longcompile.pas&d=BQMFaQ&c=eEvniauFctOgLOKGJOplqw&r=v-ruWq0KCv2O3thJZiK6naxuXK8mQHZUmGq5FBtAmZ4&m=UIvJWH1sfAjqtDn-zhUTQftRiaPqHmuoDU98fROzDfg&s=6BM4NTaxZDH8Gd6oekl1GjVZGnKT-5VY6_8gGb61Nkk&e=" target="_blank">https://github.com/Leporacanthicus/lacsap/blob/master/test/longcompile.pas</a><br><br></div><br>--<br></div>Mats<br></div><div class="gmail_extra"><br><div class="gmail_quote">On 17 August 2015 at 21:18, deadal nix via llvm-dev <span dir="ltr"><<a href="mailto:llvm-dev@lists.llvm.org" target="_blank">llvm-dev@lists.llvm.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div><div>OK, what about that plan :<br><br></div>Slice the aggregate into a serie of valid loads/stores for non atomic ones.<br></div>Use big scalar for atomic/volatile ones.<br></div>Try to generate memcpy or memmove when possible ?<br><div><br></div></div><div><div><div class="gmail_extra"><br><div class="gmail_quote">2015-08-17 12:16 GMT-07:00 deadal nix <span dir="ltr"><<a href="mailto:deadalnix@gmail.com" target="_blank">deadalnix@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote"><span>2015-08-17 11:26 GMT-07:00 Mehdi Amini <span dir="ltr"><<a href="mailto:mehdi.amini@apple.com" target="_blank">mehdi.amini@apple.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word">Hi,<div><br><div><span><blockquote type="cite"><div>On Aug 17, 2015, at 12:13 AM, deadal nix via llvm-dev <<a href="mailto:llvm-dev@lists.llvm.org" target="_blank">llvm-dev@lists.llvm.org</a>> wrote:</div><br><div><div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">2015-08-16 23:21 GMT-07:00 David Majnemer <span dir="ltr"><<a href="mailto:david.majnemer@gmail.com" target="_blank">david.majnemer@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote"><span></span><div>Because a solution which doesn't generalize is not a very powerful solution.  What happens when somebody says that they want to use atomics + large aggregate loads and stores? Give them yet another, different answer? That would mean our earlier, less general answer, approach was either a bandaid (bad) or the new answer requires a parallel code path in their frontend (worse).</div></div></div></div></blockquote></div></div></div></div></blockquote><div><br></div><div><br></div></span><div>+1 with David’s approach: making thing incrementally better is fine *as long as* the long term direction is identified. Small incremental changes that makes things slightly better in the short term but drives us away of the long term direction is not good.</div><div><br></div><div>Don’t get me wrong, I’m not saying that the current patch is not good, just that it does not seem clear to me that the long term direction has been identified, which explain why some can be nervous about adding stuff prematurely. </div><div>And I’m not for the status quo, while I can’t judge it definitively myself, I even bugged David last month to look at this revision and try to identify what is really the long term direction and how to make your (and other) frontends’ life easier. </div><span><div><br></div><div><br></div></span></div></div></div></blockquote><div><br></div></span><div>As long as there is something to be done. Concern has been raised for very large aggregate (64K, 1Mb) but there is no way a good codegen can come out of these anyway. I don't know of any machine that have 1Mb of register available to tank the load. Even I we had a good way to handle it in InstCombine, the backend would have no capability to generate something nice for it anyway. Most aggregates are small and there is no good excuse to not do anything to handle them because someone could generate gigantic ones that won't map nicely to the hardware anyway.<br><br></div><div>By that logic, SROA should not exists as one could generate gigantic aggregate as well (in fact, SROA fail pretty badly on large aggregates).<br><br></div><div>The second concern raised is for atomic/volatile, which needs to be handled by the optimizer differently anyway, so is mostly irrelevant here.<br></div></div><span><div class="gmail_quote"><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word"><div><div><span><blockquote type="cite"><div><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><span><div> </div></span></div></div></div></blockquote><br></div><br></div><div class="gmail_extra">clang has many developer behind it, some of them paid to work on it. That s simply not the case for many others.<br><br></div><div class="gmail_extra">But to answer your questions :<br></div><div class="gmail_extra"> - Per field load/store generate more loads/stores than necessary in many cases. These can't be aggregated back because of padding.<br></div><div class="gmail_extra"> - memcpy only work memory to memory. It is certainly usable in some cases, but certainly do not cover all uses.<br></div><div class="gmail_extra"><br></div><div class="gmail_extra">I'm willing to do the memcpy optimization in InstCombine (in fact, things would not degenerate into so much bikescheding, that would already be done).<br></div></div></div></blockquote><div><br></div></span></div></div><div>Calling out “bikescheding” what other devs think is what keeps the quality of the project high is unlikely to help your patch go through, it’s probably quite the opposite actually.</div><div><br></div><div><br></div></div></blockquote><br></div></span>I understand the desire to keep quality high. That's is not where the problem is. The problem lies into discussing actual proposal against hypothetical perfect ones that do not exists.<br></div><div class="gmail_extra"><br></div></div>
</blockquote></div><br></div>
</div></div><br>_______________________________________________<br>
LLVM Developers mailing list<br>
<a href="mailto:llvm-dev@lists.llvm.org" target="_blank">llvm-dev@lists.llvm.org</a>         <a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__llvm.cs.uiuc.edu&d=BQMFaQ&c=eEvniauFctOgLOKGJOplqw&r=v-ruWq0KCv2O3thJZiK6naxuXK8mQHZUmGq5FBtAmZ4&m=UIvJWH1sfAjqtDn-zhUTQftRiaPqHmuoDU98fROzDfg&s=XQPhtYoenE_8aGjkPFg5qwxjM_C1CvJzloFkwo03VbM&e=" rel="noreferrer" target="_blank">http://llvm.cs.uiuc.edu</a><br>
<a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__lists.llvm.org_cgi-2Dbin_mailman_listinfo_llvm-2Ddev&d=BQMFaQ&c=eEvniauFctOgLOKGJOplqw&r=v-ruWq0KCv2O3thJZiK6naxuXK8mQHZUmGq5FBtAmZ4&m=UIvJWH1sfAjqtDn-zhUTQftRiaPqHmuoDU98fROzDfg&s=88-nGhQnI-go7arn8nxF4F1rk-cz3L_uwsFS5FD8kzc&e=" rel="noreferrer" target="_blank">http://lists.llvm.org/cgi-bin/mailman/listinfo/llvm-dev</a><br>
<br></blockquote></div><br></div>
</div></blockquote></div><br></div></div></div></div></blockquote></div><br></div>
</div></blockquote></div><br></div></div></div></div></blockquote></div><br></div>