<div>Hello,</div><div> </div><div>Just minor comment.</div><div> </div><blockquote><div>* Improve uniformity/divergence analysis  ----- Uniformity in innermost loop vectorization is<br />   invariance. For outer loop vectorization, there are uniform values that are not invariant.</div></blockquote><div> </div><div>I believe that uniformity/divergence analysis is one of key technologies for efficient vectorization, so I appreciate you bringing this up and looking forward to extensive and comprehensive framework here.</div><div> </div><div>In fact there is uniformity in inner loop vectorization that is not invariance. Expressions like a[i/16] are uniform under certain conditions (namely i starts with 0 mod min(VL, 16), and 16 % VL == 0) while not invariant. It is unfortunate for many media codes operating on blocks that loop vectorizer (at least in my experience) cannot detect and harness this uniformity. I may even try to look into improving this if someone give me pointers where to start.</div><div> </div><div>Regards,</div><div>Serge Preis</div><div> </div><div> </div><div> </div><div>06.12.2017, 07:22, "Saito, Hideki via llvm-dev" <llvm-dev@lists.llvm.org>:</div><blockquote type="cite"><p><br />Status Update on VPlan ---- where we are currently, and what's ahead of us<br />==========================================================<br /> <br />Goal:<br />-----<br />Extending Loop Vectorizer (LV) such that it can handle outer loops, via uplifting its infrastructure with VPlan.<br />The goal of this status update is to summarize the progress and the future steps needed.<br /> <br />Background:<br />-----------<br />This is related to the VPlan infrastructure project we started a while back, a project to extend the (inner loop vectorization focused) Loop Vectorizer to support outer loop vectorization. VPlan is the vectorization planner that records the decisions and candidate directions to pursue in order to drive cost modeling and vector code generation. When it is fully integrated into LV (i.e., at the end of this big project), VPlan will use a Hierarchical-CFG (HCFG) and transform it starting from the abstraction of the input IR to reflect current vectorization decisions being made. The HCFG eventually becomes the abstraction of the output IR, and the vector code generation is driven by this abstract representation.<br /> <br />Please refer to the following for more detailed background:<br /> <br />RFCs<br />       <a href="http://lists.llvm.org/pipermail/llvm-dev/2016-September/105057.html">http://lists.llvm.org/pipermail/llvm-dev/2016-September/105057.html</a> (Extending LV to vectorize outerloops)<br />       <a href="http://lists.llvm.org/pipermail/llvm-dev/2017-February/110159.html">http://lists.llvm.org/pipermail/llvm-dev/2017-February/110159.html</a>  (Introducing VPlan to model the vectorized code and drive its transformation)<br /> <br />"Extending LoopVectorizer: OpenMP4.5 SIMD and Outer Loop Auto-Vectorization"  (Saito, et.al.)<br />2016 LLVM Developers' Meeting<br /><span>https://www.youtube.com/watch?v=XXAvdUwO7kQ</span><br /> <br />"Introducing VPlan to the LoopVectorizer"     (Rapaport and Zaks)<br />2017 EuroLLVM Developers' Meeting<br /><span>https://www.youtube.com/watch?v=IqzJRs6tb7Y</span><br />"Vectorizing Loops with VPlan - Current State and Next Steps"   (Zaks and Rapaport)<br />2017 LLVM Developers' Meeting<br /><span>https://www.youtube.com/watch?v=BjBSJFzYDVk</span><br /> <br />Patches Committed:<br />------------------<br />Two big patches have been submitted/committed.<br /><a href="https://reviews.llvm.org/D28975">https://reviews.llvm.org/D28975</a> by Gil Rapaport. (Introducing VPlan to model the vectorized code and drive its transformation)<br />     Has been broken down to a series of smaller patches and went in. The last (re)commit of the series is<br />     <a href="https://reviews.llvm.org/rL311849">https://reviews.llvm.org/rL311849</a><br /><a href="https://reviews.llvm.org/D38676">https://reviews.llvm.org/D38676</a> by Gil Rapaport. (Modeling masking in VPlan, introducing VPInstructions)<br />     This is also being broken down to a series of smaller patches to facilitate the review.<br />     Committed as <a href="https://reviews.llvm.org/rL318645">https://reviews.llvm.org/rL318645</a><br /> <br />Where We Are:<br />-------------<br />With the first patch, we introduced the concept of VPlan to LV and started explicitly recording decisions like interleave memory access optimization and serialization. In the first patch, we resisted introducing VPInstructions ----- and introduced VPRecipes instead, in an attempt to avoid duplicating Instructions in the abstract HCFG Representation (i.e., abstract Instructions in HCFG that is separate from incoming IR Instructions). As we moved on, it became more and more apparent that we have a need to introduce new abstract Instructions (see <a href="https://reviews.llvm.org/D38676">https://reviews.llvm.org/D38676</a> for more details)  which also requires representation of new use-def relations that does not exist in incoming IR Instructions. As a result, with the second patch, as part of explicitly modeling masking in VPlan, we introduced VPInstruction, which is an abstraction of IR Instruction.<br /> <br />All these, so far, are the refactoring of (still innermost loop vectorization centric) Loop Vectorizer's existing functionality to explicitly model what was implicitly handled before.<br /> <br />Future Refactoring Needed:<br />--------------------------<br />The following aspects of LV still need to be refactored into the VPlan based representation. This list is non-exhaustive, but should give you a ball park of the amount of work left here.<br />* Predication<br />* Cost model<br />* Remainder Loop<br />* Runtime Guards<br />* External Users<br />* Reduction Epilog<br />* Interleave Grouping<br />* Sink Scalar Operands<br /> <br />Work Needed for Simple Outer Loop Vectorization:<br />------------------------------------------------<br />* Improve uniformity/divergence analysis  ----- Uniformity in innermost loop vectorization is<br />   invariance. For outer loop vectorization, there are uniform values that are not invariant.<br />* Better predication ---- Retaining uniform backedge is a must-have. Retaining uniform forward<br />   branch is good for inner loop vectorization as well.<br />* Masking on HCFG<br />* Code Generation driven by VPlan/HCFG<br /> <br />Additional Work Needed to Handle Higher Complexity:<br />---------------------------------------------------<br />* Construct VPlan near the beginning of LV (right after Legal or Must-Vectorize directive check)<br />* VPlan to VPlan transform of divergent inner loop control flow into uniform loop control<br />   flow + divergent acyclic control flow (all vector elements has to iterate the same number of times)<br />* Predication on the transformed VPlan.<br /> <br />Additional Work Needed for Outer Loop Auto-Vectorization:<br />---------------------------------------------------------<br />* Legality check<br />* Cost modeling (compare it to inner loop vectorization strategy in apples-to-apples manner).<br /> <br />Other Enhancements (out of the scope of this doc):<br />--------------------------------------------------<br />* Remainder Loop Vectorizaion<br />* SLP and LV in one Vectorizer<br />* Nested Vectorization<br />* ...<br /><br />Related Work:<br />-------------<br />In the previous RFC, we went with the direction to convert Function Vectorization into Loop Vectorization. When such a function has a loop inside,<br />the loop vectorization needed in that scenario is "outer loop vectorization".<br /><a href="http://lists.llvm.org/pipermail/cfe-dev/2016-March/047732.html">http://lists.llvm.org/pipermail/cfe-dev/2016-March/047732.html</a> (X. Tian, RFC for vectorizing a call --- caller side and callee side)<br /><a href="https://reviews.llvm.org/D22792">https://reviews.llvm.org/D22792</a> (M. Masten, Converting Function Vectorization to Loop Vectorization)<br /><a href="https://reviews.llvm.org/D40575">https://reviews.llvm.org/D40575</a> (M. Masten, Caller side support for invoking vector function from vector loop)<br /><br />Related work of related work. Math lib vectorization using SVML.<br /><a href="http://lists.llvm.org/pipermail/llvm-dev/2016-March/097862.html">http://lists.llvm.org/pipermail/llvm-dev/2016-March/097862.html</a> (M. Masten, RFC for vector math lib call using Intel SVML)<br /><a href="https://reviews.llvm.org/D19544">https://reviews.llvm.org/D19544</a> (M. Masten, vector math lib call using Intel SVML)<br /> <br />Summary:<br />--------<br />Summary of the current state of VPlan infrastructure project is presented, and the remaining steps towards outer loop vectorization is listed. We are currently at a point where we can slow down the refactoring effort for the purpose of expediting the big functionality boost: outer loop vectorization ----- and by doing so encourage more participation from the wider LLVM community in the refactoring effort to expedite the overall transition to the VPlan framework.<br />Shortly, we will send out an RFC to solicit community feedback on our plan to trade-off between 1) making concurrent progress on refactoring and outer loop vectorization and 2) finish refactoring and then adding outer loop vectorization.<br />Please stay tuned.<br /> <br />Thanks,<br />Hideki Saito<br /><br />_______________________________________________<br />LLVM Developers mailing list<br /><a href="mailto:llvm-dev@lists.llvm.org">llvm-dev@lists.llvm.org</a><br /><a href="http://lists.llvm.org/cgi-bin/mailman/listinfo/llvm-dev">http://lists.llvm.org/cgi-bin/mailman/listinfo/llvm-dev</a></p></blockquote>