<div dir="ltr"><div dir="ltr"><br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Apr 16, 2020 at 10:15 PM Hanna Kruppe <<a href="mailto:hanna.kruppe@gmail.com">hanna.kruppe@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">On Mon, 13 Apr 2020 at 20:04, Renato Golin <<a href="mailto:rengolin@gmail.com" target="_blank">rengolin@gmail.com</a>> wrote:<br>
><br>
> On Mon, 13 Apr 2020 at 18:04, Hanna Kruppe <<a href="mailto:hanna.kruppe@gmail.com" target="_blank">hanna.kruppe@gmail.com</a>> wrote:<br>
> > I don't see how the situation you mention is comparable. Legalization<br>
> > for e.g. <3 x i32> was not implemented at first, but as demonstrated<br>
> > by the fact that it *was* implemented later, there's no conceptual<br>
> > problem with legalizing that kind of type. You don't even have to<br>
> > legalize them in vector registers, three scalar registers work fine<br>
> > (you can even do that on the IR level).<br>
><br>
> That was the point I was trying to make, but in my head that fused<br>
> with register shadowing, which derailed the point.<br>
><br>
> To be clear, yes, "invalid" register configurations can easily usually<br>
> be legalised in multiple ways at lowering.<br>
><br>
> Not all will be optimal, though, and there is where the problem lives.<br>
><br>
> > Legalization (codegen in general) does not know if the machine<br>
> > code will eventually run on a chip with vector registers so small that<br>
> > vscale works out to 1/2, but it has to choose some legalization<br>
> > strategy.<br>
><br>
> This is interesting, I had not realised that from the descriptions of<br>
> the problem so far. I thought it was just due to non-power-of-two<br>
> lengths.<br>
><br>
> A "vector" register that is smaller than 64 bits wouldn't make much<br>
> sense, unless this is a DSP-type extension on very small types. In<br>
> those cases, every clock cycle and every instruction counts,<br>
> especially inside the inner loop.<br>
><br>
> I'm struggling to see how this can be optimally executed from a<br>
> generic scalable code, which usually profits from the fact that vscale<br>
> >> 1.<br>
<br>
I can understand this kind of concern, but the specification permits<br>
it and this entire thread is predicated on needing to target those<br>
cores too. If we'd decide we're okay with LLVM-based toolchains only<br>
supporting hardware with e.g. VLEN >= 64 (but see [*] below) then<br>
there's no problem to begin with and no need for ideas like fractional<br>
vscale or types that can't be legalized. Alternatively, we could treat<br>
support for vector registers smaller than 64b as a separate ABI, like<br>
with soft-float ABI vs hard-float ABI.<br>
<br>
However, the current aspiration among the ISA designers and<br>
software/toolchain developers is different. Cores with tiny VRF are<br>
expected to be useful for some markets, and it's hoped that the V<br>
extension can "scale down" well enough to avoid the need for a second<br>
vector extension specifically for those cores. Personally, I have some<br>
doubts about how well this will work out in practice, but of course<br>
software and toolchain developers (including myself) would prefer to<br>
keep everything as portable as possible. Binary portability across<br>
wildly different vector register sizes is an explicit goal of the ISA,<br>
adding an exception to this for no good reason would be very<br>
unfortunate.<br></blockquote><div><br></div>I agree. There is no such hardware configuration causing fractional vscale. I take it into consideration due to “V” specification defining VLEN >= 32. I also doubt it is useful for small vector register sizes.<br><br>There was some discussion in the LLVM SVE biweekly meeting last week. I briefly summarize the discussion.<br><br>* vscale being integer could make sure the minimum size of the scalable vector types. For example, SVE has the minimum size of vector registers be 128 bits. It has an impact on vectorizer. (I am not familiar with vectorizer yet. I am not very sure what the impact is. It is the consensus in the meeting. In RISC-V RVV, the vector register size, VLEN, is larger than ELEN. It could be 32, 64, 128, etc. I think that is why RVV has such a problem defining one type system for all hardware configurations.)<br>* If vscale will be fractional, take care of the special case in CodeGen level instead of LLVM IR level. LMUL and ELEN are all known values in compile time. It should be able to convert types in CodeGen level.<br><br>As I said, I agree with Hanna that current implementation is fine with existing hardware. We could put the discussion aside. Even we need to deal with fractional vscale. We could try to deal with it at CodeGen level instead of LLVM IR level. I appreciate all of your feedback. I learned a lot from you. Thanks a lot.<br><br><div>Kai</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>
[*] If we settled on requiring VLEN >= 64, we'd still face the same<br>
problem again if we ever want to add support for vectors elements<br>
larger than 64b, such as quad-precision floats or 128 bit integers. I<br>
don't really expect those to be commonly implemented for a long time,<br>
but once again: it would be great to avoid the need for a separate and<br>
incompatible target triple if and when such cores become relevant.<br>
<br>
> > If <vscale x 1 x i32> ends up having one element, and <vscale x 2 x<br>
> > i32> also has one (= 2 * 0.5) element, then that's wrong: the latter<br>
> > type must have twice as many elements as the former (one example where<br>
> > this matters: split_low / split_high / concat shuffle patterns). The<br>
> > second option, a vector with *zero* elements, is just as wrong if not<br>
> > worse.<br>
><br>
> Right, that was the idea behind vscale from the beginning. I don't<br>
> know how many elements either has, but I know the latter has twice as<br>
> many as the former.<br>
><br>
> I see why you would want half-length, because that truth still holds:<br>
> the latter has twice as many halves as the former.<br>
><br>
> But how do you handle the last half? Do you ignore? Do you load /<br>
> store half? Do you always mask it out? Do you fuse with the next<br>
> iterations' first half?<br>
><br>
> If the semantics is not clear on how the back-ends are supposed to use<br>
> that extra half, then extending the IR in such a way can make it very<br>
> hard for generic optimisations to understand anything about the<br>
> ranges, validity of operations, alignment, masks, undefined behaviour,<br>
> etc.<br>
><br>
> > It's not that a correct legalization exists but it's too annoying to<br>
> > implement, or that one might exist but I'm too lazy to work it out.<br>
><br>
> I never meant to imply that. Apologies if that's what came through.<br>
<br>
Oh no, not at all! Sorry for the confusion, I should avoid rhetoric<br>
that can create this impression.<br>
<br>
> > We're also not running in a limitation or oddity of the RISC-V vector<br>
> > ISA in particular. It's simply that, if you set vscale == 0.5, then by<br>
> > the way scalable vector types work (vscale * const elements), some<br>
> > vector types that can be written in the IR would need to have a<br>
> > fractional number of elements to be consistent with the other scalable<br>
> > vector types. As that is not possible (not even conceptually),<br>
> > whatever code you emit to try to legalize that type will end up being<br>
> > wrong in some respect.<br>
><br>
> Honestly, I'm running out of breath in this discussion. :)<br>
><br>
> I don't know a lot about SVE and even less about RISC-V, so I'll leave<br>
> the more in-depth technical discussions for Florian/Sander and others<br>
> to chime in.<br>
<br>
Fair, thanks for the discussion so far :)<br>
<br>
Best regards<br>
Hanna<br>
<br>
> > So if we'd decide to support fractional vscale, we can't say these<br>
> > types are "illegal". In LLVM parlance, illegal types can be used in<br>
> > LLVM IR and targets aspire to turn them into something that works<br>
> > correctly, even if it's very inefficient. Sometimes a legalization is<br>
> > unimplemented or buggy, but these problems can be patched and this has<br>
> > often happened in the past. With fractional vscale, the situation is<br>
> > quite different: nobody will ever be able to use certain scalable<br>
> > vector types on the target in question, because they can't be<br>
> > legalized even in principle.<br>
><br>
> I have not spent the time you guys have on this, but if I understood<br>
> your problem correctly, I too can't think of a way to represent this<br>
> in non-fractional ways.<br>
><br>
> I'm not saying this is a good idea, and I think you're not saying it<br>
> is either, but perhaps the only idea.<br>
><br>
> If that's the case, then I have proposed to use a different<br>
> flag/integer to mean half-scale instead of floating points, and<br>
> hopefully that can be transparent to the rest of scalable vector code.<br>
><br>
> But I'd really like to get other people's point of view, as I'm not<br>
> confident on my appraisal.<br>
><br>
> > I hope this lengthy explanation help you see where I'm coming from.<br>
><br>
> It did, thanks!<br>
><br>
> --renato<br>
</blockquote></div></div>