<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Mar 23, 2016 at 11:10 AM, Duncan P. N. Exon Smith <span dir="ltr"><<a href="mailto:dexonsmith@apple.com" target="_blank">dexonsmith@apple.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="HOEnZb"><div class="h5"><br>
> On 2016-Mar-23, at 09:42, Teresa Johnson <<a href="mailto:tejohnson@google.com">tejohnson@google.com</a>> wrote:<br>
><br>
><br>
><br>
> On Wed, Mar 23, 2016 at 9:31 AM, Duncan P. N. Exon Smith <<a href="mailto:dexonsmith@apple.com">dexonsmith@apple.com</a>> wrote:<br>
><br>
> > On 2016-Mar-23, at 07:17, Teresa Johnson <<a href="mailto:tejohnson@google.com">tejohnson@google.com</a>> wrote:<br>
> ><br>
> ><br>
> ><br>
> > On Tue, Mar 22, 2016 at 7:28 PM, Duncan P. N. Exon Smith <<a href="mailto:dexonsmith@apple.com">dexonsmith@apple.com</a>> wrote:<br>
> > I have some ideas to allow the BitcodeReader to lazy-load debug info<br>
> > metadata, and wanted to air this on llvm-dev before getting too deep<br>
> > into the code.<br>
> ><br>
> > Motivation<br>
> > ==========<br>
> ><br>
> > Based on some analysis Mehdi ran (ping him for details), there are three<br>
> > (related) compile-time bottlenecks we're seeing with `-flto=thin -g`:<br>
> ><br>
> >  a) Reading the large number of Metadata bitcode records in the global<br>
> >     metadata block.  I'm talking about raw `BitStreamer` calls here.<br>
> ><br>
> >  b) Creating unnecessary `DI*` instances (that aren't relevant to code).<br>
> ><br>
> > Creating in the source module, or in the dest module during linking?<br>
> ><br>
> ><br>
> >  c) Emitting unnecessary `DI*` instances (that aren't relevant to code).<br>
> ><br>
> > Here is my recollection of some peak memory stats on a small testcase<br>
> > during thin-LTO, which should be a decent indicator of (b):<br>
> ><br>
> >   - ~150MB: DILocation<br>
> >   - ~100MB: DISubprogram<br>
> >   - ~70MB: DILocalVariable<br>
> >   - ~50MB: (cumulative) DIType descendents<br>
> ><br>
> > It looks, suprisingly, like types are not the primary bottleneck.<br>
> ><br>
> > There are caveats:<br>
> ><br>
> >   - `DISubprogram` declarations -- member function descriptors -- are<br>
> >     part of the type hierarchy.<br>
> >   - Most of the type hierarchy gets uniqued at parse time.<br>
> >   - As a result, these data are a poor indicator for (a).<br>
> ><br>
> > Even so, non-types are substantial.<br>
> ><br>
> > Related work<br>
> > ============<br>
> ><br>
> > Teresa has some post-processing in-place/in-review to avoid importing<br>
> > metadata unnecessarily, but IIUC: it won't address (a) and (b), only<br>
> > (c) (maybe I'm wrong?); and it only helps -flto=thin, not other<br>
> > lazy-loaders.<br>
> ><br>
> > That is D16440. It reduces the metadata imported into the dest module (not sure whether that falls into (b) or just (c)).<br>
> ><br>
> > It could actually help full LTO as well since I also added support for not linking in unneeded DISubprogram for full LTO at the same time as ThinLTO in r256003. But right now the changes in the patch are guarded so they only happen under ThinLTO since some of the other things we prune from the imported DICompileUnit only applies to ThinLTO. I could restructure that a bit to get the reduced retained types importing to occur for full LTO as well.<br>
> ><br>
> ><br>
> > I heard a rumour that Eric has a grand plan to factor away the type<br>
> > hierarchy -- awesome if true -- but I think most of this is worthwhile<br>
> > regardless.<br>
> ><br>
> > Proposal<br>
> > ========<br>
> ><br>
> > Short version<br>
> > -------------<br>
> ><br>
> >  1. Serialize metadata in Function blocks where possible.<br>
> >  2. Reverse the `DISubprogram`/`DICompileUnit` link.<br>
> >  3. Create a `METADATA_SUBPROGRAM_BLOCK`.<br>
> ><br>
> > Type-related work Eric will make unnecessary if he's fast:<br>
> ><br>
> >  4. Remove `DICompositeType`s from `retainedTypes:`, similar to (2).<br>
> >  5. Create a `METADATA_COMPOSITE_TYPE_BLOCK`, similar to (3).<br>
> ><br>
> > Long version<br>
> > ------------<br>
> ><br>
> >  1. If a piece of metadata is referenced from only a single `Function`,<br>
> >     serialize that metadata in the function's metadata block instead of<br>
> >     the global metadata block.<br>
> ><br>
> >     This addresses problems (a) and (b), primarily targeting<br>
> >     `DILocation`s.  It should pick up lots of other stuff, depending on<br>
> >     how much inlining has happened.<br>
> ><br>
> >     (I have a draft of the writer side, still working on the reader.)<br>
> ><br>
> >  2. Reverse the `DISubprogram`/`DICompileUnit` link (David and I have<br>
> >     talked about this in the past in barely-related threads).  The<br>
> >     direct effect is that subprograms that are not pointed at by any<br>
> >     code (!dbg attachments or @llvm.dbg.value intrinsics) get dropped.<br>
> ><br>
> >     This addresses problem (c).  If a consumer is only linking/loading a<br>
> >     subset of a module's functions, this naturally filters subprograms<br>
> >     to the relevant ones.  Also, with limited inlining (and assuming<br>
> >     (1)), it addresses problems (a) and (b), too.<br>
> ><br>
> >     Adrian volunteered to implement this and is apparently almost ready<br>
> >     to post a patch (still working on testcase update script logic I<br>
> >     believe (probably other details, don't let me oversell it)).<br>
> ><br>
> > As noted in the review thread for my D16440, I'll need to adjust that handling once this link reversal goes in.<br>
> ><br>
> ><br>
> >  3. Create a special `METADATA_SUBPROGRAM_BLOCK` for each `DISubprogram`<br>
> >     in the global metadata block.  Store the relevant `DISubprogram` and<br>
> >     all of the subprogram's `DILexicalBlock`s and `DILocalVariable`s.<br>
> >     The block can be lazy-loaded on an all-or-nothing basis.<br>
> ><br>
> >     In combination with (2), this addresses (a) and (b) in cases that<br>
> >     (1) doesn't catch.  A lazy-loading module will only load the<br>
> >     subprogram blocks that get referenced.<br>
> ><br>
> > I'm not sure I understand this part - if the debug info for each subprogram can be divided into separate blocks, why can't it be moved into the function's metadata block? I.e. what happens for debug metadata that is referenced by multiple functions, which I thought was all that was going to remain in the global metadata block? Oh - the DISubprogram may be referenced in other places within the global metadata so cannot move into the function metadata block. So debug metadata only reached from that DISubprogram is included in its block, but any debug metadata referenced by multiple DISubprograms would not be located within one of these blocks?<br>
><br>
> The problem is that the same subprogram may be referenced from multiple<br>
> functions.  Consider:<br>
> --<br>
> void sink();<br>
> __attribute__((always_inline)) static inline void foo() { sink(); }<br>
> void caller1() { foo(); }<br>
> void caller2() { foo(); }<br>
> void unrelated() {}<br>
> --<br>
><br>
> The IR for caller1 and caller2 will both reference the subprogram for<br>
> foo, something like:<br>
> --<br>
> define void @caller1() !dbg !2 {<br>
>   call void @sink(), !dbg !5<br>
>   ret void, !dbg !7<br>
> }<br>
> define void @caller1() !dbg !3 {<br>
>   call void @sink(), !dbg !8<br>
>   ret void, !dbg !10<br>
> }<br>
> define void @unrelated() !dbg !4 {<br>
>   ret void, !dbg !11<br>
> }<br>
><br>
> !1 = distinct !DISubprogram(name: "foo")<br>
> !2 = distinct !DISubprogram(name: "caller1")<br>
> !3 = distinct !DISubprogram(name: "caller2")<br>
> !4 = distinct !DISubprogram(name: "unrelated")<br>
><br>
> !5 = !DILocation(line: 2, scope: !1, inlinedAt: !6)<br>
> !6 = distinct !DILocation(line: 3, scope: !2)<br>
> !7 = !DILocation(line: 3, scope: !2)<br>
><br>
> !8 = !DILocation(line: 2, scope: !1, inlinedAt: !9)<br>
> !9 = distinct !DILocation(line: 4, scope: !3)<br>
> !10 = !DILocation(line: 4, scope: !3)<br>
><br>
> !11 = !DILocation(line: 5, scope: !4)<br>
> --<br>
> In this example, !1 (subprogram for foo) is referenced from both<br>
> @caller1 and @caller2, so we need some common place to save it.<br>
><br>
> We still want to lazy-load it (and the local variables and lexical<br>
> blocks underneath it), so that if the loader only wants @unrelated<br>
> !1 (and its vars/blocks) never gets read.<br>
><br>
> Right, that's what I realized halfway through writing the above paragraph. But my remaining question (the last sentence) is what happens to other debug metadata nodes that are referenced perhaps indirectly by multiple DISubprograms? Some would be composite types, I guess they would be placed in the METADATA_COMPOSITE_TYPE_BLOCK you mention below. But I believe there are going to be some other uniqued nodes that are not composite types and are referenced via multiple DISubprogram or other composite types?<br>
<br>
</div></div>It looks roughly like most things are either: (i) DILocations;<br>
(ii) DISubprogram (definitions), DILexicalBocks, and<br>
DILocalVariables; or (iii) DICompositeType, DISubprogram<br>
declarations, and other parts of DICompositeType.  I was thinking<br>
we'd see what was left at that point, and then if necessary, find a<br>
way to structure the rest.<br>
<br>
It's possible we'll want to emit some uniqued nodes multiple times,<br>
sacrificing bitcode size for lazy-loading performance.  We already<br>
do this for constants in the IR: if a constant is not referenced<br>
globally, it's emitted in each Function that references it.  We<br>
could do the same with, e.g., DISubroutineType.<br></blockquote><div><br></div><div>Thanks, that makes sense.</div><div><br></div><div>Teresa</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div class="HOEnZb"><div class="h5"><br>
> Thanks,<br>
> Teresa<br>
><br>
><br>
> ><br>
> ><br>
> >     (I have a basic design for this that accounts for references into<br>
> >     the middle of block; I'll see what happens when I flesh it out.)<br>
> ><br>
> > I think this will solve the non-type bottlenecks.<br>
> ><br>
> > If Eric hasn't solved types by then, we can do similar things to the IR<br>
> > for the debug info type hierarchy.<br>
> ><br>
> >  4. Implement my proposal to remove the `DICompositeType` name map from<br>
> >     `retainedTypes:`.<br>
> ><br>
> >     <a href="http://lists.llvm.org/pipermail/llvm-commits/Week-of-Mon-20160125/327936.html" rel="noreferrer" target="_blank">http://lists.llvm.org/pipermail/llvm-commits/Week-of-Mon-20160125/327936.html</a><br>
> ><br>
> >     Similar to (2) above, this will naturally filter the types that get<br>
> >     linked in to the ones actually used by the code being linked.<br>
> ><br>
> >     It should also allow the reader to skip records for types that have<br>
> >     already been loaded in the main module.<br>
> ><br>
> > The ValueMapper or something will need to figure out which types referenced by UUID to map/link in to the dest module. Currently the ValueMapper does not follow UUID references, but these are brought in when the DICompileUnit is mapped since they are all in the retained types list.<br>
> ><br>
> ><br>
> >  5. Create a special `METADATA_COMPOSITE_TYPE_BLOCK`, similar to (3) but<br>
> >     for composite types and their members.  This avoids the raw bitcode<br>
> >     reading overhead.  (This is totally undesigned at this point.)<br>
> ><br>
> > Ditto here - any metadata referenced by multiple composite types does not go into a block, right?<br>
> ><br>
> > Thanks,<br>
> > Teresa<br>
> ><br>
> ><br>
> > --<br>
> > Teresa Johnson |       Software Engineer |     <a href="mailto:tejohnson@google.com">tejohnson@google.com</a> |  <a href="tel:408-460-2413" value="+14084602413">408-460-2413</a><br>
><br>
><br>
><br>
><br>
> --<br>
> Teresa Johnson |       Software Engineer |     <a href="mailto:tejohnson@google.com">tejohnson@google.com</a> |  <a href="tel:408-460-2413" value="+14084602413">408-460-2413</a><br>
<br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature"><span style="font-family:Times;font-size:medium"><table cellspacing="0" cellpadding="0"><tbody><tr style="color:rgb(85,85,85);font-family:sans-serif;font-size:small"><td nowrap style="border-top-style:solid;border-top-color:rgb(213,15,37);border-top-width:2px">Teresa Johnson |</td><td nowrap style="border-top-style:solid;border-top-color:rgb(51,105,232);border-top-width:2px"> Software Engineer |</td><td nowrap style="border-top-style:solid;border-top-color:rgb(0,153,57);border-top-width:2px"> <a href="mailto:tejohnson@google.com" target="_blank">tejohnson@google.com</a> |</td><td nowrap style="border-top-style:solid;border-top-color:rgb(238,178,17);border-top-width:2px"> 408-460-2413</td></tr></tbody></table></span></div>
</div></div>