<div dir="ltr">Hi Manman,<div><br></div><div>Ordering profiling is certainly something very useful to have to startup time performance. GCC has something similar.</div><div><br></div><div>In terms of implementation, it is possible to simply extend the edge profiling counters by 1 for each function, and instrument the function to record the time stamp the first time the function is executed. The overhead will be minimized and you can leverage all the other existing support in profiling runtime.</div><div><br></div><div>Another possibility is to use xray to implement the functionality -- xray is useful for trace like profiling by design.</div><div><br></div><div>DavidĀ </div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Thu, Jan 17, 2019 at 10:24 AM Manman Ren <<a href="mailto:manman.ren@gmail.com">manman.ren@gmail.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr">Order file is used to teach ld64 how to order the functions in a binary. If we put all functions executed during startup together in the right order, we will greatly reduce the page faults during startup.<br>
<br>
To generate order file for iOS apps, we usually use dtrace, but some apps have various startup scenarios that we want to capture in the order file. dtrace approach is not easy to automate, it is hard to capture the different ways of starting an app without automation. Instrumented builds however can be deployed to phones and profile data can be automatically collected.<br>
<br>
For the Facebook app, by looking at the startup distribution, we are expecting a big win out of the order file instrumentation, from 100ms to 500ms+, in startup time.<br>
<br>
The basic idea of the pass is to use a circular buffer to log the execution ordering of the functions. We only log the function when it is first executed. Instead of logging the symbol name of the function, we log a pair of integers, with one integer specifying the module id, and the other specifying the function id within the module.<br>
<br>
In this pass, we add three global variables:<br>
(1) an order file buffer<br>
The order file buffer is a circular buffer at its own llvm section. Each entry is a pair of integers, with one integer specifying the module id, and the other specifying the function id within the module.<br>
(2) a bitmap for each module: one bit for each function to say if the function is already executed;<br>
(3) a global index to the buffer<br>
<br>
At the function prologue, if the function has not been executed (by checking the bitmap), log the module id and the function id, then atomically increase the index.<br>
<br>
This pass is intended to be used as a ThinLTO pass or a LTO pass. It maps each module to a distinct integer, it also generate a mapping file so we can decode the function symbol name from the pair of ids.<br>
<br>
clang has '-finstrument-function-entry-bare' which inserts a function call and is not as efficient.<br><br>Three patches are attached, for llvm, clang, and compiler-rt respectively.<div><br>
TODO:<br>
(1) Migrate to the new pass manager with a shim for the legacy pass manager.<br>
(2) For the order file buffer, consider always emitting definitions, making them LinkOnceODR with a COMDAT group.<br>
(3) Add testing case for clang/compiler-rt patches.<br>
(4) Add utilities to deobfuscate the profile dump.<br>
(5) The size of the buffer is currently hard-coded (<code>INSTR_ORDER_FILE_BUFFER_SIZE).</code><br><br>
Thanks Kamal for contributing to the patches! Thanks to Aditya and Saleem for doing an initial review pass over the patches!<br><div><br></div><div>Manman</div><div><br></div><div><br></div></div></div>
</blockquote></div>