Hi all,
<div><br></div><div>I am a phd student from Huazhong University of Sci&Tech, China. The following is my GSoC 2012 proposal.</div><div>Comments are welcome!</div><div><br></div><div><b>Title: Automatic GPGPU Code Generation for LLVM</b><br>

<br><b>Abstract</b></div><meta http-equiv="content-type" content="text/html; charset=utf-8"><meta http-equiv="content-type" content="text/html; charset=utf-8"><meta http-equiv="content-type" content="text/html; charset=utf-8"><meta http-equiv="content-type" content="text/html; charset=utf-8"><div>
<span class="Apple-style-span" style="font-family:'AR PL UKai CN';font-size:medium"><span id="internal-source-marker_0.13540500518865883"><span style="font-size:15px;font-family:'Times New Roman';color:rgb(0,0,0);background-color:rgb(255,255,255);font-weight:normal;font-style:normal;font-variant:normal;text-decoration:none;vertical-align:baseline;white-space:pre-wrap">Very often, manually developing an GPGPU application is a time-consuming, complex, error-prone and </span><span style="font-size:15px;font-family:'Times New Roman';color:rgb(0,0,0);background-color:rgb(255,255,255);font-variant:normal;text-decoration:none;vertical-align:baseline;white-space:pre-wrap">iterative</span><span style="font-size:15px;font-family:'Times New Roman';color:rgb(0,0,0);background-color:rgb(255,255,255);font-weight:normal;font-style:normal;font-variant:normal;text-decoration:none;vertical-align:baseline;white-space:pre-wrap"> process. </span></span></span>In this project, I propose to build an automatic GPGPU code generation framework for LLVM, based on two successful LLVM (sub-)projects - Polly and PTX backend. This can be very useful to ease the burden of the long learning curve of various GPU programming model. </div>
<meta http-equiv="content-type" content="text/html; charset=utf-8"><div><br><b>Motivation</b><br><meta http-equiv="content-type" content="text/html; charset=utf-8">With the broad proliferation of GPU computing, it is very important to provide an easy and automatic tool to develop or port the applications to GPU for normal developers, especially for those domain experts who want to harness the huge computing power of GPU. Polly has implemented many transformations, such as tiling, auto-vectorization and openmp code generation. With the help of LLVM's PTX backend, I plan to extend Polly with the feature of GPGPU code generation.</div>
<meta http-equiv="content-type" content="text/html; charset=utf-8"><div><div style="background-color:transparent"><br></div><br><b>Project Detail</b><br><span>In this project, we target various parallel loops which can be described by Polly's polyhedral model. We first translated the selected SCoPs (Static Control Parts) into 4-depth loops with Polly's schedule optimization. Then we extract the loop body (or inner non-parallel loops) into a LLVM sub-function, tagged with PTX_Kernel or PTX_Device call convention. After that, we use PTX backend to translate the subfunctions into a string of the corresponding PTX codes. Finally, we provide an runtime library to generate the executable program.</span></div>
<div><span><br></span></div><div><span>There are three key challenges in this project here.</span></div><div>1. How to get the optimal execution configure of GPU codes.</div><div>The execution configure is essential to the performance of the GPU codes. It is limited by many factors, including hardware, source codes, register usage, local store (device) usage, original memory access patterns and so on. We must take all the staff into consideration.</div>
<div><br></div><div>2. How to automatically insert the synchronization codes.</div><div>This is very important to preserve the original semantics. We must detect where we need insert them correctly.</div><div><br></div><div>
3.      How to automatically generate the memory copy operation between host and device.</div><div>We must transport the input data to GPU and copy the results back. Fortunately, Polly has implemented a very expressive way to describe memory access.</div>
<div><b><br></b></div><div><b>Timeline</b></div><div>May 21 ~ June 3 preliminary code generation for 1-d and 2d parallel loops.</div><div>June 4 ~ June 11 code generation for parallel loops with non-parallel inner loops.</div>
<div>June 11 ~ June 24 automatic memory copy insertions.</div><div>June 25 ~ July 8 auto-tuning for GPU execution configuration.</div><div>July 9 ~ July 15 Midterm evaluation and writing documents.</div><div>July 16 ~ July 22 automatic synchronization insertion.</div>
<div>July 23 ~ August 3 test on polybench benchmarks.</div><div><span class="Apple-style-span" style="font-weight:normal">August 4 ~ August 12 summarize and complete the final documents.<br><font class="Apple-style-span" color="#222222" face="arial, helvetica, sans-serif"><span class="Apple-style-span" style="border-collapse:collapse;font-size:14px"><br>
</span></font></span></div><div><b><br></b></div><div><b>Project experience</b></div><div>I participated in several projects related to binary translation (optimization) and run-time system. And I implemented a frontend for numerical computing languages like octave/matlab, following the style of clang. Recently, I work very close with Polly team to contribute some patches and investigate lots of details about polyhedral transformation. </div>
<div><b><br></b></div><div><b><br></b></div><div><b>References</b></div><div><meta http-equiv="content-type" content="text/html; charset=utf-8"><span class="Apple-style-span" style="color:rgb(34,34,34);font-family:'Lucida Grande','Lucida Sans Unicode',Arial,Verdana,Helvetica,sans-serif;line-height:19px">1. </span><span class="Apple-style-span" style="color:rgb(34,34,34);font-family:'Lucida Grande','Lucida Sans Unicode',Arial,Verdana,Helvetica,sans-serif;line-height:19px">Tobias Grosser, Ragesh A. </span><span class="Apple-style-span" style="color:rgb(34,34,34);font-family:'Lucida Grande','Lucida Sans Unicode',Arial,Verdana,Helvetica,sans-serif;line-height:19px"><i>Polly - First Successful Optimizations - How to proceed?</i> </span><span class="Apple-style-span" style="color:rgb(34,34,34);font-family:'Lucida Grande','Lucida Sans Unicode',Arial,Verdana,Helvetica,sans-serif;line-height:19px">LLVM Developer Meeting 2011.</span></div>
<div><span class="Apple-style-span" style="color:rgb(34,34,34);font-family:'Lucida Grande','Lucida Sans Unicode',Arial,Verdana,Helvetica,sans-serif;line-height:19px">2. </span><span class="Apple-style-span" style="color:rgb(34,34,34);font-family:'Lucida Grande','Lucida Sans Unicode',Arial,Verdana,Helvetica,sans-serif;line-height:19px">Muthu Manikandan Baskaran, J. Ramanujam and P. Sadayappan.<i> </i></span><span class="Apple-style-span" style="color:rgb(34,34,34);font-family:'Lucida Grande','Lucida Sans Unicode',Arial,Verdana,Helvetica,sans-serif;line-height:19px"><i>Automatic C-to-CUDA Code Generation for Affine Programs</i>. </span><span class="Apple-style-span" style="color:rgb(34,34,34);font-family:'Lucida Grande','Lucida Sans Unicode',Arial,Verdana,Helvetica,sans-serif;line-height:19px">CC 2010.</span></div>
<div><span class="Apple-style-span" style="color:rgb(34,34,34);font-family:'Lucida Grande','Lucida Sans Unicode',Arial,Verdana,Helvetica,sans-serif;line-height:19px">3. </span><span class="Apple-style-span" style="color:rgb(34,34,34);font-family:'Lucida Grande','Lucida Sans Unicode',Arial,Verdana,Helvetica,sans-serif;line-height:19px">Soufiane Baghdadi, Armin Größlinger, and Albert Cohen. </span><span class="Apple-style-span" style="color:rgb(34,34,34);font-family:'Lucida Grande','Lucida Sans Unicode',Arial,Verdana,Helvetica,sans-serif;line-height:19px"><i>Putting Automatic Polyhedral Compilation for GPGPU to Work</i>. </span><span class="Apple-style-span" style="color:rgb(34,34,34);font-family:'Lucida Grande','Lucida Sans Unicode',Arial,Verdana,Helvetica,sans-serif;line-height:19px">In Proc. of Compilers for Parallel Computers (CPC), 2010.</span></div>
<div></div><div></div>