<div dir="ltr"><div>Hi, </div><div><br></div><div>As you may have noticed, since last year, we (Google's CUDA compiler team) have contributed quite a lot to the effort of optimizing LLVM for CUDA programs. I think it's worthwhile to write some docs to wrap them up for two reasons. </div><div>1) Whoever wants to understand or work on these optimizations has some detailed docs instead of just source code to refer to. </div><div>2) RFC on how to improve these optimizations so that other targets can benefit from them as well. They are currently mostly restricted to the NVPTX backend, but I see many potentials to generalize them. </div><div><br></div><div>So, I started from this overdue <a href="https://docs.google.com/document/d/1momWzKFf4D6h8H3YlfgKQ3qeZy5ayvMRh6yR-Xn2hUE/edit?usp=sharing">design doc</a> on the straight-line scalar optimizations. I will send out more docs on other optimizations later. Please feel free to comment. </div><div><br></div><div>Thanks, </div><div>Jingyue</div><div><br></div><div><br></div></div>