<div dir="ltr"><div class="gmail_default" style="font-size:large">Hi,</div><div class="gmail_default" style="font-size:large"><br></div><div class="gmail_default" style="font-size:large">Can the AMDGPU backend introduce LDS memory (shared memory) instructions during the compilation process in a kernel that does explicitly use shared memory?</div><div class="gmail_default" style="font-size:large">I have a benchmark which shows this strange behavior. </div><div class="gmail_default" style="font-size:large">When I compile the program with two different sets of optimizations, one version seems to issue LDS memory instructions but the other version does not. And the one that uses LDS is faster.</div><div class="gmail_default" style="font-size:large">I profiled the program with rocprof to get the number of LDS instructions issued. (<span style="font-variant-ligatures:no-common-ligatures;background-color:rgba(28,28,28,0.87);color:rgb(194,194,194);font-family:"Andale Mono";font-size:18px">SQ_INSTS_LDS)</span></div>





<div class="gmail_default" style="font-size:large"><br></div><div class="gmail_default" style="font-size:large">Thanks</div><div class="gmail_default" style="font-size:large">Charitha Saumya </div></div>