<div dir="ltr"><div>Hi,</div><div>How to turn on streams when using OpenMP offload?</div><div>When different host threads individually start target regions (even not using nowait). The offloaded computation goes to different CUDA streams and may execute concurrently. This is currently available in XL.</div><div>With Clang, nvprof shows only the run only uses the default stream.</div><div>Is there a way to do that with Clang?</div><div>On the other hand,<br></div><div>nvcc has option<span class="gmail-st"> --<em>default</em>-<em>stream per</em>-<em>thread</em></span></div><div>I'm not familar with clang CUDA, is there a similar option?</div><div>Best,<br></div><div>Ye<br></div><div><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr">===================<br>
Ye Luo, Ph.D.<br>Computational Science Division & Leadership Computing Facility<br>
Argonne National Laboratory</div></div></div></div></div></div></div>