在 GPU 上的 Async/Await

摘要： VectorWare 成功地将 Rust 的 Future 特性和 async/await 支持扩展到 GPU 上，这是 GPU 编程领域的一大突破。文章介绍了 GPU 并发编程的传统方法，以及如何使用 warp specialization 来提高效率和性能。同时，文章探讨了现有 GPU 编程框架的优缺点，并指出它们需要新的编程范式和生态系统。VectorWare 认为 Rust 的 async/await 模型可以提供一种更简洁、更安全的方法来在 GPU 上实现并发编程，而无需引入新的语言或生态系统。文章还介绍了 VectorWare 在实现 Rust async/await 在 GPU 上的过程，包括遇到的挑战和解决方案。最后，文章讨论了 Rust async/await 在 GPU 上的局限性，并展望了未来的研究方向。

讨论： 这段内容主要讨论了使用异步/等待（async/await）方法在GPU上进行数据加载、处理、分析和可视化的技术挑战和可能性。作者lmeyerov提到了他们之前构建的Graphistry堆栈，并强调了将工作负载从CPU迁移到GPU的重要性，尽管存在一些挑战，如CPU/GPU控制平面协调的开销。zozbot234提出了关于工作窃取和续传窃取的疑问，以及如何处理共享内存资源。xiphias2讨论了训练管道中的数据准备问题，并询问了SIMD的处理方式。GZGavinZhao对异步/等待方法的AOT（Ahead-of-Time）编译效率表示担忧。textlapse询问了性能和转换编程模型的好处。starkiller探讨了GPU warp硬件调度器的角色。michalsustr提到了异步/等待方法的运行时模型，并与Tokio进行了比较。Panzerschrek对分支操作的性能影响表示关注。shayonj比较了这项技术与NVIDIA的stdexec方法。firefly2000询问了这项技术的适用性是否仅限于NVIDIA架构。

原文标题：Async/Await on the GPU
原文链接：https://www.vectorware.com/blog/async-await-on-gpu/
讨论链接：https://news.ycombinator.com/item?id=47049628