网站地图官方微信:
网站首页 包装相关设备 包装机械 包装防伪 包装成型机械 圆珠笔 学习机

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 如何看待“将军的迈巴赫是属于人民的 将军只有每天24小时使用权”这句话? |

    将军最起码比他爹还好点 金二代的日本厨子藤本健二回忆道:“1...

    查看详情>>
  • | Dify工作流,你有哪些好玩的点子? |

  • | 有谁组装NAS时,尝试过的最低配置是什么? |

  • | 为什么 macOS 上国产软件不流氓? |

  • | 编程语言 MoonBit 发布 Beta 版,正式进入企业场景应用,会带来哪些影响? |

  • | 为什么是 9 月 3 日阅兵而不是 10 月 1 日国庆阅兵? |

  • | 不是说剪映很简单吗,为啥大家还是喜欢用pr呢? |

  • | 北京日报点名批评“苏超”过度娱乐化,它是否管的太宽了?为什么无良媒体不会被查封取缔? |

  • | 为什么Go仅仅160MB的安装包就可以编译程序,而Rust却还需要几个GB的VC++才能编译? |

  • | 字节引入Rust是否代表J***a的缺点Go也没解决? |

  • | 独立开发者都使用了哪些技术栈? |

  • 上家公司用 GitLab,上上家公司用 Gitea,刚好我负...

    2025-06-28
  • 身边的人经常有人会问我,你一个人在外面上班不会想家吗,我没有...

    2025-06-28
  • 不不不,把python去掉,只用rust。 组合个毛线啊,...

    2025-06-28
  • N100这颗CPU其实可以钓出不少“云玩家”来……不要单被表...

    2025-06-28

关注我们

添加微信好友,关注最新动态