网站地图官方微信:
网站首页 包装用纸 包装成型机械 展示台 阅览室桌椅 一体机办公设备 眼镜及配件

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 大佬的2025 | | 爽文男主张俊杰_霸王_什么_人生 |

    一个十岁失去双亲、睡过桥洞捡过废品的流浪儿,在这一年完成了两件大事:上市敲钟,迎娶白富美。上半年,其完成超3亿元融资,当时门店仅有400家,张俊杰没有选择“现金为王”的保守策略,果断大举扩张,他定下了惊人的目…...

    查看详情>>
  • | 沪游观察|游戏硬件发展停滞十年?未必是坏事_消费_电子设备_技术 |

  • | 全民疯抢!60岁大爷大妈也开始养龙虾了 官方:极易引发网络攻击、信息泄露_OpenClaw_风险_工具 |

  • | 特斯拉业绩下滑停产两款车,马斯克拼不过比亚迪要换赛道了?_Model_机器人_公司 |

  • | 印度又觉得自己行了:荷兰芯片企业不想选中国,选我_半导体_阿斯麦_*** |

  • | 今年的MWC,手机厂商们都开始“不务正业”了。。。_模块_荣耀_Wi-Fi |

  • | 腾讯QClaw实测:4000万Token天天到账,微信互联远程遥控,普通人“养虾”自由开始了?_技能_龙虾_智能 |

  • | 国产手机开年就遇冷,苹果笑到最后,这可怎么办?_同比_市场_行业 |

  • | “龙虾”为什么在中国比美国还火?周鸿祎:国内鼓励开源开放,美国更希望垄断_智能_OpenClaw_Scaling |

  • | 超半数员工将离开?魅族回应_手机_科技_StarV |

  • | 雷军宣布:新一代SU7将发布,肯定会涨价,成本上升了不少!此前称新SU7配备机械门把手,车内外都可以机械开门_小米_汽车_全系 |

  • 春节AI风暴:AI走出幼年期_智谱_MiniMax_小登...

    2026-02-26
  • 3月11日,我国自主研发的T1200级超高强度碳纤维正式全球首发,这是目前全球强度最高的工业化量产碳纤维,中国也成为全世界首个实现该级别碳纤维百吨级量产的国家。这一突破不仅让我国掌握高端碳纤维核心自主知识产权…...

    2026-03-12
  • 知情人士称,五角大楼目前仍在使用Anthropic的技术,包括用于支持特朗普近期对伊朗的轰炸。 这场争端也在硅谷造成震动,并引出了一个问题:当AI企业与美国***合作时,他们究竟应在多大程度上能够限制其技术的…...

    2026-03-10
  • 马斯克还在实验的“科幻产品”,中国先造出来了_临床_接口_植入式...

    2026-03-18

关注我们

添加微信好友,关注最新动态