有人说,我做一款AI芯片,只要原生支持PyTorch就好了呀,用户直接用PyTorch跑模型,根本接触不到CUDA呀。
没错,一般的用户只要在PyTorch层面做应用,但是总是有新的模型架构出来,这些架构都需要做特定的性能优化才能在一个芯片上得到较高的性能,这时候就涉及到算子开发了。
比如说一开始LLM在GPU上的性能不好,后来社区针对Nvidia GPU做了flash attention等的优化才把LLM的性能提升到了比较可观的程度。
CUDA已经被各种开源AI框…。
为什么 m1 ***用大小核设计却没有 intel 的问题?
吵架后,老公快一个星期不联系,是要离婚的节奏吗?
住顶楼,经常有户人家上来晒被子,说了好多次不听,怎么办?
人工智能相关专业里有什么「坑」吗?
如何看待《海贼王》1152话尾田给出的香克斯断臂的解释?
程序员男朋友都是怎样的?