产品展示_米乐体育下载|官网登录入口

About us龙芯

快速迭代的AI行业到底要说明芯片

发布时间：2023-11-21 10:50:23 来源：米乐体育下载

自去年11月起，ChatGPT的横空出世引领了一波生成式AI浪潮，至今未休，中国乃至全球大型科技公司纷纷跟进AI大模型，对“算力基建”的需求也随之激增。

总的来看，“百模大战”的基础仍然是AI发展三要素：数据、算法与算力，而这三要素恰恰都与AI芯片息息相关。毕竟ChatGPT之所以能比它的前辈们更强，是因为它有成熟的模型底座、丰富的数据库、繁复细致的人工调整，更重要的是有庞大的计算网络支持其模型训练。

当Open AI发布ChatGPT时，也公开了其庞大模型训练背后的计算网络——Azure AI超算平台。这个微软专门建设的高性能网络集群有1万颗英伟达公司生产的V100 GPU（图形处理器）和28.5万个CPU（中央处理器）内核，以及400Gbps网络连接，总算力消耗超过3640 PF-days：假如每秒计算1000万亿次，需要计算3640天。

而所谓的“AI芯片”到底和普通芯片有啥不一样的区别？广义上讲，只要能用来AI算法或处理AI应用中的计算任务的芯片都属于AI芯片；但从狭义上解读，AI芯片其实是指专对于AI算法做了加速设计的ASIC（定制/专用芯片），上述GPU作为一种通用型芯片并不算在其中。

GPU，尤其是英伟达的A100，现在已经是主流AI厂商做大模型训练和算力部署的核心硬件，动辄上万美金市面上还一度“一卡难求”。如果GPU不算“标准”AI芯片，为什么又能大范围的使用在AI大模型之中？

在专业人士看来，GPU用于AI大模型训练实在有些大材小用。一般而言，在数据中心架构中，通用性更高的CPU负责数据的查询、存储；而GPU虽然也有其他功能逻辑单元，但其中运算单元比重大，且更擅长并行计算，因此承担了推理的任务，也更适合用于AI运算之中。

不过GPU的基本功能其实是渲染复杂的图形，主要应用领域一直是游戏尤其是3A大作和游戏主机，而用于AI模型训练的数据精度根本比不上游戏渲染的精度。GPU之所以用于AI训练始于一次“意外”。

2012年，多伦多大学研究员Alex Krizhevsky联合同学llya Sutskever与导师Geoffrey Hinton设计了一个深度卷积神经网络 (CNN) ，训练这一神经网络需要庞大的CPU资源，但是CPU网路中大部分都是控制单元和储存单元，用于并行运算需要花上几个月时间。

导师Geoffrey建议他们尝试用GPU做训练。尽管Alex和llya彼时还没搞懂GPU要怎么发挥作用，但当他们将两张英伟达为大型PC游戏准备的GPU GTX580投入试验后发现，GPU架构原来十分适合用来训练训练CNN——它可以训练得更快，能够做的数据规模也远超从前。最后不到一周时间，这个神经网络训练就完成了。

等llya成为了OpenAI联合发起人以及首席科学家后，GPU在大模型训练领域的地位也进一步得到强化。如今，全球GPU市场已进入寡头竞争时代，许多AI和深度学习项目都将英伟达GPU视为首选，而这也得益于英伟达CEO黄仁勋的精准押注。

黄仁勋领导的英伟达在GPU领域已经深耕数十年，早已建立起强大的软件生态，这也是其能够恰逢其时搭上AI东风、垄断GPU市场的关键之一。2006年，英伟达推出GPU计算平台和编程模型“CUDA”（Compute Unified Device Architecture）架构。CUDA提供的是一个简单且灵活的编程模型，包括核函数的调用、内存管理、线程同步等功能，研发人员能够更轻松地利用GPU的并行计算能力，开发高性能的通用计算应用程序。

早期英伟达哪怕入不敷出，都要走“买硬件送软件”的路径推广CUDA，为什么？因为在CUDA发布前，开发者如果想设置GPU需要用到底层计算机语言，而CUDA包含一系列开发工具，所有英伟达的GPU都支持CUDA。CUDA架构的开放性和工具支持便捷性意味着从学生到科学家，任何人都可以用常用的高级计算机语言能完成软件开发。CUDA因此慢慢的变成为了应用最广泛的GPU计算平台，这一强大的ECO又与英伟达GPU的更新换代形成良性循环，不断推动其市场占有率的增长。

在GPU需求爆发之前，业内曾看好ASIC，认为像谷歌的TPU（张量处理器）才是AI芯片未来演进的方向。

在专业人士看来，无论是CPU还是GPU，都是基于冯诺依曼架构的通用处理器，即存储单元和运算单元分开，指令和数据均放置于存储单元中，而这一架构带有天然的“瓶颈”。CPU或GPU每次运算结果都会先保存在存储单元中，下一次运算时再调用；内存容量指数级提升以后，运算单元需要频繁地访问储存单元，不仅限制了数据传输量也带来了极大能耗。

因此像TPU这种专对于AI训练和推理所研发的ASIC也就有了一席之地。这种AI芯片针对的是常用计算加速，包括平行计算、降低计算精度、加速存储单元存取速度等项目的着重优化，大幅度降低了冯诺依曼架构瓶颈。

可惜在实际应用后，ASIC被证明在现阶段AI迭代中用途有限。业内人士解释，ASIC是按照固定函数设计的，通常用于特定任务或算法，比如之前专门用于“挖矿”的专用芯片，用一段时间就会随着行业起伏而淘汰，因为这种芯片设计出来就为了“挖矿”不能用于其他目的；但优点是，算法写得好效率会很高。

回到AI领域，如果大规模应用ASIC，那么如果出现新的架构和模型，上一批ASIC就会面临淘汰。考虑到成本和效率，通用性、易用性和高性能仍然是当下互联网公司和AI厂商衡量AI芯片的标准，也因此，GPU在当下仍是最好的通用计算加速方案。

壹零社：用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子，商业故事。《中国知网》每周全文收录；中国科技报刊100强；2021年微博百万粉丝俱乐部成员；2022年抖音优质科技内容创作者

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

中国资产爆发！离岸人民币对美元汇率升破7.20！A50直线拉升，港股也走强；外资机构竞相唱多A股

新疆人大常委会副主任，新疆总工会主席，中华全国总工会副主席木合亚提·加尔木哈买提

起底OpenAI「国王」Ilya：师从Hinton，为了他，马斯克与谷歌创始人彻底决裂

绿军爆冷加时惜败：塔图姆45+13+6+7三分丢关键罚球惨遭18分逆转

被BLG打解散了？GEN官宣4人离队，仅Peyz留队！正在全力挽留chovy

快速迭代的AI行业到底要说明芯片

010-63753773