快速迭代的AI行业到底要说明芯片

发布时间:2023-11-21 10:50:23   来源:米乐体育下载

  自去年11月起,ChatGPT的横空出世引领了一波生成式AI浪潮,至今未休,中国乃至全球大型科技公司纷纷跟进AI大模型,对“算力基建”的需求也随之激增。

  总的来看,“百模大战”的基础仍然是AI发展三要素:数据、算法与算力,而这三要素恰恰都与AI芯片息息相关。毕竟ChatGPT之所以能比它的前辈们更强,是因为它有成熟的模型底座、丰富的数据库、繁复细致的人工调整,更重要的是有庞大的计算网络支持其模型训练。

  当Open AI发布ChatGPT时,也公开了其庞大模型训练背后的计算网络——Azure AI超算平台。这个微软专门建设的高性能网络集群有1万颗英伟达公司生产的V100 GPU(图形处理器)和28.5万个CPU(中央处理器)内核,以及400Gbps网络连接,总算力消耗超过3640 PF-days:假如每秒计算1000万亿次,需要计算3640天。

  而所谓的“AI芯片”到底和普通芯片有啥不一样的区别?广义上讲,只要能用来AI算法或处理AI应用中的计算任务的芯片都属于AI芯片;但从狭义上解读,AI芯片其实是指专对于AI算法做了加速设计的ASIC(定制/专用芯片),上述GPU作为一种通用型芯片并不算在其中。

  GPU,尤其是英伟达的A100,现在已经是主流AI厂商做大模型训练和算力部署的核心硬件,动辄上万美金市面上还一度“一卡难求”。如果GPU不算“标准”AI芯片,为什么又能大范围的使用在AI大模型之中?

  在专业人士看来,GPU用于AI大模型训练实在有些大材小用。一般而言,在数据中心架构中,通用性更高的CPU负责数据的查询、存储;而GPU虽然也有其他功能逻辑单元,但其中运算单元比重大,且更擅长并行计算,因此承担了推理的任务,也更适合用于AI运算之中。

  不过GPU的基本功能其实是渲染复杂的图形,主要应用领域一直是游戏尤其是3A大作和游戏主机,而用于AI模型训练的数据精度根本比不上游戏渲染的精度。GPU之所以用于AI训练始于一次“意外”。

  2012年,多伦多大学研究员Alex Krizhevsky联合同学llya Sutskever与导师Geoffrey Hinton设计了一个深度卷积神经网络 (CNN) ,训练这一神经网络需要庞大的CPU资源,但是CPU网路中大部分都是控制单元和储存单元,用于并行运算需要花上几个月时间。

  导师Geoffrey建议他们尝试用GPU做训练。尽管Alex和llya彼时还没搞懂GPU要怎么发挥作用,但当他们将两张英伟达为大型PC游戏准备的GPU GTX580投入试验后发现,GPU架构原来十分适合用来训练训练CNN——它可以训练得更快,能够做的数据规模也远超从前。最后不到一周时间,这个神经网络训练就完成了。

  等llya成为了OpenAI联合发起人以及首席科学家后,GPU在大模型训练领域的地位也进一步得到强化。如今,全球GPU市场已进入寡头竞争时代,许多AI和深度学习项目都将英伟达GPU视为首选,而这也得益于英伟达CEO黄仁勋的精准押注。

  黄仁勋领导的英伟达在GPU领域已经深耕数十年,早已建立起强大的软件生态,这也是其能够恰逢其时搭上AI东风、垄断GPU市场的关键之一。2006年,英伟达推出GPU计算平台和编程模型“CUDA”(Compute Unified Device Architecture)架构。CUDA提供的是一个简单且灵活的编程模型,包括核函数的调用、内存管理、线程同步等功能,研发人员能够更轻松地利用GPU的并行计算能力,开发高性能的通用计算应用程序。

  早期英伟达哪怕入不敷出,都要走“买硬件送软件”的路径推广CUDA,为什么?因为在CUDA发布前,开发者如果想设置GPU需要用到底层计算机语言,而CUDA包含一系列开发工具,所有英伟达的GPU都支持CUDA。CUDA架构的开放性和工具支持便捷性意味着从学生到科学家,任何人都可以用常用的高级计算机语言能完成软件开发。CUDA因此慢慢的变成为了应用最广泛的GPU计算平台,这一强大的ECO又与英伟达GPU的更新换代形成良性循环,不断推动其市场占有率的增长。

  在GPU需求爆发之前,业内曾看好ASIC,认为像谷歌的TPU(张量处理器)才是AI芯片未来演进的方向。

  在专业人士看来,无论是CPU还是GPU,都是基于冯诺依曼架构的通用处理器,即存储单元和运算单元分开,指令和数据均放置于存储单元中,而这一架构带有天然的“瓶颈”。CPU或GPU每次运算结果都会先保存在存储单元中,下一次运算时再调用;内存容量指数级提升以后,运算单元需要频繁地访问储存单元,不仅限制了数据传输量也带来了极大能耗。

  因此像TPU这种专对于AI训练和推理所研发的ASIC也就有了一席之地。这种AI芯片针对的是常用计算加速,包括平行计算、降低计算精度、加速存储单元存取速度等项目的着重优化,大幅度降低了冯诺依曼架构瓶颈。

  可惜在实际应用后,ASIC被证明在现阶段AI迭代中用途有限。业内人士解释,ASIC是按照固定函数设计的,通常用于特定任务或算法,比如之前专门用于“挖矿”的专用芯片,用一段时间就会随着行业起伏而淘汰,因为这种芯片设计出来就为了“挖矿”不能用于其他目的;但优点是,算法写得好效率会很高。

  回到AI领域,如果大规模应用ASIC,那么如果出现新的架构和模型,上一批ASIC就会面临淘汰。考虑到成本和效率,通用性、易用性和高性能仍然是当下互联网公司和AI厂商衡量AI芯片的标准,也因此,GPU在当下仍是最好的通用计算加速方案。

  壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  中国资产爆发!离岸人民币对美元汇率升破7.20!A50直线拉升,港股也走强;外资机构竞相唱多A股

  新疆人大常委会副主任,新疆总工会主席,中华全国总工会副主席 木合亚提·加尔木哈买提

  起底OpenAI「国王」Ilya:师从Hinton,为了他,马斯克与谷歌创始人彻底决裂

  绿军爆冷加时惜败:塔图姆45+13+6+7三分丢关键罚球 惨遭18分逆转

  被BLG打解散了?GEN官宣4人离队,仅Peyz留队!正在全力挽留chovy

LX-43AC  ComExpress龙芯3A2000主板模块LX-43AC  ComExpress龙芯3A2000主板模块