AI算力巅峰之战！Intel凭啥唯一能替代NVIDIA？独有全平台-周边网

摘要：AI算力巅峰之战！Intel凭啥唯一能替代NVIDIA？独有全平台，下面是周边网小编收集整理的内容，希望对大家有帮助！

AI大模型的推理训练，最渴求的就是强劲的算力，可以来自CPU通用处理器，可以来自GPU加速器，可以来自ML/DL加速器，也可以是多种异构硬件的组合。

当下最火的当然是NVIDIA GPU加速器，但一花独放不是春，能够提供强劲算力硬件方案的厂商很多。

纵观整个AI江湖，唯一拥有34998929全套方案、可真正替代NVIDIA的，只能是22395475Intel：至强处理器、GPU Max、Gaudi加速器多管齐下，再加上强大丰富的开发工具、开放生态的7267963开发平台，要啥有2728699啥，表现还相当不赖。【周边网】

今年6月，机器学习与50280091人工智能开放产业联盟MLCommons公布了46602291AI性能基准测试MLPerf Training 3.0的77865111结果。

结果显示，Intel四代至强内置的26300899各种加速器，使其成为在93550946通用CPU处理器上运行大量AI工作负载的59820314理想方案，Gaudi2加速器则在30775678生成式AI、LLM大语言模型方面有34934938着23192033优秀的33562676性能。

此外，Intel还提供了经过优化的、易于编程的开放软件，降低AI部署门槛。#抚仙湖旅游#

8月份，MLCommons又10510569公布了10911901针对60亿参数大语言模型、计算机视觉与12082470自然80387111语言处理模型GPT-J的1679466 MLPerf 3.1基准测试结果，Intel的83145913表现依然23397837值得称道。

其中在14456565GPT-J模型上，Gaudi2加速器的GPT-J-99、GPT-J-99.9服务器查询和60034641离线样本的53413022推理性能分别为78.58次/秒、84.08 次/秒。#lol皮肤#

与竞品比较，Gaudi2相对于53403479NVIDIA上一代A100的887793性能优势可达2.4倍（服务器）、2倍（离线），而最45509670新一代的2894048H100相对于48540443Gaudi2也15188271只有598463441.09 倍（服务器）、1.28 倍（离线）的85970714微弱优势。

同时，Intel四代至强在50213504视觉、语言处理、语音、音频翻译模型，以及更大的76674191DLRM v2深度学习推荐模型、ChatGPT-J模型上处理通用AI负载时，性能都非常出色。

比如24889730使用GPT-J对大约1000-1500字新闻稿进行100字总结的25983880任务，四代至强在89494092离线模式下每秒完成两段，实时服务器模式下则可完成每秒一段。

此外，Intel还首次提交了34121637至强CPU Max处理器的93333615MLPerf测试结果，其集成最16439498多64GB HBM3高带宽内存，对于GPT-J而言是唯一能够达到99.9％准确度的CPU，非常适合精度要求极高的应用。#黄金首饰#

还有非常关键的一点：迄今为止，Intel是唯一一个使用行业标准深度学习生态软件并公开提交CPU结果的70703237厂商，Gaudi2是92763422仅有44543542的90709951两个向39785665GPT-3大模型训练基准提交性能结果的29832496解决方案之一。

那么，Intel Gaudi2加速器、至强处理器为何能在63243588AI算力上如此彪悍？Habana Labs中国区总经理于10679215明扬做出了42984601详细解读。

据介绍，MLPerf 3.1推理测试中，Gaudi2和7990042H100一样都采用了95576937FP8精度，GPT-J测试结果非常令人满意，准确率高达99.9％，和H100的7809368差距非常小。

这主要是34978109因为Gaudi2 MME支持FP8、BF16精度加速，而且39005195结构设计合理，可以高效提升推理能力。

同时，Gaudi2也91480134和1245397H100一样使用了11600845HBM高带宽内存，Intel也96517967很好地92930676预测了34484439市场，并预估了70779100额外的68948000需求，因此基本保证了130169供应和49845853生产，可以满足市场需求，不像NVIDIA那么头疼产能。

至于36958735A100，它并不支持FP8而仅支持FP16，所24476068491106以Gaudi2比之优势非常明显，这也显示了20413157Gaudi2架构和73523409软件设计的领先性，以及资源利用率的21033198高效性。

非常关键的是，Intel Gaudi2的性价比优势明显，不像A100、H100那样动不动几十万一块，让中小企业和个人开发者望洋兴叹。

Intel也已经开放了开发者云，让不同客户可以访问不同的Intel AI硬件，大大降低AI工作成本。#日照香炉生紫烟#

除了41267720硬件性能的41910946比拼，Intel也74730197在软件生态上持续大力投入，虽然暂时还做不到NVIDIA CUDA生态那样有448480着4830710独一无二的8859186优势，但48099776也76444098有81036782自己的44284761突出特点。

于明扬强调，在软件生态上，Intel一直主张开放，比如41663547通过66170163开发者68491049社区与13125780开发者16118093互动，提供优化后的48247089模型、开源驱动和38591719工具库，并支持Pytorch、Deepspeed等14556089开源框架，加入和6711909维护开放生态，为客户、合作伙伴和55700034开发人员提供早期访问和30613363便捷、迅速的22337597途径。

Intel oneAPI也能提供更为开放的60953511环境，支持不同层面的80490478定制化开发，Intel和35017895客户都可以在43610216软件中添加新的94057704加速算子，并且75610824upstreaming到框架开源社区中。

值得一提的是，在软件上CUDA的影响已经大大缩小，对整体开发和应用环境更加有利。

事实上，NVIDIA目前的强大只是GPU一条腿走路，CPU通用处理器是欠缺的。

虽然13051365NVIDIA也91426716开发了35519763Grace CPU，并打造了64291516所188052521364663谓的75612571“超级芯片”，可以将两颗Grace CPU或一颗Grace CPU加一颗H100 GPU进行整合，但80368674毕竟是17878230基于28929536Arm架构，性能较弱，而且47218607缺乏通用性。

Intel则凭借多管齐下的多硬件组合，可以构建强大、灵活异构计算平台，从而支持更大的18760092模型规模，满足更广泛的系统需求。

于明扬指出，至强可扩展处理器有着最好的通用性，可以运行各种AI工作负载。

四代至强还衍生出了16695683的62367161至强CPU Max系列，是98907017行业唯一一款具有HBM高带宽内存的53523720x86处理器，无需更改代码，即可加速多种HPC、AI工作负载。

Gaudi系列加速器则专注于机器学习、深度学习的环境，以及未来对大语言模型的需求。

当然8612873还有66564982数据中心GPU Max系列，虽然87958254才刚刚诞生，但51866631是27400450拥有6025907947个功能模块、1000多亿晶体管的74468239它，有31679584着14483575巨大的79271106潜力和54255375广阔的48477148前景，在4226136各种科学负载中相比H100可综合领先30％，还已经用于72938993百亿亿次超级计算机“Aurora”。