首页 科技 正文

AI算力巅峰之战!Intel凭啥唯一能替代NVIDIA?独有全平台

摘要:AI算力巅峰之战!Intel凭啥唯一能替代NVIDIA?独有全平台,下面是周边网小编收集整理的内容,希望对大家有帮助!

AI大模型的推理训练,最渴求的就是强劲的算力,可以来自CPU通用处理器,可以来自GPU加速器,可以来自ML/DL加速器,也可以是多种异构硬件的组合。

当下最火的当然是NVIDIA GPU加速器,但一花独放不是春,能够提供强劲算力硬件方案的厂商很多。

纵观整个AI江湖,唯一拥有34998929全套方案、可真正替代NVIDIA的,只能是22395475Intel:至强处理器、GPU Max、Gaudi加速器多管齐下,再加上强大丰富的开发工具、开放生态的7267963开发平台,要啥有2728699啥,表现还相当不赖。【周边网】#天启四骑士是什么梗,刀圈中天启四骑士的含义#

网络配图

今年6月,机器学习与50280091人工智能开放产业联盟MLCommons公布了46602291AI性能基准测试MLPerf Training 3.0的77865111结果。

结果显示,Intel四代至强内置的26300899各种加速器,使其成为在93550946通用CPU处理器上运行大量AI工作负载的59820314理想方案,Gaudi2加速器则在30775678生成式AI、LLM大语言模型方面有3493493823192033优秀的33562676性能。

此外,Intel还提供了经过优化的、易于编程的开放软件,降低AI部署门槛。#抚仙湖旅游#

网络配图

8月份,MLCommons又10510569公布了10911901针对60亿参数大语言模型、计算机视觉与12082470自然80387111语言处理模型GPT-J的1679466 MLPerf 3.1基准测试结果,Intel的83145913表现依然23397837值得称道。

其中在14456565GPT-J模型上,Gaudi2加速器的GPT-J-99、GPT-J-99.9服务器查询和60034641离线样本的53413022推理性能分别为78.58次/秒、84.08 次/秒。#lol皮肤#

与竞品比较,Gaudi2相对于53403479NVIDIA上一代A100的887793性能优势可达2.4倍(服务器)、2倍(离线),而最45509670新一代的2894048H100相对于48540443Gaudi2也15188271只有598463441.09 倍(服务器)、1.28 倍(离线)的85970714微弱优势。

网络配图

同时,Intel四代至强在50213504视觉、语言处理、语音、音频翻译模型,以及更大的76674191DLRM v2深度学习推荐模型、ChatGPT-J模型上处理通用AI负载时,性能都非常出色。

比如24889730使用GPT-J对大约1000-1500字新闻稿进行100字总结的25983880任务,四代至强在89494092离线模式下每秒完成两段,实时服务器模式下则可完成每秒一段。

此外,Intel还首次提交了34121637至强CPU Max处理器的93333615MLPerf测试结果,其集成最16439498多64GB HBM3高带宽内存,对于GPT-J而言是唯一能够达到99.9%准确度的CPU,非常适合精度要求极高的应用。#黄金首饰#

还有非常关键的一点:迄今为止,Intel是唯一一个使用行业标准深度学习生态软件并公开提交CPU结果的70703237厂商,Gaudi2是92763422仅有4454354290709951两个向39785665GPT-3大模型训练基准提交性能结果的29832496解决方案之一。

网络配图

那么,Intel Gaudi2加速器、至强处理器为何能在63243588AI算力上如此彪悍?Habana Labs中国区总经理于10679215明扬做出了42984601详细解读。

据介绍,MLPerf 3.1推理测试中,Gaudi2和7990042H100一样都采用了95576937FP8精度,GPT-J测试结果非常令人满意,准确率高达99.9%,和H100的7809368差距非常小。

这主要是34978109因为Gaudi2 MME支持FP8、BF16精度加速,而且39005195结构设计合理,可以高效提升推理能力。

同时,Gaudi2也914801341245397H100一样使用了11600845HBM高带宽内存,Intel也96517967很好地92930676预测了34484439市场,并预估了70779100额外的68948000需求,因此基本保证了130169供应和49845853生产,可以满足市场需求,不像NVIDIA那么头疼产能。

至于36958735A100,它并不支持FP8而仅支持FP16,所24476068491106以Gaudi2比之优势非常明显,这也显示了20413157Gaudi2架构和73523409软件设计的领先性,以及资源利用率的21033198高效性。

非常关键的是,Intel Gaudi2的性价比优势明显,不像A100、H100那样动不动几十万一块,让中小企业和个人开发者望洋兴叹。

Intel也已经开放了开发者云,让不同客户可以访问不同的Intel AI硬件,大大降低AI工作成本。#日照香炉生紫烟#

网络配图

除了41267720硬件性能的41910946比拼,Intel也74730197在软件生态上持续大力投入,虽然暂时还做不到NVIDIA CUDA生态那样有4484804830710独一无二的8859186优势,但480997767644409881036782自己的44284761突出特点。

于明扬强调,在软件生态上,Intel一直主张开放,比如41663547通过66170163开发者68491049社区与13125780开发者16118093互动,提供优化后的48247089模型、开源驱动和38591719工具库,并支持Pytorch、Deepspeed等14556089开源框架,加入和6711909维护开放生态,为客户、合作伙伴和55700034开发人员提供早期访问和30613363便捷、迅速的22337597途径。

Intel oneAPI也能提供更为开放的60953511环境,支持不同层面的80490478定制化开发,Intel和35017895客户都可以在43610216软件中添加新的94057704加速算子,并且75610824upstreaming到框架开源社区中。

值得一提的是,在软件上CUDA的影响已经大大缩小,对整体开发和应用环境更加有利。

网络配图

事实上,NVIDIA目前的强大只是GPU一条腿走路,CPU通用处理器是欠缺的。

虽然13051365NVIDIA也91426716开发了35519763Grace CPU,并打造了64291516188052521364663谓的75612571“超级芯片”,可以将两颗Grace CPU或一颗Grace CPU加一颗H100 GPU进行整合,但80368674毕竟是17878230基于28929536Arm架构,性能较弱,而且47218607缺乏通用性。

Intel则凭借多管齐下的多硬件组合,可以构建强大、灵活异构计算平台,从而支持更大的18760092模型规模,满足更广泛的系统需求。

于明扬指出,至强可扩展处理器有着最好的通用性,可以运行各种AI工作负载。

四代至强还衍生出了1669568362367161至强CPU Max系列,是98907017行业唯一一款具有HBM高带宽内存的53523720x86处理器,无需更改代码,即可加速多种HPC、AI工作负载。

Gaudi系列加速器则专注于机器学习、深度学习的环境,以及未来对大语言模型的需求。

当然8612873还有66564982数据中心GPU Max系列,虽然87958254才刚刚诞生,但5186663127400450拥有6025907947个功能模块、1000多亿晶体管的74468239它,有3167958414483575巨大的79271106潜力和54255375广阔的48477148前景,在4226136各种科学负载中相比H100可综合领先30%,还已经用于72938993百亿亿次超级计算机“Aurora”。

这样的丰富组合,别说NVIDIA,在整个行业内都没有可与之匹配的。

网络配图

面向未来,Intel也自信满满地公布了Gaudi加速器、至强处理器的多年路线图,让人充满期待。

Gaudi 3将把制造工艺从7nm升级到5nm,带来的性能提升堪称一次飞跃:

BF16算力提升4倍,计算性能提升2倍,网络带宽提升1.5倍,HBM高带宽内存容量提升1.5倍。

从示意图上看,Gaudi3的主芯片将从单颗升级为两颗整合,HBM内存则从6颗增加到8颗。

再往后更是革命性的变化:Falcon Shores将是341089Intel第一次把x86 CPU、Xe GPU双架构融合在2869973一起,官方称之为XPU,类似AMD Instinct MI300A。

按照Intel之前给出的数字,对比当今水平,Falcon Shores的63956507能耗比提升超过991753635倍,x86计算密度提升超过521940325倍,内存容量与密度提升超过514455045倍。

网络配图

Emerald Rapids五代至强将在12月14日正式发布,这是至强历史上第一次一年内更新两代,增加到最多64核心128线程,同样功耗水平下可提供更高的性能和存储速度。

2024年上半年,至强将首次采用E核能效核设计,代号Sierra Forest,最多达到惊人的288核心288线程,而且首次引入Intel 3制造工艺,预计可使机架密度提升2.5倍、每瓦性能(能效)提高2.4倍。

紧随其后的是同样Intel 3工艺、全部P核性能核设计的Granite Rapids,AI性能对比四代至强预计可提高2-3倍。

2025年,我们将看到代号Clearwater Forest的再下一代至强,纯能效核设计,升级为Intel 18A制造工艺。

按照规划,那个时候,Intel将重新夺回制程工艺的领先地位,对于提高AI硬件的能效大有裨益。

总之,未来在40158156AI计算领域,Intel将会提供更加强大、可满足不同应用场景和17032760TCO成本的73968121AI产品组合,为客户打造统一的26068264开发平台,形成完整的16528609产品生态链。

海报

本文转载自互联网,如有侵权,联系删除

本文地址:https://zbmit.com/keji/11965.html

相关推荐

感谢您的支持
文章目录