三巨头激战GPU数据中心市场

2022-05-23 11:18:38
半导体行业观察
文章摘要: 由于其芯片制造商台积电的持续供应压力,英伟达打开了可能与英特尔的代工业务合作的大门,但警告称这样的交易将需要数年时间。

现代图形处理单元(GPU)最初是作为Windows视频游戏的加速器,但在过去20年中已演变为用于高性能计算和人工智能应用程序的企业服务器处理器。

现在,GPU在超级计算、人工智能训练和推理、药物研究、金融建模和医学成像中处于性能领先地位。在CPU不够快的情况下,它们也被应用于更主流的任务,例如在GPU驱动的关系数据库中。

随着对GPU需求的增长,为服务器制造GPU的供应商之间的竞争也越来越激烈。

GPU在数据中心的重要性

这三个供应商认识到数据中心对GPU的需求是一个不断增长的机会。这是因为GPU比CPU更适合处理企业数据中心和超大规模网络中人工智能和机器学习所需的许多计算。CPU可以处理工作,但需要更长的时间。

由于GPU旨在通过将复杂的数学问题分解为它们同时处理的单独任务来并行解决复杂的数学问题,因此它们可以更快地解决这些问题。为了实现这一点,它们具有多个内核,比通用CPU多得多。例如,Intel的Xeon服务器CPU有多达28个内核,而AMD的Epyc服务器CPU有多达64个。相比之下,Nvidia当前一代的GPU Ampere有6,912个内核,所有内核并行运行以做一件事:数学处理,特别是浮点数学。

GPU的性能是通过它们每秒或FLOPS可以执行多少次浮点数学运算来衡量的。此数字有时指定进行测量时使用的标准化浮点格式,例如FP64。

那么服务器GPU的这一年会怎样呢?事实证明,相当多。英伟达、AMD和英特尔已经将他们的近期计划摆在桌面上,看起来这将是一场激烈的竞争。

英伟达

英伟达在3月份发布了其Hopper GPU架构,并宣布了其今年的GPU路线图。根据使用情况,它可以提供其先前架构Ampere的三到六倍的性能,速度为9.7 TFLOPS FP64。Nvidia表示,Hopper H100的FP64性能将达到60TFLOPS。

与以前的GPU一样,Hopper H100 GPU可以作为独立处理器运行,在服务器的附加PCI Express板上运行。但英伟达还将把它与定制的Arm处理器上的CPU配对,该处理器名为Grace,它开发并预计在2023年上市。

对于Hopper,Nvidia所做的不仅仅是增强GPU处理器。它还修改了通常用于智能手机的低功耗双倍数据速率(LPDDR)5内存,以创建LPDDR5X。它支持纠错码(ECC)和两倍于传统DDR5内存的内存带宽,吞吐量为1TBps。

与Hopper一起,Nvidia宣布了其最新的GPU到GPU互连NVLink 4。NVLink 4C2C允许Hopper GPU直接相互通信,最大总带宽为900GB——比通过PCIe Gen5总线连接快七倍。

“如果您考虑数据中心产品,您将拥有三个组件,并且它们都必须以相同的速度向前发展。那就是内存、处理器和通信,”Jon Peddie Research总裁Jon Peddie说。“而Nvidia已经通过Hopper做到了这一点。这三种技术不会同步发展,但英伟达已经做到了。”

Nvidia计划从2022年第三季度开始出货Hopper GPU。而其OEM合作伙伴包括Atos、BOXX Technologies、Cisco、Dell Technologies、Fujitsu、GIGABYTE、H3C、Hewlett Packard Enterprise、Inspur、Lenovo、Nettrix和Supermicro。

由于其芯片制造商台积电的持续供应压力,英伟达打开了可能与英特尔的代工业务合作的大门,但警告称这样的交易将需要数年时间。

AMD

AMD逆风而行。销售额逐季增长,x86 CPU市场份额不断增长,2月份完成了对Xilinx及其现场可编程门阵列(FPGA)、自适应片上系统(SoC)、AI引擎和软件专业知识的收购.预计AMD将在2022年底推出其Zen 4 CPU。

AMD基于其RDNA 3架构的新游戏GPU也将于今年推出。

AMD一直对RDNA 3规格守口如瓶,但游戏爱好者的博主已经散布了未经证实的消息,即性能比RDNA 2提高了50%到60%。

与此同时,AMD已经开始推出用于企业计算的Instinct MI250系列GPU加速器,新产品比之前的MI100系列快得多,内存总线从4096位翻倍到8192位,内存带宽从1.23TBps翻了一倍多到3.2TBps,性能从FP64的11.5 TFLOPS翻了两番多到47.9TFLOPS。这比AMD的Hopper 60TFLOPS慢,但它仍然具有竞争力。

Futurum Research首席分析师Daniel Newman表示,AMD抢占市场份额的机会将随着AI市场的增长而到来。他表示,他相信AMD在CPU市场上的成功可以帮助其GPU销售。

“AMD在过去五七年真正创造的是一种非常强大的忠诚度,这种忠诚度可能会延续下去,”他说。“问题是,他们能否显着增加AI/HPC市场份额?”

他说答案可能是“是的”,因为该公司一直非常擅长寻找市场机会和管理其供应链以实现其目标。在首席执行官Lisa Su的掌舵下,“我发现在他们决定在这一点上竞争的任何领域都很难排除AMD,”他说。

Omdia高级计算、人工智能和物联网首席分析师Jonathan Cassell表示,他认为AMD在Epyc服务器CPU方面的成功将为Instinct处理器提供一个机会。

“我认为,随着时间的推移,我们可以看到AMD在数据中心微处理器方面利用其成功,并利用这一点让公司了解[Instinct]。我认为我们将看到AMD试图利用其与客户的关系来扩大其在国外的影响力,”他说。

Instinct自2022年第一季度以来一直在发货。到目前为止,其最引人注目的用例是橡树岭国家实验室的一台超级计算机,它将大量性能打包到一个非常小的空间中。但这些实验室也在建造一台名为Frontier的全AMD百亿亿级超级计算机,这将于今年晚些时候部署。Instinct提供产品的OEM合作伙伴包括华硕、ATOS、戴尔科技、技嘉、惠普企业(HPE)、联想、企鹅计算和Supermicro。

英特尔

长期以来,英特尔一直在努力为其台式机CPU制造除基本集成GPU之外的任何产品。对于台式机,它拥有新的Intel Xe系列,而服务器等效产品称为Intel Server GPU。

现在,该公司表示今年将使用代号为Ponte Vecchio的处理器进入数据中心GPU领域,据报道该处理器在FP64时可提供45TFLOPS——几乎与AMD的MI250相同,比Nvidia的Hopper落后25%。

“这真的会破坏环境,”佩迪说。“从他们告诉我们的情况来看——我们从谣言和其他泄密事件中听到——它非常具有可扩展性。”Ponte Vecchio将于今年晚些时候推出。

Newman也听到了关于Ponte Vecchio的积极消息,但表示英特尔的真正机会在于其oneAPI软件战略。

oneAPI是该公司正在开发的统一软件开发平台,旨在在编译应用程序时选择英特尔制造的最合适的芯片类型(x86、GPU、FPGA、AI处理器),而不是强迫开发人员选择一种类型的芯片并对其进行编码。它还为视频处理、通信、分析和神经网络等功能提供了许多API库。

这种抽象消除了确定最佳目标处理器的需要,以及使用不同工具、库和编程语言的需要。因此,开发人员可以专注于业务逻辑并使用Data Parallel C++(DPC++)编写代码,而不是使用特定语言对特定处理器进行编码,DPC++是C++的一种开源变体,专为数据并行和异构编程而设计。

将英特尔与Nvidia和AMD区分开来的一个因素是它制造芯片的地方。虽然其他公司使用台湾芯片制造商台积电,但英特尔在美国生产许多自己的芯片,在爱尔兰、马来西亚和以色列设有其他工厂。并且intel有在美国建造更多晶圆厂的宏伟计划。卡塞尔说,这给了它一定的优势。“[它拥有]对自己制造的控制权使其以某种方式控制了自己的命运,”他说。“我将这些东西视为公司的资产。”

纽曼说,英伟达、AMD和英特尔之间的竞争最终可能归结为软件竞赛。“如果你问[Nvidia的]顶级工程师,他们会说我们不是一家芯片公司。我们是一家软件公司。我真的相信英特尔到目前为止还没有像软件公司那样真正考虑过人工智能,但如果他们能够正确地[oneAPI],我看到了一些真正的机会,”他说。

信息化软件服务网 - 助力数字中国建设 | 责编:夏丽
文明上网,理性发言!请遵守新闻评论服务协议
评论