在利润丰厚的服务器和HPC(高性能计算)处理器市场,英特尔的市场份额在很长一段时间都超过九成,但市场不总是一成不变。随着AMD Epyc处理器的推出,以及Arm架构处理器进入这一市场,2020年英特尔难以避免他们带来的竞争。但是,市场份额并不会迅速变化,英特尔x86处理器在未来五年甚至更长时间仍将主导这一市场,面对强有力的竞争者,能否守住这一市场,新产品变得更加重要。

高性能计算(HPC)市场已经连续多年增长。目前至少有三种架构的CPU可用于HPC任务,包括X86、Arm和Power,有超过六家可靠的供应商,还有两种(即将成为三种)GPU架构。不过,目前该领域的绝大多数HPC系统还是由英特尔 CPU(有时是Nvidia GPU)提供算力。从今年开始,情况将开始改变。

近期内的变化可能会来自x86领域,AMD Epyc的势头将使英特尔面临自Opteron(皓龙,AMD 2003年推出的64位处理器)时代以来最激烈的竞争。特别是,几乎可以确定第二代Epyc芯片(又名“罗马”)将抢占英特尔在服务器领域(包括HPC)的市场份额。

罗马令人印象深刻的性价比无疑是促使美国、英国、德国和芬兰等超级计算机系统选择它的关键,大多数系统将于今年上线。现在的关键问题是,更新的至强处理器(14纳米“ Cooper Lake”至强可扩展处理器),尤其是未来的10纳米“ Ice Lake”至强可扩展处理器,能在多大程度减少市场份额的流失。

Arm也在缓慢地进入HPC市场,我们认为,缓慢的主要原因是,从技术角度看,与x86或任何其它通用处理器相比,该架构没有任何特殊的优势。Arm的优势在于其IP是可授权的,因此该架构可以满足不同市场定制处理器的需求,这和全球软件生态系统捆绑在一起。

需要说明,这种可延展性是长期的优势,而不是短期的优势。富士通花了至少五年的时间设计和开发了A64FX,这是第一个基于Arm架构的HPC专用处理器。它即将在RIKEN Lab的“ Fugaku” 400 petaflops超级计算机中首次亮相,将测试Arm架构在高端HPC中的可行性以及相应的生态系统。巧的是,它也将展示没有加速器或外部存储器系统的优缺点。

Cavium(雷锋网注,凯为半导体2017年已经被Marvell收购)的ThunderX2 SoC是一种更普通的芯片,其目标是在低级别的HPC领域,这款处理器于2018年推出,很快就获得了Marvell的订单,并成为了英国和其它地区为数不多的第一批基于Arm处理器构建HPC集群的基础。尽管ThunderX2不是超高性能,但由其较好的集成内存控制器分配,在受内存带宽限制的应用中表现出色。Marvell希望在ThunderX2成功的基础上再推出ThunderX3,该产品有望在今年年初发布。

Marvell预测,第三代产品将基于7纳米制程,将与AMD的“罗马” Epyc 7002和英特尔的Ice Lake至强可扩展处理器竞争,性能将比ThunderX2高出两倍以上,时钟频率也更快,能源效率更高。

今年,基于Arm的高性能计算将有另一个重要选择——基于A64FX的商用系统。例如,由于与富士通达成了合作协议,客户现在可以从Cray / HPE选择支持A64FX的CS500集群。对于日本或者欧洲市场,富士通还将提供基于A64FX的FX700和FX1000系统。

如果这些系统在各自的地区能够吸引足够的客户,其他OEM也可能与富士通达成类似的协议。

基于A64FX的商业系统的前景也可以预测。Isambard 2是布里斯托大学最初由ThunderX2驱动的Isambard集群的迭代版本,将采用A64FX Cray CS500。尽管还没有宣布任何消息,但是如果欧洲三台E级超级计算机(每秒可进行百亿亿次数学运算)中的一台(或更多台)也都采用A64FX芯片,这也不会令人感到惊讶。

我们认为,用户和供应商当前对基于Arm的群集的热情是基于以下事实,即变化似乎已达到拐点。Hyperion Research一直在跟踪HPC中Arm的销售情况,他们预计在未来五年中,该领域Arm处理器收入的复合年增长率为64.7%。

尽管在2019年仅有50,000颗Arm芯片被用于HPC,但Hyperion预计该数字到2020年将超过233,000,到2024年将超过610,000。其中许多系统将在美国以外,这一事实反映出所有最初的基于Arm的亿兆级系统都将在欧洲、中国和日本构建和部署。这些地区占高性能计算一半以上的市场。也就是说,尽管Arm在这一领域可以维持较高的增长率,但x86处理器在未来五年甚至更长时间内仍将主导这一市场。

Power架构方面,尽管有OpenPower计划,IBM仍然是游戏的唯一玩家。Power10处理器原定于今年推出,但现在看来它将在2021年问世,该公司并没有依靠HPC来增加出货。尽管Power10可以成为高性能计算领域令人印象深刻的芯片,但尚无大型系统由该芯片提供算力(能源部通过了IBM和Power10的CORAL-2合同)。

一个潜在的增长点是,欧洲开放计算机体系结构实验室(LOCA)计划选择OpenPower作为开发开源HPC处理器的三种架构之一。

在可预见的未来,Power架构似乎注定在高性能计算中扮演次要角色。

GPU和更广泛的加速器肯定会增长,特别是如果考虑到中国(中科曙光的DCU和Matrix-3000 DSP),欧洲(RISC-V和其他特定领域的加速器)追求定制设计(欧洲处理器计划)的产品,以及无数的AI加速器进入市场,例如英特尔最近推出的神经网络处理器:NNP-T和NNP-I。当然,还有Xilinx和英特尔的各种FPGA迭代产品,可用于在芯片中实现硬件半定制化的HPC应用。

但是,对于主流HPC使用者,GPU仍将是首选的加速器平台。英伟达主导了这个领域,但AMD及其Radeon Instinct准备抢占该市场的部分市场份额。顶级的MI60通过Infinity Fabric提供7.4 teraflops的64位性能,32 GB的HBM2内存以及与GPU之间的200 GB /秒的连接性能。在将来的迭代中,连接性能将扩展到AMD的Epyc CPU,以便GPU和CPU可以在同一结构上进行通信。这个功能将在Oak Ridge National Lab的“ Frontier”百亿级超级计算机中进行大规模测试,将通过Infinity Fabric在每个节点中连接四个Radeon Instinct GPU和一个Epyc CPU,Frontier计划于2021年启动。

同年,“ Aurora”E级超算有望在Argonne国家实验室上线。该系统将配备英特尔的Xe GPU,这是一个协处理器,旨在加速HPC和神经网络训练,就像Nvidia的V100和T4一样。因此,Aurora将是针对此处理器进行HPC和AI负载的第一个大型测试。由于现在没有Xe处理器(定于今年晚些时候发布),因此它们的性能以及可编程性未知。

在这方面,英伟达具有优势,因为该公司十多年来一直在围绕其CUDA硬件有条不紊地扩展其CUDA软件,并已拥有数量庞大的开发人员和用户。事实证明,该公司的GPU也有些难以捉摸,而且随着可能在今年晚些时候推出的新一代(“安培”)架构的出现,英伟达可能再次体现出优势。

但现在,至少是一场三雄争霸的比赛。随着新十年的开始,这将使加速器市场变得更加有趣。

作者.包永刚

关键词: