英特尔新一代CPU夺回数据中心主导权，实现跨越式升级

更新时间：2024-09-30 18:43:49作者：zsbaocheng

日前，英特尔正式发布至强6性能核处理器（代号Granite Rapids），旨在针对AI、数据分析、科学计算等计算密集型业务提供更佳性能。在AI迅速席卷市场的前几年，CPU在适应变革方面可能未能完全满足市场期待。新一代处理器将给市场带来哪些改变？采访了英特尔的多位生态合作伙伴，所获评价都非常积极，包括：“让英特尔重回巅峰”、“给合作注入更大信心”、“改变部分用户的观望心态”……本文就来看看至强6性能核处理器的强大之处，以及它给AI、数据中心产业带来的影响。

处理性能大幅升级，满足更广泛需求已宣布上市的至强6900P系列处理器（代号Granite Rapids-AP），具备三个计算单元和两个I/O单元，最高可配备128个内核，支持每秒6400MT的DDR5内存、每秒8800MT的MRDIMM内存、6条UPI 2.0链路（速率高达每秒24 GT），96条PCIe5.0或64条CXL 2.0通道、504MB的L3缓存，支持FP16数据格式的英特尔高级矩阵扩展（英特尔AMX），可为AI和科学计算等内存带宽敏感型工作负载提供MRDIMM选择，且新增对CXL 2.0的支持。约在2年前，市场上一个主流服务器所搭配的至强处理器约为24-48核，与之相比，至强6900P最高128个内核的配备，大幅提升了CPU内核数量以及整体性能，可以说是“跨越式”的表现。根据已透露的测试，至强6900P平台在数据库、科学计算等关键应用负载的表现是上一代产品的2.31倍-2.5倍，AI应用性能是其1.83倍-2.4倍。芯片架构是至强6性能核处理器的独特之处，它采用了计算芯片单元与I/O芯片单元解耦的分离式模块化设计，以Chiplet的形式封装在一起。计算单元中包含了x86内核、内存控制器和缓存。I/O单元中包含了PCle、CXL、UPI等通用协议，也包括了英特尔独有的加速器。通过不同的排列组合，使得它可以灵活组合不同数量的计算单元，实现核心数量的扩展及内存和I/O的同步强化，保证更优的整体性能和能效。在AI加速方面，从第四代至强处理器开始，英特尔就为AI加速推出了专属指令集——高级矩阵扩展（英特尔AMX）。通过这个指令集，CPU能够更好地支持大模型推理计算。在最新一代的至强处理器中，该指令集也进行了升级。AI工作负载方面，至强6性能核处理器可运行12种工作负载，覆盖通用计算、数据库、科学计算等，其中包括Llama2、Llama3 大模型等。与第五代至强可扩展处理器相比，至强6处理器从64核升级到128核，平均单核性能提升高达1.2倍，平均每瓦性能提升高达1.6倍，同等性能水平下平均节省30%的TCO。在运行70亿参数Llama2 大模型推理时，在AMX加速的情况下，实现了3.08倍的性能提升。存力升级，多项新技术赋能算力需要平衡的升级，至强6性能核处理器除了核数多、计算性能提升，在内存方面也进行了较大的改进，主要亮点有：更快的内存——MRDIMM。英特尔两年前就开始和业界领先厂商就MRDIMM展开合作，目标就是能够率先在服务器领域推出支持MRDIMM技术的服务器。MRDIMM利用数据缓冲区，实现了两个列的同步操作，从而允许一次向 CPU 传输 128 字节的数据；而传统DRAM 模块一次只能传输 64 字节。英特尔至强6性能核处理器，通过使用标配6400MT/s和更快的MRDIMM内存结合的方式，可以处理对内存非常敏感的工作负载，包括科学计算、AI等。更大的内存——CXL。至强6在CXL方面的演进同样值得关注，第五代至强正式引入CXL 2.0，用以扩展内存容量和带宽。至强6已经可以支持3种CXL内存扩展模式：CXL Numa Node、CXL Hetero Interleaved、Flat Memory。从一系列性能规格就可以看出，新一代至强6性能核处理器在核心数量、内存带宽、AI加速功能方面明显升级，这对计算密集型工作负载非常关键，可以覆盖从边缘到数据中心再到云环境中的各种AI挑战。通过采用模块化SoC架构设计，至强6性能核处理器能够以丰富的产品系列，为云服务提供商、OEM、ODM、ISV等提供灵活性和可扩展性。释放通用CPU在AI边缘推理中的价值作为算力的载体，数据中心在过去近20年中，通过不断的演进与重构见证和推动了科技的发展。如今，在算力需求日益飙升且多样化的当下，至强6性能核处理器将给数据中心带来哪些独到价值？又将如何进一步释放算力价值？英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立认为，通用CPU进行AI推理是一个较大的机遇。尽管大模型规模在不断增长，但是行业专用模型可能并不需要如此庞大的模型，对于许多行业用户来说，他们实际上更倾向于使用10B以下的行业专用模型，并在这些模型中构建专属的知识和数据库。根据一些客户反馈，至强6性能核处理器进行Llama2、Llama3推理，性能已足够应对。此外，在一些搭载加速器或GPU的AI服务器中，绝大部分机头选用的也都是英特尔CPU处理器，英特尔与主流的GPU厂商、AI生态合作伙伴都建立了良好的合作关系，共同定义至强规格以提供最佳的机头体验。新华三集团计算存储产品线副总裁刘宏程认为，至强6性能核处理器相较于上一代的性能提升并非细微改进，而是翻天覆地的变化，这可能会改变用户以往“再等等”的观望心态，这种显著的性能增长有望加速整个行业向新一代技术切换的进程。他指出，过去业界常常用 “通用服务器”和“GPU服务器” 来进行区分，但在这一代服务器上，实现了融合的基础设施，即能够同时兼顾通用计算和GPU加速的需求。这种融合将加速各行业对新技术应用的推动，因为用户不再需要在不同类型的服务器之间做出选择，而是可以更加灵活地应对多样化的计算需求。由于大模型应用到具体行业，往往需要结合企业的私有数据进行微调与推理。他认为融合架构比单一GPU服务器更适合这类需求，因为对于私域小规模的训练和推理任务来说，融合架构的投资回报率更高，能够更有效地利用资源。当推理需求成为主要应用场景时，至强6性能核处理器凭借出色的推理性能，可能成为一个更加经济高效的选择。超聚变服务器产品总经理朱勇谈到，面对千行百业的应用，该处理器可以做到“一芯多用”，既可以进行通用计算、又可以做边缘推理，目前已经可以应用在10B大模型的推理场景，这给客户带来的优势是能够降低TCO。他强调，“百模大战”的终极挑战就是商业变现问题，一个AI应用的成熟落地离不开模型推理，而基于通用场景的CPU推理，能够给客户带来较大的商业价值。宁畅副总裁兼首席技术官赵雷评价，新一代至强6性能核处理器是英特尔“重回巅峰”之作，让他觉得英特尔又重新占领、并且拿到了市场的主导权，给他注入了更大信心。英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉补充，大模型的投资热潮仍在持续，接下来，整个行业将会关注如何基于通用大模型发展行业特定的大模型，这也意味着AI大模型第二场发展机遇刚刚开始，且潜力无限。她强调，对于具体的行业应用来说，推理场景不仅与行业相关，而且与每个行业的具体场景密切相关。因此，未来算力的需求不仅被极大地放大，而且呈现出多样化的特点。在这样的趋势下，“性能”和“成本”必须是一个平衡考虑，而至强6性能核处理器正是基于对未来趋势的洞察而诞生的。推动液冷产业加速发展更强算力也让数据中心面临能耗和散热挑战。立足于此，英特尔发起了英特尔中国数据中心液冷创新加速计划。希望携手行业伙伴突破油类单相浸没散热能力有限的技术难题，进一步推动冷板式液冷整体解决方案验证，同时还联合生态力量推动UQD互换验证测试，从技术创新、构建统一行业标准两方面“双管齐下”，降低数据中心液冷使用成本、增强可靠性，为液冷技术的规模化应用保驾护航。联想基础设施业务群服务器产品部总经理周韬分享，基于至强6性能核的联想ThinkSystem SC750 V4服务器，是支持至强性能核的高密度服务器，主要是采用了联想海神的温水水冷技术，可以做到100%散热都可以通过水冷去覆盖，测试结果显示在生物化学、气象这些应用方面都有出色性能。赵雷谈到，随着CPU算力越来越强，核数从上一代64核升级到现在128核，它的能耗也相应从300瓦增加到500瓦，这也客观推动了液冷的发展和快速落地。以往350瓦以下的CPU可以通过风冷解决散热问题，但新一代CPU则需要更高效的散热方案，如液冷。这一转变不仅推动了液冷技术的进步，包括冷板、浸没式冷却等，还带动了整个液冷基础设施的发展。赵雷强调，液冷技术的普及将对电力基础设施提出新的要求，因为随着散热系统的升级，供电能力可能成为新的瓶颈。因此，电力系统的改进也将成为必要。总的来说，CPU技术的进步不仅促进了液冷技术的快速发展，还将拉动整体基础设施的升级优化。