AI推理升温究竟谁在分食算力“蛋糕”-推理|升温|究竟|AI-鹿科技

　　原标题：

　　“为解决AI算力供给不足，除了选择英伟达，我们也可以用CPU芯片实现AI推理。”国内某云计算大厂基础设施负责人在年初一次技术分享会上表达。

　　该负责人所指的AI推理芯片市场需求量正逐年增长。VerifiedMarketResearch报告显示，2023年人工智能推理芯片市场规模为158亿美元，预计到2030年将达到906亿美元，在2024-2030年预测期内的复合年增长率为22.6%。

　　今年早些时候，英伟达财报会上也有表示，公司全年数据中心里已经有40%的收入来自推理业务。

　　分析其中缘由，除了边缘计算和物联网设备驱动外，更重要的是AI应用急剧扩张，相较于需要大规模算力的AI（大模型）训练场景，AI推理对算力性能要求没有AI训练严苛，主要是满足低功耗和实时处理的需求。但在部署在实际终端场景中时，会需要大量服务器进行并行网络计算，推理成本会骤然提升。

　　为此，硬件层面，厂商会不断升级处理器和加速器，从CPU到GPU、FPGA、TPU等，以提高在AI推理方面的性能和能效比。在软件和算法层面，厂商为大规模算力集群提供AI训练推理框架、软件框架，做软硬适配，同时在算法层面，如量化、稀疏化、蒸馏、剪枝等手段，从减少模型的计算复杂度和内存占用入手，以降低推理所需存算空间。

　　“不可能三角”下的AI推理

　　一位头部协同办公软件海外负责人在今年6月告诉钛媒体，谷歌当时将Gemini Nano模型应用于Chrome浏览器，用于端侧生成式AI实现。但问题是现在的实际效果比较堪忧，就是又要推理又要翻译同时还要计算量低，不太现实。这种在端侧AI技术上的“不可能三角”，让该负责人所在企业还在观望。

　　与此同时，据路透社报道，OpenAI正在与博通（Broadcom）合作开发其首款定制AI推理芯片，旨在处理其大规模的AI工作负载，特别是推理任务。

　　这意味着，对企业客户而言，在模型推理或部署阶段，需要考虑部署灵活性、性价比以及低门槛接入方式，这些都决定了企业TCO（总体拥有成本，Total Cost of Ownership）。Melius Research的分析师Ben Reitzes在给客户的一份说明中表示：“有看法认为，英伟达未来在推理领域的市场份额将低于训练领域。”

　　有需求的地方就有市场，有市场的地方就有竞争。如今，AI推理市场正在被英特尔、AMD、高通等CPU厂商盯上。

　　以英特尔为例。10月28日，英特尔宣布扩容英特尔成都封装测试基地，其成都基地扩容主要有两方面：一是新增产能将集中在为服务器芯片提供封装测试服务，以响应中国客户市场需求；二是即将设立英特尔客户解决方案中心，推动为行业客户提供基于英特尔架构和产品的定制化方案。更早一个月，除了很早就预热的Gaudi 3 AI加速器，英特尔还升级至强6处理器，其性能是前代产品的两倍，可支持边缘、数据中心、云环境中的AI大模型推理诉求。据外媒报道，目前73%的AI服务器都使用英特尔至强系列作为服务器机头。

　　钛媒体注意到，仅在企业级应用市场，中国云厂商、OEM、ODM、ISV等伙伴正密集对其搭载CPU芯片的通用算力服务器进行升级。例如，阿里云基于方升架构推出最新一代磐久计算型服务器，以及第九代阿里云英特尔平台企业级计算实例产品；火山引擎对其第四代云服务器实例进行了架构和性能优化；在基于松耦合开放架构设计的服务器计算模组设计规范（OCM）下，浪潮信息元脑服务器第八代算力平台也于近日正式推出，同时支持英特尔至强6处理器及AMD EPYC 9005系列处理器。

　　那么从英特尔等的技术升级进程上可以理解，相比于昂贵且紧缺的GPU或者适合于小规模的RTX 4090，CPU处理器的能核能效正逐渐去适应AI工作负载和高密度可扩展的融合需求。

　　CPU用于AI算力背后的几点变化

　　“当下AI应用层出不穷，尤其在产业互联网领域，已不单纯是需要超大算力的训练场景，一个新的问题是，很多传统应用也存在一定智能化需求，比如在CRM系统中帮助客户自动识别线索、帮助销售自动填报信息。但是，这些AI需求并不见得需要配备AI加速卡去支撑。”浪潮信息服务器产品线总经理赵帅对钛媒体APP等说道。

　　赵帅表示：“在AI训练场景中，CPU目前主要参与数据预处理环节，包括数据清洗、格式转换、特征提取等，目前大模型训练所需的数据集仍在呈指数级增长，需要有更强大的CPU。在AI推理场景，目前主流大模型月活非常高，这意味着AI推理需要同时处理高并发任务，对整个CPU的资源调度能力是一个极其严峻的考验。CPU需要在极短的时间内对各种任务进行合理分配和调度，确保每个任务都能得到及时处理和实时响应。”

　　在赵帅看来，多模态模型的出现，对内存容量提出了更大要求，以便支持数据预处理和存储。例如多模态模型LLaMA3.2包含60亿图文和1500小时的语音数据，数据规模达到PB级，相比LLaMA3.1的数据量已增加百倍以上。长本文的出现，导致某些先进创企已经提出要以KVCache为中心的分离架构设计，即根据不同计算特性将预填充服务器与解码服务器分开，在大batch size及队列场景下需要更大的系统内存带宽。此外，适配各种加速卡的处理器节点也面临算力、内存容量、内存带宽、IO扩展等多方面的挑战，需要丰富的强大的CPU系统生态来实现系统资源的最佳利用。

　　据工信部今年9月公布数据，中国在用算力中心机架总规模超过830万标准机架，算力总规模达246EFLOPS（EFLOPS是指每秒进行百亿亿次浮点运算）。据中国信通院测算，截至2023年底，全球算力基础设施总规模达到910EFLOPS，同比增长40%；其中，美国、中国算力基础设施规模位列前两名，算力占比分别为32%、26%。

　　那么问题来了，当算力中心仍在如火如荼建设中时，这种在数据、内存、算力、带宽等需求的急剧变化下，算力落地挑战将在未来被逐一放大。

　　更重要的是满足场景需要

　　以服务器为例，作为算力的承载体系，正面向更智能、更开放、更绿色的算力体系不断进化。

　　不同于一年前市场端服务器采购的需求收紧，服务器尤其是AI服务器在大模型应用需求的拉动下，市场需求开始复苏。Gartner数据显示，2024年第一季度，全球服务器出货量同比增长5.9%，总出货量达282万台。本季度供应商收入同比增长59.9%，AI服务器需求推动平均售价增长51.0%。而在全球服务器市场强劲增长的态势中，浪潮信息服务器出货量全球第二，中国第一。

　　2020-2030全球服务器市场规模（按产品划分）

　　“我们面向于多场景需求满足，每款产品都基于具体业务场景和客户真实收益而来。你会发现我们的产品布局相较于其他厂商更为广泛。这一优势很大程度上归功于我们现行的解耦设计与开发模式。”赵帅对钛媒体表示。

　　他指出，从客户角度，往往面临各种特定的方案需求场景。通过将部件设计成通用的构建模块（CBB），这些模块经过一次测试和验证后，便能在多个平台上高效应用，从而支撑起浪潮信息广泛的产品布局，这也使得产品在更细分的场景中能够发挥更高价值。

　　浪潮信息服务器产品线规划经理罗剑告诉钛媒体，“第八代算力平台最核心的技术攻关，一是提升了软件方面的智能化水平，比如故障告警的智能化处理水平，通过大模型对过去历史故障数据进行建模，对关键部件如内存、硬盘等可能产生的故障进行智能预判，从而减少客户计划停机外的业务影响；二是计算模组的解耦，还有内存带宽的提升，破除存储墙、内存墙。尤其是支持更高计算性能的处理器，会有大量数据吞吐需求，针对大内存带宽需求，元脑服务器可配备最高12T内存，同时也可支持内存容量和带宽同步扩展的CXL方案，其目的也是释放计算性能的最大潜力，避免客户在内存资源上的闲置。”

　　钛媒体注意到，目前基于OCM、OAM、CXL、整机柜标准的开放产品，浪潮信息实现了在计算、存储、I/O扩展、整机柜部署和智算的五种场景化优化机型。除了在硬件层面，浪潮信息此前基于龙蜥社区开发的下游商业版服务器操作系统KOS进行了升级，实现软硬协同优化。

　　此外，过去一个月内，不只是浪潮信息，中兴通讯、联想、新华三等服务器厂商相继公布多款算力新品，同样覆盖了通用算力、人工智能、液冷、存储型等多个用途场景。一位服务器售前专家与钛媒体交流时指出，他们围绕下游客户诉求而采取的是earlyship策略，“在还没有交付时，实现大批量提前供应，其优势在于能保证建设时客户拿到的是真正先进的芯片。”

　　算力多元化时代，用户根据场景来选择不同的算力单元，满足不同的计算需求，服务器厂商为满足客户诉求也不再局限于提供单一算力产品。