在现阶段AI百模大战时代,焦点在云数据中心的集中式训练。但众所周知的是,训练本身不能产生价值,推理才是AI释放价值的关键。尤其是DeepSeek的横空出世,更加速了AI推理从云端下沉到端侧的进程,也不断赋予边缘设备越来越先进的智能性,使边缘设备胜任越来越重要的任务。
对于芯片硬件玩家来说,边缘侧形态各异的设备与丰富用例,虽然将为我们带来更多激动人心的机会,但他们不得不考虑三大现实问题:一是大模型、智能体在边缘侧的落地,需要更高性能和能效的边缘计算平台作为支撑;二是保证边缘设备的安全可靠,将会成为边缘AI大规模部署的必要条件;三是AI模型的持续演进,以及基于本地数据的重训练,加上安全补丁,都需要支持端侧软件在线更新、改进和升级。
为了充分释放AI的巨大价值,并与OEM厂商、软件开发者们联手营建边缘AI推理生态系统,Arm日前发布了以全新基于Armv9架构的超高能效CPU —— Arm Cortex-A320以及对Transformer网络具有原生支持的Arm Ethos-U85 AI加速器为核心的边缘AI计算平台。
相较于去年推出的基于Cortex-M85搭配 Ethos-U85 的平台,全新边缘AI计算平台最高可支持四核共享集群,支持运行超10亿参数的端侧AI模型,机器学习(ML)性能提高了八倍,并受到了包括亚马逊云科技(AWS)、西门子、瑞萨电子、研华科技和Eurotech在内的多家合作伙伴的支持。
充分利用Armv9架构特性与优势的边缘AI计算平台
Arm将全新边缘AI计算平台的推出视作边缘计算发展的重要里程碑。在此之前,Arm已有其他处理器在为多样化的边缘侧设备提供良好支持,为何还要推出Armv9边缘AI计算平台?
据了解,Arm此前推出的适用于Armv8-M架构的Cortex-M向量扩展技术—Helium,以及Arm Ethos-U AI加速器已在物联网领域广泛应用,将AI和机器学习能力带到了数十亿台边缘设备上。但当今的物联网环境对边缘设备的需求更胜以往,不断变化的需求使得Armv9的先进功能不再只是锦上添花,而是新一代物联网创新的必备条件。
“Armv9边缘AI计算平台不是CPU和AI加速器的简单堆叠,而是实现了深度配合,让CPU和NPU相得益彰,从而将Armv9架构的功能扩展到高能效设备,并提供全面的软件支持。”Arm物联网事业部业务拓展副总裁马健表示。
该平台所包含的全新的基于Armv9架构的Cortex-A320处理器为功耗受限的设备引入了此前仅在尖端移动计算解决方案中使用的先进功能,使其在AI处理、安全性和整体能效方面均实现了显著提升。
Cortex-A320充分发挥了Armv9架构的优势,如针对ML计算性能的可伸缩向量扩展(SVE2) 技术、对BFloat16等新数据类型的支持以及新增矩阵乘法指令。相较于前代产品Cortex-A35,Cortex-A320的ML性能提升了十倍,标量计算性能提升了30%。
该平台所采用的Armv9.2架构还为最小的Cortex-A设备带来了高级的安全功能,例如指针验证(PAC)、分支目标识别(BTI)和内存标记扩展(MTE)。这些功能至关重要,因为边缘设备通常在暴露的环境中运行并处理敏感数据。同时,Cortex-A320支持S-EL2虚拟化,增强了 TrustZone 内部的隔离性,支持更安全地运行软件容器。这在多用户环境中尤为重要,因为在此类环境中,不同的用户或应用共享相同的物理资源。
更多产品信息,欢迎访问网站(www.szmjd.com)。