人工智能(AI)的高速发展代表各种大型语言模型(LLM)的新版本不断推陈出新。 要充分发挥AI的潜力并掌握因此而来的机会,需要实现LLM从云到端的广泛部署,其中也带动了对运算和能源需求的大幅增长。 整个生态系正携手寻找应对此挑战的解决方案,不断推出新的、且更高效率的开源 LLM,以便大规模实现各种 AI 推论工作负载,加快为用户带来全新、快速的 AI 体验。
为此,Arm 与 Meta 展开紧密合作,在 Arm CPU 上启用新的 Llama 3.2 LLM,整合开源创新与 Arm 运算平台的优势,以应对 AI 带来的挑战。 受惠于Arm的持续投资及与各新型LLM的合作,在Arm CPU上运行AI的优势在生态系中脱颖而出,使Arm成为AI推论开发人员的首选平台。
加速从云到端的 AI 效能
小型 LLM(如 Llama 3.2 1B 和 3B)能够支持基于文本的基础生成式 AI 工作负载,对于大规模 AI 推论的实现相当重要。 通过Arm CPU优化核心在Arm技术驱动的行动装置上运行新的Llama 3.2 3B LLM,可让提示词(Prompt)处理速度提高五倍,词元(token)生成速度提高三倍,在生成阶段实现每秒19.92个词符。 这将直接减少了在设备上处理 AI 工作负载的延迟,大大提升了用户的整体体验。 此外,当边缘端能处理的 AI 工作负载越多,往返云端传输数据所节省的电量就越多,进而节省了能源和成本。
除了在边缘端运行小型模型,更大的模型(如 Llama 3.2 11B 和 90B)也能在云端运行。 11B和90B的模型非常适合云端基于CPU的推论工作负载,可生成文本和图像,如同在Arm Neoverse V2上的测试结果显示。 在基于Arm架构的AWS Graviton4上运行11B的图像和文本模型,可在生成阶段实现每秒29.3个词符的表现,远远超出人类大约每秒阅读五个词符的速度。
AI 将通过开源创新和生态系协作迅速扩展
能公开获取各个新的 LLM(如 Llama 3.2)相当关键。 开源创新正以极为快速的速度发展,在之前的版本中,开源社群在不到 24 小时的时间内便能在 Arm 上部署并运行新的 LLM。
Arm 将通过Arm Kleidi 进一步支持软件社区,让整个AI技术堆栈能够充分发挥此一经过优化的CPU效能。 Kleidi 可在任何 AI 框架上释放 Arm Cortex 和 Neoverse CPU 的 AI 功能和性能,无需应用程序开发人员进行额外的整合工作。
通过最近的 Kleidi 与 PyTorch 整合以及正在推进的与 ExecuTorch 整合,Arm 正在为基于 Arm CPU 的开发人员提供从云到端的无缝 AI 效能。 受惠于 Kleidi 与 PyTorch 的整合,在基于 Arm 架构的 AWS Graviton 处理器上运行 Llama 3 LLM 的词元首次响应时间加快了 2.5 倍。
同时,在移动设备上,通过 KleidiAI 库的协助,使用 llama.cpp 库在新的 Arm Cortex-X925 CPU 上运行 Llama 3 的词元首次响应时间与参考实作相比加快了 190%。
Arm表示,Arm 与Meta 的合作成为行业合作的新标杆,它汇聚了Arm 运算平台的灵活性、普及性和AI功能,以及Meta等行业领导者的技术专长,共同释放AI被广泛应用的新机会。 无论是利用设备端 LLM 满足用户的个性化需求,如根据用户所在的位置、日程和偏好来执行任务,还是通过企业级应用来优化工作效率,让用户更专注于创造价值的任务,Arm 技术的整合都为未来奠定了基础。 装置将不再只是命令和控制工具,更能在提升用户整体体验方面发挥积极的作用。
在Arm CPU上运行Meta最新Llama 3.2版本,其AI性能展现显著的提升。 这类开放式合作是实现无处不在的 AI 创新、促进 AI 可持续发展的最佳途径。 通过各项新的 LLM、开源社群和 Arm 的运算平台,Arm 正在构建 AI 的未来,到 2025 年,将有 1,000 多亿台基于 Arm 架构的装置支持 AI。