Arm 运算平台协助全新 Llama 3.2 LLM 实现 AI 推论的全面加速和扩展

Arm 运算平台协助全新 Llama 3.2 LLM 实现 AI 推论的全面加速和扩展

人工智能(AI)的高速发展代表各种大型语言模型(LLM)的新版本不断推陈出新。 要充分发挥AI的潜力并掌握因此而来的机会,需要实现LLM从云到端的广泛部署,其中也带动了对运算和能源需求的大幅增长。 整个生态系正携手寻找应对此挑战的解决方案,不断推出新的、且更高效率的开源 LLM,以便大规模实现各种 AI 推论工作负载,加快为用户带来全新、快速的 AI 体验。

为此,Arm 与 Meta 展开紧密合作,在 Arm CPU 上启用新的 Llama 3.2 LLM,整合开源创新与 Arm 运算平台的优势,以应对 AI 带来的挑战。 受惠于Arm的持续投资及与各新型LLM的合作,在Arm CPU上运行AI的优势在生态系中脱颖而出,使Arm成为AI推论开发人员的首选平台。

加速从云到端的 AI 效能

小型 LLM(如 Llama 3.2 1B 和 3B)能够支持基于文本的基础生成式 AI 工作负载,对于大规模 AI 推论的实现相当重要。 通过Arm CPU优化核心在Arm技术驱动的行动装置上运行新的Llama 3.2 3B LLM,可让提示词(Prompt)处理速度提高五倍,词元(token)生成速度提高三倍,在生成阶段实现每秒19.92个词符。 这将直接减少了在设备上处理 AI 工作负载的延迟,大大提升了用户的整体体验。 此外,当边缘端能处理的 AI 工作负载越多,往返云端传输数据所节省的电量就越多,进而节省了能源和成本。

除了在边缘端运行小型模型,更大的模型(如 Llama 3.2 11B 和 90B)也能在云端运行。 11B和90B的模型非常适合云端基于CPU的推论工作负载,可生成文本和图像,如同在Arm Neoverse V2上的测试结果显示。 在基于Arm架构的AWS Graviton4上运行11B的图像和文本模型,可在生成阶段实现每秒29.3个词符的表现,远远超出人类大约每秒阅读五个词符的速度。

AI 将通过开源创新和生态系协作迅速扩展

能公开获取各个新的 LLM(如 Llama 3.2)相当关键。 开源创新正以极为快速的速度发展,在之前的版本中,开源社群在不到 24 小时的时间内便能在 Arm 上部署并运行新的 LLM。

Arm 将通过Arm Kleidi 进一步支持软件社区,让整个AI技术堆栈能够充分发挥此一经过优化的CPU效能。 Kleidi 可在任何 AI 框架上释放 Arm Cortex 和 Neoverse CPU 的 AI 功能和性能,无需应用程序开发人员进行额外的整合工作。

通过最近的 Kleidi 与 PyTorch 整合以及正在推进的与 ExecuTorch 整合,Arm 正在为基于 Arm CPU 的开发人员提供从云到端的无缝 AI 效能。 受惠于 Kleidi 与 PyTorch 的整合,在基于 Arm 架构的 AWS Graviton 处理器上运行 Llama 3 LLM 的词元首次响应时间加快了 2.5 倍。

同时,在移动设备上,通过 KleidiAI 库的协助,使用 llama.cpp 库在新的 Arm Cortex-X925 CPU 上运行 Llama 3 的词元首次响应时间与参考实作相比加快了 190%。

Arm表示,Arm 与Meta 的合作成为行业合作的新标杆,它汇聚了Arm 运算平台的灵活性、普及性和AI功能,以及Meta等行业领导者的技术专长,共同释放AI被广泛应用的新机会。 无论是利用设备端 LLM 满足用户的个性化需求,如根据用户所在的位置、日程和偏好来执行任务,还是通过企业级应用来优化工作效率,让用户更专注于创造价值的任务,Arm 技术的整合都为未来奠定了基础。 装置将不再只是命令和控制工具,更能在提升用户整体体验方面发挥积极的作用。

在Arm CPU上运行Meta最新Llama 3.2版本,其AI性能展现显著的提升。 这类开放式合作是实现无处不在的 AI 创新、促进 AI 可持续发展的最佳途径。 通过各项新的 LLM、开源社群和 Arm 的运算平台,Arm 正在构建 AI 的未来,到 2025 年,将有 1,000 多亿台基于 Arm 架构的装置支持 AI。

(0)
MobileGuru007MobileGuru007

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注