苹果官方教学:不用 API、不用订阅,三步骤在 Mac 上用本地端模型跑 AI Agent 开发 iPad App

Apple 在 WWDC 2026 上正式为 Mac 开发者打开了一扇新的大门:在自家硬件上本地运行 AI 代理工作流程。 由MLX团队工程师 Angelos 亲自示范的「Run local agentic AI on the Mac using MLX」议程,展示了如何在 Mac 上建立一套完全不需要云端连线、不需要 API Key、只用本机硬件运算的 Agentic AI 流程。 这段长约13分钟的示范,从最基础的MLX框架一路讲到完整的Agent堆叠、三步骤快速建置本机Agent,以及M5芯片神经加速器带来的4倍提示词处理加速。

从传统对话到代理循环

Angelos 开场先比较了传统 LLM 对话模式与 Agentic 模式的差异。 在传统模式中,用户送出提示词(Prompt)给语言模型,模型回传回应,而后续需要执行指令、检查文件或修正错误的工作,全部落在用户身上。

苹果官方教学:不用 API、不用订阅,三步骤在 Mac 上用本地端模型跑 AI Agent 开发 iPad App

但在 Agent 模式中,流程完全不同:Agent 先与模型对话来决定下一步要做什么,然后呼叫工具(Tools)来实际执行,可能是执行 Shell 指令、读取文件或呼叫 API,接着观察工具回传的结果,再回到模型判断下一步。 这个「用户→Agent→模型→工具→Agent→模型……」的反复循环,就是所谓的「代理循环」(Agentic Loop),它会持续运转直到任务完成。

而在Apple Silicon上,整个循环都可以在本地端完全执行。 这意味着你的数据永远留在自己的机器上,AI 随时随地可用,而且没有任何使用成本。

本地 Agentic AI 的四层堆叠

要让这套流程运作,Apple提出了四个层级的技术堆栈。 从底层到上层分别是:

  • MLX(底层):Apple 专为Apple Silicon打造的开源阵列框架,负责所有底层运算、Metal加速与内存管理。
  • MLX LM(模型层):提供加载、执行、量化与微调大型语言模型所需的一切功能,支持数千个 Hugging Face 模型,并同时提供 CLI 工具与 Python API。
  • MLX LM Server(服务器层):这是一个与OpenAI API兼容的 HTTP 服务器,将本地模型以标准 API 的形式暴露出来。 支持结构化工具呼叫(Tool Calling)与逐步推理(Reasoning)模型,可直接替换任何云端 LLM API。
  • Agent(最上层):可以是任何支持 OpenAI Chat Completions 协议的框架或工具,包括 Xcode、OpenCode、PyAgent 或自订脚本。
苹果官方教学:不用 API、不用订阅,三步骤在 Mac 上用本地端模型跑 AI Agent 开发 iPad App

此外,这个堆叠并非苹果独家,Ollama、LM Studio、vLLM等热门工具都已建立在MLX和MLX LM之上。 如果你正在使用这些工具,可能已经在MLX上运行了。

MLX LM – GitHub Repository

不用 API、不用订阅,三步骤在 Mac 上用本地端模型跑 AI Agent

Angelos 在议程中展示了从零到完整本地 Agent 工作流程只需要三个步骤,每一行指令都直接在终端机完成:

第一步:安装MLX LM

pip install mlx-lm

一个 pip install 就能取得所需的一切。

第二步:启动服务器

mlx_lm.server --model mlx-community/Qwen-3.5-4B-8bit

用支持工具调用的模型执行服务器,建议先从小型模型(官方示例是 Qwen 5 4B 8bit 的小模型)开始测试设置。 服务器启动后会加载模型,并在 localhost 上准备好接受请求。

第三步:将 Agent 指向本地服务器

在多数 Agent 框架中,只要把 Base URL 设为本地服务器地址就完成了。 Agent 不知道也不在乎模型是在你的 Mac 上还是云端执行。

以OpenCode为例,设置文件中定义一个本地Provider,将URL设为localhost、指定模型名称,并告诉OpenCode所有操作都使用这个本地模型,就这样,每次互动都会通过你的本地模型执行。

让 Agent 更快的三大关键技术

本地运行 Agent 面临三个主要挑战,Apple 为每个挑战都准备了对应的解决方案:

挑战一:提示词处理速度

在 Agent 工作流程中,每次模型收到工具输出时,都必须先处理所有新的上下文,然后才能推理下一步。 这个过程在代理循环中反复发生,累积得很快,一个会话通常包含数十万个 Token,而且大部分不是生成的。

Apple 的解法是 M5 芯片上的专用神经加速器(Neural Accelerators)。 MLX 能直接运用这些加速器,让 M5 上的矩阵乘法比 M4 快 4 倍。 搭配MLX中专用的乘法与注意力核心(Kernel),这几乎直接转化为提示词处理的4倍加速。 更棒的是,开发者不需要任何特殊的参数或代码修改,MLX 会自动为可用硬件选择最佳核心。

苹果官方教学:不用 API、不用订阅,三步骤在 Mac 上用本地端模型跑 AI Agent 开发 iPad App

挑战二:并行处理

实际使用中,Agent很少单独工作。 常见模式是一个 Agent 产生多个子 Agent(Sub-agents),各自处理问题的不同部分,一个读文件、一个搜索代码、一个写测试,全部同时进行。 这代表多个请求会同时命中你的本地模型。

MLX LM Server 通过连续处理(Continuous Batching)来应对。 它不是逐个处理请求,而是将传入的请求动态分组为批次,然后在 GPU 上一起处理。 新请求可以加入正在进行的批次,无需等待当前批次完成。 结果是子 Agent 不会在排队中停滞等待,全部同时获得服务,让整个工作流程持续推进。

挑战三:模型大小与分布式推理

有时候,单一机器即使有512 GB内存也不够,因为模型太大无法装进内存。 例如最新的DeepSeek模型拥有1.6万亿参数,仅权重就需要超过800GB的存储器。

MLX 的分布式支持让你将模型分散到多台 Mac 上,通过 Thunderbolt 或以太网连接。 从 macOS 26.2 开始,Thunderbolt RDMA(远程直接内存访问)提供低延迟、高带宽的通讯。 实测显示,使用 4 个节点时分布式推理效能可提升最多 3 倍。

苹果官方教学:不用 API、不用订阅,三步骤在 Mac 上用本地端模型跑 AI Agent 开发 iPad App

现场示范:从 SwiftUI App 到 Xcode Bug 修复

Angelos 在议程中展示了两个令人印象深刻的实际案例。

案例一:从零建立 SwiftUI 绘图 App

从一个空白的 Xcode 项目开始,要求 Agent 为 iPad 建立一个绘图 App。 Agent 先查看当前目录了解项目结构,制定实施计划,然后开始写程序。 Agent 写入文件、建置 App,沿途修正遇到的任何错误,完全不需要手动复制或建置项目。 只花了几分钟就产出第一个版本的App,而且是一个功能完整的绘图工具。 Angelos 甚至现场要求 Agent 修改笔头为圆形(Rounded End Caps),Agent 编辑代码并重新编译,几秒钟内就完成了修改。

案例二:Xcode 中修复 Bug

这个演示展示了本地 Agent 如何直接集成到 Xcode 开发环境中。 步骤非常简单:开启 Xcode 设置 → Intelligence 标签 → Add chat provider → 选择 Locally Hosted Provider → 设置端口号(默认 8080)→ 完成。 设置完成后,Xcode 就能与本地模型对话。 Angelos 先在 App 中引入一个错误,然后请模型修复,几秒钟内模型就识别出错误位置、检查相关代码,然后写入修正。 这一切都在本地端完成,代码从未离开 Mac。

这部视频内容相当丰富,我们也为大家做了详细的翻译,有兴趣的朋友可以看看:

结语

WWDC 2026 的这个议程标志着苹果对本地 AI Agent 的正式背书。 从MLX框架到MLX LM Server,再到与Xcode的直接整合,Apple正在为Mac开发者打造一条从云端回到本地的路径,你的数据留在你的机器上,没有每Token计费的压力,而且开箱即用。 正如 Angelos 在结尾所说:「今天展示的一切都是开源的,现在就可以取得。」有兴趣的开发者,现在就能在自己的 Mac 上跑起完整的本地 AI Agent 工作流程。

(0)
MobileAficionadoMobileAficionado

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注