苹果官方教学：不用 API、不用订阅，三步骤在 Mac 上用本地端模型跑 AI Agent 开发 iPad App

Apple 在 WWDC 2026 上正式为 Mac 开发者打开了一扇新的大门：在自家硬件上本地运行 AI 代理工作流程。由MLX团队工程师 Angelos 亲自示范的「Run local agentic AI on the Mac using MLX」议程，展示了如何在 Mac 上建立一套完全不需要云端连线、不需要 API Key、只用本机硬件运算的 Agentic AI 流程。这段长约13分钟的示范，从最基础的MLX框架一路讲到完整的Agent堆叠、三步骤快速建置本机Agent，以及M5芯片神经加速器带来的4倍提示词处理加速。

从传统对话到代理循环

Angelos 开场先比较了传统 LLM 对话模式与 Agentic 模式的差异。在传统模式中，用户送出提示词（Prompt）给语言模型，模型回传回应，而后续需要执行指令、检查文件或修正错误的工作，全部落在用户身上。

苹果官方教学：不用 API、不用订阅，三步骤在 Mac 上用本地端模型跑 AI Agent 开发 iPad App

但在 Agent 模式中，流程完全不同：Agent 先与模型对话来决定下一步要做什么，然后呼叫工具（Tools）来实际执行，可能是执行 Shell 指令、读取文件或呼叫 API，接着观察工具回传的结果，再回到模型判断下一步。这个「用户→Agent→模型→工具→Agent→模型……」的反复循环，就是所谓的「代理循环」（Agentic Loop），它会持续运转直到任务完成。

而在Apple Silicon上，整个循环都可以在本地端完全执行。这意味着你的数据永远留在自己的机器上，AI 随时随地可用，而且没有任何使用成本。

本地 Agentic AI 的四层堆叠

要让这套流程运作，Apple提出了四个层级的技术堆栈。从底层到上层分别是：

MLX（底层）：Apple 专为Apple Silicon打造的开源阵列框架，负责所有底层运算、Metal加速与内存管理。
MLX LM（模型层）：提供加载、执行、量化与微调大型语言模型所需的一切功能，支持数千个 Hugging Face 模型，并同时提供 CLI 工具与 Python API。
MLX LM Server（服务器层）：这是一个与OpenAI API兼容的 HTTP 服务器，将本地模型以标准 API 的形式暴露出来。支持结构化工具呼叫（Tool Calling）与逐步推理（Reasoning）模型，可直接替换任何云端 LLM API。
Agent（最上层）：可以是任何支持 OpenAI Chat Completions 协议的框架或工具，包括 Xcode、OpenCode、PyAgent 或自订脚本。

此外，这个堆叠并非苹果独家，Ollama、LM Studio、vLLM等热门工具都已建立在MLX和MLX LM之上。如果你正在使用这些工具，可能已经在MLX上运行了。

MLX LM – GitHub Repository

不用 API、不用订阅，三步骤在 Mac 上用本地端模型跑 AI Agent

Angelos 在议程中展示了从零到完整本地 Agent 工作流程只需要三个步骤，每一行指令都直接在终端机完成：

第一步：安装MLX LM

pip install mlx-lm

一个 pip install 就能取得所需的一切。

第二步：启动服务器

mlx_lm.server --model mlx-community/Qwen-3.5-4B-8bit

用支持工具调用的模型执行服务器，建议先从小型模型（官方示例是 Qwen 5 4B 8bit 的小模型）开始测试设置。服务器启动后会加载模型，并在 localhost 上准备好接受请求。

第三步：将 Agent 指向本地服务器

在多数 Agent 框架中，只要把 Base URL 设为本地服务器地址就完成了。 Agent 不知道也不在乎模型是在你的 Mac 上还是云端执行。

以OpenCode为例，设置文件中定义一个本地Provider，将URL设为localhost、指定模型名称，并告诉OpenCode所有操作都使用这个本地模型，就这样，每次互动都会通过你的本地模型执行。

让 Agent 更快的三大关键技术

本地运行 Agent 面临三个主要挑战，Apple 为每个挑战都准备了对应的解决方案：

挑战一：提示词处理速度

在 Agent 工作流程中，每次模型收到工具输出时，都必须先处理所有新的上下文，然后才能推理下一步。这个过程在代理循环中反复发生，累积得很快，一个会话通常包含数十万个 Token，而且大部分不是生成的。

Apple 的解法是 M5 芯片上的专用神经加速器（Neural Accelerators）。 MLX 能直接运用这些加速器，让 M5 上的矩阵乘法比 M4 快 4 倍。搭配MLX中专用的乘法与注意力核心（Kernel），这几乎直接转化为提示词处理的4倍加速。更棒的是，开发者不需要任何特殊的参数或代码修改，MLX 会自动为可用硬件选择最佳核心。

挑战二：并行处理

实际使用中，Agent很少单独工作。常见模式是一个 Agent 产生多个子 Agent（Sub-agents），各自处理问题的不同部分，一个读文件、一个搜索代码、一个写测试，全部同时进行。这代表多个请求会同时命中你的本地模型。

MLX LM Server 通过连续处理（Continuous Batching）来应对。它不是逐个处理请求，而是将传入的请求动态分组为批次，然后在 GPU 上一起处理。新请求可以加入正在进行的批次，无需等待当前批次完成。结果是子 Agent 不会在排队中停滞等待，全部同时获得服务，让整个工作流程持续推进。

挑战三：模型大小与分布式推理

有时候，单一机器即使有512 GB内存也不够，因为模型太大无法装进内存。例如最新的DeepSeek模型拥有1.6万亿参数，仅权重就需要超过800GB的存储器。

MLX 的分布式支持让你将模型分散到多台 Mac 上，通过 Thunderbolt 或以太网连接。从 macOS 26.2 开始，Thunderbolt RDMA（远程直接内存访问）提供低延迟、高带宽的通讯。实测显示，使用 4 个节点时分布式推理效能可提升最多 3 倍。

现场示范：从 SwiftUI App 到 Xcode Bug 修复

Angelos 在议程中展示了两个令人印象深刻的实际案例。

案例一：从零建立 SwiftUI 绘图 App

从一个空白的 Xcode 项目开始，要求 Agent 为 iPad 建立一个绘图 App。 Agent 先查看当前目录了解项目结构，制定实施计划，然后开始写程序。 Agent 写入文件、建置 App，沿途修正遇到的任何错误，完全不需要手动复制或建置项目。只花了几分钟就产出第一个版本的App，而且是一个功能完整的绘图工具。 Angelos 甚至现场要求 Agent 修改笔头为圆形（Rounded End Caps），Agent 编辑代码并重新编译，几秒钟内就完成了修改。

案例二：Xcode 中修复 Bug

这个演示展示了本地 Agent 如何直接集成到 Xcode 开发环境中。步骤非常简单：开启 Xcode 设置 → Intelligence 标签 → Add chat provider → 选择 Locally Hosted Provider → 设置端口号（默认 8080）→ 完成。设置完成后，Xcode 就能与本地模型对话。 Angelos 先在 App 中引入一个错误，然后请模型修复，几秒钟内模型就识别出错误位置、检查相关代码，然后写入修正。这一切都在本地端完成，代码从未离开 Mac。

这部视频内容相当丰富，我们也为大家做了详细的翻译，有兴趣的朋友可以看看：

结语

WWDC 2026 的这个议程标志着苹果对本地 AI Agent 的正式背书。从MLX框架到MLX LM Server，再到与Xcode的直接整合，Apple正在为Mac开发者打造一条从云端回到本地的路径，你的数据留在你的机器上，没有每Token计费的压力，而且开箱即用。正如 Angelos 在结尾所说：「今天展示的一切都是开源的，现在就可以取得。」有兴趣的开发者，现在就能在自己的 Mac 上跑起完整的本地 AI Agent 工作流程。