NVIDIA 发布 PersonaPlex-7B：100% 开源全双工语音 AI 模型

你有没有注意到，跟 AI 语音助理对话时，总是得「轮流讲话」？你说完一句，等它回应，它说完了，你才能接着讲。这种「对讲机模式」跟真人对话的体验差距巨大，毕竟人类在日常聊天时，随时会插嘴、附和、或是同时开口说话。而NVIDIA在2026年1月发布的开源模型PersonaPlex-7B，正是要彻底打破这个限制。

PersonaPlex-7B 是一个拥有 70 亿参数的全双工（Full-Duplex）语音 AI 模型，基于法国 Kyutai 团队开发的 Moshi 架构，采用双流 Transformer 设计。传统语音 AI 的运作方式是三段式管线：先用自动语音识别（ASR）把你的话转成文字，再丢给大型语言模型（LLM）生成回复文字，最后通过文字转语音（TTS）读出来。这三个步骤加起来，延迟动辄超过一秒，更别提每个模组之间还会产生信息损耗。

PersonaPlex-7B 把这三个阶段合并为单一端到端模型——直接吃进音频、直接吐出音频，中间不经过文字转换。这不只是工程上的简化，更是架构层级的革命。而且，它是 100% 开源的。模型权重已上架 HuggingFace，任何人都可以免费下载使用。发布首月，下载量就突破了33万次。

核心技术突破：真正的全双工对话

PersonaPlex-7B 最核心的技术突破，就是全双工通讯——模型可以同时聆听和说话，不需要等对方讲完才回应。

这听起来简单，实现起来却极为困难。模型必须在自己「说话」的同时，持续监听用户的音频输入，判断对方是要插嘴、附和，还是只是背景噪音。 PersonaPlex 在这方面的表现令人惊艳：

对话转换延迟仅0.170秒：几乎感受不到停顿
打断处理延迟0.240秒：你一开口插嘴，它立刻停下来听
在 FullDuplexBench 基准测试中，打断成功率达到 100%
支持自然的回应词（backchannel），如「嗯」「对」「我懂」等附和语

在对话自然度的人类评分中，PersonaPlex拿下 3.90 分（满分 5 分），超越谷歌的 Gemini Live 的 3.72 分。换句话说，跟 PersonaPlex 聊天的体验，比谷歌目前最好的语音 AI 还要自然。

混合提示系统：声音和角色都能自订

PersonaPlex 的另一大亮点是其混合提示系统（Hybrid Prompting），结合了两种控制方式：

语音提示（Voice Prompt）：提供一段音频样本，模型就能学习并模仿该声音的音色、语调和说话风格
文字提示（Text Prompt）：用自然语言描述角色设置，例如「你是一位耐心的银行客服专员」或「你是火星基地的太空人，正在跟地球通讯」

这意味着开发者可以打造出各种场景的语音AI角色——银行客服、医疗接待、在线教师，甚至游戏中的NPC：同时保有全双工的自然对话体验。这是业界首次实现「对话真实感」与「角色控制」兼得的开源方案。

训练资料：真人对话 + 合成数据的混合策略

PersonaPlex 的训练数据结合了两大来源：

7,303 段真人对话，总计 1,217 小时，来自经典的 Fisher English 语料库。这些数据提供了真实的语音模式——包括犹豫、重叠、插嘴等自然对话特征
超过140,000段合成对话，涵盖客服、助理等任务场景。这些数据强化了模型在特定任务上的遵从能力

这种「真人资料学自然、合成数据学任务」的混合策略，让模型既能像真人一样对话，又能准确完成指定任务。

硬件需求与成本：单张 A100 就能跑

PersonaPlex-7B 的一大优势是硬件门槛相对亲民。单张NVIDIAA100GPU即可运行完整模型，自托管成本大约在每小时0.50至2.00美元之间。

对比之下，OpenAI的Realtime API收费为输入每分钟0.06美元、输出每分钟0.24美元。如果是高通话量的客服中心，自建PersonaPlex的成本优势相当明显。

与竞品比较：各有强项

当前语音 AI 市场的主要玩家各有特色：

vs AI Voice：OpenAI 的语音模式仍是轮流制（half-duplex），无法真正同时听说。 PersonaPlex 在对话自然度上有结构性优势
vs Gemini Live：谷歌的方案部分支持全双工，但并非开源，开发者无法自行部署或修改
vs ElevenLabs：ElevenLabs 拥有超过 10,000 种声音选择，音质业界顶尖，但底层仍是轮流制架构
vs Moshi：Kyutai 的 Moshi 是全双工架构的先驱，PersonaPlex 正是基于其架构发展，但 Moshi 缺乏角色自订和声音克隆功能

目前的限制

尽管技术突破令人兴奋，PersonaPlex-7B 仍有几个明显的限制：

音质偏「电话感」：24kHz 的取样率在 2026 年显得不够精致，与 ElevenLabs 等商业方案的音质仍有差距
语言支持有限：目前英文表现最强，其他语言尚未充分优化
需要GPU基础设施：没有官方的云端托管服务，NVIDIA不提供托管API
仍处于研究阶段：尚未完全适合直接投入生产环境

产业影响：NVIDIA 的「免费模型、卖 GPU」策略

PersonaPlex-7B的开源策略背后，是 NVIDIA 一贯的生态系布局。 NVIDIA 不靠模型本身赚钱，它靠的是运行这些模型所需的 GPU 硬件。当越来越多初创公司和企业采用PersonaPlex自建语音AI服务时，每一家都需要购买或租用NVIDIA的GPU。这是一个精心设计的飞轮效应：

免费开源模型→ 降低语音 AI 开发门槛
更多开发者采用→语音AI API成为大宗商品
商业语音API的利润被压缩→价值从应用层向硬件层迁移
每个自托管的团队→都是英伟达GPU的潜在客户

这跟Meta开源LLaMA系列的逻辑如出一辙：当模型免费时，卖铲子的人才是最大赢家。

观点

PersonaPlex-7B 的最大意义，或许不只在于「全双工」这个技术突破本身，而在于它代表的产业趋势：语音 AI 正在被大宗商品化。过去，打造一个自然的语音对话系统，需要串接ASR、LLM、TTS三家不同供应商的API，光是延迟调校和错误处理就足以让小团队望而却步。现在，一个开源的端到端模型加上一张 GPU，就能搞定。这对整个语音 AI 生态的影响是深远的。

但也必须正视其限制。 24kHz 的音质在需要品牌形象的商业场景中仍嫌不足; 英文以外的语言支持尚不成熟; 缺乏云托管意味着没有 GPU 资源的团队仍然被排除在外。 短期内，PersonaPlex更适合作为研究基础和概念验证，而非直接取代现有的商业语音方案。

对开发者来说，最关键的问题恐怕是：中文支持何时到来？ 以目前的训练数据来看，模型几乎完全基于英语语料，中文的全双工对话体验还需要社群或在地团队的进一步微调。但开源的本质就在于此：代码和权重都在那里，谁都可以接手。无论如何，当 NVIDIA 把全双工语音 AI 变成「免费下载」的东西时，这个领域的游戏规则已经改变了。

NVIDIA 发布 PersonaPlex-7B：100% 开源全双工语音 AI 模型

核心技术突破：真正的全双工对话

混合提示系统：声音和角色都能自订

训练资料：真人对话 + 合成数据的混合策略

硬件需求与成本：单张 A100 就能跑

与竞品比较：各有强项

目前的限制

产业影响：NVIDIA 的「免费模型、卖 GPU」策略

观点

相关推荐

《刺客信条：暗影者》开发团队回应 Switch 2 版画面模糊问题：硬件顶唔到

Snapdragon 7s Gen3 跑分流出，性能仅次于 7 Gen3

发表回复