你有没有注意到,跟 AI 语音助理对话时,总是得「轮流讲话」? 你说完一句,等它回应,它说完了,你才能接着讲。 这种「对讲机模式」跟真人对话的体验差距巨大,毕竟人类在日常聊天时,随时会插嘴、附和、或是同时开口说话。 而NVIDIA在2026年1月发布的开源模型PersonaPlex-7B,正是要彻底打破这个限制。

PersonaPlex-7B 是一个拥有 70 亿参数的全双工(Full-Duplex)语音 AI 模型,基于法国 Kyutai 团队开发的 Moshi 架构,采用双流 Transformer 设计。 传统语音 AI 的运作方式是三段式管线:先用自动语音识别(ASR)把你的话转成文字,再丢给大型语言模型(LLM)生成回复文字,最后通过文字转语音(TTS)读出来。 这三个步骤加起来,延迟动辄超过一秒,更别提每个模组之间还会产生信息损耗。
PersonaPlex-7B 把这三个阶段合并为单一端到端模型——直接吃进音频、直接吐出音频,中间不经过文字转换。 这不只是工程上的简化,更是架构层级的革命。 而且,它是 100% 开源的。 模型权重已上架 HuggingFace,任何人都可以免费下载使用。 发布首月,下载量就突破了33万次。
核心技术突破:真正的全双工对话
PersonaPlex-7B 最核心的技术突破,就是全双工通讯——模型可以同时聆听和说话,不需要等对方讲完才回应。
这听起来简单,实现起来却极为困难。 模型必须在自己「说话」的同时,持续监听用户的音频输入,判断对方是要插嘴、附和,还是只是背景噪音。 PersonaPlex 在这方面的表现令人惊艳:
- 对话转换延迟仅0.170秒:几乎感受不到停顿
- 打断处理延迟0.240秒:你一开口插嘴,它立刻停下来听
- 在 FullDuplexBench 基准测试中,打断成功率达到 100%
- 支持自然的回应词(backchannel),如「嗯」「对」「我懂」等附和语
在对话自然度的人类评分中,PersonaPlex拿下 3.90 分(满分 5 分),超越 谷歌 的 Gemini Live 的 3.72 分。 换句话说,跟 PersonaPlex 聊天的体验,比 谷歌 目前最好的语音 AI 还要自然。
混合提示系统:声音和角色都能自订
PersonaPlex 的另一大亮点是其混合提示系统(Hybrid Prompting),结合了两种控制方式:
- 语音提示(Voice Prompt):提供一段音频样本,模型就能学习并模仿该声音的音色、语调和说话风格
- 文字提示(Text Prompt):用自然语言描述角色设置,例如「你是一位耐心的银行客服专员」或「你是火星基地的太空人,正在跟地球通讯」
这意味着开发者可以打造出各种场景的语音AI角色——银行客服、医疗接待、在线教师,甚至游戏中的NPC:同时保有全双工的自然对话体验。 这是业界首次实现「对话真实感」与「角色控制」兼得的开源方案。
训练资料:真人对话 + 合成数据的混合策略
PersonaPlex 的训练数据结合了两大来源:
- 7,303 段真人对话,总计 1,217 小时,来自经典的 Fisher English 语料库。 这些数据提供了真实的语音模式——包括犹豫、重叠、插嘴等自然对话特征
- 超过140,000段合成对话,涵盖客服、助理等任务场景。 这些数据强化了模型在特定任务上的遵从能力
这种「真人资料学自然、合成数据学任务」的混合策略,让模型既能像真人一样对话,又能准确完成指定任务。
硬件需求与成本:单张 A100 就能跑
PersonaPlex-7B 的一大优势是硬件门槛相对亲民。 单张NVIDIAA100GPU即可运行完整模型,自托管成本大约在每小时0.50至2.00美元之间。
对比之下,OpenAI的Realtime API收费为输入每分钟0.06美元、输出每分钟0.24美元。 如果是高通话量的客服中心,自建PersonaPlex的成本优势相当明显。
与竞品比较:各有强项
当前语音 AI 市场的主要玩家各有特色:
- vs AI Voice:OpenAI 的语音模式仍是轮流制(half-duplex),无法真正同时听说。 PersonaPlex 在对话自然度上有结构性优势
- vs Gemini Live:谷歌 的方案部分支持全双工,但并非开源,开发者无法自行部署或修改
- vs ElevenLabs:ElevenLabs 拥有超过 10,000 种声音选择,音质业界顶尖,但底层仍是轮流制架构
- vs Moshi:Kyutai 的 Moshi 是全双工架构的先驱,PersonaPlex 正是基于其架构发展,但 Moshi 缺乏角色自订和声音克隆功能
目前的限制
尽管技术突破令人兴奋,PersonaPlex-7B 仍有几个明显的限制:
- 音质偏「电话感」:24kHz 的取样率在 2026 年显得不够精致,与 ElevenLabs 等商业方案的音质仍有差距
- 语言支持有限:目前英文表现最强,其他语言尚未充分优化
- 需要GPU基础设施:没有官方的云端托管服务,NVIDIA不提供托管API
- 仍处于研究阶段:尚未完全适合直接投入生产环境
产业影响:NVIDIA 的「免费模型、卖 GPU」策略
PersonaPlex-7B的开源策略背后,是 NVIDIA 一贯的生态系布局。 NVIDIA 不靠模型本身赚钱,它靠的是运行这些模型所需的 GPU 硬件。 当越来越多初创公司和企业采用PersonaPlex自建语音AI服务时,每一家都需要购买或租用NVIDIA的GPU。 这是一个精心设计的飞轮效应:
- 免费开源模型→ 降低语音 AI 开发门槛
- 更多开发者采用→语音AI API成为大宗商品
- 商业语音API的利润被压缩→价值从应用层向硬件层迁移
- 每个自托管的团队→都是英伟达GPU的潜在客户
这跟Meta开源LLaMA系列的逻辑如出一辙:当模型免费时,卖铲子的人才是最大赢家。
观点
PersonaPlex-7B 的最大意义,或许不只在于「全双工」这个技术突破本身,而在于它代表的产业趋势:语音 AI 正在被大宗商品化。 过去,打造一个自然的语音对话系统,需要串接ASR、LLM、TTS三家不同供应商的API,光是延迟调校和错误处理就足以让小团队望而却步。 现在,一个开源的端到端模型加上一张 GPU,就能搞定。 这对整个语音 AI 生态的影响是深远的。
但也必须正视其限制。 24kHz 的音质在需要品牌形象的商业场景中仍嫌不足; 英文以外的语言支持尚不成熟; 缺乏云托管意味着没有 GPU 资源的团队仍然被排除在外。 短期内,PersonaPlex更适合作为研究基础和概念验证,而非直接取代现有的商业语音方案。
对开发者来说,最关键的问题恐怕是:中文支持何时到来? 以目前的训练数据来看,模型几乎完全基于英语语料,中文的全双工对话体验还需要社群或在地团队的进一步微调。 但开源的本质就在于此:代码和权重都在那里,谁都可以接手。 无论如何,当 NVIDIA 把全双工语音 AI 变成「免费下载」的东西时,这个领域的游戏规则已经改变了。