AI测试 通义开源端到端语音模型 Fun-Audio-Chat 8B;OpenTable 与 Yelp 竞速餐饮语音 AI 丨日报

RTE开发者社区 · December 24, 2025 · 386 hits

图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、通义发布了新一代端到端语音交互模型 Fun-Audio-Chat

#####

图片

刚刚,通义开源了 Fun-Audio-Chat 8B,在 OpenAudioBench、MMAU、Speech-ACEBench、VStyle 等多个权威榜单上,同尺寸模型排名第一,综合性能远超 GLM4-Voice、Kimi-Audio、Baichuan-Omni......

Fun-Audio-Chat 是为自然、低延迟语音交互构建的大型音频语言模型。它引入了双分辨率语音表示(一个高效的 5Hz 共享主干 + 一个 25Hz 的精炼头)以在降低计算的同时保持高语音质量,并采用 Core-Cocktail 训练以保留强大的文本 LLM 能力。它在语音问答、音频理解、语音函数调用以及语音指令遵循和情感共鸣基准上都取得了顶级成果。

技术表现:

  • 端到端 S2S 架构:从语音输入直接生成语音输出,无需 ASR + LLM + TTS 多模块拼接,效率更高、延迟更低。

  • 双分辨率设计:Shared LLM 层以 5Hz 帧率 高效处理,SRH 以 25Hz 帧率 生成高质量语音,GPU 计算开销降低近 50%。

  • 百万小时多任务数据训练:覆盖音频理解、语音问答、情感识别、工具调用等真实场景,让模型更「接地气」。

高情商:像朋友一样的对话体验

  • 你生气时,它会安慰你;你焦虑时,它会陪你深呼吸;你开心时,它会跟着你一起嗨。

  • 哪怕你没直接说情绪,它也能从你的语气、语速、停顿里,猜出你的心情,然后给出恰到好处的回应。

易落地:它不仅能聊,还能「干实事」

  • Speech Function Call:你只需用自然语音下达指令,它就能自动调用函数,完成复杂任务。

通义已将 8B 模型权重、推理代码、Function Call 接入示例全部开源。

GitHub: 

https://github.com/FunAudioLLM/Fun-Audio-Chat

HuggingFace: 

https: //huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B

ModelScope: 

https://modelscope.cn/FunAudioLLM/Fun-Audio-Chat-8B

Demo Page: 

https://funaudiollm.github.io/funaudiochat

(@ 通义大模型)

2、AI 生成操作系统新突破,上海交大提出文件系统开发新范式:从此只需写规约

#####

图片

图片

#####

上海交大 IPADS 实验室提出「SysSpec」开发新范式,利用形式化规约(Specification)引导 LLM 自动生成操作系统底层组件。该研究通过将底层代码维护转向高维规约编写,解决了操作系统开发中维护成本高(如 Ext4 维护代码占比超 80%)及 LLM 生成内核代码易崩溃的难题。

  • 三维结构化规约框架:引入基于 Hoare Logic 的功能规约(定义 Pre/Post-condition)、模块化规约(管理接口依赖)及并发规约(实现业务逻辑与锁机制分离),消除自然语言生成的模糊性。

  • Agent 驱动的自动化工具链:集成 SpecCompiler(逻辑转代码)、SpecValidator(基于规约的迭代验证,对抗 LLM 幻觉)及 SpecAssistant(辅助规约编写)三个智能体。

  • DAG 结构化规约补丁:通过有向无环图(DAG)管理系统演进,开发者仅需提交规约补丁,由工具链自动计算依赖并重构受影响模块,避免手动修改底层代码。

  • SpecFS 实测表现:基于 SysSpec 生成的 4300 行 C 代码文件系统可直接运行于 Linux 6.1.10 内核。在引入「延迟分配」特性后,xv6 编译任务的写操作减少 99.9%,整体开发效率较传统手动编写提升 3-5 倍。

该研究成果即将发表于文件系统顶级会议 USENIX FAST’26,相关论文已在 arXiv 公开。

arXiv 链接:

https://arxiv.org/abs/2512.13047

(@ 量子位)

3、智谱 AI 开源 GLM-4.7:人人编程的时代到来

#####

图片

图片

GLM-4.7 上线并开源。新版本面向 Coding 场景强化了编码能力、长程任务规划与工具协同,并在多项主流公开基准测试中取得开源模型中的领先表现。

目前,GLM-4.7 已通过 BigModel.cn 提供 API,并在 z.ai 全栈开发模式 中上线全新 Skills 模块,支持多模态任务的统一规划与协作执行。

Coding 能力再提升:

  • 更强的编程能力:显著提升了模型在多语言编码和在终端智能体中的效果;GLM-4.7 现在可以在 Claude Code、TRAE、Kilo Code、Cline 和 Roo Code 等编程框架中实现「先思考、再行动」的机制,在复杂任务上有更稳定的表现。

  • 前端审美提升:GLM-4.7 在前端生成质量方面明显进步,能够生成观感更佳的网页、PPT 、海报。

  • 更强的工具调用能力:GLM-4.7 提升了工具调用能力,在 BrowseComp 网页任务评测中获得 67.5 分;在τ²-Bench 交互式工具调用评测中实现 87.4 分的开源 SOTA,超过 Claude Sonnet 4.5。

  • 推理能力提升:显著提升了数学和推理能力,在 HLE(「人类最后的考试」)基准测试中获得 42.8% 的成绩,较 GLM-4.6 提升 41%,超过 GPT-5.1。

  • 通用能力增强:GLM-4.7 对话更简洁智能且富有人情味,写作与角色扮演更具文采与沉浸感。

模型已在 GitHub、Hugging Face、魔搭社区全面开源;API 已通过 BigModel.cn 提供;智谱清言及 z.ai 全栈开发模式已同步上线全新技能模块。

Github: 

https://github.com/zai-org/GLM-4.5

Huggingface: 

https://huggingface.co/zai-org/GLM-4.7

魔搭社区:

https://modelscope.cn/models/ZhipuAI/GLM-4.7

blog: 

https://z.ai/blog/glm-4.7

@GLM 大模型)


02 有亮点的产品

1、OpenTable 与 Yelp 竞速餐饮语音 AI:集成「智能体」实现 24/7 全自动订座与多端交互

#####

图片

图片

以「OpenTable」和「Yelp」为代表的餐饮 SaaS 巨头正加速通过 API 集成和原生开发,将语音「智能体」引入餐厅订座流程。该技术旨在通过自然语言处理(NLP)替代高成本的人工接听,实现全天候预约管理及排队自动化,并打通车载语音等外部流量触点。

  • OpenTable 深度集成第三方语音「智能体」:通过与 Maple、Loman AI 和 SoundHound AI 合作,实现语音交互与后台库存的实时双向同步。其中,Loman AI 支持通过自然语言完成预订、修改、确认和取消的闭环操作,无需人工二次录入。

  • Yelp 发布原生 AI 电话智能体「Yelp Host」:作为 2025 秋季发布的核心产品,该工具可自动回答常见问题、更新等待时间,并能通过短信向用户发送菜单链接或派送单入口。其定价模式为独立订阅 149 美元/月,Guest Manager 用户优惠至 99 美元/月。

  • 预订入口延伸至车载系统(Mobility):SoundHound AI 将「OpenTable」的实时库存数据打通至车载语音助手,用户在驾驶过程中即可通过对话完成餐厅搜索与预订,将预订漏斗从移动端扩展至出行场景。

  • 从接听工具转向数据驱动中心:语音「智能体」捕获的对话数据(如派对规模偏好、高峰时段意图信号)正被整合进餐饮管理系统(RMS),用于辅助人员配置决策和精准营销投放,而非仅仅是自动应答。

Yelp 系列工具现已向合规企业开放初期申请;OpenTable 第三方集成方案视各 AI 供应商(Maple, Loman AI 等)的具体定价而定。

( @Restaurant Technology News)

2、1999 元起,夸克 AI 眼镜再上新

#####

图片

昨天,夸克 AI 眼镜正式开启两款新品预售,其中 G1 风尚眉框款最低到手价仅 1999 元,成为千问首款平价 AI 眼镜;热销的旗舰款 S1 系列新增圆框玳瑁配色,为消费者提供更多选择。

新品 G1 在定价亲民的前提下在核心硬件配置上与旗舰 S1 系列保持一致,用户可在更低价格下获得语音问答、实时翻译、信息查询、智能拍摄等完整 AI 交互体验:

搭载双旗舰芯片双系统;配备五麦克风阵列加骨传导、大振膜高性能喇叭等声学硬件;支持 0.6 秒极速抓拍、3K 视频录制;整机重量约 40g,采用天鹅颈可调节支架与 FDA 食品级硅胶鼻托;内置千问 AI 助手,支持跨场景调用阿里生态服务。

S1 系列新品延续旗舰定位,新增圆框玳瑁款在显示、佩戴与影像方面保持领先优势,外观更具复古与时尚属性。

目前,两款新品已在天猫、抖音、京东等线上渠道开启预售,全国 82 个城市的 604 家线下门店也将陆续提供配镜、体验与购买服务。

阿里巴巴集团副总裁吴嘉此前表示,AI 眼镜是人机交互的感官中枢,在眼镜上搭载千问 AI 助手,能够更好理解用户需求,并在更大范围内提供价值。

( @APPSO)


03 有态度的观点 

1、不是只有芯片:250 亿美元信用投资人谈 AI 真正的长期机会

#####

图片

据《商业内幕》报道,管理约 250 亿美元资产的信用投资机构 Diameter Capital 联合创始人兼管理合伙人 Scott Goodwin 表示,人工智能热潮的真正机会不止于芯片与数据中心。

Goodwin 指出,AI 的长期周期将通过更广泛的基础设施与采用竞争释放价值。

他在《Goldman Sachs Exchanges》播客上称,团队关注 AI 需求推动的、在信用市场上不那么显眼的瓶颈与定价错配,这一「超微周期」将持续并重塑投资版图。

Goodwin 透露,Diameter Capital 在 2023 年买入一家中型电信公司的无担保债务,逻辑是当企业从训练模型转向实际应用,需求将从「只看芯片」转向承载数据的网络与商用光纤。

「数据必须离开数据中心,如何离开?靠商用光纤这条管道。」

在风险层面,Goodwin 警示 AI 相关信用交易,尤其是芯片融资,正在累积难以定价的「剩余价值风险」—— 部分投资者押注数年后硬件的残余价值,但前沿技术更新频繁、芯片对部分客户而言很快过时。

他指出,下一阶段不只是基础设施资本开支,而是围绕 AI 采用带来的竞争位势变化:「谁能借助 AI 领先同行,谁会成为输家?」这一竞争周期将长于纯粹的 Capex 周期。

Goodwin 的观点也回应了市场对 AI 高估值可持续性的争论:与其只押注最显眼的赢家,信用层面更值得留意的是网络传输、频谱与卫星等「被忽视的瓶颈」,以及企业落地采用的速度与广度对现金流与资本结构的影响路径。

这意味着 AI 交易的核心从「造设备、建机房」转向「哪类公司以何种节奏把 AI 用出生产力优势」,并据此重估风险与回报。

( @APPSO)


04 社区黑板报 

招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

#####

1、声网招聘开发者体验产品经理(DevX PM)

#####

在声网,我们相信:真正伟大的技术,不应该让开发者感到负担,而应该让他们感到被理解。

从最初的四行代码到 RTE API,再到今天的 Converstaional AI,声网长期服务全球开发者 Builder,为百万级用户提供人与人,人与 AI 的实时时交互能力。我们是一家由开发者创立服务于开发者的公司,开发者体验(Developer Experience)一直是我们最重视的平台底层能力,且随着 AI Agent、多模态交互与 Realtime AI 的兴起,它更成为平台最核心的产品能力。

我们正在寻找一位以「开发者体验为使命」的产品经理(DevX PM),更重要的是,他不仅是一名产品经理,更是「开发者」的代言人,是系统抽象的设计者、更是开发者成功路径的定义者。

我们希望他,降低开发者使用声网平台的认知成本与集成成本,让开发者能够更快理解、更容易上手、更有信心地在生产环境中构建实时 AI  Agent 与 RTE 应用。

这个角色将与研发、开发者社区、开源等团队深度协作,面向全球开发者,持续改进 API、SDK、工具链和文档体系,制造出更多 Builder 欣喜若狂的「Aha monents」,并对开发者的整体成功路径负责。

岗位职责:

1、负责声网平台的开发者全生命周期体验设计与持续优化,包括 First Hello world, First Agent,First Minute 到 First Success,从首次接触、快速上手到生产环境使用的完整开发者旅程;

2、主导 API 与 SDK 的开发者体验相关产品设计,涵盖 SDK 结构、接口抽象、默认方案、示例代码及集成流程;

3、与研发团队紧密合作,推动更符合 AI Native Builder 心智模型的产品抽象,降低对 Conversational AI 以及底层 RTC 概念的理解门槛;

4、规划并优化开发者相关工具体系,包括 CLI、调试工具、日志与基础可观测能力,提升问题定位与迭代效率;

5、负责开发者文档如 Tutotial 结构设计和创新,确保文档「任务与使用场景」为导向,真正帮助开发者上手,而非仅描述系统能力;

6、对内与研发团队深度共创,能从开发者社区和群体中抽象反馈(基于社区、客户、调研、使用数据),识别关键点,并转化为可执行的产品改进,将开发者的困惑、挫败与反馈,转化为清晰的产品优化方向;

7、对外理解 Build in Public 的创新趋势,与社区和外部开发者融合,在 Builder 活跃的 X 等平台、以及线下 meetup 等进行技术布道、最佳实践沉淀与产品口碑建设。

岗位要求:

1、有足够学历和能力支持跨国和跨语言团队工作,服务过 global 的产品, 能够支持全球开发者生态;

2、具有扎实的技术理解能力,能够与工程师讨论 API 设计、SDK 结构、系统抽象及技术取舍,能清晰理解如何让「强大但复杂」的系统,变得「强大且直观」;

3、有面向开发者的产品经验,包括但不限于 API、SDK、开发者工具、平台型产品或开源项目;

4、对开发者的工作流、心智模型和「爽点 / 痛点」有高度敏感度,能够识别开发者在「第一次使用」和「出问题时」的真实痛点,需要具备 AI builder 的高水准审美判断;

5、具备一定的代码能力,能够阅读和理解示例代码;或能熟练使用「vibe coding」方式进行原型验证、问题复现与体验评估;

6、具备良好的跨团队协作能力,能够推动产品、研发、DevRel、社区之间的协同;

7、有 AI、实时系统、语音、多模态或事件驱动系统相关经验者优先;

8、有 SDK、CLI、开发者工具设计或开源社区参与经验者优先。

我们希望你——

  • 产品抽象,设计的 developer journey 是否清晰直观

  • 会纠结:「一个聪明的开发者,第一次用这个产品会不会犯错?」;

  • 享受解决模糊问题,并将复杂系统简化成可理解的模型;

  • 希望打造真正被开发者喜爱、愿意给其他 builder 推荐的技术产品。

如果你渴望打造让开发者真正「Wow」的产品,欢迎加入我们。也欢迎:与时俱进的猎头们,流连在各类社区的 AI native(waytoagi 社区,扣子社区,dify 社区,RTE 开发者社区,vibe hacks 和 vibe coding 的 meetup,X 和小红书上的常客),欢迎来联系我呀,也许我们可以和技术前瞻的 CEO,一起喝杯咖啡。

<简历请投递:lindawang@shengwang.cn>

2、硬件日招募!「对话式 AI+ 硬件」系列活动 @ 深圳丨 RTE Meetup+TEN Workshop

2025 年 RTE 开发者社区的收官活动,将再次落地硬件之都深圳,一起畅想 2026!

聚焦「对话式 AI+ 硬件」主题, 来自通义百聆 Fun-CosyVoice、声网、Lookee 盒智科技、TEN Framework、TEN VAD、Amphion 的技术专家和创业者将呈现多种类型活动。

上午主题分享 + 圆桌,下午动手工作坊——无论你是产品人、开发者、创业者还是硬件极客,总有一款适合你!

12 月 27 日,深圳科创学院,欢迎参加~

图片

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示:个人观点,仅供参考

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up