开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@Jerry fong,@ 鲍勃
微软升级了 10B 版本的 VibeVoice-Large,可以通过 HF 体验。
VibeVoice 是一个开创性的框架,专为从文本生成富有表现力的长篇多说话人对话音频而设计,例如播客。它旨在攻克传统文本到语音(TTS)系统面临的诸多显著挑战,尤其是在可扩展性、说话人声音一致性以及自然的对话轮转方面。
VibeVoice 的一项核心创新在于其采用了以 7.5 Hz 超低帧率运行的连续语音分词器(涵盖声学和语义层面)。这些分词器在显著提升长序列处理计算效率的同时,有效保障了音频的高保真度。VibeVoice 运用了下一令牌扩散(next-token diffusion)框架,巧妙地利用大型语言模型来深入理解文本语境和对话流程,并通过扩散头(diffusion head)生成高保真的声学细节。
该模型能够生成长达 90 分钟的语音内容,并支持最多达 4 位独立说话人,这一能力显著超越了此前多数模型通常仅限 1-2 位说话人的局限。
体验链接:
https://huggingface.co/spaces/Steveeeeeeen/VibeVoice-Large
相关链接:
https://huggingface.co/microsoft/VibeVoice-Large(@ X\@reach_vb)
vLLM 发布了全新开源项目 Semantic Router,旨在通过智能混合模型路由(Mixture-of-Models,MoM)提升大语言模型推理效率。该系统基于 BERT 语义理解,能够将 OpenAI API 请求自动导向最适合当前任务意图的模型,从而在不同复杂度、任务类型与工具需求之间进行最优匹配。
这一概念类似于模型内部的 Mixture-of-Experts,但 Semantic Router 在整个模型级别进行选择,以提高整体推理的准确率。项目提供了 Golang(含基于 Candle 的 Rust FFI)与 Python 两种实现,后续将通过基准测试确定最佳方案。
除核心路由功能外,Semantic Router 还内置了 Prompt Guard 用于检测越狱提示、PII 检测以避免敏感信息外泄、语义缓存来降低 token 用量并缩短延迟,并支持根据提示内容智能选用工具以减少无关调用。
相关链接:
https://github.com/vllm-project/semantic-router
https://vllm-semantic-router.com/(@ 橘鸭 Juya)
上海 AI 实验室发布了多模态大模型 InternVL3.5,通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构,实现了推理能力、部署效率与通用能力的全面升级。该模型在多个基准测试中表现优异,超越了 GPT-5 和 Claude-3.7-Sonnet 等主流模型。
InternVL3.5 采用级联式强化学习框架,显著提升了推理性能。
模型支持多种视觉分辨率,并优化了响应速度。
提供多种参数规模模型,满足不同资源需求场景。
相关链接:
https://github.com/OpenGVLab/InternVL(@ Albase 基地)
#####
韩国政府向数万名独居老人分发由初创公司 Hyodol 开发的 AI 玩偶,该玩偶不仅能陪伴聊天,还能提醒吃饭服药并监测健康状况。玩偶内置基于 ChatGPT 的对话系统,颈部红外传感器可检测动作,胸部麦克风会记录老人对日常问题的回答,并可在紧急情况下通知护工。已有 1.2 万多台 Hyodol 玩偶在韩国独居老人家中提供服务,每台售价约 8160 人民币,远低于护理人员成本,有效缓解韩国养老护理人员缺口问题。(@ 量子位)
#####
Plaud.ai 近期推出了其新一代 AI 录音设备 Plaud Note Pro,该产品在录音续航、拾音范围和软件功能上均有显著提升。
核心技术亮点
更强劲的录音性能:Plaud Note Pro 配备了四个 MEMS 麦克风,相比上一代产品的两个麦克风,拾音能力有了显著提升。其标准模式下的拾音距离可达 16.4 英尺(约 5 米),是前代产品的两倍。在低功耗模式下,录音续航最长可达 50 小时。
智能功能自动化:设备新增了自动检测功能,可以智能区分电话通话和面对面会议,无需手动切换模式。
进阶的软件能力:
产品售价与发售计划
Plaud Note Pro 的定价为 $179 / £169。目前,该设备已开放预订,计划于 2025 年 10 月开始发货。
Plaud.ai 为预订用户提供 600 分钟的免费转录时长和专用磁吸保护壳。所有用户每月可获得 300 分钟 的免费转录额度,如需更多服务,可购买付费月度方案或一次性充值。
Plaud.ai 表示,其 AI 硬件录音笔的出货量已超过一百万台,其中近 50% 的用户已升级到 Pro 付费计划,这表明 Plaud.ai 在 AI 设备市场中保持了稳健的发展势头。相比之下,一些其他 AI 设备制造商如 Exor 投资的 Bee 被亚马逊收购,而 Friend 也经历了多次延期后才开始发货。(@ TechCrunch)
据 APNews 报道,日前英国 AI 音乐创作者 Oliver McCann(艺名 imoliver)正式签约了独立唱片公司 Hallwood Media,并成为业界首位与唱片公司签约的「AI 音乐人」。
据介绍,Oliver McCann 本职是一名视觉设计师,他不会唱歌、演奏乐器,没有任何音乐方面背景。最初 Oliver 只是用 AI 歌曲生成工具激发灵感,把自己写的歌词变成真正的歌曲,作品覆盖独立流行、乡村说唱和电音风格。
值得一提的是,据音乐流媒体平台 Deezer 的数据,目前该平台用户每天上传的音乐里有 18% 完全由 AI 生成,但这些歌曲的播放数量一般很低,真正收听的人并不多,而 Spotify 等主流平台则拒绝公开任何 AI 生成音乐数据。
目前,imoliver 已上线《Stone》单曲。
(@ APPSO )
红杉资本(Sequoia Capital)最近分享了他们未来对 AI 领域的投资判断。
在他们看来,AI 革命将是一场堪比工业革命的变革。我们正处在一场深刻的「认知革命」(Cognitive Revolution)的重要发展阶段,这其中蕴含着高达 10 万亿美元的机遇。
在未来 12-18 个月,红杉将重点关注五大投资主题:持久化记忆、通信协议、AI 语音、AI 安全和开源 AI。他们预测,知识工作者的算力消耗将增长 10-10000 倍,这将为那些致力于 AI 专业化应用的创业公司创造巨大机会。
红杉认为,AI 视频可能在一年后才会成熟,但 AI 语音的时代就在当下。AI 语音的成熟度体现在两个关键指标的突破:一是保真度,语音质量已足以满足日常乃至专业用途;二是延迟,已降低到可以支撑实时、流畅对话的水平。
AI 语音的应用前景广阔,包括 AI 朋友、AI 伴侣、AI 治疗师等面向消费者的应用。我们对其在企业端的潜力也同样兴奋。比如在物流行业,许多协调工作至今仍通过语音完成,未来可以利用 AI 语音实现自动化。如果你想买卖大宗固定收益产品,很可能也是通过语音与场外交易台沟通。所有这些企业级的应用场景,都可以通过 AI 语音来提速。
完整视频分享:红杉美国:未来一年,这五个 AI 赛道我们重点关注
(@ Founder Park)
#####
当前大模型仍处于初级阶段,其「有问必答」的特性虽显稚嫩,却深刻改变了人类认知模式——个体独立性下降,群体智慧「外脑」依赖增强。AI 时代的教育正从传统的「知识预训练」转向「外脑协作」,信息过载虽削弱了自主判断,但群体智慧实现了从「物理聚合」到「化学融合」的升级。未来,人类将进入「纯种人」与「赛博格」的模糊地带,机器成为新物种,无人工厂和脑机接口将彻底重构生产、繁衍与意义体系。经济逻辑也将从「交易为中心」转向「意愿(intention)为中心」,生产 - 消费 - 分配从串行变为并发,劳动退出生产要素,精神创造成为核心活动。
面对这一变革,需超越二元对立思维,动态看待 AI 既「降智」又「启智」的双重影响。旧理论框架(如笛卡尔二分法)已无法适应新世界,必须突破路径依赖,重新想象人机共生形态。技术天花板(如算力限制)和心理倦怠(如信息过载)呼唤东西方智慧融合,以「公共精神」为核心构建文明新范式,例如通过「超级平台」解决跨领域协作,或利用区块链化解信用危机。最终,唯有「穿新鞋走新路」,通过 VRM(个人 AI 代理)捕捉意愿,才能在人机共生的未来中开辟繁荣新道路。(@ 腾讯研究院)
###
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
我们在基于骨骼动画实时生成的技术做一款二次元角色动画社区产品,相关算法论文已在 UIST 等多个行业顶会上发表,我们的产品定位是 Cursor for Storytelling(anime mini movies),想招一位前端工程师帮助我们更快工程化落地。
我们希望你熟悉的技术栈:
有前端或图形工程经验,熟悉 JS/TS 等
熟悉 WebGL 或 PixiJS,最好对 Spine / Live2D 动画有了解
做过时间线/关键帧类创作工具,了解音视频与编码器基础(至少接触过 FFmpeg 或 WebCodecs)
全职 / 外包 / 兼职合作都可谈!坐标最好是上海或北京,有兴趣可以直接联系微信:pat_hx
阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻