图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 瓒 an、@ 鲍勃

01 有话题的技术

1、TheWhisper:开源 STT/TTS 解决方案,支持流式处理与设备端推理

#####

图片

图片

TheWhisper 项目发布了一个高性能、流式处理的语音转文本(Speech-to-Text, STT)和文本转语音(Text-to-Speech, TTS)的开源解决方案。该项目专注于高效的自托管、云托管及设备端推理,并提供优化的模型和引擎,支持包括 NVIDIA GPU 和 Apple Silicon 在内的多种硬件。

优化的 Whisper 模型: 提供微调后的 Whisper 模型,支持 10s、15s、20s 和 30s 等灵活的音频分块(chunk size)推理,打破了原版 Whisper 模型 30s 的限制。

高性能推理引擎:

该项目已在 GitHub 上开源,提供 MIT 许可证。NVIDIA 引擎对小型组织免费,Apple Silicon 版本也完全免费。计划未来支持 Jetson 平台、容器化部署及 Speaker Diarization 功能。

GitHub: 

https://github.com/TheStageAI/TheWhisper

(@GitHub)

2、Microsoft 开源 VibeVoice-Realtime-0.5B:低延迟、流式文本转语音模型

#####

图片

Microsoft 在 Hugging Face 上开源了 VibeVoice-Realtime-0.5B,一个轻量级的实时文本转语音(TTS)模型。该模型支持流式文本输入,能生成高质量的语音,并以约 300 毫秒(硬件相关)的延迟产生首段可听语音,适用于实时 TTS 服务、数据流播报以及 LLM 的即时语音响应。

VibeVoice-Realtime-0.5B 模型已开源,采用 MIT 许可证,可通过 Hugging Face 获取。模型目前仅支持英语,且仅供研究目的使用。

相关链接:https://huggingface.co/

(@Hugging Face)

3、全球首个智能体支付落地:ANP 发布 AP2 协议实现,智能体商务生态迈出关键一步

#####

ANP(Agent Network Protocol)开源社区与杭州向量共识宣布,已成功完成基于 ANP 协议的 AP2(Agent Payment Protocol)首个落地实现。这为智能体(Agent)商务生态提供了首个可用的支付基础设施,标志着智能体从「能对话」进化到「能交易」的关键一步。

ANP/AP2 的实现已完成并开源。未来计划支持 x402 协议(基于 HTTP 402 状态码的即时微支付),并探索「人不在场」场景(Intent Mandate)、隐私增强(SD-JWT)及数字人民币等支付方式。

ANP/AP2 规范文档:

https://github.com/agent-network-protocol/AgentNetworkProtocol

官方网站:

https://ap2-protocol.org/

@ANP 开源技术 Community)


02 有亮点的产品

1、谷歌官宣 12 月 9 日举行 Android XR 特别发布会

#####

图片

谷歌官宣,将于太平洋时间 12 月 8 日上午 10 点(北京时间 12 月 9 日凌晨 2 点)举行 Android XR 特别发布会。

根据发布会直播简介,收看者将了解有关 XR 的所有内容,包括眼镜、头戴式设备以及所有中间设备。在 Gemini 的陪伴下,用户将能够拥有更加对话式、情境化且有帮助的体验。

三星已在今年 10 月推出了其首款 XR 头显设备——Galaxy XR,这也是首款搭载 Android XR 操作系统的设备,该平台由三星、谷歌和高通联合打造,设备搭载高通骁龙 XR2+ Gen 2 芯片,配备 16GB 内存和 256GB 存储空间。

此外,三星还宣布了其即将推出 AI 眼镜的计划,正在与谷歌以及知名时尚眼镜品牌合作开发此类可穿戴设备。爆料称这款眼镜将配备全视线镜片(即光致变色镜片),能根据环境光线强度自动变暗或恢复透明,还内置摄像头并支持 Wi-Fi 与蓝牙连接。

预约直播:

https://www.youtube.com/live/a3-OJxxW810

@IT 之家)

#####

2、Anthropic 推出「Anthropic Interviewer」AI 工具,大规模洞察专业人士对 AI 的看法

#####

图片

Anthropic 公司发布了「Anthropic Interviewer」,一款基于 Claude 的 AI 工具,旨在自动化执行大规模访谈。该工具通过三个阶段——规划、访谈和分析——生成可供人类研究人员分析的数据,解决了传统访谈在规模和成本上的限制。

「Anthropic Interviewer」已完成首次测试并投入使用。Anthropic 正持续运用该工具进行研究,并已公开研究方法和部分初步发现。

相关链接:

https://claude.ai/interviewer

(@Anthropic Research)

3、葡萄牙足球巨星 C 罗投资人工智能初创公司 Perplexity
足球巨星克里斯蒂亚诺·罗纳尔多(Cristiano Ronaldo)宣布投资 Perplexity AI,这家人工智能初创公司拥有包括 Comet 搜索引擎在内的产品,估值达 200 亿美元。

#####

罗纳尔多周四分享了这一消息,强调好奇心对于取得成功的重要性。「好奇心是成就伟大的必要条件。当你每天不断提出新问题时,你就会赢。这就是为什么我自豪地宣布我对 Perplexity 的投资,」这位足球传奇在 X 平台上发文表示。

这次合作包括一个名为「Perplexity x CR7」的专属登陆页面,展示了罗纳尔多的职业生涯故事。这位足球偶像将这次合作描述为他们共同努力「激励每个人提出更有雄心的问题」的「仅仅是开始」。

Perplexity 成立于 2022 年,在 9 月份获得 2 亿美元融资后,估值达到 200 亿美元。罗纳尔多与这家 AI 搜索平台的关系始于用户身份,后来成为投资者。10 月份,他曾表示 Perplexity 帮助他撰写了 Prestige Globe Award 获奖感言。

凭借罗纳尔多在各大社交媒体平台上超过 10 亿的粉丝,他的投资和合作可能会显著扩大 Perplexity 的用户群。这位足球明星在公告中指出,「Perplexity 正在为全球的好奇心提供动力」。

https://www.perplexity.ai/ronaldo

(@investing.com@Cristiano @X)


03 有态度的观点 

1、豆包手机工程机被炒至近万元,行业评价两极分化

#####

图片

据新浪财经报道,「豆包手机助手」首批工程机在官方渠道售罄后迅速在二级市场被炒高,闲鱼等平台上部分未拆封机型报价已达 7999 – 9999 元,相较官方 3499 元定价溢价超过一倍。

与此同时,昨日社交媒体出现对于「豆包手机」的分化评价。

魅族科技公开表示「期待有机会深入合作」,认为豆包手机拓展了 AI 手机的想象空间,并强调 Flyme AIOS 2 同样以系统级自动化为目标。

荣耀首席影像工程师罗巍则直言软件公司做手机难度极大,若坚持可能「三世而亡」,否则「一代死」。但荣耀产品线高管方飞则认为豆包助手的通用场景自动执行路径与荣耀的方向一致,期待生态共建。

而据此前报道,部分用户在使用助手执行微信相关操作时出现被动下线或登录异常,微信方面回复称暂勿在工程机上通过助手操作敏感环节,相关问题正在核实;字节跳动方面则强调,权限清单与白皮书已公开,执行过程需用户授权且可中断。

对此,罗永浩在微博发文称,技术革命是谁都拦不住的,AI 助手一定会遍地开花。

图片

( @APPSO)

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。


图片

作者提示: 个人观点,仅供参考​


↙↙↙阅读原文可查看相关链接,并与作者交流