AI测试 Elevenlabs、Hume.ai、B 站多家推出 STT/TTS 新品；Amphion 开源 20 万小时语音数据集丨日报

RTE开发者社区 · 2025年02月27日 · 3968 次阅读

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。

我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq，@ 鲍勃

一、有话题的技术

1、DeepSeek API 错峰时段价格大幅下调

2 月 26 日，DeepSeek 发文宣布，北京时间每日 00:30 至 08:30 的夜间空闲时段，DeepSeek 开放平台推出错峰优惠活动。具体来看，在上述时间段内，DeepSeek 的 API 调用价格大幅下调。DeepSeek-V3 降至原价的 50%；DeepSeek-R1 更低至 25%。具体价格方面，两款模型在优惠时段均为一致，输入（缓存命中）为 0.25 元 / 百万 tokens、输入（缓存未命中）为 1 元 / 百万 tokens、输出为 4 元 / 百万 tokens。此外，DeepSeek 的 API 充值入口也在近期恢复正常，能够正常进入。(@APPSO)

2、微软发布 Phi 系列两个小模型，首次整合语音、视觉、文本处理

Phi-4-multimodal（5.6B 参数）

多模态能力：首次整合语音、视觉、文本处理，无需多个模型或复杂流程，统一处理多类型输入。
性能亮点：
- 语音：超越 WhisperV3 等模型，语音识别错误率仅 6.14%（当前最优），支持实时翻译和摘要。
- 视觉：在图表理解、OCR、科学推理等任务中媲美 GPT-4o 和 Gemini-2-Flash。
- 多模态协同：例如结合语音提问与图像分析，增强上下文理解。
适用场景：智能手机（实时翻译、图像分析）、车载系统（安全监测）、工业检测等边缘计算场景。

Phi-4-mini（3.8B 参数）

专注文本：擅长推理、数学、编码、指令执行，支持 128,000 tokens 长文本处理。
高效灵活：体积小、延迟低，适合设备端部署，支持自定义微调（如医疗问答优化仅需 5 小时）。
应用示例：金融报告生成、多语言文档翻译、代码辅助等。
开发者优势
易获取：已上线 Azure AI Foundry、Hugging Face 和 NVIDIA 平台。
安全合规：通过微软红队测试，集成 Azure 的安全评估工具。
低成本高效：适合资源受限环境，支持 ONNX 优化跨平台部署。

未来展望

微软计划将 Phi 模型深度集成至 Windows 和 Copilot+ PC，提升本地 AI 能力，同时推动行业创新（如制造业质检、医疗诊断）（@mengshao@X）

3、B 站推出 IndexTTS，词错率超 CosyVoice2、Fish-Speech、F5-TTS

B 站的一款 TTS 要出来了，IndexTTS，在词错误率上超过了 CosyVoice2、Fish-Speech、F5-TTS 等。IndexTTS 基于 XTTS 和 Tortoise 开发，并做了改进。中文字符—拼音混合建模，可以直接输入拼音来纠正多音字的发音错误。

IndexTTS 结合 Conformer 条件编码器和 BigVGAN2 语音解码器，提高了训练稳定性、音色相似性以及声音质量。(@ AIGCLINK@X)

4、ElevenLabs 推出自家首个 STT 模型 Scribe

Scribe，ElevenLabs 的首个 STT 模型，专为处理现实世界音频的不确定性而构建，Scribe 可转录 99 种语言的语音，包括词级时间戳、说话人识别和音频事件标记，所有这些都在结构化响应中提供，以便无缝集成。

Scribe 专为精确度而设计。在 FLEURS 和 Common Voice 的 99 种语言基准测试中，它始终优于 Gemini 2.0 Flash、Whisper Large V3 和 Deepgram Nova-3 等领先模型。无论是会议摘要、电影字幕，甚至是歌曲歌词，Scribe 在意大利语（98.7%）、英语（96.7%）以及 97 种其他语言中提供最低的自动转录单词错误率。

Scribe 使语音识别技术在全球范围内触手可及——显著降低了塞尔维亚语、粤语和马拉雅拉姆语等传统上服务不足的语言中的错误率，在这些语言中，竞争模型通常超过 40% 的单词错误率。

开发者今天可以通过其语音转文本 API 集成 Scribe，以获取带有说话人识别和词级时间戳以及非语音事件标记（例如笑声）的结构化 JSON 转录本。低延迟版本将很快用于实时应用；创作者和企业可以通过 ElevenLabs 仪表板直接使用 Scribe 上传音频或视频文件并生成格式化文稿。( ElevenLabs@X)

5、Hume Octave：提示词生成带情感语音

今天，Hume 发布了 Octave，这是一款专为 TTS 打造的 LLM 。与传统 TTS 仅机械地「朗读」文本不同，Octave 能够理解语义对表达方式的影响，从而生成更富情感、更接近人类自然语音的输出。

语音设计： 通过简单的提示，即可轻松创建各种 AI 语音。

无论是「南方口音的 ASMR 冥想教练」还是「黑色电影风格的侦探」，Octave 都能即刻生成符合内容需求的独特声音。在严谨的评估中，Octave 在语音设计方面超越了 ElevenLabs。

表演指令： Octave 是首个能够接受自然语言指令，并以此调整情感表达和说话风格的 TTS 系统。可以简单地给出「听起来要带有讽刺意味」或「用恐惧的语气低语」等指令。

上下文感知表达： Octave 在比传统 TTS 系统多 1000 倍的语言数据上进行训练，因此能够像人类演员一样理解剧本，传递真实的情感、讽刺意味、节奏、词语重音等。

理解能力：这种强大的理解能力使 Octave 能够把握剧情转折、情感线索和人物性格。

面向创作者的工具： 借助 Octave 的创作者工作室，可以精确地编辑并生成长篇内容，并通过表演指令进行微调。开发者可以通过 Python 和 TypeScript SDK 访问 Octave，这些 SDK 简化了身份验证流程，并提供了可靠的类型化接口。( Hume@X)

6、Amphion 开源 20 万小时语音数据集

https://huggingface.co/datasets/amphion/Emilia-Dataset

Amphion 发布 Emilia-Large，这是最大的 TTS 预训练数据集，包含 20 万小时的多种语言语音数据，完全开源。它已准备好用于 TTS 和 SpeechLM 。

Emilia-Large 数据集是一个综合性的多语言数据集，具有以下特点：

Emilia 包含超过 101k 小时的语音数据，Emilia-YODAS 包含超过 114k 小时的语音数据；
涵盖六种不同的语言：英语（En）、中文（Zh）、德语（De）、法语（Fr）、日语（Ja）和韩语（Ko）；
包含来自不同视频平台和播客的多样化语音数据，涵盖各种内容类型，如脱口秀、访谈、辩论、体育解说和有声读物。(@Amphion@Hugging face)

二、有亮点的产品

1、亚马逊 Alexa 史诗级重生，注入大模型灵魂，6 亿智能家居设备狂欢

智东西 2 月 27 日报道，昨夜，亚马逊生成式 AI 版智能助手 Alexa 终于现身！这也是 Alexa 自 2014 年发布至今，近 11 年后的首次重大更新。

升级后的 Alexa 被叫做 Alexa+ ，可以与用户自然对话，还能记住家庭不同成员的个人习惯提供个性化建议，完成制定旅行计划、提炼邮件重点等各种复杂的任务。彭博社知名记者马克·古尔曼将 Alexa+ 称作 「加强版的 ChatGPT 语音模式」 ，令人印象深刻。他还提到苹果在这个领域落后了很远。

现场演示中，Alexa+ 可以根据用户指令自如切换播放设备，让音乐、视频在不同房间流转；能与家庭中的安防摄像头联动，自主调出与用户指令相关的视频片段，如「遛狗了吗」等；可以完成各种复杂指令，如根据家庭成员的习惯选择餐厅、预定餐厅，叫出租车去机场接客人，然后实时同步出租车信息等。

Alexa+ 的能力是基于 Amazon Bedrock 平台来访问最先进的大语言模型，其中既包括 亚马逊自己的 Nova 模型 ，也涵盖了 AI 独角兽 Anthropic 的模型 。截至目前，亚马逊在全球已售出超过 6 亿台搭载 Alexa 的设备。

不过，该服务并没有立刻推出，将于未来几周内开始在美国推出，随后在未来几个月内开始在 Echo Show 8、10、15 和 21 等设备中推出。其费用是 每月 19.99 美元 ，Prime 会员可免费使用（Prime 会员费用是每月 14.99 美元或每年 139 美元）。（@ 智东西）

2、REKKIE AR 护目镜，滑雪装备中的科技与狠活

（图片来源：Rekkie）

REKKIE Smart Snow Goggles 是一款融合了 AR 技术的智能滑雪护目镜，为滑雪爱好者提供实时信息显示和通讯功能。这款产品旨在解决滑雪过程中的安全、导航和通信问题，为用户带来更便捷、安全的滑雪体验。

REKKIE 由三兄弟 Henry、David 和 Fletcher Pease 共同创立，源于 Henry 在滑雪时与朋友走散的经历。这款智能护目镜通过内置的平视显示器（HUD）技术，为滑雪者提供实时信息，包括速度、海拔、朋友位置等数据。

功能：

①实时信息显示：通过内置的平视显示器（HUD）技术，显示速度、海拔、方向等信息。
②朋友定位：实时显示朋友在山上的位置，方便群体滑雪时保持联系。
③智能通讯：可以读取短信、接听电话，控制音乐播放，无需取出手机。
④数据追踪：记录滑雪数据，如垂直下降高度、最高速度等。
⑤双重连接：通过蓝牙连接手机，同时内置 915MHz 无线电，在无信号区域也能保持连接。

局限性：

①电池续航：虽然号称可持续使用 10-15 小时，但在寒冷天气下可能会缩短。
②阳光下显示：在强光下，HUD 显示可能不够清晰。
③价格因素：399 美元的价格对部分消费者来说可能偏高。
④功能依赖：部分功能需要配套使用智能手机应用。（@ 白鲸出海）

3、OpenAI 宣布高级语音免费使用

2 月 26 日，OpenAI 发文宣布，ChatGPT 的高级语音功能对所有免费用户开放使用。OpenAI 表示，从即日起，基于 GPT-4o mini 的高级语音功能将对所有 ChatGPT 免费用户开放使用。

但 OpenAI 依然保持会员阶级限制，Plus 会员继续以现有的每日权限，使用基于 GPT-4o 的高级语音功能，并且能够访问该功能中的视频和屏幕共享；而 Pro 会员则继续无限使用上述所有功能。值得关注的是，OpenAI 在 Plus 会员的使用范围中强调，后者的使用权限将超过免费会员的 5 倍。

同日早些时候，OpenAI 还宣布近期推出的 Deep Research 功能正式向 ChatGPT Plus、Team、企业版和教育版四种会员开放使用，每月将限制 10 次使用机会；此外，Pro 会员的 Deep Research 限制也从此前的 100 次提升至 120 次。ChatGPT 的 Deep Research 功能于本月初宣布推出，其号称是下一代智能 Agent，能够独立为用户完成任务。用户只需输入想了解的问题，它就能查找、分析并整合数百个在线来源，生成一份媲美研究分析师水平的综合报告。(@APPSO)

4、Perplexity iOS 更新语音模式设计，引入 Claude Sonnet 3.7

近期，Perplexity 的 iOS 应用程序迎来更新，重点在于改进的语音模式。该模式的 UI 经过重新设计，包含一个由多个可交互点构成的球体，滑动这些点会触发精致的动画效果。

语音模式现在提供六种不同的声音选择，相较之前有所增加。虽然本质上仍是文本转语音模型，但新版集成了搜索功能。搜索结果会以小部件形式呈现，用户可展开小部件，直接访问结果中提及的网站。

除了语音模式的更新，用户现在还可以在菜单中找到个性化设置，设置一组股票代码或体育队伍，以便在主屏幕小部件上显示。

最后，最新的 Claude Sonnet 3.7 模型已加入模型选择器，Perplexity 的移动端和网页端用户均可使用。
(@TestingCatalog News @X)

三、有态度的观点

1、领英创始人：DeepSeek 后，中国已经参与 AI 游戏，人类需要以人性化且富有同情心的方式应对新技术

（图片来源：Alex Kantrowitz）

Reid Hoffman 是 LinkedIn 的联合创始人、硅谷传奇投资者，也是新书《超级机构：我们的 AI 未来可能走向何方》的作者。他表示，智能创造了巨大的价值，大大提高了效率，所以问题不在于它是否会有回报，问题是我们要进行哪些投资以及在什么时间范围内投资。

Reid Hoffm 还说：「我认为会有多个赢家，未来会出现一家公司在一个领域获胜，另一家公司在另一个领域获胜。普遍看来，大多数人都是带着不信任开始使用新技术的，你可以在近代历史上看到类似的例子，比如互联网或手机刚开始的出现的时候，很多人都说这会害了我们的孩子，这会干扰我们安静思考的能力。人们的恐慌总是伴随着新的大规模技术。」

最后他强调：「所以我认为人工智能时代将会发生这样的转变，人们要做的很多工作将由被其他使用人工智能的人们取代。同时人工智能可以帮助实现这种转变，它可以帮助人类学习如何使用它；可以帮助人类以新的方式来完成工作；可以帮助人类发现如果我不再适合这个工作，我能找到什么其他工作，我该如何学习这个新的工作，人工智能可以成为解决方案的一部分。」( Z Potentials)

更多 Voice Agent 学习笔记：

多模态 AI 怎么玩？这里有 18 个脑洞

AI 重塑宗教体验，语音 Agent 能否成为突破点？

对话 TalktoApps 创始人：Voice AI 提高了我五倍的生产力，语音输入是人机交互的未来

2024，语音 AI 元年；2025，Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管：打造通用 AI 助理，主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元，并预测了 2025 年语音技术趋势

语音即入口：AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了，这些 Voice Agent 开发者早已开始探索……

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。

需要登录后方可回复, 如果你还没有账号请点击这里注册。