开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。
我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@qqq,@ 鲍勃
1、DeepSeek API 错峰时段价格大幅下调
2 月 26 日,DeepSeek 发文宣布,北京时间每日 00:30 至 08:30 的夜间空闲时段,DeepSeek 开放平台推出错峰优惠活动。具体来看,在上述时间段内,DeepSeek 的 API 调用价格大幅下调。DeepSeek-V3 降至原价的 50%;DeepSeek-R1 更低至 25%。具体价格方面,两款模型在优惠时段均为一致,输入(缓存命中)为 0.25 元 / 百万 tokens、输入(缓存未命中)为 1 元 / 百万 tokens、输出为 4 元 / 百万 tokens。此外,DeepSeek 的 API 充值入口也在近期恢复正常,能够正常进入。(@APPSO)
2、微软发布 Phi 系列两个小模型,首次整合语音、视觉、文本处理
Phi-4-multimodal(5.6B 参数)
多模态能力:首次整合语音、视觉、文本处理,无需多个模型或复杂流程,统一处理多类型输入。
性能亮点:
适用场景:智能手机(实时翻译、图像分析)、车载系统(安全监测)、工业检测等边缘计算场景。
Phi-4-mini(3.8B 参数)
专注文本:擅长推理、数学、编码、指令执行,支持 128,000 tokens 长文本处理。
高效灵活:体积小、延迟低,适合设备端部署,支持自定义微调(如医疗问答优化仅需 5 小时)。
应用示例:金融报告生成、多语言文档翻译、代码辅助等。
开发者优势
易获取:已上线 Azure AI Foundry、Hugging Face 和 NVIDIA 平台。
安全合规:通过微软红队测试,集成 Azure 的安全评估工具。
低成本高效:适合资源受限环境,支持 ONNX 优化跨平台部署。
未来展望
微软计划将 Phi 模型深度集成至 Windows 和 Copilot+ PC,提升本地 AI 能力,同时推动行业创新(如制造业质检、医疗诊断)(@mengshao@X)
3、B 站推出 IndexTTS,词错率超 CosyVoice2、Fish-Speech、F5-TTS
B 站的一款 TTS 要出来了,IndexTTS,在词错误率上超过了 CosyVoice2、Fish-Speech、F5-TTS 等。IndexTTS 基于 XTTS 和 Tortoise 开发,并做了改进。中文字符—拼音混合建模,可以直接输入拼音来纠正多音字的发音错误。
IndexTTS 结合 Conformer 条件编码器和 BigVGAN2 语音解码器,提高了训练稳定性、音色相似性以及声音质量。(@ AIGCLINK@X)
4、ElevenLabs 推出自家首个 STT 模型 Scribe
Scribe,ElevenLabs 的首个 STT 模型,专为处理现实世界音频的不确定性而构建,Scribe 可转录 99 种语言的语音,包括词级时间戳、说话人识别和音频事件标记,所有这些都在结构化响应中提供,以便无缝集成。
Scribe 专为精确度而设计。在 FLEURS 和 Common Voice 的 99 种语言基准测试中,它始终优于 Gemini 2.0 Flash、Whisper Large V3 和 Deepgram Nova-3 等领先模型。无论是会议摘要、电影字幕,甚至是歌曲歌词,Scribe 在意大利语(98.7%)、英语(96.7%)以及 97 种其他语言中提供最低的自动转录单词错误率。
Scribe 使语音识别技术在全球范围内触手可及——显著降低了塞尔维亚语、粤语和马拉雅拉姆语等传统上服务不足的语言中的错误率,在这些语言中,竞争模型通常超过 40% 的单词错误率。
开发者今天可以通过其语音转文本 API 集成 Scribe,以获取带有说话人识别和词级时间戳以及非语音事件标记(例如笑声)的结构化 JSON 转录本。低延迟版本将很快用于实时应用;创作者和企业可以通过 ElevenLabs 仪表板直接使用 Scribe 上传音频或视频文件并生成格式化文稿。( ElevenLabs@X)
5、Hume Octave:提示词生成带情感语音
今天,Hume 发布了 Octave,这是一款专为 TTS 打造的 LLM 。与传统 TTS 仅机械地「朗读」文本不同,Octave 能够理解语义对表达方式的影响,从而生成更富情感、更接近人类自然语音的输出。
语音设计: 通过简单的提示,即可轻松创建各种 AI 语音。
无论是「南方口音的 ASMR 冥想教练」还是「黑色电影风格的侦探」,Octave 都能即刻生成符合内容需求的独特声音。在严谨的评估中,Octave 在语音设计方面超越了 ElevenLabs。
表演指令: Octave 是首个能够接受自然语言指令,并以此调整情感表达和说话风格的 TTS 系统。 可以简单地给出「听起来要带有讽刺意味」或「用恐惧的语气低语」等指令。
上下文感知表达: Octave 在比传统 TTS 系统多 1000 倍的语言数据上进行训练,因此能够像人类演员一样理解剧本,传递真实的情感、讽刺意味、节奏、词语重音等。
理解能力: 这种强大的理解能力使 Octave 能够把握剧情转折、情感线索和人物性格。
面向创作者的工具: 借助 Octave 的创作者工作室,可以精确地编辑并生成长篇内容,并通过表演指令进行微调。开发者可以通过 Python 和 TypeScript SDK 访问 Octave,这些 SDK 简化了身份验证流程,并提供了可靠的类型化接口。( Hume@X)
6、Amphion 开源 20 万小时语音数据集
https://huggingface.co/datasets/amphion/Emilia-Dataset
Amphion 发布 Emilia-Large,这是最大的 TTS 预训练数据集,包含 20 万小时的多种语言语音数据,完全开源。它已准备好用于 TTS 和 SpeechLM 。
Emilia-Large 数据集是一个综合性的多语言数据集,具有以下特点:
Emilia 包含超过 101k 小时的语音数据,Emilia-YODAS 包含超过 114k 小时的语音数据;
涵盖六种不同的语言:英语(En)、中文(Zh)、德语(De)、法语(Fr)、日语(Ja)和韩语(Ko);
包含来自不同视频平台和播客的多样化语音数据,涵盖各种内容类型,如脱口秀、访谈、辩论、体育解说和有声读物。(@Amphion@Hugging face)
1、亚马逊 Alexa 史诗级重生,注入大模型灵魂,6 亿智能家居设备狂欢
智东西 2 月 27 日报道,昨夜,亚马逊生成式 AI 版智能助手 Alexa 终于现身!这也是 Alexa 自 2014 年发布至今,近 11 年后的首次重大更新。
升级后的 Alexa 被叫做 Alexa+ ,可以与用户自然对话,还能记住家庭不同成员的个人习惯提供个性化建议,完成制定旅行计划、提炼邮件重点等各种复杂的任务。彭博社知名记者马克·古尔曼将 Alexa+ 称作 「加强版的 ChatGPT 语音模式」 ,令人印象深刻。他还提到苹果在这个领域落后了很远。
现场演示中,Alexa+ 可以根据用户指令自如切换播放设备,让音乐、视频在不同房间流转;能与家庭中的安防摄像头联动,自主调出与用户指令相关的视频片段,如「遛狗了吗」等;可以完成各种复杂指令,如根据家庭成员的习惯选择餐厅、预定餐厅,叫出租车去机场接客人,然后实时同步出租车信息等。
Alexa+ 的能力是基于 Amazon Bedrock 平台来访问最先进的大语言模型,其中既包括 亚马逊自己的 Nova 模型 ,也涵盖了 AI 独角兽 Anthropic 的模型 。截至目前,亚马逊在全球已售出超过 6 亿台搭载 Alexa 的设备。
不过,该服务并没有立刻推出,将于未来几周内开始在美国推出,随后在未来几个月内开始在 Echo Show 8、10、15 和 21 等设备中推出。其费用是 每月 19.99 美元 ,Prime 会员可免费使用(Prime 会员费用是每月 14.99 美元或每年 139 美元)。(@ 智东西)
2、REKKIE AR 护目镜,滑雪装备中的科技与狠活
(图片来源:Rekkie)
REKKIE Smart Snow Goggles 是一款融合了 AR 技术的智能滑雪护目镜,为滑雪爱好者提供实时信息显示和通讯功能。这款产品旨在解决滑雪过程中的安全、导航和通信问题,为用户带来更便捷、安全的滑雪体验。
REKKIE 由三兄弟 Henry、David 和 Fletcher Pease 共同创立,源于 Henry 在滑雪时与朋友走散的经历。这款智能护目镜通过内置的平视显示器(HUD)技术,为滑雪者提供实时信息,包括速度、海拔、朋友位置等数据。
功能:
①实时信息显示:通过内置的平视显示器(HUD)技术,显示速度、海拔、方向等信息。
②朋友定位:实时显示朋友在山上的位置,方便群体滑雪时保持联系。
③智能通讯:可以读取短信、接听电话,控制音乐播放,无需取出手机。
④数据追踪:记录滑雪数据,如垂直下降高度、最高速度等。
⑤双重连接:通过蓝牙连接手机,同时内置 915MHz 无线电,在无信号区域也能保持连接。
局限性:
①电池续航:虽然号称可持续使用 10-15 小时,但在寒冷天气下可能会缩短。
②阳光下显示:在强光下,HUD 显示可能不够清晰。
③价格因素:399 美元的价格对部分消费者来说可能偏高。
④功能依赖:部分功能需要配套使用智能手机应用。(@ 白鲸出海)
3、OpenAI 宣布高级语音免费使用
2 月 26 日,OpenAI 发文宣布,ChatGPT 的高级语音功能对所有免费用户开放使用。OpenAI 表示,从即日起,基于 GPT-4o mini 的高级语音功能将对所有 ChatGPT 免费用户开放使用。
但 OpenAI 依然保持会员阶级限制,Plus 会员继续以现有的每日权限,使用基于 GPT-4o 的高级语音功能,并且能够访问该功能中的视频和屏幕共享;而 Pro 会员则继续无限使用上述所有功能。值得关注的是,OpenAI 在 Plus 会员的使用范围中强调,后者的使用权限将超过免费会员的 5 倍。
同日早些时候,OpenAI 还宣布近期推出的 Deep Research 功能正式向 ChatGPT Plus、Team、企业版和教育版四种会员开放使用,每月将限制 10 次使用机会;此外,Pro 会员的 Deep Research 限制也从此前的 100 次提升至 120 次。ChatGPT 的 Deep Research 功能于本月初宣布推出,其号称是下一代智能 Agent,能够独立为用户完成任务。用户只需输入想了解的问题,它就能查找、分析并整合数百个在线来源,生成一份媲美研究分析师水平的综合报告。(@APPSO)
4、Perplexity iOS 更新语音模式设计,引入 Claude Sonnet 3.7
近期,Perplexity 的 iOS 应用程序迎来更新,重点在于改进的语音模式。该模式的 UI 经过重新设计,包含一个由多个可交互点构成的球体,滑动这些点会触发精致的动画效果。
语音模式现在提供六种不同的声音选择,相较之前有所增加。虽然本质上仍是文本转语音模型,但新版集成了搜索功能。搜索结果会以小部件形式呈现,用户可展开小部件,直接访问结果中提及的网站。
除了语音模式的更新,用户现在还可以在菜单中找到个性化设置,设置一组股票代码或体育队伍,以便在主屏幕小部件上显示。
最后,最新的 Claude Sonnet 3.7 模型已加入模型选择器,Perplexity 的移动端和网页端用户均可使用。
(@TestingCatalog News @X)
1、领英创始人:DeepSeek 后, 中国已经参与 AI 游戏,人类需要以人性化且富有同情心的方式应对新技术
(图片来源:Alex Kantrowitz)
Reid Hoffman 是 LinkedIn 的联合创始人、硅谷传奇投资者,也是新书《超级机构:我们的 AI 未来可能走向何方》的作者。他表示,智能创造了巨大的价值,大大提高了效率,所以问题不在于它是否会有回报,问题是我们要进行哪些投资以及在什么时间范围内投资。
Reid Hoffm 还说:「我认为会有多个赢家,未来会出现一家公司在一个领域获胜,另一家公司在另一个领域获胜。普遍看来,大多数人都是带着不信任开始使用新技术的,你可以在近代历史上看到类似的例子,比如互联网或手机刚开始的出现的时候,很多人都说这会害了我们的孩子,这会干扰我们安静思考的能力。人们的恐慌总是伴随着新的大规模技术。」
最后他强调:「所以我认为人工智能时代将会发生这样的转变,人们要做的很多工作将由被其他使用人工智能的人们取代。同时人工智能可以帮助实现这种转变,它可以帮助人类学习如何使用它;可以帮助人类以新的方式来完成工作;可以帮助人类发现如果我不再适合这个工作,我能找到什么其他工作,我该如何学习这个新的工作,人工智能可以成为解决方案的一部分。」( Z Potentials)
更多 Voice Agent 学习笔记:
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻