AI测试 PlayAI 发布 TTS 新模型,三方测试超 ElevenLabs;19 岁华人辍学打造对话式 AI 助手,融资 200 万美元

RTE开发者社区 · 2025年02月05日 · 92 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq,@ 鲍勃

01 有话题的技术

1、字节跳动推出 OmniHuman:从单张照片生成逼真全身动态视频

字节跳动的研究团队近日开发出一款名为 OmniHuman 的人工智能系统,能够将单张照片转化为逼真的视频,展示人物的讲话、歌唱以及自然的动作。

OmniHuman 能够生成全身视频,展现人物在讲话时的手势和动态,超越了以往仅能动画面部或上半身的 AI 模型。这项技术的核心在于,它结合了文本、音频和人体动作等多种输入,通过一种称为「全条件」训练的创新方法,使得 AI 能够从更大、更丰富的数据集中学习。(@AIbase 基地)

2、阿里云 Qwen2.5-1M 开源发布:100 万上下文长度模型登场

继 DeepSeek R1 之后,阿里云通义千问团队宣布推出其最新的开源模型 Qwen2.5-1M,再次引发业界关注。

此次发布的 Qwen2.5-1M 系列包含两个开源模型: Qwen2.5-7B-Instruct-1MQwen2.5-14B-Instruct-1M 。这是通义千问首次推出能够原生支持百万 Token 上下文长度的模型,并在推理速度上实现了显著提升。

Qwen2.5-1M 的核心亮点在于其原生支持百万 Token 的超长上下文处理能力。这使得模型能够轻松应对书籍、长篇报告、法律文件等超长文档,无需进行繁琐的分割处理。同时,该模型还支持更长时间、更深入的对话,能够记住更长的对话历史,实现更连贯、更自然的交互体验。此外,Qwen2.5-1M 在理解复杂任务,如代码理解、复杂推理、多轮对话等方面也展现出更强大的能力。

除了令人震撼的百万 Token 上下文长度,Qwen2.5-1M 还带来了另一项重大突破:闪电般快速的推理框架!通义千问团队完全开源了基于 vLLM 的推理框架,并集成了稀疏注意力机制。这一创新性的框架使得 Qwen2.5-1M 在处理百万 Token 输入时,速度提升了 3 倍到 7 倍 ,这意味着用户可以更加高效地使用超长上下文模型,极大地提升了实际应用场景的效率和体验。(@AIbase 基地)

02 有亮点的产品

1、PlayAI 发布 TTS 新模型 Dialog 1.0,三方测试多方面超 ElevenLabs

PlayAI 发布了全新 TTS 模型 Dialog 1.0 ,该模型以超强的表达力和音质优势, 在第三方测试中 超越 ElevenLabs 。Dialog 1.0 具备 <1% 误差率 ,支持 30+ 语言 ,并实现行业领先的 低延迟(303ms TTFA),大幅提升语音克隆效果。

语音质量: 在第三方测试中,PlayAI Dialog 在语音流畅度和情感连贯性方面优于 ElevenLabs v2.5 Turbo(10:1)和 ElevenLabs Multilingual v2.0(3:1)。测试者尤其赞赏其准确的表现力和节奏。

低延迟: 与 ElevenLabs v2.5 Turbo 类似,PlayAI Dialog 具有较低的首次音频时间(TTFA),适合低延迟应用,如语音代理、呼叫中心、游戏和娱乐。

多语言支持: 除英语外,支持中文、法语、德语、印地语、日语、韩语、葡萄牙语和乌尔都语。另有 23 种语言处于实验阶段。

2、谁还没发现微信好友里的「卧底 AI」:你以为它只会做红包封面?

一个年过完,许多人的微信里都多了一个 好友。

与一些陪伴大家多年从不回复的沉默工具号不一样,这是一个事事有回应的 AI 助手。

微信搜索「元宝红包封面助手」就能加它微信,以 微信好友 的形式聊天。

只需输入简单的主题词,比如「天天开心」,它便能自动生成精美的绘图,并搭配由关键词组成的祝福语等,制作成独特的红包封面。

根据身边统计学,有人是通过做好的红包封面里附赠了对联,发现这个 封面助手还有对话功能。

在角色设定上,对比一些智能客服的刻板印象,「元宝红包封面助手」很有人味儿。

没有机械的「您好,我是您的 AI 助理」,开口就是「宝儿」,同它对话陪伴感、情绪价值拉满。(@ 量子位)

3、Martin AI:19 岁华人辍学打造对话式 AI 助手,融资 200 万美元

19 岁华人辍学创业,拿下 200 万美元融资,致力于打造新型对话式 AI 助手。Dawson Chen 和 Ethan Hou 分别从耶鲁大学和伯克利大学退学,共同创办了 Martin AI。

该公司开发的 AI 助手 Martin 采用「自定义记忆架构」,能够理解用户偏好和上下文,支持通过短信、WhatsApp、Slack 等多种渠道与用户互动,帮助用户管理日程、查询信息、撰写邮件等。Martin 还支持语音交互,可自动调整日程并通知相关方。

Martin 的主要功能包括日程管理、邮件管理、任务管理、通讯管理、文件管理以及个性化服务。它能够与 Gmail、Slack、Google Drive 以及各类日历等职场必备工具无缝对接。Martin 的愿景是通过极致的用户体验和快速迭代来与科技巨头竞争,希望在未来五年内,每个人的日常生活中都能有五到十个 AI 智能体,而 Martin 将成为最贴近消费者生活的那个。

目前,Martin 已经获得了包括 Pioneer Fund、FoundersX Ventures、Eight Capital 等知名机构的投资,并在 App Store 上线,提供免费下载和付费订阅服务。(@ 新智元)

03 有态度的观点

1、郭明錤:DeepSeek 爆红加速 AI 模型「设备端化」趋势

近日,分析师郭明錤发文表示,DeepSeek-R1 发布后,加速了 AI 模型「设备端化」的趋势。郭明錤提到,API/Token 价格显著下滑,有利于 AI 软件/服务与设备端 AI,加速 AI 应用多元化。其中 DeepSeek-R1 采取了激进的定价策略,其 API/token 定价最低不到 OpenAI-o1 的 1/100。郭明錤预测,此竞争压力可能将推动 AI 使用成本下滑,并且因 AI 产业在中国市场竞争激烈,将有其他中国厂商推出性能优异且定价更激进的 LLM。

郭明錤还表示,Scaling law 的边际效益放缓时,AI 算力仍可通过优化训练方式持续增长,并有利于挖掘新应用。

郭明錤分析,过去 1-2 年,投资人对 AI 服务器供应链的投资逻辑主要基于 AI 服务器出货量在 Scaling law 成立下可持续增长。然而,Scaling law 的边际效益正逐渐递减,这也让市场更加关注 DeepSeek 通过 Scaling law 以外的方式显著提升模型效益。

日前,来自加州伯克利大学在读博士 Jiayi Pan 的研究团队,成功地以极低的成本复现了 DeepSeek R1-Zero 中的关键技术「顿悟时刻」。研究表明,即便规模较小的语言模型,通过强化学习(RL),模型也能自行发展出强大的自我验证和搜索能力。(@APPSO)

2、谷歌前 CEO:DeepSeek 崛起标志着全球 AI 竞赛新阶段

谷歌前首席执行官埃里克·施密特(Eric Schmidt)在发表的专栏文章中呼吁美国加大开源人工智能的研发力度,以应对 DeepSeek 的崛起。

施密特认为,DeepSeek 的崛起标志着全球人工智能竞赛的转折点,证明中国可以利用更少的资源与大科技公司竞争。施密特指出,为了对抗 DeepSeek,美国必须开发更多的开源模型,投资人工智能基础设施(如星际之门),并鼓励领先的实验室分享他们的训练方法。

他还强调,DeepSeek 的成功不仅在于其技术的先进性,还在于其开源策略,这使得更多的 AI 团队能够基于最先进的模型开发更多的 AI 原生应用。中国工程院院士、清华大学计算机系教授郑纬民指出,DeepSeek 成功出圈的原因主要集中在三个方面:DeepSeek-V3 和 DeepSeek-R1 两款模型分别实现了比肩 OpenAI 的 GPT-4o 和 o1 模型的能力,同时成本仅为 OpenAI 模型的十分之一左右。

此外,DeepSeek 还开源了这两款模型的技术,进一步推动了 AI 技术的普及和应用。(@AIbase 基地)

04 有看点的活动

1、ElevenLabs x a16z Hackathon,全球六个城市 + 线上参与

ElevenLabs 和 a16z 正在举办一场以 AI 代理为主题的全球黑客马拉松,将在全球范围内同步举办 7 场大型黑客马拉松,汇聚全球最优秀的开发者、创新者、设计师和 AI 工程师。

线上参与时间:

北京时间 2 月 22 日星期六下午 6:00 - 2 月 24 日星期一上午 10:00

其他城市参与时间参考活动官网:https://hackathon.elevenlabs.io/

更多 Voice Agent 学习笔记:

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨 Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+ 客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册