AI测试 WebGPU 版 Kokoro:浏览器端零成本使用高质量 TTS;苹果 ELEGNT 台灯机器人:赋予非人形机器人「情感」

RTE开发者社区 · 2025年02月08日 · 26 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq,@ 鲍勃

01 有话题的技术

1、DeepSeek GitHub 平台热门项目星数超 OpenAI 最热门项目

截至 2 月 7 日下午,DeepSeek 在 GitHub 平台的热门项目「DeepSeek -V3」的点星数已达到 7 万加,超过了 GitHub 上 OpenAI 最热门项目 Whisper。DeepSeek-V3 模型于2024年12月26日发布,官方表示,DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。该模型的多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

此外,官方表示,通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了 3 倍的提升,为用户带来更加迅速流畅的使用体验。(@APPSO)

2、谷歌推出 Imagen 3 API,价格 0.03 美元/张

近日,谷歌正式推出其最新的图像生成模型 ——Imagen3,现已在 Gemini API 上可供开发者使用。该模型在视觉效果上表现出色,能够生成各种风格的高质量图像,包括超现实主义作品、印象派风景、抽象作品以及动漫角色。Imagen3 不仅提升了图像的清晰度和构图能力,还通过简化的文本提示,帮助用户更轻松地将创意转化为图像。

初期,Imagen3 将只对付费用户开放,预计不久后将向免费用户逐步推出。 根据官方介绍,用户只需支付每幅图像 0.03 美元,就可以享受 Imagen3 的强大功能。 同时,用户在生成图像时,可以自由控制图像的宽高比以及生成的选项数量,满足不同的需求。

为了打击虚假信息和不当归属,Imagen3 生成的所有图像都带有不可见的数字水印 SynthID,这个水印可识别图像为人工智能生成的作品。此外,开发者还可以通过 Python 代码轻松实现图像生成,具体的代码示例也已在官方文档中提供。用户只需简单地设置 API 密钥、输入提示词,就能生成想要的图像,体验这一新技术的便利。

为了让用户更好地了解 Imagen3 的能力,官方还展示了一系列生成的图像样本,涵盖了多种风格与主题。随着技术的不断进步,谷歌计划在不久的将来将更多的生成媒体模型整合到 Gemini API 中,进一步推动生成媒体与语言模型的结合,助力开发者创造更多有趣的应用。(@AIbase 基地)

3、Meta 发布全新 AI 模型 SeamlessM4T,支持 101 种语言即时翻译,迈向「巴别鱼」时代

(图片来源:MIT Technology Review)

近日,Meta 推出了一款名为 SeamlessM4T 的 AI 模型,能够实现 101 种语言的语音和文本即时翻译。这一模型不仅支持语音到语音的直接翻译,还涵盖了语音到文本、文本到语音等多种翻译模式。SeamlessM4T 在翻译准确性上较现有系统提升了 23%,并能够有效过滤背景噪音,适应不同说话者的语调和特点。

该模型的核心技术包括深度学习和神经网络,结合生成对抗网络和变分自编码器等前沿算法,能够高效处理大量语言数据。与传统翻译系统相比,SeamlessM4T 省略了从语音到文本再到语音的繁琐步骤,直接实现语音到语音的翻译,大大提升了用户体验。

SeamlessM4T 的推出有望在商务、旅游、教育等多个领域带来革命性影响,让语言不再成为沟通的壁垒。然而,该模型在某些低资源语言上的翻译效果仍有待优化,研究团队也在探索应对语言资源不均衡的策略。(@ 麻省理工科技评论 APP)

2、使用 WebGPU 在浏览器运行 Kokoro v1.0,本地零成本实现高质量文本转语音

由 WebGPU 提供支持的 Kokoro v1.0 已经发布,这是一款仅有 82M 参数的多语言文本转语音(TTS)模型,采用 Apache 2.0 许可,完全由浏览器中的 WebGPU 提供支持。

Kokoro v1.0 实现了完全离线运行,100% 本地处理,并支持英语、西班牙语、法语、意大利语、日语和普通话六种语言。

得益于 ONNXRuntimeWeb 的支持,Kokoro v1.0 能够在浏览器中直接工作,并提供超快的推理速度。

开发者只需通过 npm i kokoro-js 即可轻松集成 Kokoro。(@Vaibhav (VB) Srivastav@X)

02 有亮点的产品

1、苹果展示 ELEGNT 台灯机器人:赋予非人形机器人「情感」

近日,苹果在其机器学习网站公布了一项名为 ELEGNT 的机器人研究成果,并展示了一款具备情感表达能力的台灯形态设备。ELEGNT 的全称为「Expressive and functionaL movEment desiGn for Non-anthropomorphic robot」,即「用于非拟人化机器人的表达性和功能性运动设计框架」。其核心技术在于让非人形机器人通过「肢体语言」展现情感,使人机交互更具生命感。

ELEGNT 如何「赋予」机器人情感?

与传统机器人精准执行指令的机械方式不同,ELEGNT 采用更自然的「曲线式」交互模式,增强机器人表达意图、显示注意力、展示态度和表达情绪的能力。例如:

  • 在用户发出指令时,ELEGNT 会「看着」用户,并通过点头或歪头等动作表现出「认真聆听」的姿态。

  • 当用户询问天气时,它会 先探头「看向」窗户 ,然后再给出答案,尽管实际上它只是从互联网获取数据。

  • 若识别不到某个物体,它会低头并摇头,表现出一种「遗憾」或「困惑」的情绪。

  • 在播放音乐时,它还能随节奏摇摆,展现出「跟着音乐舞动」的趣味性。

这些自然的动态细节,让 ELEGNT 机器人比普通机器人更具互动性和亲和力,也让科技产品不再只是冷冰冰的执行工具,而更像一个「有性格」的伙伴。

ELEGNT 的智能交互得益于 大语言模型人机交互优化技术 ,能够根据不同的场景调整动作,甚至在交互中学习并优化自身行为。目前,该技术已能生成 10 种不同的肢体语言序列 ,并能 在情感表达和任务完成效率之间找到平衡 。(@ 爱范儿)

2、GitHub Copilot 重磅更新:新增 AI Agent,实现超强自动化编程

全球最大开源平台 GitHub 宣布,其 AI 编程助手 Copilot 迎来重大更新,新增 AI Agent 模式,可自动迭代代码、识别并修复 BUG。同时,GitHub 还发布了 Project Padawan 预览版,协助开发人员自动执行重复繁琐的开发流程,如设置开发环境、运行测试、合并代码等。

此外,去年 10 月推出的 Copilot Edits 功能正式上线,其内联聊天功能可直接在代码编辑器中显示 Copilot 的回复,极大提升开发和调试效率。开发者可在 Agent 模式下,让 Copilot 自动识别代码问题并提出解决方案,甚至直接修改代码。例如,要求 Copilot 构建 Web 应用程序时,Agent 模式不仅生成初始代码,还会检查逻辑、修复漏洞并重构代码。

Project Padawan 则可自主完成从代码生成到审查的全流程。例如,为电商购物车功能添加错误处理模块时,Padawan 会自动设置开发环境、生成代码、进行测试和代码检查,并创建拉取请求供开发者审查。同时,开发者还可通过「人机协作开发模式」全程指导 Padawan。

Copilot Edits 还支持跨文件内联修改功能,开发者可通过自然语言指令让其修改多个文件中的代码,甚至修复复杂代码逻辑中的漏洞,极大提升了大型项目开发的效率和准确性。(@AIGC 开放社区)

3、PromptLayer:为非技术用户打造的 AI 应用开发新工具

随着生成式人工智能(GenAI)的快速崛起,PromptLayer 作为一家位于纽约的初创公司,迅速进入了提示工程这一新兴领域。提示工程是指为 AI 聊天机器人提供精确指令,以获取有用的输出。PromptLayer 的创始人贾里德・佐内拉赫(Jared Zoneraich)和乔纳森・佩多恩(Jonathan Pedoeem)最初开发了一个工具,用于跟踪他们自己使用 AI 聊天机器人的提示,意外获得了市场的热烈反响。经过两年的发展,PromptLayer 已成功推出一款完整的提示管理平台,帮助企业更有效地利用大型语言模型(LLMs)。

PromptLayer 的核心产品是一个「提示注册中心」,它相当于一个内容管理系统(CMS),提供版本控制功能,帮助用户管理不同版本的提示,并进行对比测试。这使得即使是非技术用户,也能轻松地评估和优化他们的提示,从而在各种应用场景中取得最佳效果。

与许多技术工具制造商不同,PromptLayer 将目光投向了非技术用户。贾里德表示,他们的目标是让各个领域的专业人士 —— 如医疗、法律和教育 —— 在应用开发中占据主导地位,利用其领域知识来进行提示工程。PromptLayer 希望通过其直观的界面和工具,帮助这些领域的专家与工程师进行有效合作。(@AIbase 基地)

03 有态度的观点

1、朱啸虎:DeepSeek 让我见到 iPhone 3 时刻

2 月 7 日,腾讯新闻发布了与金沙江创投主管合伙人朱啸虎的对话。在一年前的访谈中,朱啸虎表态绝不会投资 6 家中国大模型创业公司中的任何一家。而在时隔一年之后,朱啸虎在访谈中反反复复用「太优美了」、「非常有深度」来评价 DeepSeek 与自己的交互,他表示「DeepSeek 快让我相信 AGI 了。」朱啸虎在谈话中表示,「DeepSeek 是 App 增速全球历史第一,不需要任何限定语。如果真的是建立一个全球类似安卓的开源生态的话,那绝对是一个很大的机会。」另外,他还表示,DeepSeek 让他见到了 AI 时代的 iPhone 3 时刻 :「我从 DeepSeek 的回复上,看到这么优美的文字,这么深刻的想法——确实已经见到 iPhone 3 时刻,见到让人惊艳的时刻了。」(@APPSO)

2、Greylock:我们处于 DeepSeek 时刻

(图片来源:Greylock)

Greylock Partners 在其最新报告中指出,DeepSeek-R1 的发布标志着人工智能领域的一个关键转折点。DeepSeek-R1 通过强化学习技术显著提升了推理能力,其性能在关键基准测试中与 OpenAI 的最新模型相当,但占用空间更小。这一进展被认为缩小了开源模型与闭源模型之间的差距,为开源 AI 的发展带来了新的机遇。

Greylock 投资组合中的多位 AI 基础设施公司创始人对 DeepSeek-R1 的发布表示高度关注。Predibase 创始人 Devvret Rishi 认为,DeepSeek-R1 是开源 AI 的分水岭,标志着开源模型开始商品化模型层的拐点。Baseten 创始人 Tuhin Srivastava 指出,DeepSeek 改变了 AI 基础设施的竞争格局,使得企业可以在完全控制模型的情况下获得前沿的模型性能。Braintrust 创始人 Ankur Goyal 则认为,DeepSeek 的发布将推动大模型市场的竞争,为企业提供更多的选择和灵活性。Snorkel AI 创始人 Alex Ratner 强调,DeepSeek 将加速企业 AI 的专门化趋势,使企业能够根据自身数据和专业知识评估和优化高性能的 LLM 选项。

此外,DeepSeek-R1 的改进还开启了大规模人工智能推理的新应用,包括自主 AI 代理、高度专业化的规划系统以及企业人工智能助手等。LlamaIndex 创始人 Jerry Liu 指出,尽管 DeepSeek 的出现不会减少对 GPU 算力的需求,但其更高效、更低成本的特性将加速自主应用的开发和采用。

在生成式人工智能的经济学方面,DeepSeek 推动了更便宜、更高效的推理和后训练趋势,显著降低了部署成本。这使得企业能够更广泛地使用 AI,微调和部署多个特定领域的模型,从而解锁更多以前在财务上不可行的用例。(@Z Potentials)

04 社区项目推荐

1、Felo iOS 应用发布新功能「语音备忘录」:会议记录与实时翻译更高效

近日,Felo 应用推出了全新的「语音备忘录」功能,旨在提升会议、授课和讲座中的沟通效率。该功能具备以下亮点:

  • 实时文字转写: Felo 能够将会议中的语音内容即时转换为文字,生成高精度的实时字幕,方便用户快速记录和回顾会议内容。

  • 即时提问应答: 在会议过程中,用户可以随时提问,Felo 会实时回答问题,且文字转写不会中断,确保会议记录的连贯性。

  • 会议内容快速摘要: Felo 可以自动总结发言内容,快速提取要点,帮助用户制作会议记录,节省时间和精力。

Felo 的「语音备忘录」功能特别适用于国际会议、学术讲座和多语言环境下的沟通场景,能够帮助用户跨越语言障碍,实现高效沟通。(@Felo@X)

更多 Voice Agent 学习笔记:

对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨 Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+ 客户

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册