开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@ 赵怡岭、@ 鲍勃

01 有话题的技术

1、百度文心快码 AI IDE 上线,首创设计稿一键转代码、支持 MCP

6 月 23 日百度 AI 开放日上,百度副总裁陈洋现场发布了文心快码独立 AI 原生开发环境工具——Comate AI IDE,是行业首个多模态、多智能体协同的 AI IDE,首创设计稿一键转代码。

模型已接入文心 4.0 X1 Turbo,开箱即用,为国内企业和开发者打造高效、智能、安全可靠的 AI IDE。

多模态能力也是这次 Comate AI IDE 的亮点之一,尤其在前端场景做了场景化增强。如设计稿转代码(F2C)、图片转代码、自然语言转代码,生成高还原度的代码,同时生成代码可预览,预览后选定元素用自然语言进行页面调整,像真正的「前端工程师」一样开发代码。

其中,F2C 即 Figma To Code,Figma 设计稿一键转换为高可用代码,高还原、好维护、超便捷,让设计师的每个图层都精准转化为可运行代码,节省了 80% 重复劳动。

Comate AI IDE 还内置了十余种开发工具,如文件检索、代码分析、代码编辑等,同时支持 MCP 对接外部工具和数据,适配各种开发场景。

此外,Comate AI IDE 迁移使用方便,支持快速迁移原 IDE 配置,AI 辅助编程覆盖从分析需求、编写代码、运行与测试到提交代码的全流程。

对比 Cursor,Comate AI IDE 在 F2C、代码效果实时预览、主动追问完善需求、智能化页面调试等方面优势显著,尤其针对中文开发者优化了自然语言理解能力,更贴合国内研发场景。(@ 量子位)

2、万兴天幕音视频多媒体大模型 2.0,支持文生视频、图生视频、智能配乐等功能

6 月 22 日,在华为开发者大会 2025(HDC 2025)盘古高峰论坛上,万兴科技作为重要合作伙伴,正式发布融合华为云盘古多模态大模型能力的全新一代产品——万兴天幕音视频多媒体大模型 2.0。

万兴天幕音视频多媒体大模型 2.0 结合盘古多模态大模型能力,性能较 1.0 版本提升 90%,在专业级运镜、立体音效生成、首尾帧智能补齐等技术上领先业界。同步上线的万兴天幕创作广场提供一站式 AIGC 视频创作解决方案,覆盖视频、图片、音频生成全场景,支持文生视频、图生视频、智能配乐等功能,算力成本显著降低。此外,万兴科技与华为云成立 AI 视频大模型实验室,并开放 API 接口及 MCP 协议,推动音视频创作生态升级。该模型已在短剧、影视、电商等领域商用,助力创作者突破技术壁垒。(@AI 智前沿)

02 有亮点的产品

1、Decagon 正式官宣 1.31 亿美金的 C 轮融资,a16z 领投,现估值 15 亿美金

6 月 24 日 Decagon 完成了 1.31 亿美元的 C 轮融资,估值达 15 亿美元。本轮融资由 a16z 和 Accel 联合领投,其总融资额达到 2.31 亿美元。

Decagon 是一家专注于构建 AI 客服智能体的初创公司,其产品能够自主执行回答产品使用问题、处理退款和取消订阅等基本任务。Notion、Bilt、Duolingo、Substack 和 Rippling 等公司都采用了 Decagon 的聊天机器人。

技术上,Decagon 的智能体基于 OpenAI、Anthropic 和 Cohere 等公司的最先进模型,并在内部数据如操作指南、手册和过去的客户服务对话基础上训练。员工会对 AI 生成的回复评分和审核以改进系统。2 月,Decagon 与音频生成初创公司 ElevenLabs 合作,创建了语音智能体,以便与客户进行更自然、更像人类的对话。(@ 深思圈)

2、ElevenLabs 推出 11ai :一款以语音为主、支持 MCP 的 AI 个人智能体

ElevenLabs 推出了 11ai,这是一款语音优先的 AI 个人助理,旨在通过与 Notion、Perplexity 和 Linear 等工具集成来改变日常任务管理。ElevenLabs 的团队专注于开发具备高度逼真度、适应性强、具备语境理解能力的 AI 音频模型,涵盖多达 32 种语言。11ai 构建于 Conversational AI 之上,Conversational AI 是一款用于可扩展语音智能体的低延迟平台。Conversational AI 支持语音和文本,集成了 RAG、语言检测等功能。

11ai 提供 perplexity_ai、linear、SlackHQ 等集成,也支持连接用户自己的 MCP 服务器。

与常见的文本类 AI 助手不同,11ai 从一开始就强调「语音主导」的交互逻辑。用户无需繁琐输入,通过简单的语音指令,便可完成日程规划、任务管理、信息查询等操作。

比如,用户可以直接说:「帮我安排今天的会议,并把任务同步到 Notion。」11ai 会自动整理并更新至 Notion,打通信息与执行的完整链路。产品还内置了 Perplexity 搜索能力,用户可实时检索客户资料,辅助高效准备会议和沟通。11ai 也支持与 Linear 对接,帮助团队快速记录、分配、追踪问题。(@AI 星球视界、@ 橘鸭 Juya)

3、Deezer 自研算法每日拦截 2 万欺诈曲目

Deezer 宣布将于周五开始对包含 AI 生成曲目的专辑进行标注,作为其打击流媒体欺诈行为的一部分。

该公司报告称,每天上传的音乐中约有 18%(超过 2 万首曲目)现在完全由 AI 生成。尽管这些曲目大多没有走红,但 Deezer 表示其中约 70% 的播放量是虚假的,这些曲目被设计用来欺诈性获取版税。

为应对这一问题,Deezer 平台上的 AI 生成曲目现已被明确标记。这些曲目也不会出现在编辑精选歌单或算法推荐中,欺诈性播放量正被从版税支付中过滤剔除。

该公司表示,新标签将成为帮助听众区分人类创作音乐与 AI 内容的重大变革。Deezer 指出,目前纯 AI 生成的歌曲仅占其平台总流量的 0.5%,但这一趋势正在快速增长。

Deezer 于 2024 年 12 月为其 AI 检测技术申请了两项专利,该公司表示该技术专注于两种不同的检测方式,通过识别「独特特征」来区分合成内容与真实内容。

参考资料:

https://techcrunch.com/2025/06/20/deezer-starts-labeling-ai-generated-music-to-tackle-streaming-fraud/(@Z Potentials)

03Real-Time AI Demo

1、 Kontext Realtime:使用语音命令编辑图像的开源网页应用的展示

来自 X 上的@zeke:该产品由 OpenAI 的 Realtime API 通过 WebRTC 提供语音命令支持。图像生成和编辑使用运行在 Replicate 上的 Flux Schnell 和 Flux Kontext。你可以本地运行它,也可以部署到 Cloudflare。

04 有态度的观点

1、Andrej Karpathy:软件 3.0 时代已来,提示词就是新代码

近日,Karpathy 受邀在 YC AI 创业学校活动发表演讲。Karpathy 精心准备了 PPT,对整个演讲内容进行了编排:这像是一次编程语言进化史的讲解,从软件 1.0 的时代开始讲起,到以「喂数据」为核心的软件 2.0 时代。到了 3.0 则是「对模型说咒语」。

软件 1.0 是程序员亲自为计算机编写的代码。

软件 2.0 则是神经网络的权重参数。不再直接编写这些代码,而是更多地在调整数据集,并运行优化器来生成神经网络的参数。

软件 3.0:现在我们有了可编程的神经网络——大语言模型(LLM),而提示词(prompt)成了「编程语言」,而且这些提示词直接用人类语言写的。

Karpathy 讨论了两种对于 LLM 的比喻:电网和芯片工厂。LLM 的发展类似于电网,需要巨大的资本支出(CapEx)来建设,然后通过 API 以计量付费的方式提供服务。也像芯片制造厂,因为构建它需要巨额投资,并且技术分支发展迅速。

作为前特斯拉总监,Karpathy 的经历和看法显然比任何人的锐利:软件和现实世界的复杂性远超想象。这也是他对 AI agent 的态度。

他强调「LLM 是新操作系统」,并进一步延伸到了 AI 与人类相似的心理特征,最终得出结论:AI 应该增强人类,而非替代人类。这是他对 LLM 时代的理解,也是一个研究者和 builder 的技术世界观。它不再是激情澎湃的预测,而是一个自我梳理后交出的分享:语言正在变成控制系统,而我们,而每个人都拥有语言接口的一部分。

在实际工作中,Karpathy 总是害怕 AI 一次性给出太大改动。他追求的是高速、可控的协作循环。

最近,他读到了「与 LLM 合作的最佳实践」,认为很不错:

@APPSO、@ 新智元)

2、Genspark CEO:AI 将影响 99% 的工作岗位

6 月 23 日,AI Agent 产品 Genspark 联合创始人兼 CEO Eric Jing 发布长文,称「AI 将影响 99% 的工作岗位,白领职业可能会被彻底淘汰。应届毕业生在毕业第一天就可能失业。」

Eric 在文中强调,上述社会问题值得大家高度重视,不仅是为了自己,更是为了大家的孩子。

开篇,Eric 就提到了时下火热的 AGI(通用人工智能),并且表示通过自身经历和公司观察,他认为 AGI 正在来临。对于 AGI,Eric 表示「激动与恐惧并存」。他举例道,一台全面超越人类的超级计算机与一个刚刚毕业的大学生摆在一起,那么后者毕业的第一天,就可能意味着是「失业第一天」。

对于上述情况,Eric 则认为无论是人类还是身为父母,大家都应该学会与 AI 共存,去接纳甚至投入到 AI 中。Eric 提出,大家可以从「为自己喜欢的 AI 平台付费体验」「和 AI 一起做以前不敢想的事」「不要试图证明 AI 不好」「让孩子从小接触 AI 文化内容」多方面改变,并且要「冷静思考未来的行动」。(@APPSO)

05 社区项目推荐

1、C# 版本的小智 SDK & Client

来自 @ 朱利戈:「我新开源的项目,大家都可以拿走玩啊。」

XiaoZhiSharp 是使用 C# 语言编写的「小智 SDK」,并提供了 ConsoleApp 应用示例。

跨平台支持:本项目支持以下平台:

GitHub 链接:

https://github.com/zhulige/xiaozhi-sharp

(@xiaozhi-sharp\@GitHub)

更多 Voice Agent 学习笔记:

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记

级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


↙↙↙阅读原文可查看相关链接,并与作者交流