开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭、@ 鲍勃
1、百度文心快码 AI IDE 上线,首创设计稿一键转代码、支持 MCP
6 月 23 日百度 AI 开放日上,百度副总裁陈洋现场发布了文心快码独立 AI 原生开发环境工具——Comate AI IDE,是行业首个多模态、多智能体协同的 AI IDE,首创设计稿一键转代码。
模型已接入文心 4.0 X1 Turbo,开箱即用,为国内企业和开发者打造高效、智能、安全可靠的 AI IDE。
多模态能力也是这次 Comate AI IDE 的亮点之一,尤其在前端场景做了场景化增强。如设计稿转代码(F2C)、图片转代码、自然语言转代码,生成高还原度的代码,同时生成代码可预览,预览后选定元素用自然语言进行页面调整,像真正的「前端工程师」一样开发代码。
其中,F2C 即 Figma To Code,Figma 设计稿一键转换为高可用代码,高还原、好维护、超便捷,让设计师的每个图层都精准转化为可运行代码,节省了 80% 重复劳动。
Comate AI IDE 还内置了十余种开发工具,如文件检索、代码分析、代码编辑等,同时支持 MCP 对接外部工具和数据,适配各种开发场景。
此外,Comate AI IDE 迁移使用方便,支持快速迁移原 IDE 配置,AI 辅助编程覆盖从分析需求、编写代码、运行与测试到提交代码的全流程。
对比 Cursor,Comate AI IDE 在 F2C、代码效果实时预览、主动追问完善需求、智能化页面调试等方面优势显著,尤其针对中文开发者优化了自然语言理解能力,更贴合国内研发场景。(@ 量子位)
2、万兴天幕音视频多媒体大模型 2.0,支持文生视频、图生视频、智能配乐等功能
6 月 22 日,在华为开发者大会 2025(HDC 2025)盘古高峰论坛上,万兴科技作为重要合作伙伴,正式发布融合华为云盘古多模态大模型能力的全新一代产品——万兴天幕音视频多媒体大模型 2.0。
万兴天幕音视频多媒体大模型 2.0 结合盘古多模态大模型能力,性能较 1.0 版本提升 90%,在专业级运镜、立体音效生成、首尾帧智能补齐等技术上领先业界。同步上线的万兴天幕创作广场提供一站式 AIGC 视频创作解决方案,覆盖视频、图片、音频生成全场景,支持文生视频、图生视频、智能配乐等功能,算力成本显著降低。此外,万兴科技与华为云成立 AI 视频大模型实验室,并开放 API 接口及 MCP 协议,推动音视频创作生态升级。该模型已在短剧、影视、电商等领域商用,助力创作者突破技术壁垒。(@AI 智前沿)
1、Decagon 正式官宣 1.31 亿美金的 C 轮融资,a16z 领投,现估值 15 亿美金
6 月 24 日 Decagon 完成了 1.31 亿美元的 C 轮融资,估值达 15 亿美元。本轮融资由 a16z 和 Accel 联合领投,其总融资额达到 2.31 亿美元。
Decagon 是一家专注于构建 AI 客服智能体的初创公司,其产品能够自主执行回答产品使用问题、处理退款和取消订阅等基本任务。Notion、Bilt、Duolingo、Substack 和 Rippling 等公司都采用了 Decagon 的聊天机器人。
技术上,Decagon 的智能体基于 OpenAI、Anthropic 和 Cohere 等公司的最先进模型,并在内部数据如操作指南、手册和过去的客户服务对话基础上训练。员工会对 AI 生成的回复评分和审核以改进系统。2 月,Decagon 与音频生成初创公司 ElevenLabs 合作,创建了语音智能体,以便与客户进行更自然、更像人类的对话。(@ 深思圈)
2、ElevenLabs 推出 11ai :一款以语音为主、支持 MCP 的 AI 个人智能体
ElevenLabs 推出了 11ai,这是一款语音优先的 AI 个人助理,旨在通过与 Notion、Perplexity 和 Linear 等工具集成来改变日常任务管理。ElevenLabs 的团队专注于开发具备高度逼真度、适应性强、具备语境理解能力的 AI 音频模型,涵盖多达 32 种语言。11ai 构建于 Conversational AI 之上,Conversational AI 是一款用于可扩展语音智能体的低延迟平台。Conversational AI 支持语音和文本,集成了 RAG、语言检测等功能。
11ai 提供 perplexity_ai、linear、SlackHQ 等集成,也支持连接用户自己的 MCP 服务器。
与常见的文本类 AI 助手不同,11ai 从一开始就强调「语音主导」的交互逻辑。用户无需繁琐输入,通过简单的语音指令,便可完成日程规划、任务管理、信息查询等操作。
比如,用户可以直接说:「帮我安排今天的会议,并把任务同步到 Notion。」11ai 会自动整理并更新至 Notion,打通信息与执行的完整链路。产品还内置了 Perplexity 搜索能力,用户可实时检索客户资料,辅助高效准备会议和沟通。11ai 也支持与 Linear 对接,帮助团队快速记录、分配、追踪问题。(@AI 星球视界、@ 橘鸭 Juya)
3、Deezer 自研算法每日拦截 2 万欺诈曲目
Deezer 宣布将于周五开始对包含 AI 生成曲目的专辑进行标注,作为其打击流媒体欺诈行为的一部分。
该公司报告称,每天上传的音乐中约有 18%(超过 2 万首曲目)现在完全由 AI 生成。尽管这些曲目大多没有走红,但 Deezer 表示其中约 70% 的播放量是虚假的,这些曲目被设计用来欺诈性获取版税。
为应对这一问题,Deezer 平台上的 AI 生成曲目现已被明确标记。这些曲目也不会出现在编辑精选歌单或算法推荐中,欺诈性播放量正被从版税支付中过滤剔除。
该公司表示,新标签将成为帮助听众区分人类创作音乐与 AI 内容的重大变革。Deezer 指出,目前纯 AI 生成的歌曲仅占其平台总流量的 0.5%,但这一趋势正在快速增长。
Deezer 于 2024 年 12 月为其 AI 检测技术申请了两项专利,该公司表示该技术专注于两种不同的检测方式,通过识别「独特特征」来区分合成内容与真实内容。
参考资料:
https://techcrunch.com/2025/06/20/deezer-starts-labeling-ai-generated-music-to-tackle-streaming-fraud/(@Z Potentials)
1、 Kontext Realtime:使用语音命令编辑图像的开源网页应用的展示
来自 X 上的@zeke:该产品由 OpenAI 的 Realtime API 通过 WebRTC 提供语音命令支持。图像生成和编辑使用运行在 Replicate 上的 Flux Schnell 和 Flux Kontext。你可以本地运行它,也可以部署到 Cloudflare。
1、Andrej Karpathy:软件 3.0 时代已来,提示词就是新代码
近日,Karpathy 受邀在 YC AI 创业学校活动发表演讲。Karpathy 精心准备了 PPT,对整个演讲内容进行了编排:这像是一次编程语言进化史的讲解,从软件 1.0 的时代开始讲起,到以「喂数据」为核心的软件 2.0 时代。到了 3.0 则是「对模型说咒语」。
软件 1.0 是程序员亲自为计算机编写的代码。
软件 2.0 则是神经网络的权重参数。不再直接编写这些代码,而是更多地在调整数据集,并运行优化器来生成神经网络的参数。
软件 3.0:现在我们有了可编程的神经网络——大语言模型(LLM),而提示词(prompt)成了「编程语言」,而且这些提示词直接用人类语言写的。
Karpathy 讨论了两种对于 LLM 的比喻:电网和芯片工厂。LLM 的发展类似于电网,需要巨大的资本支出(CapEx)来建设,然后通过 API 以计量付费的方式提供服务。也像芯片制造厂,因为构建它需要巨额投资,并且技术分支发展迅速。
作为前特斯拉总监,Karpathy 的经历和看法显然比任何人的锐利:软件和现实世界的复杂性远超想象。这也是他对 AI agent 的态度。
他强调「LLM 是新操作系统」,并进一步延伸到了 AI 与人类相似的心理特征,最终得出结论:AI 应该增强人类,而非替代人类。这是他对 LLM 时代的理解,也是一个研究者和 builder 的技术世界观。它不再是激情澎湃的预测,而是一个自我梳理后交出的分享:语言正在变成控制系统,而我们,而每个人都拥有语言接口的一部分。
在实际工作中,Karpathy 总是害怕 AI 一次性给出太大改动。他追求的是高速、可控的协作循环。
最近,他读到了「与 LLM 合作的最佳实践」,认为很不错:
它强调「明确的提示语」(prompt)很关键;
如果提示太模糊,AI 可能偏离预期,导致验证失败;
一旦验证失败,就要不断试错、反复循环;
所以花点时间写更明确、清晰的 prompt,其实是提高效率的关键。
(@APPSO、@ 新智元)
2、Genspark CEO:AI 将影响 99% 的工作岗位
6 月 23 日,AI Agent 产品 Genspark 联合创始人兼 CEO Eric Jing 发布长文,称「AI 将影响 99% 的工作岗位,白领职业可能会被彻底淘汰。应届毕业生在毕业第一天就可能失业。」
Eric 在文中强调,上述社会问题值得大家高度重视,不仅是为了自己,更是为了大家的孩子。
开篇,Eric 就提到了时下火热的 AGI(通用人工智能),并且表示通过自身经历和公司观察,他认为 AGI 正在来临。对于 AGI,Eric 表示「激动与恐惧并存」。他举例道,一台全面超越人类的超级计算机与一个刚刚毕业的大学生摆在一起,那么后者毕业的第一天,就可能意味着是「失业第一天」。
对于上述情况,Eric 则认为无论是人类还是身为父母,大家都应该学会与 AI 共存,去接纳甚至投入到 AI 中。Eric 提出,大家可以从「为自己喜欢的 AI 平台付费体验」「和 AI 一起做以前不敢想的事」「不要试图证明 AI 不好」「让孩子从小接触 AI 文化内容」多方面改变,并且要「冷静思考未来的行动」。(@APPSO)
1、C# 版本的小智 SDK & Client
来自 @ 朱利戈:「我新开源的项目,大家都可以拿走玩啊。」
XiaoZhiSharp 是使用 C# 语言编写的「小智 SDK」,并提供了 ConsoleApp 应用示例。
跨平台支持:本项目支持以下平台:
操作系统:Windows、MacOS、Linux、Android、IOS
硬件平台:x86、x86_64、arm、arm_64
开发板:ASUS Tinker Board2s、Raspberry Pi
服务器地址: https://xiaozhi.me
GitHub 链接:
https://github.com/zhulige/xiaozhi-sharp
更多 Voice Agent 学习笔记:
11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨 Voice Agent 学习笔记
实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨 Voice Agent 学习笔记
级联 vs 端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨 Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z 合伙人:语音交互将成为 AI 应用公司最强大的突破口之一,巨头们在 B2C 市场已落后太多丨 Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动 + 用户导向的「小熊软糖」团队丨 Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent 丨 Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻