开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 赵怡岭、@ 子禾、@ 鲍勃
1、钉钉与通义联合推出 Fun-ASR 大模型:精准识别十大行业术语,支持千词定制
钉钉与通义实验室语音团队联合发布新一代语音识别大模型 Fun-ASR。该模型基于大语言模型架构,结合自研语音算法和 Qwen3 监督微调技术,经过上亿小时音频数据训练,能够精准识别互联网、科技、家装、畜牧、汽车等十大行业的专业术语和「黑话」。
实测数据显示,Fun-ASR 在保险行业的识别准确率提升了 18%,在家装和畜牧等行业也有 15%-20% 的提升。针对企业特定需求,模型支持导入最多 1000 个自定义热词,并可结合企业钉钉内的通讯录、日程、知识库等信息进行语境优化推理,减少识别误差。
目前,Fun-ASR 已被嵌入钉钉多个核心功能,包括会议字幕与同声传译、智能纪要和语音助手等场景。以顾家家居为例,经过专属训练后,模型能准确识别「比利时进口 Pulse 脉冲乳胶」等专业表述,为客户分析提供数据支撑。
该模型还采用强化学习技术优化噪声干扰和方言识别,尤其在四川话、粤语和闽南语上表现优异,适应从会议室到户外等多种声学环境。(@ Plus AITech)
2、苹果新 AI 模型长视频理解夺冠,小至 1B 版本也领先对手
8 月 23 日消息,科技媒体 9to5Mac 近日发布博文,报道称苹果研究团队开源 SlowFast-LLaVA-1.5 长视频多模态大语言模型,在 1B、3B、7B 参数规模下,均刷新 LongVideoBench、MLVU 等 SOTA 基准纪录。
苹果公司首先研究推出了 SlowFast-LLaVA 开源模型,最大的亮点是创新双流(two-stream)设置,其中「慢流」选取少量高分辨率帧捕捉场景细节,「快流」选取更多低分辨率帧追踪运动变化。
测试显示,该模型在长视频基准 LongVideoBench、MLVU 上均取得新纪录,而且 1B 版本也能领先竞争对手。同时,它在知识问答、数学推理、OCR 等图像相关任务上表现出色,实现视频与图像的通用理解能力。
该项目完全基于公开数据集训练,方便学术与产业复现,并已在 GitHub 与 Hugging Face 开源。(@IT 之家)
1、Character.AI 谋求出售或融资,估值或达 10 亿美元
据《The Information》报道,AI 聊天陪伴应用 Character.AI 近期正与潜在买家、投资银行家及内部员工讨论出售事宜,同时也在考虑通过融资保持独立运营。
据知情人士透露,这家成立近四年的初创公司正在寻求融资数亿美元,并计划以超过 10 亿美元的估值进行谈判。此次出售可能将为 Character 员工一年来的动荡画上句号。
去年 8 月,Character.AI 的两位创始人 Noam Shazeer 和 Daniel De Freitas 与 Google 达成价值 27 亿美元的交易后离开公司,Character 员工接管了这家目前约 70 人的公司。
尽管 Character.AI 截至今年 2 月已吸引 2000 万月活跃用户,但随着 AI 模型运行成本的增加以及法律和监管压力的加剧,公司陷入了困境。Character.AI 目前通过其平台收费订阅服务获利,并预计今年底将实现 5000 万美元年化收入。
在技术层面,Character.AI 已停止开发自有 AI 模型,转而使用开源模型,如 Meta 和 DeepSeek 等。这一策略虽然节省了研发成本,但每月运行模型的支出仍高达数百万美元。Character.AI 近期还推出了社交功能,允许用户分享 AI 生成的视频内容,同时通过广告业务增加收入。
和它命运相似的 WindSurf,但编程助手类的初创公司,始终更能吸引潜在收购者的浓厚兴趣。AI 陪伴类工具未来的市场需求只能说不是很明朗。
相关链接:https://www.theinformation.com/articles/character-ai-talks-sell-raise-money-year-founders-depart(@APPSO)
2、苹果与谷歌洽谈使用 Gemini 改造 Siri,以应对内部 AI 开发挫折
据 Bloomberg 新闻报道,苹果公司正与谷歌进行早期谈判,考虑使用其 Gemini AI 模型为重新设计的 Siri 语音助手提供支持。
这一举措源于苹果内部 AI 项目的多次挫折,包括原定于今年春季推出的 Siri 升级版因工程问题推迟一年,以及 AI 主管 John Giannandrea 被调离 Siri 日常工作。
苹果正在运行一个内部「bake-off」,测试两个 Siri 版本:一个基于自家模型「Linwood」,另一个基于外部技术「Glenwood」。
虽然苹果此前曾与 Anthropic 和 OpenAI 讨论合作,但与谷歌的谈判涉及定制 AI 模型,可能在苹果服务器上运行。
谈判仍处于探索阶段,尚未达成商业协议,苹果预计在未来几周内决定是否使用外部伙伴。
消息传出后,苹果和谷歌股价上涨。(@Plus AITech、@ 雨询)
3、Informed:结合名人语音选择功能实时生成定制化 AI 音频简报
Informed 是一款旨在通过个性化和定制化的音频体验,帮助用户摆脱传统新闻平台信息过载困扰的 AI 新闻助手。
核心技术亮点
AI 驱动的实时简报:Informed 利用 AI 技术,能够实时汇总全球新闻动态,并以简洁扼要的方式持续更新,为用户提供一份高度浓缩的每日新闻摘要;
深度定制与按需播报:用户可以创建自定义新闻主题,Informed 将据此生成专属的音频报告。无论用户时间紧迫需要 30 秒的高亮摘要,还是想深入了解完整的分析,都可自由选择,完全由用户控制新闻的细节和节奏;
声音克隆与个性化旁白:Informed 提供了独特的语音克隆功能,用户可以选择自己喜欢的声音来播报新闻,甚至可以克隆自己的声音、朋友的声音,或者选择名人声音如 Trump、Taylor 和 Musk 的音色,极大地提升了新闻播报的个性化体验。
目前,Informed 的最新版本已正式上线,用户可以下载客户端 APP。
官网链接:https://informed.ink/(@Product Hunt)
4、钉钉发布首款 AI 硬件 DingTalk A1
钉钉 8.0 正式推出新一代语音智能工具「AI 听记」(AI Minutes),并发布智能硬件 DingTalk A1。
钉钉 AI 听记是一款语音记录工具,依托大模型实现语音内容的实时转写、语义分析与智能摘要。用户通过视频会议、搜索框搜索「听记」、或搭配 DingTalk A1 都能快速启动,自动生成会议纪要。AI 听记内置了 36 类场景模板,全面适配团队会议、课堂笔记、采访、心理咨询、法律咨询等多种场合,还支持企业自定义模板,满足个性化需求。
DingTalk A1 是钉钉推出的首款 AI 硬件,与 AI 听记软硬件协同。DingTalk A1 仅有 3.8 mm,相当于几张信用卡的厚度,支持磁吸固定于手机后壳,搭载 6 麦克风阵列与骨传导技术,实现 8 米超远拾音及高清音质,续航达 45 小时,为用户提供 1000 分钟免费语音转写时长及 10GB 云存储空间。
DingTalk A1 在软件层面深度融合 AI 听记能力,并与钉钉待办、日程等应用无缝衔接。DingTalk A1 还可以唤起超过 10 种角色的钉钉 AI 助理,并支持用户自主配置。
1、Obsidian CEO:AI 不是生产力工具的必需品
日前,在《The Verge》的 Decoder 播客节目中,Markdown 笔记软件 Obsidian 现任 CEO Steph Ango 接受采访。他讲述了 Obsidian 与众不同的发展与理念,并谈及了 AI 与生产力工具的关联。
在 AI 技术风潮盛行的大背景下,Ango 表示 Obsidian 更倾向于谨慎、尊重隐私的功能创新,而非一味追随 AI 热潮。他认为用户与社区的需求应引导产品走向,而非盲目拥抱潮流。
据悉,Obsidian 本体里没有任何内置 AI 功能,唯一的例外是在 Web Clipper 中。Ango 表示,他们不想让 AI 替代用户的思考过程。同时他也直言了自己的担心:「如果用 AI 总结替代了自己的思考,那你就失去了本该通过整理和反思获得的洞见。」
Ango 还提到了一个「反主流」的想法:「无法接受用户的数据被默认上传到 OpenAI 服务器」。他认为,Obsidian 要给用户信心,让他们的思想只属于自己,数据不会被拿去训练下一个大模型。
但 Ango 也并没有完全否定 AI ——「我们是否应该给插件社区提供更正式的 API,让他们更容易构建 AI 功能?」Ango 表示,团队并不觉得必须急于把 AI 塞进来。「老实说,如果你真的需要,插件生态已经能满足你了。」(@ APPSO)
2、MIT 报告:95% 企业 AI 投资无回报引发泡沫担忧
麻省理工学院最新报告指出,全球企业对生成式 AI 的 300-400 亿美元投资中,95% 未产生财务回报,半数项目失败,仅 5% 实现商业化。
市场担忧 AI 泡沫濒临破裂,导致英伟达、帕兰提尔和软银股价分别下跌 3.5%、9% 和 7%。报告称多数企业已放弃复杂的企业级 AI 系统,转向使用 ChatGPT 等消费级工具。OpenAI CEO 承认部分投资者过度乐观,可能导致重大损失。
此次披露正值行业对 AI 实际效益质疑加剧,外界担忧重演互联网泡沫危机。(@ IT 之家)
3、a16z 投资人:Meta AI 默认开启语音伴侣功能是个大胆选择
来自 a16z 的投资人 Olivia Moore:
Meta 的 AI 应用现在默认开启语音助手。这是我见过的第一个在 AI 语音方面做出如此大胆选择的大型科技应用。我敢肯定有些用户会讨厌它。但它也有点聪明,因为许多用户(尤其是老年用户)仍然没有「发现」ChatGPT 的语音模式。
阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻