AI测试 Pickle 发布 Whisper 主动式桌面 AI; 吴恩达:不懂计算机原理,就不可能只靠「Vibe Code」变优秀丨日报

RTE开发者社区 · September 09, 2025 · 87 hits

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@Jerry fong,@ 鲍勃

01 有话题的技术

1、Google 最新开源了一款用于设备端 AI 的嵌入模型:EmbeddingGemma,体积小、速度快、可离线跑

Google DeepMind 正式推出 EmbeddingGemma,3.08 亿参数,2K 上下文。基于 Gemma 3 架构,支持 100+ 种语言,量化后可在不到 200MB 的 RAM 上运行 256 token 的句子。在 EdgeTPU 上<15ms 出结果。已集成 sentence-transformers、llama.cpp、Ollama、LangChain、Weaviate 等常用工具,一条命令嵌入 RAG 或搜索应用。可以用于比如本地文件搜索、离线聊天机器人、离线 RAG 问答、函数调用分类等。支持针对特定领域、任务或语言进行微调。

技术亮点

  • 参数规模与性能:EmbeddingGemma 仅含 3.08 亿参数,却在 Massive Text Embedding Benchmark(MTEB)上位居开放模型榜首,表演了小型模型的强大潜力。

  • 多语言支持:模型经过训练,支持超过 100 种语言,覆盖全球主要语种,适用于多种跨语言场景。

  • 设备端优化:设计初衷是为了设备端运行,外围小于 200MB 的高效 RAM,配合量化技术,确保在资源有限的设备上也能工作。

  • 高效嵌入维度:通过 Matryoshka 技术,输出维度可从 768 调整至 128,平衡性能与资源消耗。

  • 生态集成:EmbeddingGemma 已在 Hugging Face、LlamaIndex、LangChain 等平台上实现无缝集成,方便开发者快速上手。

发布计划

  • 当前状态:EmbeddingGemma 现已开放,开发者可通过 Hugging Face 等平台获取模型权重,开始构建应用。

  • 文档与指南:Google DeepMind 提供了详细的文档和推理、关注指南,帮助开发者快速集成。

  • 社区支持:模型支持多种工具,如 transformers.js、MLX、llama.cpp 等,鼓励开发者探索设备端 AI 的新可能。

  • 未来发展:团队计划进一步优化模型,扩展其在更多设备和场景中的应用,持续推动嵌入模型的创新。

(@Google DeepMind)

2、Hugging Face 开源 FinePDFs 与 FineVision,助推开源模型性能飞跃

Hugging Face 近期开源了两大重量级数据集:FinePDFs 与 FineVision。

FinePDFs 是目前最大的公开 PDF 语料库,完全由 PDF 文件构建,包含约 3 万亿 tokens,覆盖 4.75 亿 份文档、1733 种语言,数据量 3.65 TB。

语料来自 105 个 CommonCrawl 快照(2013 夏—2025 年 2 月),经 datatrove 库去重、过滤与 PII 匿名化,采用 ODC-By 1.0 许可证。文档平均长度接近 HTML 数据集的两倍,长于 10 万字符的样本显著,可用于提升开源 LLM 的长上下文能力。数据集已按语言 - 脚本对划分,978 种语言超 100 万 tokens,66 种 语言超 10 亿 tokens。

FineVision 面向视觉 - 语言模型训练,整合 200 余个来源,含 1730 万张图像、2430 万样本、8890 万轮对话、95 亿回答 tokens,支持 GUI 导航、指向、计数等新能力。官方称在 10 项基准上带来 20% 以上提升,可显著增强开源 VLM 性能。数据已转为 Parquet,总量约 4.48 TB,支持流式加载。

相关链接:

https://huggingface.co/datasets/HuggingFaceFW/finepdfs

https://huggingface.co/datasets/HuggingFaceM4/FineVision

(@ 橘鸭 Juya)


02 有亮点的产品

1、Extra Thursday:一句话拯救邮箱,轻松语音安排日程

Extra Thursday 是一款语音驱动的 AI 助手,让你无需动手,只需用语音就能高效处理邮箱和日程任务。它可以语音整理收件箱、自动撰写邮件草稿、跟进重要邮件,让你以思考的速度完成工作,尤其适合开车、做饭、遛狗时使用。此外,它还兼顾日程规划与行政事务自动化,帮你清理收件箱并安排好每天的日程,让生产力大幅提升。

Extra Thursday 是一款专为高效专业人群打造的 AI 工具,简化邮箱任务流程,让你的工作真正解放双手。

产品亮点:

  • 语音优先交互:一句话搞定邮件分类和回复,无需键盘或点击。

  • 高效邮件处理:快速筛选重点邮件、起草回复、跟进对话,提高效率。

  • 全天候日程协助:同步整理日程、提醒事项,支持日常规划。

  • Gmail 无缝整合:兼容 Gmail,随时随地处理邮件事务。

官网链接:

https://www.extrathursday.com/(@Extra Thursday)

2、Pickle 发布 Whisper 预告片:主动式桌面 AI,无感交互持续学习

#####

Pickle 发布了新产品 Whisper 的预告视频。

创始人 Daniel 在 X 上介绍:「 桌面 AI,没有用户界面,无需提示,无需您开口。百分百主动,并能随着你的持续使用而不断学习和成长。」

在预告视频中,Whisper 演示了其独特的交互方式,例如能够主动为用户的头脑风暴提供创意点子,以及智能提醒用户发现代码中的潜在错误等。(@Pickle\@X

3、深圳银云推出全球首个开源 MCP 交易平台 XPack.AI,已获红杉资本等数千万融资

近日,深圳银云信息技术有限公司正式上线了全球首个开源 MCP 交易平台——XPack.AI。据了解,深圳银云已完成 Pre-A 轮及 A 轮融资,累计获得数千万元,投资方为红杉资本和国宏嘉信。

XPack.AI 的推出旨在解决目前 MCP 生态不繁荣、缺少利益动力的痛点。作为全球首个开源的 MCP 交易平台,它能帮助 AI Agent 找到所需服务数据,并为 MCP、SaaS 软件及 API 开发者提供变现和获客渠道。开发者通过开源版本,仅需 10 分钟就能搭建一个专属的 MCP 交易平台,并快速将现有 API 转换为可销售的 MCP 服务。

该公司创始人刘昊臻介绍,XPack.AI 是一个中立的全球化平台,可支持世界各地、各种语言的 MCP 服务入驻,与大厂更多作为 AI Agent 附属服务的定位形成差异化竞争。

据了解,XPack.AI 未来还将提供将任何网站和内容一键转换为 MCP 的服务,进一步丰富平台生态。公司今年的目标是:对接 100 家以上 AI Agent 产品,吸引超过 1 万家供应商,拥有超 10 万个第三方 MCP 独立站,并接入 50 多家主流 Agent 应用。(@ 硬氪)

3、Grok 更新:视频生成新增语音模式,PDF 阅读器功能提升

Grok Imagine 视频生成功能新增语音模式,用户可在生成视频中启用 speech mode 使人物开口说话,该功能尚处早期 beta 阶段,官方预告未来几周将对图像与视频生成进行更大升级。

Grok App 界面新增 Companions 标签页,入口位于主界面,具体用途尚未披露。Grok 网页端与 iOS App 同步上线 Text-to-Speech 按钮,用户点击即可朗读模型回复内容。

Grok 网页端 PDF 阅读器升级:支持高亮任意文本后点击 Explain 让模型即时解释,或点击 Quote 针对所选内容精准提问;同时新增对 PDF 内嵌图片的识别与查看能力。

相关链接:

https://x.com/cb_doge/status/1963986558731571711(@DogeDesigner)


03 有态度的观点

1、 吴恩达:不懂计算机原理,就不可能只靠「Vibe Code」变优秀

日前,斯坦福大学计算机科学系副教授吴恩达发布个人博客,对当前 AI 与编程的现状进行了分析,并分享了自己的一些个人看点。

吴恩达指出,市场上一方面存在着对理解 AI 的开发者的巨大且未被满足的需求,许多大型企业和初创公司都渴望招聘这类人才;但另一方面,新近毕业的计算机科学(CS)专业学生却面临着失业率上升的困境。他认为,这主要是因为大学课程的调整未能跟上生成式 AI 所带来的行业变革。在谈到他所认为的「AI 工程师」时,吴恩达强调了三项关键能力:

  • 能够利用 AI 辅助来快速构建软件系统;

  • 熟练运用提示工程(Prompting)、RAG 等 AI 模块来搭建应用;

  • 具备快速原型设计和迭代的习惯。

对于市场上「AI 原生代」毕业生优于资深程序员的说法,吴恩达表达了更细致的看法。他承认,一个精通 AI 的新人确实可能胜过一个固守旧工作方式的资深开发者。但他强调,当今最顶尖的开发者,是那些将深厚的软件工程经验与前沿 AI 工具相结合的资深人士。

他进一步解释,尽管 AI 让许多过去的知识(如记忆大量语法)变得不再重要,但计算机科学的核心基础依然是基石。吴恩达认为,大概 70% 的 CS 基础知识与现代 AI 技能相结合,才能造就真正高效的开发者。

在他看来,不理解计算机工作原理,纯靠「感觉」是无法构建出伟大系统的。(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

No Reply at the moment.
需要 Sign In 后方可回复, 如果你还没有账号请点击这里 Sign Up