图片

开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@koki、@ 鲍勃

01 有话题的技术

1、Jina AI 新模型 jina-embeddings-v5-omni 支持文本图像音视频混合检索

ina AI 推出 jina-embeddings-v5-omni 系列模型,支持文本、图像、音频和视频四种模态的统一嵌入。该模型采用「冻结 Tower + 轻量级投影器」架构,在实现高性能多模态对齐的同时,保持了与前代 v5-text 文本向量的字节级一致性,允许开发者在不重建现有文本索引的情况下直接升级多模态搜索能力

图片

https://jina.ai/news/jina-embeddings-v5-omni-multimodal-embeddings-for-text-image-audio-and-video

https://huggingface.co/collections/jinaai/jina-embeddings-v5-omni

(@jina.ai.news)

2、Google 发布 Android 版 Gemini Intelligence:支持跨应用多步自动化与 Rambler 实时多语言转录

图片

Google 正式推出安卓版 Gemini Intelligence,标志着 Android 从底层操作系统向原生智能系统的演进。该系统通过深度集成模型能力,实现了基于视觉上下文的多步任务自动化、生成式小部件(Generative UI)以及针对自然语言口语优化的 Rambler 转录功能。

https://blog.google/products-and-platforms/platforms/android/gemini-intelligence/

@google.blog)

02 有亮点的产品

1、Mark 发布智能阅读书签:通过划线和语音轻录捕获想法,低干扰沉浸式阅读

硬件厂商 Mark 推出同名智能阅读硬件,旨在通过物理划线和语音录入实现非侵入式摘录。该工具通过自动化索引将纸质与电子阅读内容整合为可搜索、可交互的个人知识库

https://www.thinkwithmark.com/preorder

(@thinkwithmark\@X)

2、Google 发布 Googlebook:Android 与 ChromeOS 深度融合,Gemini 驱动系统级智能体交互

谷歌推出全新笔记本产品线 Googlebook,旨在通过整合 Android 技术栈与 ChromeOS 核心能力,打造原生支持 Gemini 智能体的 AI 硬件生态。该产品通过重构光标交互与跨端协议,实现了系统级的 AI 实时辅助与移动端应用的深度协同

图片

@AI 寒武纪)

3、Vapi 完成 5,000 万美元 B 轮融资:累计通话量突破 10 亿次,主打低延迟、可配置语音智能体平台

图片

语音 AI 初创公司 Vapi 宣布完成 5,000 万美元 B 轮融资由 Peak XV 领投,微软旗下 M12 等参投。该公司通过提供 API 原生的语音智能体平台,解决了传统 IVR 系统僵化的问题,并实现企业级 ARR 10 倍增长。

(@globenewswire)

4、LumiaHealth 发布 Lumia 2 智能耳钉:头部血流健康监测,5 天内筹集金额超 130 万美元

图片

图片

LumiaHealth 推出全球首款模块化智能耳钉 Lumia 2,通过将高精度传感器集成于不足 1 克的耳钉背托中,并引入可热插拔电池设计,解决了可穿戴设备因充电导致的数据断流痛点。该产品在 Kickstarter 上线 5 天内筹集金额超 130 万美元,主打全天候无感生理信号追踪。

@Rich出海)

03 有态度的观点

1、「vibe coding」概念提出者:AI 输出终局是「交互式神经视频」,现在先试试 HTML

图片

「vibe coding」概念提出者、OpenAI 创始成员 Andrej Karpathy 昨日在 X 上发文,公开力挺 Claude Code 团队成员 Thariq 提倡的「以 HTML 取代 Markdown」做法。

Karpathy 认为,大模型的输出格式正在逐步升级:纯文本难以阅读,Markdown 好一些,HTML 则更进一步,支持更丰富的排版、图表和交互。他预测未来还将经历多轮迭代,终点是由 AI 直接生成的「交互式神经视频」。

Karpathy 指出,人类大脑约三分之一专门用于处理视觉信息,视觉是接收信息效率最高的通道。因此,人类向 AI「说话」用语音最自然,AI 向人类「展示」结果则应尽量用视觉呈现

他同时承认,现有的输入方式还不够用 —— 光靠语音或文字,缺少「指着屏幕某处说话」这种空间感。在更好的方案出现之前,他建议用户直接在提示词末尾加上「将回复结构化为 HTML」,然后在浏览器里打开查看

( @APPSO)

04 社区黑板报

招聘、活动、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)

1、Google I/O 大会后,聊聊你的第一手观察

Google I/O 又要来了!

Gemini 会发布新模型吗?Google 旗下的 ToC 应用又会有什么大动作?Android 17 会带来哪些新功能?

每次 I/O,可能都是对 AI 创业的一次「洗牌」。

但信息量太大,共识太多,往往是真正交流最少的时候。

Founder Park 决定在大会结束后,搞一场 Meetup 闭门交流活动,和大家聊聊:What Google I/O didn't tell you?

把这两天的信息输入,变成大家当晚交流碰撞的素材。高密度且自由的聊聊,各自在 Google I/O 大会的第一手观察、观点。

📅时间:5 月 21 日 18:00 - 21:30

📍地点:加州山景城(具体地点后续通知)

我们欢迎这样的你:

欢迎扫描海报上的二维码报名,加入我们!

图片

图片

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

图片

作者提示: 个人观点,仅供参考


↙↙↙阅读原文可查看相关链接,并与作者交流