开发者朋友们大家好:
这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@ 鲍勃 和 Gemini(pro 真的很不错)
昨天,腾讯混元宣布开源全新轻量 OCR 模型「HunyuanOCR」,仅凭 1B 参数规模在多项业界 OCR 应用榜单上取得 SOTA 成绩。
该模型依托混元原生多模态架构打造,在复杂文档解析与多语种识别方面具备领先能力。
HunyuanOCR 的设计采用端到端范式,结合原生分辨率视频编码器、自适应视觉适配器和轻量化语言模型,在推理效率上优于业界常见的级联方案。
性能方面,该模型在 OmniDocBench 测评中获得 94.1 分,超越 Google Gemini 3-pro 等领先模型;在 OCRBench 榜单上以 860 分成绩刷新了 3B 以下模型的最佳表现。
应用层面,HunyuanOCR 能够覆盖文档、艺术字、街景、手写、广告、票据、截屏、游戏、视频等九大场景,支持票据字段抽取、视频字幕识别以及拍照翻译。
其多语种支持能力覆盖 14 种高频小语种,并在 ICDAR2025 文档翻译比赛小模型赛道中夺冠。该模型已在 GitHub 与 Hugging Face 平台开放下载和体验。
GitHub:
https://github.com/Tencent-Hunyuan/HunyuanOCR
Hugging Face:
https://huggingface.co/tencent/HunyuanOCR
( @APPSO)
#####
Jizai Face 是由东京大学 Jizai Bodies 团队研发的可拆装式外置感知器官系统。
旨在探索「可扩展人类身体」的交互形态。
组件包括可眨眼成像的 Jizai Eye、具备语音输出的 Jizai Mouth、拾音的 Jizai Ear 以及可检测气味的 Jizai Nose。
所有器官均可独立供电、无线连接,并可附着在人体或环境任意位置,实现延展视觉、听觉、嗅觉与表达能力的多模态交互。
(@ 邓邓的机器猫)
柏林初创 ai-coustics 公司发布了专为机器优化的语音增强模型「Quail STT」。与 Krisp 等为人耳设计的传统降噪工具不同,Quail STT 专注于保留 STT 模型所需的关键声学结构,旨在作为一层通用的预处理工具,显著降低主流语音转文本服务在真实嘈杂环境下的转录错误率。
专为 STT 优化,而非人耳感知:产品的核心理念是,让音频「听起来干净」并不等同于让「机器更容易理解」。「Quail STT」在降噪的同时,会刻意保留对 STT 解码至关重要的语音发音和频谱线索,避免了传统降噪工具可能带来的信息损失。
实测效果显著,降低 10-25% 错误率:在包含多种真实噪音(如混响、低质量麦克风)的基准测试中,「Quail STT」为 Deepgram、AssemblyAI、Gladia 等主流 STT 服务带来了 10% 至 25% 的相对词错率(WER)降低,效果全面优于 Krisp 等感知降噪工具。
供应商无关,即插即用:该模型被设计为「供应商无关性」,无需针对特定 STT 模型进行调优。开发者可以将其作为一个独立的预处理层,轻松集成到现有的语音处理流程中,提升下游任意 STT 服务的性能。
精准分析并减少三类核心错误:「Quail STT」能够同时减少 STT 任务中最常见的三种错误:因语音掩蔽导致的「替换」(如 "coffee" 听成 "copy")、因模型幻觉导致的「插入」(添加原文没有的词)以及因噪声过大导致的「删除」(遗漏词语)。
(@ai-coustics Blog)
###
OpenAI 于周二宣布,将对旗下备受欢迎的 AI 聊天机器人 ChatGPT 的用户界面进行优化,将语音功能无缝集成至聊天界面内。这意味着用户无需再切换至独立的语音模式,即可在与 ChatGPT 对话的同时,实时查看其文字回复,甚至包括共享的图片等视觉内容。
在此前的版本中,启用语音模式会将用户带入一个独立的界面,通过一个代表 ChatGPT 语音交互的蓝色动画圆圈进行操作。该界面还提供了静音、录制视频以及返回文本模式的关闭选项。然而,在此模式下,用户只能通过语音听取 ChatGPT 的回复,一旦错过关键信息,就需要退出语音模式才能在屏幕上查看文本,这种体验难免会带来不便。
现在,这一痛点已得到解决。OpenAI 表示,更新后的 ChatGPT 语音模式支持边听边看。用户可以一边与 AI 对话,一边实时查看其针对问题的回答。此外,用户还能在对话过程中轻松回顾历史消息,并实时浏览如图片或地图等视觉化内容。
此次改进显著提升了与 AI 聊天机器人的交互自然度,使得用户可以在同一对话中更顺畅地切换语音和文本模式。不过,当用户准备切换回纯文本交流时,仍需点击「结束」按钮来终止语音对话。
这项全新的默认语音模式目前已开始向所有网页端和移动应用用户逐步推出。
对于仍偏好原有独立语音模式的用户,OpenAI 提供了恢复选项。用户可以在「设置」中的「语音模式」下找到「独立模式」选项,并将其开启,以保留之前的操作体验。
( @Techrunch)
2、Speechify Chrome 扩展新增语音输入与语音助手,抢占「语音优先」AI 交互市场
Speechify 宣布为其 Chrome 扩展新增语音输入(Voice Typing)和语音助手(Voice Assistant)功能。此举旨在抓住语音识别技术崛起的机遇,为用户提供「语音优先」的 AI 交互体验,挑战以文本为主的现有主流 LLM 应用。
语音输入功能: Speechify 推出了支持英文的语音输入工具,可纠正错误并移除填充词,旨在提高用户在网页上的输入效率。
侧边栏语音助手: 新增的对话式语音助手集成在浏览器侧边栏,可直接询问关于当前网页内容的问题,如「提炼核心观点」或「用更简单的语言解释」。
「语音优先」定位: Speechify 强调,与 ChatGPT 和 Gemini 等应用将语音视为次要功能不同,其工具将语音置于核心地位,满足用户「语音即默认设置」的需求。
模型学习与优化: 语音输入的准确性初期或有不足,但 Speechify 表示模型会通过用户使用不断学习和优化。同时,正在逐步为 WordPress 等流行网站进行适配优化。
未来智能体愿景: Speechify 透露未来计划开发能代表用户完成任务的智能体,例如代为安排预约或处理客服等待。
( @TechCrunch)
Character.AI 近期宣布推出名为「Stories」的新功能,旨在提供一种交互式虚构内容创作体验,以此作为对 18 岁以下用户开放式聊天机器人访问限制的替代方案。此举是在对 AI 聊天机器人可能产生的心理健康风险和相关法律诉讼的担忧日益加剧的背景下做出的。
「Stories」功能: Character.AI 推出的「Stories」,是一种允许用户与喜爱的角色一起创作互动式虚构故事的新模式。
限制未成年用户访问: 自本周起,18 岁以下用户将无法再使用 Character.AI 的开放式聊天机器人功能,该功能已逐步被限制。
安全优先的替代方案: 公司表示,「Stories」提供了一种「引导式的方式来创作和探索虚构内容,替代了开放式聊天」,并与其他多模态功能一起,为青少年提供一个「安全至上」的互动环境。
行业趋势与法律监管: 此举与当前交互式虚构内容日益增长的受欢迎程度相符,同时也呼应了加州和美国参议院在 AI 伴侣监管方面的动向。
Character.AI 的这一转变,不仅是对用户安全和法律风险的积极回应,也可能为行业内其他 AI 伴侣平台如何处理未成年用户交互树立一个「安全优先」的标杆。通过从开放式、可能产生依赖的聊天模式转向结构化的内容创作,Character.AI 试图在保持用户参与度和规避潜在风险之间找到平衡。
( @TechCrunch)
4、华为试水陪伴:399 元,毛绒绒的 AI
#####
据「多知」报道,11 月 25 日下午,华为在新品发布会上官宣智能陪伴机器人新品「智能憨憨」,这也是其第一款 AI 陪伴玩偶。
智能憨憨售价 399 元,有灰色、黄色、蓝色三款,将于 11 月 28 日正式发售。
根据华为商城信息,智能憨憨与市面上很多 AI 玩具一样,同样被设计了宇宙观。
实际功能上,智能憨憨与市面上同类型产品的功能也基本相近,多模态交互、有记忆力陪伴共同成长。其中:
用户通过「你好憨憨」、「你好鸿蒙」即可唤醒对话;
用户可以通过触摸引发互动,摸下憨憨的额头,其会给予不同的表情反应,晃动憨憨,其还会兴奋发抖;
用户留下的内容都会形成憨憨的记忆,并会在移动端形成日记;
与市面上同类型 AI 陪伴产品最大的不同,是其搭载了华为小艺大模型和适配鸿蒙系统。
26 日下午,Robopoet 珞博智能在公众号也表示:「Fuzozo 芙崽和『憨憨』定制合作款于 11 月 25 日在华为 Mate80 系列发布会正式亮相。这只圆滚滚的智能憨憨由珞博与华为共同设计开发」,「未来,芙崽将持续开放品牌联名合作,让芙崽家族不断壮大,交到更多好朋友,走进更多人的日常生活。」
(@ 多知、@Robopoet 珞博智能)
#####
11 月 25 日晚,理想汽车创始人李想在 B 站更新了视频。李想表示,理想不会造手机,但会推出一些生态化的产品,包括智能眼镜。在李想看来,智能眼镜是理想汽车最好的人工智能的一个附件。
其实,早在去年秋季的战略会上,理想管理层已经讨论过自研智能眼镜的必要性和可行性。今年 6 月,理想成立了「穿戴机器人」新部门,理想自研智能眼镜或许将出自该部门之手。此外,李想还提到,智能音箱也在理想的考虑之内,希望理想的 AI 能力能够在理想汽车的用户生活中,有一个更全面的覆盖。
(@ 快科技)
###
#####
#####
昨日,阿里巴巴集团公布 2026 财年第二季度业绩。财报显示,集团营收达 2,478.0 亿元,同比增长 4.8%,略高于市场预估的 2,452 亿元;调整后每 ADS 收益为 4.36 元,低于预估的 6.34 元。同期调整后净利润为 103.5 亿元,亦低于市场预期的 168 亿元。
而在阿里财报发布后的电话会上,阿里巴巴 CEO 吴泳铭如此表示,「至少三年内,AI 泡沫是不太存在的。」他提到阿里云 AI 服务器等上架节奏严重跟不上客户需求,在手订单仍在进一步增加。
( @APPSO)
#####
据《智能涌现》报道,「与爱为舞」联合创始人兼 COO 刘威近日在接受采访时表示,AI 教育与传统在线教育的核心逻辑存在本质差异。
他将在线教育比喻为「农业」,依赖教师规模扩张;而 AI 教育则是「科技」,竞争壁垒来自技术突破而非人力堆叠。刘威强调,一对一教学将在 AI 时代成为主流,效果和效率天然优于大班课。****
他指出,AI 大模型的泛化性与自主学习机制,使得个性化教学成为可能。任何一个老师再优秀,孩子才是学习的主体,教师无法保证成绩一定提升。过度承诺提分幅度并不负责任。
刘威表示,AI 教育的价值在于提升学习过程的稳定性与效率,而非单一分数指标。在用户接受度方面,刘威透露,「爱学」在盲测中表现出较高的完课率,甚至超过真人大班课。家长与学生在得知教师为 AI 后,退课率几乎为零,付费率也高于传统模式。
他认为,随着 AI 技术的快速发展,家长对 AI 教育的接受度正在提升,未来一对一 AI 教学将逐渐取代大班课。刘威还指出,AI 教育的战略不应局限于某一人群或学科,而是具备全人群覆盖与多语言扩展能力。他表示,AI 技术能够抹平不同年龄段与学科的差异,未来产品迭代将更快、更广。
「与爱为舞」由前百度凤巢核心负责人张怀亭与刘威共同创立,成立两年半,估值已接近 10 亿美元,并完成 4 轮融资,累计融资额约 1.5 亿美元。
公司核心研发方向包括 AI 数字人教师、音视频实时对话式 AI 教育模型及智能交互语音模型。其自研语音系统识别准确率达 95%,响应速度达到毫秒级。
( @APPSO)
###
招聘、项目分享、求助……任何你想和社区分享的信息,请联系我们投稿。(加微信 creators2022,备注「社区黑板报」)
#####
浙江湃启(PatchX)科技有限公司,致力于人工智能情感计算与具身智能技术的深度融合与创新应用。我们以「PatchX,给心灵打个补丁」为理念,核心使命是探索并实现人工智能从功能工具向情感伙伴的范式跃迁,让科技具备感知、理解并响应人类情感的能力,从而温暖心灵。我们专注于研发和推广前沿 AI 陪伴、潮玩设计、游戏化体验及具身智能的硬件产品,为儿童、年轻人群及独居者等提供具有深度情感价值的陪伴与互动体验,目标是成为全球 AI 情感交互技术及硬件载体的引领者。
更多介绍和岗位:
https://www.zhipin.com/gongsi/6b8af1e0a48236b803V939u7GVI~.html?ka=company-intro
联系方式:
邮箱:info\@patch-x.com
微信:armorse2023
作为 AI 机器人后端团队的核心成员,将负责设计和开发支撑我们机器人集群的核心服务平台。面临的挑战是构建高并发、低延迟、高可用的分布式系统,以处理机器人产生的实时数据流,并为 AI 模型推理、任务调度和设备管理提供强大动力。
任职要求详见:
https://www.zhipin.com/job_detail/4c436a44425d7c3303x639m_F1VX.html
负责语音对话推荐系统的研发,基于对话内容与历史交互数据,构建个性化推荐引擎。
建立用户画像与兴趣偏好建模,提升推荐结果的相关性与多样性。
优化语音对话场景下的实时推荐延迟与准确率,实现自然流畅的交互体验。
参与多模态推荐算法研究(语音、语义、情绪信号),提升 AI 陪伴机器人的情感交互能力。
与产品、硬件和内容团队协作,将推荐算法落地于陪伴机器人和内容平台。
任职要求详见:
https://www.zhipin.com/job_detail/64cfcec5fc20c85403Ny3927FlNQ.html
######
岗位职责:
1. 核心识别算法开发:
- 负责室内场景下的目标检测(如 YOLO 系列、Transformer 等)、人脸识别及姿态估计算法的选型、训练与调优。
- 针对室内复杂光照、遮挡、小物体(如手机、水杯)等难点进行数据增强和模型优化。
2. 空间感知与建模(核心挑战):
- 设计并实现基于单目视觉或 RGB-D(ToF)的旋转全景空间建模算法。
- 解决机器人旋转过程中的多视角物体去重(Re-ID)、跨帧目标跟踪(MOT)问题,构建以机器人为中心的语义地图(Semantic Compass)。
3. 深度估计与测距:
- 研究并落地单目深度估计(Monocular Depth Estimation)或融合 ToF 传感器数据,解决桌面场景下的物体距离感知问题。
4. 端侧部署与优化:
- 负责模型在嵌入式平台(如 Rockchip RK 系列、地平线、NVIDIA Jetson 或高通平台)上的移植、量化(Int8)与加速(TensorRT/ONNX Runtime),在有限算力下保证实时性。
任职要求:
1. 基础能力: 计算机、自动化、机器人等相关专业本科及以上学历,2 年以上计算机视觉算法落地经验。
2. 编程与框架: 精通 Python/C++,熟练使用 PyTorch 或 TensorFlow 框架,具备扎实的代码能力。
3. 算法深度:
- 深入理解主流目标检测算法(YOLOv5/v8/v11, DETR 等)。
- 熟悉多目标跟踪算法(DeepSORT, ByteTrack)及 Re-ID 技术。
4. 几何与空间:
- 熟悉相机成像原理,了解坐标系转换(像素坐标 - 相机坐标 - 世界坐标)。
- 加分项: 有全景拼接(Stitching)、SLAM(特别是视觉前端 VO)或 3D 点云处理经验者优先。
5. 工程落地:
有过在 ARM 架构(树莓派、安卓板卡等)上部署深度学习模型的实际经验,熟悉模型剪枝、蒸馏、量化等轻量化技术。
加分项:
- 有智能家居、服务机器人行业从业经验。
- 熟悉 Depth Anything、MiDaS 等深度估计模型。
- 了解多模态融合(如视觉 + 麦克风阵列声源定位)的协同逻辑。
- 有 GitHub 开源项目或顶会论文发表。
阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。