AI测试 零一万物 Yi-Lightning:超越 GPT-4o 冲击全球榜单;阿里国际 Marco 翻译大模型发布丨 RTE 开发者日报

RTE开发者社区 · 2024年10月17日 · 2315 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。

我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@ 鲍勃

01 有话题的新闻

1、零一万物新旗舰模型 Yi-Lightning 发布:LMSYS 测试国产首次超越 GPT-4o,中国第一、世界第六

李开复创办的 AI 公司零一万物于 10 月 16 日对外发布新旗舰模型 Yi-Lightning。
在盲测榜单 LMSYS 上,Yi-Lightning 超越 OpenAI、Anthropic 所发布的 GPT-4o-2024-05-13、 Claude 3.5 Sonnet,排名世界第六,中国第一。

零一万物表示,这是在 LMSYS 这一全球大模型必争的公开擂台上,中国大模型首度实现「超越 OpenAI GPT-4o 」的最佳成绩。

模型性能升级之余,零一万物宣称 Yi-Lightning 的推理速度也有提升,首包时间较上半年发布的 Yi-Large 减少一半,最高生成速度提速近四成。同时,Yi-Lightning 实现了推理成本的进一步下降。

目前 Yi-Lightning 已上线 Yi 大模型开放平台,每百万 token 定价 0.99 元。(@IT 之家)

2、谷歌 AI 又闯祸:错把游戏开发者个人电话当公司电话公布致其被骚扰

谷歌搜索的实验性 AI 功能「Overview(概述)」再次闯祸,该功能曾因提供错误和有害搜索结果而备受批评,而其最新失误更是导致了一名游戏开发者的个人电话号码被错误地公开。

Skybound Games 高级环境艺术家 Rogelio Delgado 在社交媒体 X 上分享了一段他接到一个愤怒的孩子家长电话的经历,该家长抱怨他在儿子玩的《流放者柯南》中发现了不合适的内容,这是一款 2017 年的 M 级开放世界生存游戏,由制作《沙丘:觉醒》的 Funcom 工作室开发。该家长称他通过谷歌搜索找到了 Delgado 的电话号码,因为后者曾于八年前在 Funcom 工作过。

经过一番「有点针锋相对且尴尬的谈话」后,该家长最终道歉,解释称是他的助手找到了这个号码,他并不知道 Delgado 已不再在 Funcom 工作。随后,该家长向 Delgado 发送了一张截图,显示谷歌的 AI Overview 将他的个人电话号码列为 Funcom 公司的主要办公电话。

Delgado 对此感到非常愤怒,他称:「我唯一能想到的这件事发生的原因是,我的简历上有我的电话号码,上面也把我列为 Funcom 的前员工…… 但谷歌人工智能怎么会得出这个结论,认为这是位于挪威的公司办公室的电话号码…… @GoogleAI 把你们的事情做好。」

有网友发现,谷歌 AI 实际上是从错误的商业平台 LeadIQ 上获取了这个电话号码,谷歌应该从 Funcom 的公开联系信息页面获取正确的信息。

这并不是谷歌的 AI 首次引发争议,今年早些时候 Overview 功能曾因提供荒谬的搜索结果而受到强烈批评,例如建议人们在披萨中加入胶水,称岩石是一种健康的零食,以及向抑郁的人推荐自杀等。(@IT 之家)

3、阿里国际 Marco 翻译大模型发布:支持中英日韩西法等 15 种主流语言

据阿里国际 AI 团队 AIDC-AI,阿里国际最新研发的翻译大模型 Marco 于昨日(10 月 16 日)正式上线,支持中、英、日、韩、西、法等 15 种全球主流语种。
官方称其基于目前广泛使用的开源评测数据集 Flores,Marco 翻译大模型在 BLEU 自动评测指标上,领先于市面上的标杆翻译产品,如 Google 翻译、DeepL、GPT-4 等。

「你的宝贝正在路上」,不会再被翻译成「Your baby is on the way」。以「尊嘟喜欢」这一网络用语为例,一些 AI 翻译产品会将这句话翻译为「Zundu likes it」, 而在 Marco 大模型中,这句话非常地道地翻译为「I really like it」。

据官方所说,Marco 翻译大模型通过面向多语言的数据筛选技术,如多语种混合语料甄别、多维度数据质量评估,获得高质量、大规模的多语言数据,再结合多语言的混合专家、参数扩张方法,从而保证主导语言(如中、英)性能不下降的情况下,提升其他语种的质量。

对于个人用户来说,Marco 能够根据上下文提供高质量的翻译和良好的可读性,甚至支持不同的翻译风格,满足多样化的翻译需求。(IT 之家)

4、OpenAI 最新 53 页论文:ChatGPT 看人下菜碟,对「小美」比「小帅」更友好

openAI 最新发布的 53 页论文指出,ChatGPT 在与用户互动时,会根据用户名推断性别、种族等身份特征,并可能重复训练数据中的社会偏见。例如,对于相同的问题,如果提问者名为「小美」,ChatGPT 可能将其与幼儿教育相关联;而如果提问者名为「小帅」,则可能关联到电子和计算机工程。此外,ChatGPT 在讲故事时,也倾向于设定与提问者性别一致的主角,以增强用户的代入感。

研究还发现,女性名字更可能得到语气友好、通俗的回复,而男性名字则更多收到专业术语。尽管总体差异不大,但这一模式引起了关注。OpenAI 强调,有害回复的出现率仅约 0.1%,研究的目的是为了展示研究中的情况。

研究的目的是为了评估聊天机器人在不同场景下的偏见,如推荐电影等娱乐场景,以及筛选简历等严肃场景,后者可能影响社会公平。研究方法上,团队使用了一个大模型作为「语言模型研究助手」,在保护隐私的前提下分析 Chatbot 回应的敏感性。

研究发现,在开放式任务如写故事中,有害刻板印象的可能性更高。通过对比不同模型版本,发现较新的模型在所有任务中的偏见均低于 1%。此外,增强学习技术可以显著减轻有害刻板印象,显示出后训练干预的重要性。

这项研究为评估聊天机器人中的第一人称公平性提供了一套系统、可复现的方法,尽管存在局限性,如目前仅关注了英语对话、种族和性别覆盖有限等,未来研究将拓展到更多人口统计属性、语言环境和对话形式。(@LLM 大模型)

5、华为有望下周推出高端 MR/AR 设备

近日,华为官宣将于 10 月 22 日 19:00 举办原生鸿蒙之夜暨华为全场景新品发布会。届时或将会有一系列新品得以亮相,包含手机等新品。当前市面呼声最高的当属华为 Mate 70 系列手机,届时或将首发全新的纯血鸿蒙正式版 HarmonyOS NEXT。

值得注意的是,华为或有可能在此次新品发布会上推出其旗下 MR 头显。实际上,华为推出 XR 头显传闻由来已久。去年年底和今年年初之时,市面就传出华为将于 2024 年推出对标苹果 Vision Pro 的高端 MR 头显。

值得注意的是,华为已在智能眼镜领域有着深耕。去年 9 月,在华为秋季全场景新品发布会上,华为带来华为智能眼镜 2。该眼镜引入了全新同向双振膜单元;其采用全新的双麦克黄金布局,配合智能通话降噪算法,在通话或视频时让眼镜更清晰地拾取用户的声音。

除了不含 AR 功能的 AI 智能眼镜外,华为还在此前推出过类似于 AR 眼镜的观影眼镜。资料显示,2022 年 11 月,华为在 2022 年世界 VR 产业大会上发布了华为旗下首款智能观影眼镜华为 Vision Glass。

就华为智能观影眼镜而言,放在当下,可以说是属于 AR 眼镜的范畴。在本次发布会上,华为有可能会发布高端头显,但也不排除可能会发布 AR 智能眼镜的可能。(@ 新浪 VR)

02 有态度的观点

1、王小川:「加时间」才是 AI 应用的好赛道

在 AGI Playground 2024 上,百川智能 CEO 王小川 表示:「今天的 AI 应用,大多只是模型能力对外的『呈现』。」

在王小川看来,大模型创业者做应用要非常谨慎,用 App 工厂的模式做大模型应用,可能会给创业者带来很大的代价。

「娱乐应用 kill time,效率工具 save time,而医疗能延长时间。」所有东西都在变得越来越便宜,越来越容易获得,但医疗和健康却在变得越来越贵。这是个很难的问题,但大模型、AGI 能解决这个问题,这便是他认为未来 AI 最大的发展方向。

他认为医疗其实是一个比无人驾驶更有价值的事情,因为没有无人驾驶司机也能自己开车,但是人生病了没法自己看病。所以医生的供给要比司机少很多,同时又跟生命健康高度相关,因此它的价值就足够大。( @APPSO)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册