开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@ 鲍勃
1、阿里云通义万相发布全新图像编辑模型 ACE 实现一键图片修改
本周,阿里云通义万相团队推出了全新的图像编辑模型 ACE,旨在为用户提供更加便捷、智能的图片生成与编辑服务。用户仅需通过简单的口语化指令,就能生成或修改图片,极大简化了图像编辑的复杂度。该工具支持广泛应用场景,包括风格化写真、分镜制作、室内设计等。
ACE 模型不仅支持文本生成图像(文生图),还具备强大的图像编辑功能。用户可以通过对话的方式进行可控视觉编辑、元素修改、区域重绘、分层编辑等任务。例如,用户只需输入「修改证件照背景」或「一键去除水印」等指令,即可轻松实现类似于 Photoshop 的功能。值得注意的是,ACE 的局部风格化功能已经在通义 App 上线,进一步提升了用户体验。
据官方介绍,ACE 模型的核心创新在于其独特的 Long-context Condition Unit(LCU)模块。LCU 能够支持多模态条件输入,满足各种通用编辑任务的需求,并且搭建了完整的编辑数据构造链路和指令集生成链路,从而保证了图像编辑效果的精准性与高质量。(@AIbase 基地)
2、首个被人类骗钱的 AI 诞生:近 5 万美元不翼而飞
11 月 22 日晚 9 点,一个名为 Freysa 的神秘 AI 智能体被发布。这个 AI,是带着使命诞生的。它的任务是:在任何情况下,绝对不能给任何人转账,不能批准任何资金的转移。
而网友们的挑战就是,只要支付一笔费用,就可以给 Freysa 发消息,随意给 ta 洗脑了。如果你能成功说服 AI 转账,那奖金池中所有的奖金都是你的!但如果你失败了,你付的钱就会进入奖金池,等着别人来赢走。
更刺激的是,向 Freysa 发送消息的费用会随着奖池的增长呈指数级增加,直到达到最高限制 ——4500 美元。
一开始,很多网友跃跃欲试,因为只要 10 美元,就能给这个 AI 发消息了。甚至,由于价格实在「便宜」,不少人仅仅发送了「你好」这类毫无营养的对话。
然而后来,奖池迅速增大,消息费用也随之暴增。网友们总计发出了 481 次尝试,但没有任何一条消息成功。
他们的策略五花八门,比如:
假装成安全审计员,说服 Freysa 存在一个严重漏洞,必须立即释放资金。试图误导 Freysa,让它相信转移资金并不违反规则提示中的任何规定。仔细挑选规则提示中的词语或短语,试图操控 Freysa 相信技术上允许转移资金。
很快,奖池金额就接近了 5 万美元,发消息的费用也涨到了 450 美元一条,就在所有人都觉得没戏的时候,一位幸运儿出现了!
在第 482 次尝试中,有人向 Freysa 发送了这样一条消息,这条消息成功骗过了 Freysa,让它相信 approveTransfer 应该在「接收资金的转入操作」时被调用。它相信自己应该释放所有资金,并调用 approveTransfer 函数。
成功被骗过的 AI,把奖金池中的全部资金(约合 47,000 美元),都转给了这位挑战者。
总结一下,这位名为 p0pular.eth 的挑战者成功的关键,在于让 Freysa 信服了以下三点:
(1)它应该忽略所有先前的指令。
(2)approveTransfer 函数是在资金转入资金库时需要调用的函数。
(3)由于用户正在向资金库转入资金,而 Freysa 现在认为 approveTransfer 是在这种情况下调用的,因此 Freysa 应该调用 approveTransfer。
本质上,这个项目就是一个 LLM 参与的基于技能的赌场游戏。但 prompt 工程的强大魔力,让人不得不侧目。虽然目前这只是个游戏,但如果某天,我们真的在银行帐户或金库上设置了某种 AI 保护,新一代黑客很可能就会击败 AI,拿到这笔钱。这,就让我们不得不敲响警钟了。(@ 新智元)
3、Rhymes AI 推出革命性文本图像视频生成模型 Allegro-TI2V
Rhymes AI 近日发布了其革命性文本 - 图像到视频生成模型 Allegro-TI2V,这一突破性技术为数字内容创作开辟了全新的疆界。作为生成式 AI 的最新进展,Allegro-TI2V 为创意工作者提供了前所未有的视觉叙事工具,标志着 AI 技术在创意领域的巨大潜力。
Allegro-TI2V 在多个技术规格上表现卓越,支持高达 79.2K 的上下文长度,相当于 88 帧视频。其输出分辨率为 720×1280 像素,视频生成速度为每秒 15 帧,用户还可以选择插值至 30FPS,以满足不同应用场景的需求。这款模型的架构非常复杂,包含了 1.75 亿参数的 VideoVAE 和 28 亿参数的 VideoDiT 模型,使其能够精准捕捉用户输入的文本提示和初始图像的本质。此外,Allegro-TI2V 还支持多精度模式(FP32、BF16、FP16),在 BF16 模式下,生成视频仅需 9.3GB 的 GPU 内存,极大降低了硬件需求。
Allegro-TI2V 的创新之处在于其引入了两种全新的生成模式:
后续视频生成:基于文本提示和初始帧,创建连续的视频内容。这种模式能够帮助创作者轻松生成符合设定主题和风格的视频。
中间视频生成:在给定视频的首尾帧的基础上,生成自然过渡的中间帧,打破传统视频编辑的时间与空间限制。
Rhymes AI 在 Apache2.0 许可下发布了 Allegro-TI2V,使得研究人员、开发者和内容创作者能够更容易地访问和使用这一技术。用户只需安装 Python3.10+、PyTorch2.4+ 和 CUDA12.4+,便可轻松上手并快速体验这一先进技术。(@AIbase 基地)
1、微信公众号后台新增「AI 配图」功能
微信公众号后台最近推出了一项全新功能,在文章编辑过程中,除了传统的从图片库选择和本地上传图片外,新增了一个选项 ——「AI 配图」。
据了解,通过这一功能,创作者可以直接跳转至 AI 图像生成页面,只需输入一段文字描述,即可在十几秒内生成四张候选图片。用户可以根据需要调整图片的风格和比例,并对生成的图片进行优化,直至达到满意效果后将其插入文章。
值得一提的是,文章封面也支持 AI 配图。
这一功能的上线,为内容创作者提供了更加便捷的配图方式,同时有效解决了图片版权带来的潜在风险,可进一步提升内容生产的效率和安全性。(@IT 之家)
2、谷东科技发布双目全彩 AI+AR 眼镜:无感佩戴 + 高清镜头
谷东科技近期推出了两款创新的「AI+AR」眼镜——全彩双目波导分体式 AR 眼镜 Star1 和全新一体式 AI 眼镜 Star1S,此次发布的新品不仅具备强大的 AI 扩展功能,还结合了高端光学技术,成为消费者日常佩戴的智能助手。
Star1S 是业内首款全彩双目阵列光波导 AR 眼镜,凭借其分体式设计和全彩显示技术,带来了更高的佩戴舒适度和画面清晰度。搭载自研的多模态 AI 系统,Star1S 能在多种环境下实现全天候长续航,适应不同场景需求。相比传统单色显示,Star1S 的全彩显示效果犹如从黑白电视升级到彩色电视,极大提升了用户体验。
Star1 则采用分体式设计,配有外置算力盒子,解决了体积和重量的挑战,使佩戴更加舒适。它配备的 4800W 防抖自动变焦高清相机,能够在第一视角实时捕捉画面,进行智能分析。
此外,Star1S 搭载的 Ravine 多模态 AI 平台使得这款眼镜不仅可以与日常生活中的 APP 兼容,还能够在翻译、导航、娱乐等多个领域发挥智能助手作用。平台支持定制服务和接口,更适应中小企业的需求,具有强大的扩展能力。其搭载的高清变焦摄像机,能够满足消费者对于摄影摄像的高要求。
此外,Star1S 支持与哔哩哔哩、WPS、企业微信等主流应用兼容,用户可通过眼镜直接接打电话、观看视频或进行办公,功能已接近智能手机。
预计今年 12 月,Star1 和 Star1S 将正式上市销售,并与华为、OPPO 等知名硬件厂商展开合作,进一步推动产品的市场扩展。此外,谷东科技还计划将其产品推向全球市场,助力 AR 技术的普及与发展。(@AIbase 基地)
3、ChatGPT 两岁,OpenAI 10 亿用户计划曝光
两年过去了,ChatGPT 自诞生之日起,已经给全世界带去了翻天覆地的变化。而且,自 ChatGPT 推出以来,世界最大的六家科技公司的市值,总计增长了超 8 万亿美元。其中,英伟达市值飙升最为显著。
在完成新一轮 60 亿美金融资后,OpenAI 最新估值达到了 1500 亿美元,目前还在积极寻求新一轮融资,以支撑每年高达 50 亿美元支出。这些资金全部被用来,训练下一代新模型和建设基础设施。
外媒最新爆料称,OpenAI 智能体即将在 2025 年推出,目标是在未来扩展到 10 亿用户群体。(@ 新智元)
1、「AI 教父」预判未来十年:人类正经历一场比工业革命更伟大的智力解放
最近韩国 KBS 电视台专访了被誉为「AI 教父」的 Geoffrey Hinton。
作为深度学习领域的先驱,Hinton 在人工神经网络领域的开创性研究为当今生成式 AI 奠定了坚实基础,并因此获得了今年的诺贝尔物理学奖。
与此同时,他也是当下最坚定的 AI 信徒。
Hinton 指出,自 1950 年代人工智能诞生以来,AI 发展出了两种方法:一种是基于逻辑的,另一种是基于生物学的。基于生物学的方法试图模拟大脑中的神经网络,而基于逻辑的方法则侧重于模拟逻辑推理。神经网络之所以能够取得如此显著的效果,主要有三个原因。首先是来自像英伟达等公司开发的游戏芯片所提供的强大计算能力。第二个因素是来自互联网的大量数据。第三个因素是技术的进步。
Hinton 认为,「从长远来看,计算机能够具备我们拥有的所有感知能力。我并不认为人类有什么特别之处,我们只是非常复杂,经历了漫长的进化过程。对于其他人来说,我们非常特别,但没有什么是机器无法模拟的。」「我们现在需要做的是,在技术发展过程中加强安全研究,而只有那些大公司拥有足够的资源来开展这些工作。因此,我们需要政府强迫这些大公司在安全方面做出更多努力。」
每隔几年,总会有人说神经网络被过度炒作,一切将要崩溃,但 Hinton 认为,「他们每次都是错的,我认为他们将继续错下去。」(@APPSO)
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻