AI测试 Google 新 AI 为视频生成配乐和对白;Runway 发布 Gen-3 视频生成模型丨 RTE 开发者日报 Vol.226

RTE开发者社区 · 2024年06月18日 · 1547 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@CY@JLT,@ 鲍勃

01 有话题的新闻

1、日本增长最快独角兽即将诞生:人工智能公司 Sakana AI 成立一年后估值 1800 亿日元

6 月 17 日消息,日本生成式 AI 初创公司 Sakana AI 即将获得一笔新的重大投资,这将使该公司估值达到约 1800 亿日元(约合 83 亿元人民币)。「独角兽」系估值超过 10 亿美元(约合 72.76 亿元人民币)的未上市企业。报道称,去年 7 月,谷歌的人工智能研究人员在东京成立了 Sakana AI 公司,该公司对生成文本和图像的 AI 基本模型进行了研究,其具有将现有模型相互交叉的「开创性」技术,从而创建出高性能的 AI 模型。

Sakana AI 的主要投资者包括曾对 OpenAI 等公司进行了初期投资的风险投资家,他们将协调在本月底之前向 Sakana AI 投资约 200 亿日元(当前约 9.23 亿元人民币)。据报道,Sakana AI 将成为日本增长最快的「独角兽」企业。(@ 朝日新闻)

2、腾讯混元推出「Follow Your Emoji」

据 Arxiv 页面显示,腾讯混元携手香港科技大学和清华大学,共同研发出一款名为「Follow Your Emoji」的创新肖像动画生成框架。这项技术突破了传统界限,仅需一张静态照片,即可将其转化为栩栩如生的面部动画,捕捉并再现人物的微妙表情变化。用户只需上传一张照片,系统便能迅速生成一系列生动的面部表情,无论是夸张的大笑还是微妙的眨眼,都能轻松呈现。依托于先进的算法和庞大的数据支持,「Follow Your Emoji」能够对脸部进行极为精细的控制,包括眉毛的微挑、眼珠的转动,甚至是翻白眼等细节动作。( @CSDN)

3、腾讯视频号拟限制数字人带货:鼓励真人直播

近日为了优化视频号橱窗生态,营造良好的交易环境,腾讯对《视频号橱窗达人「发布低质量内容」实施细则》进行修订,修订内容于今年 6 月 7 日 -6 月 13 日进行意见征集。

据最新的修订方案,「使用插件、AI 等工具生成虚拟形象进行直播」「提供、售卖、教学或展示平台不提倡传播的内容:如讲解和售卖虚拟人代播软件」等涉及虚拟人/数字人直播,将被视频号明确列入低质量内容,并进行违规处理。

对于相关修订的原因,6 月 17 日,视频号相关人士告诉澎湃新闻记者,使用数字人/虚拟人直播目前属于平台直播带货中的违规行为,如被平台发现,将依据相关规则进行处罚,包括不限于减少直播推荐、减少账号推荐、限制直播带货能力等。

该人士称,平台希望并鼓励真实的真人主播,能跟观众进行实时的互动。(@ 澎湃新闻)

4、Runway 发布第三代视频生成模型,90 秒生成 10 秒片段

IT 之家 6 月 18 日消息,专为电影和图像内容创作者打造生成式 AI 工具的公司 Runway 发布了 Gen-3 Alpha 视频生成模型。

Runway 表示,与其之前的旗舰视频模型 Gen-2 相比,该模型在生成速度和保真度方面有了「重大」改进,并且对生成视频的结构、风格和运动提供了细粒度的控制。Gen-3 将在未来几天内向 Runway 订阅用户提供,包括企业客户和 Runway 创意合作伙伴计划中的创作者。

Runway 联合创始人 Anastasis Germanidis 表示,Gen-3 的视频生成时间明显快于 Gen-2。生成一个 5 秒的片段需要 45 秒,生成一个 10 秒的片段需要 90 秒。(@IT 之家)

5、抖音联合博纳出品 AIGC 科幻短剧集《三星堆:未来启示录》

6 月 17 日消息,博纳影业出品制作、抖音联合出品的 AIGC 科幻短剧集《三星堆:未来启示录亮相博纳 25 周年新闻发布会。

该剧第一季共 12 集,由抖音联合出品,将在抖音短剧暑期档播出。即梦 AI 作为首席 AI 技术支持方,基于豆包大模型技术,为《三星堆:未来启示录》提供了 AI 剧本创作、概念及分镜设计、镜头画面生成、图像到视频转换、视频编辑和媒体内容增强等十种 AI 技术。

据介绍,《三星堆:未来启示录》的故事设定在科技飞速发展的近未来。地球古文明遗迹的异变引起全球古文明研究组织的高度关注,泛大西洋人工智能组织 ACE 推测三星堆文物中蕴藏着解决文明危机的关键信息,中国古文明研究组织「西安路 34 号」派出科学家吴星言监督 ACE 组织在中国的行动。四川广汉的江家三代都是三星堆考古工作者,江城联合吴星言展开了一场跨越时空的冒险。(@IT 之家)

6、Google DeepMind 的新 AI 可以为视频生成配乐和对白

Google 的人工智能研究实验室 DeepMind 表示,它正在开发为视频生成配乐的人工智能技术。DeepMind 在其官方博客上发表文章称,它认为 V2A(「视频到音频」的缩写)技术是人工智能生成媒体拼图中必不可少的一部分。虽然包括 DeepMind 在内的许多机构已经开发出了视频生成人工智能模型,但这些模型无法在生成视频时同步生成音效。( @cnBeta)

02 有态度的观点

1、吴恩达最新演讲:除了下一代基础模型,Agent 工作流如何推动 AI 进步?

在 Snowflake Dev Day 上,斯坦福大学教授、Landing AI 创始人吴恩达与 Snowflake CEO Sridhar Ramaswamy 讨论了 AI 技术与法规。吴恩达介绍了视觉智能体(Vision Agent)的应用,它可以自动化复杂的图像处理任务,显示了 AI 在计算机视觉领域的潜力。

同时,他强调了 AI Agent 的工作流程,并提到了在 AI 研究和应用中跨学科合作的重要性。吴恩达认为 Agentic AI 是一个非常重要和令人兴奋的趋势。(@ 有新 Newin)

2、黄仁勋最新对话:未来互联网流量将大幅减少,计算将更多即时生成

在 2024 年 Databricks Data + AI 峰会上,英伟达创始人、CEO 黄仁勋指出生成式 AI 正以指数速度增长,强调企业需抓住此技术趋势。他认为开源和闭源 AI 模型将共存,企业需利用各自优势推动 AI 发展。

再者,AI 的发展需要考虑能源效率和可持续性。随着数据积累和智能技术进步,客户服务将成为企业实现智能化转型的关键领域。(@ 腾讯科技)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册