AI测试 OpenAI 向部分用户开放 GPT-4o 高级语音模式;AI 视频生成工具 Vidu 全球上线丨 RTE 开发者日报

RTE开发者社区 · 2024年07月31日 · 2274 次阅读

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@JLT,@ 鲍勃

01 有话题的新闻

1、OpenAI 向部分付费订阅用户开放 GPT-4o 高级语音模式,可提供更自然实时对话

当地时间 30 日,OpenAI 宣布即日起向部分 ChatGPT Plus 用户推出全新高级语音模式的 Alpha 版本,并将于今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。GPT-4o 高级语音模式具有快速反应、允许用户随时进行打断、声音堪比真人等特征,OpenAI 更称 GPT-4o 高级语音模式可以感知语音中的情感语调,包括悲伤、兴奋或歌唱。

OpenAI 发言人林赛・麦卡勒姆(Lindsay McCallum)表示:「ChatGPT 不能假冒他人的声音,包括个人和公众人物的声音,并且会阻止与预设声音不同的输出。」(@IT 之家)

此外,X 用户 TestingCatalog News 还透露了拥有视觉能力的高级语音模式的界面。

2、Vidu 视频模型开放 Sora 架构,可模仿真实物理世界

AI 初创企业生数科技宣布,旗下 AI 视频生成工具 Vidu 全球上线,可通过 Web 端 www.vidu.studio 访问。

Vidu 介绍,模型最快推理速度为 30 秒,提供两大核心功能:文生视频、图生视频,分辨率最高达 1080P。免费版可生成 4 秒视频,支持超清和一个并行任务;收费版可生成 4 秒和 8 秒视频,支持超清、商用、超清后去除水印,支持两个并行任务。

Vidu 除了能实现常见的写实等多元风格外,还新增动漫风格选项,并显著提高了画面的稳定性。Vidu 声称,能够生成影视级别的特效画面,如烟雾、炫光效果、CG 特效等等。(@ 爱范儿)

3、Runway Gen 3 Alpha 模型图生视频功能正式上线

昨日,Runway 宣布旗下模型 Gen 3 Alpha 上线图生视频功能。据悉,用户可以使用任何图片作为 Gen 3 Alpha 生成视频的首帧,既可以单独使用图片作为提示,也可以辅以额外的文字。免费用户可以使用 Gen 3 Alpha 生成 5 秒钟的视频,而订阅用户可以生成 10 秒钟的视频。

官方表示,该模型会自动检测上传的图片,并阻止用户使用露骨或者和政客相关的图片创建视频。(@ 爱范儿)

4、苹果 Apple Intelligence 为用户提供详细的隐私报告,供用户查看 AI 调用情况

苹果公司于周一发布了 iOS 18.1 和 macOS Sequoia 15.1 的首个测试版,推出了 Apple Intelligence 功能。该功能包含了基于 AI 的新特性,如重述文本和总结信息或邮件。

同时为了保障用户隐私,苹果使用了私人计算模块(PCC),利用其自有芯片进行端到端加密处理,并在处理完成后永久删除所有数据。而且用户还可以在隐私设置中查看导出 Apple Intelligence 报告,以查看 AI 都请求处理你的哪些数据。

由于报告可能包含敏感数据,用户需要通过面部识别或指纹识别验证身份才能查看。苹果默认生成这份报告,并在设备上保留 15 分钟,用户可以更改设置将保留时间延长至 7 天或完全关闭。(@ 小互 AI)

5、开源项目 Ollama,简化多系统大型语言模型操作与定制

ollama 是一个开源项目,旨在帮助用户轻松启动和运行包括 Llama 3.1、Mistral、Gemma 2 在内的大型语言模型。该项目支持多种操作系统,包括 macOS、Windows 和 Linux,并提供了 Docker 镜像 ollama。用户可以通过简单的命令行操作来下载、创建、运行和管理模型。项目还提供了一系列的库,如 ollama-python 和 ollama-js,以及详细的文档和示例,帮助开发者集成和定制模型。

此外,ollama 支持从 GGUF、PyTorch 或 Safetensors 格式导入模型,并允许用户通过编写 Modelfile 来自定义模型的参数和提示。该项目的安装和使用说明都非常清晰,适合各种技术水平的用户。(@AI 科技评论)

02 有态度的观点

1、黄仁勋与扎克伯格探讨 AI 未来,强调智能体与开源模型

黄仁勋与扎克伯格在 SIGGRAPH 大会上深入讨论了 AI 的未来。扎克伯格认为 AI 将彻底改变社交媒体,使 Facebook 和 Instagram 成为一个统一的 AI 模型,提供个性化体验。他强调了智能体作为 AI 产品的未来形态,并支持开放生态系统以促进技术标准形成。扎克伯格还讨论了智能眼镜和混合现实设备的前景,认为 AI+ 眼镜是元宇宙的新方向。

黄仁勋则强调了 AI 在模拟和计算平台中的作用,特别是 NVIDIA 在 AI 领域的贡献。两人一致认为,开源 AI 模型如 Llama 3.1 将推动行业发展,支持企业和研究者构建专用 AI。他们还探讨了 AI 在不同领域的应用,包括计算机视觉和机器人技术。(@ 腾讯科技)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

暂无回复。
需要 登录 后方可回复, 如果你还没有账号请点击这里 注册