腾讯和德州大学达拉斯分校的研究团队合作开发了一个名为 AppAgent 的项目,该项目可以通过自主学习和模仿人类的点击和滑动手势,在手机上执行各种任务。

这包括在社交媒体上发帖、帮助用户撰写和发送邮件、使用地图、在线购物,甚至进行复杂的图像编辑。AppAgent 在 50 个任务上进行了广泛测试,涵盖了 10 种不同的应用程序。

项目地址:https://github.com/mnotgod96/AppAgent

AppAgent 的主要功能特点包括多模态代理、直观交互、自主学习和构建知识库。作为一个基于大语言模型的多模态代理,AppAgent 能够处理和理解多种类型的信息,使得它能够理解复杂的任务并在各种不同的应用程序中执行这些任务。

它能够通过模仿人类的直观动作来与智能手机应用程序交互,就像一个真人用户一样。通过观察和分析不同应用程序中的用户界面交互,AppAgent 能够自主学习并构建知识库,记录了不同应用程序的操作方法和界面布局,以便指导代理在不同应用程序中执行任务。

一旦学习了应用程序的操作方式,AppAgent 就能够执行跨应用程序的复杂任务,如发送电子邮件、编辑图片或进行在线购物。这一创新的技术为用户提供了更便捷和高效的手机应用程序操作体验。


↙↙↙阅读原文可查看相关链接,并与作者交流