这个事情,之前我也想过,
GPT4o 听说对现实世界的理解以及定位精度很高
2.自己搞模型:
或者就使用方案一:依赖于 xml 层次结构
请看测试的模型,建议使用 32b,测试下来很准
白话讲,第一次遇到的问题(问大模型),第二次就不用再问了
再重新拉去一下代码已经增加 WEB 页面版本了
OK,后面考虑用 gradio 加一个体验测试页面
如果你的本地知识库已经有,应该可以通过 api 进行调用。
这里我推荐另外一个 python 库(rankify),建议自己实现 RAG,方便对技术的理解。你可以看下这个微信推文
欢迎各位提出新的见解:
我 review 了一下代码
我后面琢磨一下,怎么优化。
纯视觉的可以研究看一下这个例子
https://github.com/X-PLUG/MobileAgent/blob/main/README_zh.md
在自动化脚本执行失败,大模型介入进行 “诊断”。
解决弹窗,还有一种使用 OCR 的方式,但实现逻辑比较复杂。
大佬,受教了,后面研究一下
嗯,这种尝试过的,给大模型手机分辨率后,让模型返回按钮坐标。
这种对模型的能力要求有些高。之前尝试过,返回的坐标容易不正确。
但可以看一下 mobile_agent 这部分代码,是阿里视觉模型的,没有依赖页面结构
好的补充上了
常规自顶
嗯,会越来越好的
自己顶一下
全部重新更新了一下,再不行就没辙了
我怎么看的都是正常的
任就可能不清就看这个吧:
https://power-filament-0e1.notion.site/11c8ae0baa5f803c9121edc4e4d15b81?pvs=4