我说的不是测试方向、也不是辅助方向的,是公司主业务此产品方向的。
哪有为什么?开发都没工作,测试更不用说了。我用之前的积累,目前在干 Agent 开发的工作。
我 36,在上家公司,团队里面我年龄最小
不只是 api,数据,Ai 操作其他系统的对接。rpa 等等。
可以在墨搭社区上,先做一个 local 类型的 mcp,目前这部分跟猜测是领域重合度很高,掌握后不管是从效率,还是未来职业方向可能会是一个好的方向
这个事情,之前我也想过,
GPT4o 听说对现实世界的理解以及定位精度很高
2.自己搞模型:
或者就使用方案一:依赖于 xml 层次结构
请看测试的模型,建议使用 32b,测试下来很准
白话讲,第一次遇到的问题(问大模型),第二次就不用再问了
再重新拉去一下代码已经增加 WEB 页面版本了
OK,后面考虑用 gradio 加一个体验测试页面
如果你的本地知识库已经有,应该可以通过 api 进行调用。
这里我推荐另外一个 python 库(rankify),建议自己实现 RAG,方便对技术的理解。你可以看下这个微信推文
欢迎各位提出新的见解:
我 review 了一下代码
我后面琢磨一下,怎么优化。
纯视觉的可以研究看一下这个例子
https://github.com/X-PLUG/MobileAgent/blob/main/README_zh.md
在自动化脚本执行失败,大模型介入进行 “诊断”。
解决弹窗,还有一种使用 OCR 的方式,但实现逻辑比较复杂。
大佬,受教了,后面研究一下
嗯,这种尝试过的,给大模型手机分辨率后,让模型返回按钮坐标。
这种对模型的能力要求有些高。之前尝试过,返回的坐标容易不正确。
但可以看一下 mobile_agent 这部分代码,是阿里视觉模型的,没有依赖页面结构
好的补充上了