计算机视觉

https://varp-agent.github.io 使用智能体和 Gpt 结合做计算机视觉的决策,拿的是挑战黑悟空为例子。
目前似乎还没有开源和共享数据集,在官网页面的 2 个按钮无法跳转。

传统的计算机视觉

介绍下传统的做法

  1. Yolo 分类器分类目标 (万丈高楼平地起,选型和训练满足模型要求)。需要先评估拍摄定义维度,选择预训练模型和需要分类的目标。
  2. 分类器模型:业务绑定的区分是普通怪物,各种宝箱,Boss 等等。
  3. 视觉跟踪 (最难):目标对象移动轨迹和距离推断做图像理解成 JSON 数据结构。
  4. 封装原子的操作
  5. 场景学习: 对场景地图的不同范围做定制的深度学习,一般是通用的场景和特殊地形,比如岩洞里面区域,室内,高低地形房子等
  6. 决策逻辑:

展望

根据过往对 AI 理解,AI 不能完全全包,混用模式和围绕结果做开发在传递给其他 AI 是不二之选
可以等这个项目开源后,我来写下如何结合的文章。


↙↙↙阅读原文可查看相关链接,并与作者交流