计算机视觉
https://varp-agent.github.io 使用智能体和 Gpt 结合做计算机视觉的决策,拿的是挑战黑悟空为例子。
目前似乎还没有开源和共享数据集,在官网页面的 2 个按钮无法跳转。
传统的计算机视觉
介绍下传统的做法
- Yolo 分类器分类目标 (万丈高楼平地起,选型和训练满足模型要求)。需要先评估拍摄定义维度,选择预训练模型和需要分类的目标。
- 对优质的数据集,进行打标和训练涨点满足性能精度,对模型感受野进行实战适配。
- 不止一个分类器,分类器会和下面场景学习结合,不同的 map。
PS: 显卡好训练快,CPU 也可以,这里需要基建很多,可以把需要命令行和查看训练涨点流程变成自动化执行迭代和提醒。
- 分类器模型:业务绑定的区分是普通怪物,各种宝箱,Boss 等等。
- 实时性提升:低开销传输图片,模型蒸馏,推理冻结,转 runtime onnx 部署
- 视觉跟踪 (最难):目标对象移动轨迹和距离推断做图像理解成 JSON 数据结构。
- 3D 比较麻烦,需要处理摄像机的遮挡和给每个分类的对象绑 ID
- 封装原子的操作
- 业务绑定的 (翻滚,攻击,防御等等游戏业内的)
- 技能释放时机,技能 cd 的 2-3 个状态光亮度做像素点特征来判断释放时机和带计时器状态。
- 场景学习: 对场景地图的不同范围做定制的深度学习,一般是通用的场景和特殊地形,比如岩洞里面区域,室内,高低地形房子等
- 决策逻辑:
展望
根据过往对 AI 理解,AI 不能完全全包,混用模式和围绕结果做开发在传递给其他 AI 是不二之选
可以等这个项目开源后,我来写下如何结合的文章。