计算机视觉

https://varp-agent.github.io 使用智能体和 Gpt 结合做计算机视觉的决策，拿的是挑战黑悟空为例子。
目前似乎还没有开源和共享数据集，在官网页面的 2 个按钮无法跳转。

传统的计算机视觉

介绍下传统的做法

Yolo 分类器分类目标 (万丈高楼平地起，选型和训练满足模型要求)。需要先评估拍摄定义维度，选择预训练模型和需要分类的目标。
- 对优质的数据集，进行打标和训练涨点满足性能精度，对模型感受野进行实战适配。
- 不止一个分类器，分类器会和下面场景学习结合，不同的 map。 PS: 显卡好训练快，CPU 也可以，这里需要基建很多，可以把需要命令行和查看训练涨点流程变成自动化执行迭代和提醒。
分类器模型:业务绑定的区分是普通怪物，各种宝箱，Boss 等等。
- 实时性提升：低开销传输图片，模型蒸馏，推理冻结，转 runtime onnx 部署
视觉跟踪 (最难):目标对象移动轨迹和距离推断做图像理解成 JSON 数据结构。
- 3D 比较麻烦，需要处理摄像机的遮挡和给每个分类的对象绑 ID
封装原子的操作
- 业务绑定的 (翻滚，攻击，防御等等游戏业内的)
- 技能释放时机，技能 cd 的 2-3 个状态光亮度做像素点特征来判断释放时机和带计时器状态。
场景学习: 对场景地图的不同范围做定制的深度学习，一般是通用的场景和特殊地形，比如岩洞里面区域，室内，高低地形房子等
决策逻辑:
- 强化学习的方式：传输图像，按图像理解的 JSON 数据结构结合场景的学习，根据第 3 部分内容写强化学习的机制来给出当前情况应用的函数和得分。
- 行为树的方式：根据触发点的行为树做决策，跳转到行为树的节点执行完在根据下个条件跳转到不同的节点，规避大量条件判断和状态机的代码。
- 行为树推荐看文章:https://blog.csdn.net/weixin_43735634/article/details/135604081

展望

根据过往对 AI 理解，AI 不能完全全包，混用模式和围绕结果做开发在传递给其他 AI 是不二之选
可以等这个项目开源后，我来写下如何结合的文章。

↙↙↙阅读原文可查看相关链接，并与作者交流