AI测试 Varp 计算机视觉结合的智能点框架 (可以推荐观望)

陈子昂 · 2024年09月23日 · 最后由 5t5 回复于 2024年09月30日 · 5484 次阅读

计算机视觉

https://varp-agent.github.io 使用智能体和 Gpt 结合做计算机视觉的决策,拿的是挑战黑悟空为例子。
目前似乎还没有开源和共享数据集,在官网页面的 2 个按钮无法跳转。

传统的计算机视觉

介绍下传统的做法

  1. Yolo 分类器分类目标 (万丈高楼平地起,选型和训练满足模型要求)。需要先评估拍摄定义维度,选择预训练模型和需要分类的目标。
    • 对优质的数据集,进行打标和训练涨点满足性能精度,对模型感受野进行实战适配。
    • 不止一个分类器,分类器会和下面场景学习结合,不同的 map。 PS: 显卡好训练快,CPU 也可以,这里需要基建很多,可以把需要命令行和查看训练涨点流程变成自动化执行迭代和提醒。
  2. 分类器模型:业务绑定的区分是普通怪物,各种宝箱,Boss 等等。
    • 实时性提升:低开销传输图片,模型蒸馏,推理冻结,转 runtime onnx 部署
  3. 视觉跟踪 (最难):目标对象移动轨迹和距离推断做图像理解成 JSON 数据结构。
    • 3D 比较麻烦,需要处理摄像机的遮挡和给每个分类的对象绑 ID
  4. 封装原子的操作
    • 业务绑定的 (翻滚,攻击,防御等等游戏业内的)
    • 技能释放时机,技能 cd 的 2-3 个状态光亮度做像素点特征来判断释放时机和带计时器状态。
  5. 场景学习: 对场景地图的不同范围做定制的深度学习,一般是通用的场景和特殊地形,比如岩洞里面区域,室内,高低地形房子等
  6. 决策逻辑:
    • 强化学习的方式:传输图像,按图像理解的 JSON 数据结构结合场景的学习,根据第 3 部分内容写强化学习的机制来给出当前情况应用的函数和得分。
    • 行为树的方式:根据触发点的行为树做决策,跳转到行为树的节点执行完在根据下个条件跳转到不同的节点,规避大量条件判断和状态机的代码。
    • 行为树推荐看文章:https://blog.csdn.net/weixin_43735634/article/details/135604081

展望

根据过往对 AI 理解,AI 不能完全全包,混用模式和围绕结果做开发在传递给其他 AI 是不二之选
可以等这个项目开源后,我来写下如何结合的文章。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!
共收到 3 条回复 时间 点赞

来给 猫猫打 call

猫哥,计算机视觉这块儿,我标注完之后,纵深正交下看后面的标注也在检测范围内,但是有概率识别不到,大概这个样子。
有什么好的解决办法或者推荐么?检测频率 15

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册