那你咋唱,对口型?
都是开源的东西,为服务器付费还差不多
github 发出来啊
做开发,别做测试,做测试浪费青春
那简单,给你分享一下我们这边测试视频的方案。 我们会播放一个 动态二维码 (用 python 写一个生成二维码的工具,数字不断递增)。然后视频流解析出来之后,用 python 代码去给二维码解码。1.能解码成功说明视频流传输正常 2.解码出来的数字未中断,说明传输流没有中断是连续的。
色彩检测同理,python 随机生成指定颜色的色块传输,然后去接收端 openCV 解析颜色是否符合预期。
用 openCV 啊,写脚本就好了。关键是你怎么去定义是否显示正常。你先把你手工测试的验证通过的标准说出来,才好知道怎么自动化
黑哥杀死了比赛
别不说了,黑哥牛逼
suno 怎么把伴奏导出来?
真心建议就是别做测试哈哈哈
要改 ocr 的参数,改为 ch
对资源要求高的一律没啥好看的,大公司的玩具。什么时候能做到单靠 CPU 就能跑起来的 自然语言测试驱动才有真正具有普适性。
只是训练成本降下来了。。部署的成本可一点不低啊
1.用的 OmniParser 的
2.可以直接调代码
没多的显卡资源可以靠时间怼,最核心的问题还是没有大量人工标记好的数据源。如果能找到开源的标记数据源,训练一个专项模型(例如专门识别图标的)其实没有想象中那么难
如果只是想简单吹牛逼而不考虑后续,建议直接注册个 DeepSeek,然后用 web 自动化开个无头模式挂后台网页跑。直接调 API 都要钱
如果打算本地部署,不要用 deepseek,考虑用微软这个https://github.com/microsoft/OmniParser 加上找一个自然语言开源模型。DeepSeek 的小模型很蠢,大一点的对配置要求非常非常高。
不现实,你可以看我发过的一篇调研。1.在线模型,token 很贵,拿来跑自动化耗不起。2.本地模型,对显卡要求太高,小公司负担不起。
总结,没钱别玩
2/13 更新:已上传服务镜像至 dokcer hub,可直接下载镜像来启动服务
搞技术的,证没啥用。
有的,我文中也有提到。yolo 的目标识别存在两个问题 1.无法完全捕获所有图标(存在遗漏)2.无法准确所有图标类型。我的解决的方案是用 openCV 的轮廓查找,枚举出所有的窗口,然后再结合 yolo 进行查重和筛选,基本能抓取页面上所有可点击的控件了。但类型识别这个,暂时没有好方法。要么调用图像生成描述的 AI(慢),要么就是能找到一个含有大量数据的 icon 库
加了
是的,能做到寓意化是终极目标,但这需要比较优质的训练模型的数据集。有时间会考虑做一个预训练模型开源出来,方便大家用自己产品做训练