大部分的 对话场景,都会引入 知识库 RAG,评估该类模型从召回率和准确率两个方向,但是准确率需要人工校验很耗时,即使让 GPT4 当裁判。还是需要人工校验,有什么好的办法自动化嘛
模型上线后,数据的准确性判断很耗时,需要对几天的数据进行回测
4:1 的研发测试比例,如果一周一个版本,做业务测试基本上都是饱和的(包括回归测试),除非有外包
不是专职的测试开发,面试官更看重的你测试经验,有没有负责过大型项目,对一个大型模块,你怎么测的,会自动化只是加分项,比较专职测开的岗位 还是比较少
急招
顶一下,大量招聘
原来大神也是在造轮子,真理解不了测试平台的价值在哪里,又有多少人愿意在 web 上去录测试用例, IDE 写测试用例代码更快
现在的现象是 很多人都想着去做测试平台什么的,到底团队需要什么,应该做成什么样子,能不能提高效率 这些都不考虑。很多做测试平台仅仅是为了学习
跟着产品项目走,如果一个团队里面 分专门测接口,专门有人测页面,到时候会造成测页面 简单重复的事情没人愿意干了,很难管理
专职的自动化工程师,对于一般的企业很难养,放下哪高高在上的自动化,也许会好点