求问:AI 问答类测试应该怎么进行测试,最近公司成立 AI 项目组,想问下如何进行 AI 场景类问答测试,求大佬们告知
同一个问题问文心一言、ds、gpt 类,然后回来对比
AI 的不确定性、无法确定的预期,我也心怀好奇。菜鸟坐等大佬!
噗~ 说出来比较残忍。。。大部分的人工智能测试都在做数据清洗,测试的目的是缩小预期结果与实际结果之间的差距,确保人工智能系统在实际应用中能够稳定运行并满足需求。数据量越大结果越精确所以工作任务繁重且枯燥且没有技术含量
基本的功能 知识库资料的读取和分析能力 上下文联动 语意的识别是否精准 用户情绪识别 多语言的兼容 敏感内容的处理(例如色情暴力、政治、宗教) 遇到边界情况的兜底处理,例如遇到 AI 实在给不出答案的问题 接口安全(尝试过利用 AI 完成 XSS 注入) 一个问题有多个不同的答案时,优先级处理 实际场景中,对问题的解决能力(把自己当成用户去体验,最好拉上产品或者客服)
你们是准备做 AI,还是根据某个 AI 模型训练问答机器人?
根据某个 AI 模型训练问答机器人
问答机器人可以整理一下之前用户的反馈和问的问题当做数据进行测试,这个应该也是有个产品文档和分类的吧,按照需求来就行,还是要针对业务来测,我们不知道你们业务其实没有好的建议
把机器人的知识库按类型进行分类,再把预设分类的相关问题或关键字放到里面,给 AI。然后再准备相关类型问题或收集使用中的问题通过接口自动化提问,由 AI 判断是否返回了正确的类型。看命中率多少。然后再查原因,慢慢丰富和优化分类和知识库