如果我的应用上面集成了一个 AI 功能,那我应该如何来测试呢?
比如:我通过 AI 集成了一个智能 summary 对话的功能,那我要怎么来测试确保这个功能就是我预期的呢?
我得理解: AI 每个小方向都会有几个相对客观的评价指标来评价模型的好坏。 但是这些指标你想转化成没基础的人也能分析也能评价得标准,基本上都很痛苦。 你说保证你的预期,啥是你的预期呢?
对标一些成熟的 AI 应用,从内容上看的话,对标 chatgpt?
先写测试用例,把要验证点、执行步骤、预期结果都写出来。在进行输入和输出的验证。
那这和普通功能测试不是完全没区别了吗
感觉也是一种方法
就是数据集的准备很难,训练数据集,验证数据集,测试数据集
这不是算法的活吗 ,算法的应用不太好衡量,验收标准我这都是业务方定的,能满足业务方就行了