AI测试 大模型的测评或者测试怎么进行?

summer2014i · 2023年11月14日 · 最后由 孙高飞 回复于 2023年11月27日 · 7389 次阅读

今年以来大模型的发展可谓日新月异,“每天” 都有新的大模型出现,“每天” 也都有新的功能出现。
chatGPT 最初使用下来很惊艳,现在 4 的账号被封了两个之后只能用 3.5 了,感觉一些问题响应也一般。中文的 “文心一言” 和百川之类的,试用下来,感觉跟最开始出来也有了提升,有些问题也回答的挺好的。
包括公司内也采购了大模型实现一些场景,我在想,针对这些大模型或者大模型实现的功能,有没有一套好的方法或者比较完整的指引来进行测评或者测试它的能力呢?

最佳回复
共收到 10 条回复 时间 点赞
孙高飞 回复

学习了 感谢分享

孙高飞 回复

高飞大佬 可以专门出一期发一下看看,感觉会很不错

沫沫sir 回复

好像可以有哎,我想想要不要写个帖子

孙高飞 回复

不要想了,直接开码

孙高飞 回复

大佬牛皮,mark 了

孙高飞 回复

赞,期待专题的分享!

期待分享,牛

LZ,你们是使用 LangChain+LLM 方案么?如果是这种方案的话,我觉得可以从任务规划、插件选择等角度验证模型能力。

等这周从上海回来, 下周看看总结写一下。 最近太忙了, 都没什么功夫

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册