今年以来大模型的发展可谓日新月异,“每天” 都有新的大模型出现,“每天” 也都有新的功能出现。 chatGPT 最初使用下来很惊艳,现在 4 的账号被封了两个之后只能用 3.5 了,感觉一些问题响应也一般。中文的 “文心一言” 和百川之类的,试用下来,感觉跟最开始出来也有了提升,有些问题也回答的挺好的。 包括公司内也采购了大模型实现一些场景,我在想,针对这些大模型或者大模型实现的功能,有没有一套好的方法或者比较完整的指引来进行测评或者测试它的能力呢?