今年以来大模型的发展可谓日新月异,“每天” 都有新的大模型出现,“每天” 也都有新的功能出现。
chatGPT 最初使用下来很惊艳,现在 4 的账号被封了两个之后只能用 3.5 了,感觉一些问题响应也一般。中文的 “文心一言” 和百川之类的,试用下来,感觉跟最开始出来也有了提升,有些问题也回答的挺好的。
包括公司内也采购了大模型实现一些场景,我在想,针对这些大模型或者大模型实现的功能,有没有一套好的方法或者比较完整的指引来进行测评或者测试它的能力呢?
NLP 领域的模型评估方法向来都是繁杂和枯燥的, 因为它没有什么可以炫技的地方, 只能一点点按部就班的收集数据并进行评估。由于自然语言的复杂和多样性,这也导致了我们需要
评估的内容非常多。 所以需要建立起一套或多套的问卷来进行评估。 当然也可以用行业公开的数据集和指标。 比如在语言安全方面(内容审核)可以使用 Safety-Prompts,
中文安全 prompts,用于评测和提升大模型的安全性,将模型的输出与人类的价值观对齐。
也可以使用中文通用大模型评测标准 SuperCLUE,23 年 5 月在国内刚推出, 它主要回答的问题是:中文大模型的效果情况,包括但不限于"这些模型不同任务的效果情况"、"相较于国际上的代表性模型做到了什么程度"、 "这些模型与人类的效果对比如何"。
该标准可通过多个层面,考验市面上主流的中文 GPT 大模型的能力。一是基础能力,包括常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项能力;二是专业能力,包括中学、大学与专业考试,涵盖从数学、物理、地理到社会科学等 50 多项能力;三是中文特性能力,针对有中文特点的任务,包括中文成语、诗歌、文学、字形等 10 项能力。
或者 C-Eval:
NLP 领域的模型评估方法向来都是繁杂和枯燥的, 因为它没有什么可以炫技的地方, 只能一点点按部就班的收集数据并进行评估。由于自然语言的复杂和多样性,这也导致了我们需要
评估的内容非常多。 所以需要建立起一套或多套的问卷来进行评估。 当然也可以用行业公开的数据集和指标。 比如在语言安全方面(内容审核)可以使用 Safety-Prompts,
中文安全 prompts,用于评测和提升大模型的安全性,将模型的输出与人类的价值观对齐。
也可以使用中文通用大模型评测标准 SuperCLUE,23 年 5 月在国内刚推出, 它主要回答的问题是:中文大模型的效果情况,包括但不限于"这些模型不同任务的效果情况"、"相较于国际上的代表性模型做到了什么程度"、 "这些模型与人类的效果对比如何"。
该标准可通过多个层面,考验市面上主流的中文 GPT 大模型的能力。一是基础能力,包括常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项能力;二是专业能力,包括中学、大学与专业考试,涵盖从数学、物理、地理到社会科学等 50 多项能力;三是中文特性能力,针对有中文特点的任务,包括中文成语、诗歌、文学、字形等 10 项能力。
或者 C-Eval:
期待分享,牛
LZ,你们是使用 LangChain+LLM 方案么?如果是这种方案的话,我觉得可以从任务规划、插件选择等角度验证模型能力。