Dingo：面向AI时代的全方位数据质量评估工具 · 测试之家

返回项目列表

Dingo：面向AI时代的全方位数据质量评估工具

授权协议:

开发语言:

操作系统:

小c学AI · 2025年07月11日 · 11848 次阅读 · 0 条评论

项目主页项目文档 1 个赞

【原创】全面 AI 数据质量评估指标文档——包含 50+ 种评估指标及学术来源

我们刚刚发布了可能是目前最全面的 AI 数据质量评估指标文档，涵盖了从预训练数据评估到多模态评估的各个方面。

内容包含：

50+ 种针对文本、图像及多模态数据的评估指标
每个指标均附学术文献引用（RedPajama、CLIP、NIMA 等）
基于规则和基于大语言模型（LLM）的评估方法
实际使用示例和 API 文档

核心分类：

文本质量：完整性、流畅度、相关性、有效性
图像质量：清晰度、相似性、有效性
安全性：政治敏感性、违禁内容、有害信息
分类：主题归类、内容分类

特别适用于：

从事模型训练的数据科学家
需要标准化评估框架的研究人员
任何涉及大规模数据质量评估的从业者

文档包含详细的学术参考文献和实际实现示例，全部开源且可直接使用。

指标链接： https://github.com/MigoXLab/dingo/blob/dev/docs/metrics.md

评论列表

暂无评论.