Dingo:面向AI时代的全方位数据质量评估工具

小c学AI · 2025年07月11日 · 41 次阅读 · 0 条评论

【原创】全面 AI 数据质量评估指标文档——包含 50+ 种评估指标及学术来源

我们刚刚发布了可能是目前最全面的 AI 数据质量评估指标文档,涵盖了从预训练数据评估到多模态评估的各个方面。

内容包含:

  • 50+ 种针对文本、图像及多模态数据的评估指标
  • 每个指标均附学术文献引用(RedPajama、CLIP、NIMA 等)
  • 基于规则和基于大语言模型(LLM)的评估方法
  • 实际使用示例和 API 文档

核心分类:

  • 文本质量:完整性、流畅度、相关性、有效性
  • 图像质量:清晰度、相似性、有效性
  • 安全性:政治敏感性、违禁内容、有害信息
  • 分类:主题归类、内容分类

特别适用于:

  • 从事模型训练的数据科学家
  • 需要标准化评估框架的研究人员
  • 任何涉及大规模数据质量评估的从业者

文档包含详细的学术参考文献和实际实现示例,全部开源且可直接使用。

指标链接: https://github.com/MigoXLab/dingo/blob/dev/docs/metrics.md

评论列表
暂无评论.