AI测试 2024 年-2025 年开源语音数据汇总:数十万小时多语种、儿童老人语音、医疗健康等(截止 2025 年 11 月)

RTE开发者社区 · 2025年11月27日 · 83 次阅读

本文转载自「乐百一家」,如果你关注语音模型和算法,这一个不容错过的宝藏且高产的公众号。


最近两年开源数据越来越多,大家也意识到,无论是语音识别、语音合成,还是情感分析、多模态交互,高质量的数据集都是技术进步的基石。今天为大家整理了 2024-2025 年最新发布的开源语音数据集,涵盖中文、英文、多语种等多个方向,每个数据集都附上了直接下载链接,方便大家学习和研究。另本文遗漏部分,欢迎大家在文末评论,后续会动态更新整理到一起,做成专栏的形式,方便大家查阅。

01 国内开源语音数据集

🚀 Emilia - 10 万小时多语种语音数据集

发布时间: 2024 年 8 月

发布机构: Amphion 团队

数据规模:101,000 小时

支持语言: 中文 (49,922h)、英语 (46,828h)、德语、法语、日语、韩语

特色亮点:

  • 目前最大的多语种语音生成数据集

  • 涵盖脱口秀、访谈、辩论、体育解说等多种场景

  • 提供 Emilia-pipe 预处理流水线

下载链接:

Hugging Face: https://huggingface.co/datasets/Amphion/Emilia

👶👴 ChildMandarin & SeniorTalk - 特殊人群语音数据集

发布时间: 2025 年 4 月

发布机构: 智源研究院 + 南开大学 HLT Lab

ChildMandarin(儿童语音):

规模: 41.25 小时,397 名 3-5 岁儿童

地域: 覆盖 22 个省市

特色: 填补低幼儿童语音数据空白

SeniorTalk(老年人语音):

规模: 55.53 小时,202 位 75 岁以上老人

地域: 覆盖 16 个省市

特色: 世界首个中文超高龄老年人对话数据集

智源社区:https://hub.baai.ac.cn/view/44729

儿童数据下载地址:https://huggingface.co/datasets/BAAI/ChildMandarin
老人数据下载地址:https://huggingface.co/datasets/BAAI/SeniorTalk

🎭 Chinese-LiPS - 中文多模态语音识别数据集

发布时间: 2025 年 5 月

发布机构: 智源研究院 + 南开大学

数据规模: 100 小时,36,208 条语音片段,207 位讲者

核心创新:

  • 首个「唇读信息 + 幻灯片语义信息」结合的中文数据集

  • 包含唇读视频 (720P) + 幻灯片视频 (1080P)

  • 覆盖 9 大热门领域

性能提升:

单模态:CER 3.99% → 多模态融合:CER 2.58%

相对提升 35.3%

智源社区:https://kiri0824.GitHub.io/Chinese-LiPS/

🌏GigaSpeech 2 - 东南亚多语种数据集

发布时间: 2024 年 6 月

合作机构: 上海交大 X-LANCE、SpeechColab 等

数据规模: 30,000 小时 (raw),22,000 小时 (refined)

语言分布:

  • 泰语: 10,000 小时

  • 印尼语: 6,000 小时

  • 越南语: 6,000 小时

特色功能:

  • 涵盖 19 个主题领域

  • 提供自动化构建流程

  • 模型性能达到商业服务水平

HuggingFace 下载地址: https://huggingface.co/datasets/speechcolab/gigaspeech2

🇭🇰 WenetSpeech-Yue - 2 万小时粤语语音数据集

发布时间: 2025 年

合作机构: 西北工业大学 ASLP Lab、中国电信、希尔贝壳、Wenet 开源社区、香港科技大学

数据规模:21,800 小时,全球最大粤语语音数据集

数据特色:

  • 覆盖 10 个领域: 讲故事、娱乐、戏剧、文化、vlog、评论、教育、播客、新闻等

  • 多维标注: ASR 转录、文本置信度、说话人身份、年龄、性别、语音质量评分、字符级时间戳

  • 质量分级: 强标签 (confidence>0.9)、中等标签 (0.8-0.9)、弱标签 (0.6-0.8)

技术亮点:

  • 专门筛选 12,000 小时高质量语音用于 TTS (DNSMOS>2.5 且 SNR>25dB)

  • 提供 WS Yue-Eval 评测基准

  • 支持中英混杂 (code-switching) 场景

下载地址:

GitHub:https://GitHub.com/ASLP-lab/WenetSpeech-Yue
ASR 模型:https://GitHub.com/ASLP-lab/ws-yue-asr
TTS 模型:https://GitHub.com/ASLP-lab/ws-yue-tts

🇨🇳 WenetSpeech-Chuan - 1 万小时川渝方言数据集

合作机构: 西北工业大学 ASLP Lab、希尔贝壳、中国电信人工智能研究院、南京大学、Wenet 开源社区

数据规模:10,000 小时,首个大规模川渝方言语音语料库

覆盖 9 个领域: 满足 1.2 亿母语使用者需求

多维标注: ASR 转录、文本置信度、说话人情感、年龄、性别、语音质量评分

应用价值: 填补川渝方言数据空白,推动方言保护

评测基准:

  • WSC-Eval-ASR: 人工标注集,评测不同场景声学条件下的 ASR 性能

  • WSC-Eval-TTS: 简单和困难子集,用于标准测试与泛化能力测试

技术价值:

  • 基于该数据集训练的模型性能超越 SOTA 系统

  • 与商业系统相媲美

  • 推动川渝方言语音技术发展

下载地址:

GitHub:https://GitHub.com/ASLP-lab/WenetSpeech-Chuan
ASR 模型:https://GitHub.com/ASLP-lab/ws-chuan-asr
TTS 模型:https://GitHub.com/ASLP-lab/ws-chuan-tts

🧠** LLaSO - 开源语音大模型框架 **

发布时间: 2024 年

发布机构: 北京深度逻辑智能科技

框架组成: 三大核心组件

LLaSO-Align(对齐数据集):

  • 1200 万语音 - 文本对齐样本

  • 建立语音表示与文本语义空间对齐

LLaSO-Instruct(指令数据集):

  • 1350 万多任务指令样本

  • 涵盖 20 项任务,支持三种交互模式

LLaSO-Eval(评估基准):

  • 15,044 个测试样本

  • 标准化评估协议

下载地址:

GitHub:https://GitHub.com/EIT-NLP/LLaSO

🔄 Easy-Turn-Trainset - 对话轮次检测数据集

数据规模:约 1100 小时

数据类型: 真实 + 合成数据

数据集组成:

  • 完整状态: 580 小时

  • 不完整状态: 532 小时

  • 回应状态: 10 小时

  • 等待状态: 23 小时

应用场景: 全双工对话系统的轮次检测

下载链接:

数据集:https://www.modelscope.cn/datasets/ASLP-lab/Easy-Turn-Trainset

🌐** CS-Dialogue - 中英文切换数据集 **

发布时间: 2025 年 2 月

数据规模:104 小时,200 位说话人

语言类型: 普通话 - 英语切换

最大的公开自发式中英文切换对话数据集

包含完整对话录音和转录

捕捉自然的切换现象

下载链接:

arXiv 论文:https://arxiv.org/pdf/2502.18913
GitHub:https://huggingface.co/datasets/BAAI/CS-Dialogue

02 国际开源语音数据集

🌐Meta Omnilingual ASR Corpus - 1600 + 语言语音数据集

发布时间: 2025 年 11 月(最新发布)

发布机构: Meta AI FAIR 团队

数据规模: 350 种低资源语言的大规模转录数据集

支持语言:1600 + 种语言,其中 500 种首次被 AI 覆盖

技术突破:

  • 78% 的语言字符错误率低于 10%

  • 95% 有 10 小时以上训练数据的语言达到实用标准

  • 36% 低资源语言(<10 小时数据)也达到实用水平

创新特性:

  • 少样本学习:仅需几段音频 + 文本即可扩展新语言

  • 理论扩展能力:可扩展到 5400 + 种语言

  • 模型规模:3 亿参数(轻量级)到 70 亿参数(高精度)

下载地址:

GitHub:https://GitHub.com/facebookresearch/omnilingual-asr
Hugging Face 数据集:https://huggingface.co/datasets/facebook/omnilingual-asr-corpus
在线演示:https://aidemos.atmeta.com/omnilingualasr/language-globe
转录工具:https://huggingface.co/spaces/facebook/omniasr-transcriptions

🎯Common Voice - 最大众包语音数据集

更新频率: 每季度更新

最新版本: 22.0(2025 年 6 月)

数据规模: 86.53GB,3,718 小时录制

支持语言:137 种语言

参与人数: 97,925 人

2024-2025 年发展:

  • 从 80.8GB 增长到 86.53GB

  • 语言覆盖从 100 + 扩展到 137 种

  • 参与人数增长 7,000+

下载地址:

Mozilla Data Collective: https://datacollective.mozillafoundation.org/datasets

🎵 HiFiTTS-2 - 高带宽语音合成数据集

发布会议: Interspeech 2025

数据规模: 36.7k 小时(22.05kHz),31.7k 小时(44.1kHz)

语言: 英语

技术特色:

  • 专注高带宽语音合成

  • 详细元数据标注

  • 支持零样本 TTS 训练

下载地址:

ISCA Archive:https://huggingface.co/datasets/nvidia/hifitts-2

🏥Bridge2AI-Voice - 医疗语音数据集

发布时间: 2025 年 1 月

发布机构: NIH Bridge2AI 计划

数据规模: 12,523 条录音,306 位参与者

疾病覆盖:

  • 语音障碍

  • 神经系统疾病(帕金森、ALS、中风)

  • 心境障碍(抑郁症、焦虑症)

  • 呼吸系统疾病

下载地址:

PhysioNet(需申请):HTTPS://physionet.org/content/b2ai-voice/1.1/

💊VietMed - 越南医疗语音数据集

数据规模: 16 小时标注医疗语音 + 2200 小时无标注语音

语言: 越南语

覆盖所有 ICD-10 疾病组

包含越南所有口音

提供预训练和微调模型

下载地址:

GitHub:https://GitHub.com/leduckhai/multimed

😊 nEMO - 波兰情感语音数据集

数据规模: 3 小时,9 位演员

情感类别: 愤怒、恐惧、快乐、悲伤、惊讶、中性

下载地址:

Hugging Face:https://huggingface.co/datasets/amu-cai/nEMO

arXiv:https://arxiv.org/abs/2404.06292

03 数据集统计分析

按规模分布

  • 超大规模(10k 小时 +): Emilia(101k)、WenetSpeech-Yue(21.8k)、GigaSpeech 2(30k)、WenetSpeech-Chuan(10k)

  • 中等规模(100-1000 小时): Chinese-LiPS(100)、Easy-Turn(1100)

  • 小规模(10-100 小时): ChildMandarin(41)、SeniorTalk(55)、CS-Dialogue(104)

按语言覆盖

  • 单语言: 中文、英语、波兰语、越南语等

  • 多语言: Meta Omnilingual(1600+)、Common Voice(137)、Emilia(6)

  • 方言: 粤语 (WenetSpeech-Yue)、川渝方言 (WenetSpeech-Chuan)

按应用领域

  • 语音识别: 最多,包含多个大规模数据集

  • 语音合成: 注重情感表达和多风格

  • 医疗健康: 新兴重要领域

  • 情感分析: 多语言覆盖

  • 多模态: 结合视觉信息

  • 方言保护: 粤语、川渝方言等

04 使用建议

  • 规模突破: 10 万小时级数据集成为现实

  • 质量提升: 多模态、精细化标注成为趋势

  • 语言覆盖: 从主流语言扩展到 1600 + 种语言

  • 方言保护: 粤语、川渝方言等地方语言得到重视

  • 领域深化: 医疗、教育、娱乐等垂直领域快速发展

  • 技术创新: 自动化构建、合成数据等新技术应用

这些开源数据集为语音技术的发展提供了强有力的支撑,相信在这些优质数据的推动下,语音技术将在更多领域得到广泛应用。

💡 温馨提示: 所有数据集请按照其许可证要求合理使用,支持开源社区的发展!

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么


暫無回覆。
需要 登录 後方可回應,如果你還沒有帳號按這裡 注册