本文转载自「乐百一家」,如果你关注语音模型和算法,这一个不容错过的宝藏且高产的公众号。
最近两年开源数据越来越多,大家也意识到,无论是语音识别、语音合成,还是情感分析、多模态交互,高质量的数据集都是技术进步的基石。今天为大家整理了 2024-2025 年最新发布的开源语音数据集,涵盖中文、英文、多语种等多个方向,每个数据集都附上了直接下载链接,方便大家学习和研究。另本文遗漏部分,欢迎大家在文末评论,后续会动态更新整理到一起,做成专栏的形式,方便大家查阅。
发布时间: 2024 年 8 月
发布机构: Amphion 团队
数据规模:101,000 小时
支持语言: 中文 (49,922h)、英语 (46,828h)、德语、法语、日语、韩语
特色亮点:
目前最大的多语种语音生成数据集
涵盖脱口秀、访谈、辩论、体育解说等多种场景
提供 Emilia-pipe 预处理流水线
下载链接:
Hugging Face: https://huggingface.co/datasets/Amphion/Emilia
发布时间: 2025 年 4 月
发布机构: 智源研究院 + 南开大学 HLT Lab
ChildMandarin(儿童语音):
规模: 41.25 小时,397 名 3-5 岁儿童
地域: 覆盖 22 个省市
特色: 填补低幼儿童语音数据空白
SeniorTalk(老年人语音):
规模: 55.53 小时,202 位 75 岁以上老人
地域: 覆盖 16 个省市
特色: 世界首个中文超高龄老年人对话数据集
智源社区:https://hub.baai.ac.cn/view/44729
儿童数据下载地址:https://huggingface.co/datasets/BAAI/ChildMandarin
老人数据下载地址:https://huggingface.co/datasets/BAAI/SeniorTalk
发布时间: 2025 年 5 月
发布机构: 智源研究院 + 南开大学
数据规模: 100 小时,36,208 条语音片段,207 位讲者
核心创新:
首个「唇读信息 + 幻灯片语义信息」结合的中文数据集
包含唇读视频 (720P) + 幻灯片视频 (1080P)
覆盖 9 大热门领域
性能提升:
单模态:CER 3.99% → 多模态融合:CER 2.58%
相对提升 35.3%
智源社区:https://kiri0824.GitHub.io/Chinese-LiPS/
发布时间: 2024 年 6 月
合作机构: 上海交大 X-LANCE、SpeechColab 等
数据规模: 30,000 小时 (raw),22,000 小时 (refined)
语言分布:
泰语: 10,000 小时
印尼语: 6,000 小时
越南语: 6,000 小时
特色功能:
涵盖 19 个主题领域
提供自动化构建流程
模型性能达到商业服务水平
HuggingFace 下载地址: https://huggingface.co/datasets/speechcolab/gigaspeech2
发布时间: 2025 年
合作机构: 西北工业大学 ASLP Lab、中国电信、希尔贝壳、Wenet 开源社区、香港科技大学
数据规模:21,800 小时,全球最大粤语语音数据集
数据特色:
覆盖 10 个领域: 讲故事、娱乐、戏剧、文化、vlog、评论、教育、播客、新闻等
多维标注: ASR 转录、文本置信度、说话人身份、年龄、性别、语音质量评分、字符级时间戳
质量分级: 强标签 (confidence>0.9)、中等标签 (0.8-0.9)、弱标签 (0.6-0.8)
技术亮点:
专门筛选 12,000 小时高质量语音用于 TTS (DNSMOS>2.5 且 SNR>25dB)
提供 WS Yue-Eval 评测基准
支持中英混杂 (code-switching) 场景
下载地址:
GitHub:https://GitHub.com/ASLP-lab/WenetSpeech-Yue
ASR 模型:https://GitHub.com/ASLP-lab/ws-yue-asr
TTS 模型:https://GitHub.com/ASLP-lab/ws-yue-tts
合作机构: 西北工业大学 ASLP Lab、希尔贝壳、中国电信人工智能研究院、南京大学、Wenet 开源社区
数据规模:10,000 小时,首个大规模川渝方言语音语料库
覆盖 9 个领域: 满足 1.2 亿母语使用者需求
多维标注: ASR 转录、文本置信度、说话人情感、年龄、性别、语音质量评分
应用价值: 填补川渝方言数据空白,推动方言保护
评测基准:
WSC-Eval-ASR: 人工标注集,评测不同场景声学条件下的 ASR 性能
WSC-Eval-TTS: 简单和困难子集,用于标准测试与泛化能力测试
技术价值:
基于该数据集训练的模型性能超越 SOTA 系统
与商业系统相媲美
推动川渝方言语音技术发展
下载地址:
GitHub:https://GitHub.com/ASLP-lab/WenetSpeech-Chuan
ASR 模型:https://GitHub.com/ASLP-lab/ws-chuan-asr
TTS 模型:https://GitHub.com/ASLP-lab/ws-chuan-tts
发布时间: 2024 年
发布机构: 北京深度逻辑智能科技
框架组成: 三大核心组件
LLaSO-Align(对齐数据集):
1200 万语音 - 文本对齐样本
建立语音表示与文本语义空间对齐
LLaSO-Instruct(指令数据集):
1350 万多任务指令样本
涵盖 20 项任务,支持三种交互模式
LLaSO-Eval(评估基准):
15,044 个测试样本
标准化评估协议
下载地址:
GitHub:https://GitHub.com/EIT-NLP/LLaSO
数据规模:约 1100 小时
数据类型: 真实 + 合成数据
数据集组成:
完整状态: 580 小时
不完整状态: 532 小时
回应状态: 10 小时
等待状态: 23 小时
应用场景: 全双工对话系统的轮次检测
下载链接:
数据集:https://www.modelscope.cn/datasets/ASLP-lab/Easy-Turn-Trainset
发布时间: 2025 年 2 月
数据规模:104 小时,200 位说话人
语言类型: 普通话 - 英语切换
最大的公开自发式中英文切换对话数据集
包含完整对话录音和转录
捕捉自然的切换现象
下载链接:
arXiv 论文:https://arxiv.org/pdf/2502.18913
GitHub:https://huggingface.co/datasets/BAAI/CS-Dialogue
发布时间: 2025 年 11 月(最新发布)
发布机构: Meta AI FAIR 团队
数据规模: 350 种低资源语言的大规模转录数据集
支持语言:1600 + 种语言,其中 500 种首次被 AI 覆盖
技术突破:
78% 的语言字符错误率低于 10%
95% 有 10 小时以上训练数据的语言达到实用标准
36% 低资源语言(<10 小时数据)也达到实用水平
创新特性:
少样本学习:仅需几段音频 + 文本即可扩展新语言
理论扩展能力:可扩展到 5400 + 种语言
模型规模:3 亿参数(轻量级)到 70 亿参数(高精度)
下载地址:
GitHub:https://GitHub.com/facebookresearch/omnilingual-asr
Hugging Face 数据集:https://huggingface.co/datasets/facebook/omnilingual-asr-corpus
在线演示:https://aidemos.atmeta.com/omnilingualasr/language-globe
转录工具:https://huggingface.co/spaces/facebook/omniasr-transcriptions
更新频率: 每季度更新
最新版本: 22.0(2025 年 6 月)
数据规模: 86.53GB,3,718 小时录制
支持语言:137 种语言
参与人数: 97,925 人
2024-2025 年发展:
从 80.8GB 增长到 86.53GB
语言覆盖从 100 + 扩展到 137 种
参与人数增长 7,000+
下载地址:
Mozilla Data Collective: https://datacollective.mozillafoundation.org/datasets
发布会议: Interspeech 2025
数据规模: 36.7k 小时(22.05kHz),31.7k 小时(44.1kHz)
语言: 英语
技术特色:
专注高带宽语音合成
详细元数据标注
支持零样本 TTS 训练
下载地址:
ISCA Archive:https://huggingface.co/datasets/nvidia/hifitts-2
发布时间: 2025 年 1 月
发布机构: NIH Bridge2AI 计划
数据规模: 12,523 条录音,306 位参与者
疾病覆盖:
语音障碍
神经系统疾病(帕金森、ALS、中风)
心境障碍(抑郁症、焦虑症)
呼吸系统疾病
下载地址:
PhysioNet(需申请):HTTPS://physionet.org/content/b2ai-voice/1.1/
数据规模: 16 小时标注医疗语音 + 2200 小时无标注语音
语言: 越南语
覆盖所有 ICD-10 疾病组
包含越南所有口音
提供预训练和微调模型
下载地址:
GitHub:https://GitHub.com/leduckhai/multimed
数据规模: 3 小时,9 位演员
情感类别: 愤怒、恐惧、快乐、悲伤、惊讶、中性
下载地址:
Hugging Face:https://huggingface.co/datasets/amu-cai/nEMO
arXiv:https://arxiv.org/abs/2404.06292
超大规模(10k 小时 +): Emilia(101k)、WenetSpeech-Yue(21.8k)、GigaSpeech 2(30k)、WenetSpeech-Chuan(10k)
中等规模(100-1000 小时): Chinese-LiPS(100)、Easy-Turn(1100)
小规模(10-100 小时): ChildMandarin(41)、SeniorTalk(55)、CS-Dialogue(104)
单语言: 中文、英语、波兰语、越南语等
多语言: Meta Omnilingual(1600+)、Common Voice(137)、Emilia(6)
方言: 粤语 (WenetSpeech-Yue)、川渝方言 (WenetSpeech-Chuan)
语音识别: 最多,包含多个大规模数据集
语音合成: 注重情感表达和多风格
医疗健康: 新兴重要领域
情感分析: 多语言覆盖
多模态: 结合视觉信息
方言保护: 粤语、川渝方言等
规模突破: 10 万小时级数据集成为现实
质量提升: 多模态、精细化标注成为趋势
语言覆盖: 从主流语言扩展到 1600 + 种语言
方言保护: 粤语、川渝方言等地方语言得到重视
领域深化: 医疗、教育、娱乐等垂直领域快速发展
技术创新: 自动化构建、合成数据等新技术应用
这些开源数据集为语音技术的发展提供了强有力的支撑,相信在这些优质数据的推动下,语音技术将在更多领域得到广泛应用。
💡 温馨提示: 所有数据集请按照其许可证要求合理使用,支持开源社区的发展!


阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么
