语音数据集

专业的多模态语音数据资源库

7
数据集
12.5TB
总容量
275.0K
样本数
25
语言
6
公开数据集
3
推荐数据集
8
应用场景
95%
数据质量
排序:
许可证:
数据规模:
质量等级:

推荐数据集

公开
推荐
多模态语音数据库中文

中文多模态语音数据库 v2.0

包含普通话、粤语、闽南语的多模态语音数据,涵盖音频、视频、电子腭位等多种模态

2.5TB50.0K 样本
4.8
CC BY 4.0
2024-01-15
公开
推荐
音频原始数据中文

高保真中文语音数据库

48kHz采样率的高保真中文语音数据,包含多种场景和说话人

800GB20.0K 样本
4.9
CC BY-SA 4.0
2024-01-12
公开
推荐
音频原始数据多语言

多语言语音识别数据库

支持20种主要语言的语音识别训练数据

3.2TB100.0K 样本
4.7
Apache 2.0
2024-01-08

所有数据集

(7 个)
公开
多模态语音数据库中文

中文多模态语音数据库 v2.0

包含普通话、粤语、闽南语的多模态语音数据,涵盖音频、视频、电子腭位等多种模态

2.5TB50.0K 样本
4.8
公开
音频原始数据中文

高保真中文语音数据库

48kHz采样率的高保真中文语音数据,包含多种场景和说话人

800GB20.0K 样本
4.9
公开
多模态语音数据库英语

英语多模态语音数据库

美式英语和英式英语的多模态语音数据,包含唇形同步和面部表情数据

1.8TB35.0K 样本
4.6
公开
音频原始数据多语言

多语言语音识别数据库

支持20种主要语言的语音识别训练数据

3.2TB100.0K 样本
4.7
受限
医学语音数据中文

嗓音障碍诊断数据库

包含正常嗓音和各类嗓音障碍的对比数据,用于医学诊断研究

500GB15.0K 样本
4.5
公开
语言覆盖体系中文方言

中国八大方言区语音数据库

涵盖中国八大方言区的代表性方言语音数据

1.2TB30.0K 样本
4.6
公开
语言覆盖体系少数民族语言

少数民族语言语音数据库

包含30种主要少数民族语言的语音数据

900GB25.0K 样本
4.4

数据质量保证

所有数据集都经过严格的质量检查,包括音频质量评估、标注准确性验证和格式标准化处理。

质量评分: 95%+人工审核: 100%

快速访问

支持批量下载、断点续传和API接口访问,提供多种数据格式和采样率选择。

下载速度: 100MB/sAPI支持: RESTful

完整文档

每个数据集都提供详细的使用文档、标注说明和示例代码,帮助研究人员快速上手。

文档完整度: 100%示例代码: 提供