天池数据集

语音技术数据集汇总

描述

智能语音技术是人工智能应用最成熟的技术之一,并拥有交互的自然性,就是让智能设备听懂人类的语音。它是一门涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等多学科交叉的科学。智能语音解决的问题,就是使得设备可以用听觉感知周围的世界,用声音和人做最自然的交互,让操控和生活更为便捷。 本文包含如下语音技术方向数据集: 1)语音识别 2)说话人识别 3)语音合成 4)语种识别

数据列表

  • 数据名称上传日期大小删除下载
  • 语音技术数据集汇总.pdf2023-01-06313.65KB

文档

数据集简介

智能语音技术是人工智能应用最成熟的技术之一,并拥有交互的自然性,就是让智能设备听懂人类的语音。它是一门涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等多学科交叉的科学。智能语音解决的问题,就是使得设备可以用听觉感知周围的世界,用声音和人做最自然的交互,让操控和生活更为便捷。

本文包含如下语音技术方向数据集:

1)语音识别
2)说话人识别
3)语音合成
4)语种识别

数据集

1.语音识别

1)Common Voice

  • 简介:数据集中的每一条都包含了一组独立 MP3 录音及相应的文本文件。数据集所记录的 26,119 小时的录音中,有许多条数据同时包含了年龄、性别、口音等人口统计元数据,能够训练语音识别引擎提升其准确性。 该数据集当前有 17,127 小时,104 种语言的语音数据,但我们在持续添加更多的语音数据和更多的语言。

  • 下载链接:https://commonvoice.mozilla.org/zh-CN/datasets

2)CMU Wilderness Multilingual Speech Dataset

3)KeSpeech

  • 简介:该数据集涉及中国34个城市的27237名发言者记录的1542小时语音信号,语音包括标准普通话及其8个副方言。新数据集具有几个属性。首先,数据集提供了多个标签,包括内容转录、说话人身份和子标签,因此支持多种语音处理任务,如语音识别、说话人识别和子标签识别,以及其他高级技术,如多任务学习和条件学习。其次,一些文本样本是用标准普通话和特定的子词典并行记录的,允许新的应用,如子词典风格转换。第三,演讲者的数量比其他开源数据集大得多,这使得它适合于需要大量演讲者提供训练数据的任务。最后,语音信号被分为两个阶段记录,这为研究人类语音的时变特性提供了机会。

  • 下载链接:https://github.com/KeSpeech/KeSpeech

  • 论文:https://openreview.net/forum?id=b3Zoeq2sCLq

4)GigaSpeech

  • 简介:GigaSpeech是一个不断发展的多域英语语音识别语料库,具有10000小时的高质量标记音频,适合于监督训练,40000小时的总音频,适合半监督和无监督训练。首先从有声读物、播客和YouTube上收集了约40000小时的转录音频,涵盖阅读和自发说话风格,以及各种主题,如艺术、科学、体育等,并过滤出具有低质量转录的片段。

  • 下载链接:https://github.com/SpeechColab/GigaSpeech

  • 论文:https://arxiv.org/abs/2106.06909

5)MagicData-RAMC

  • 简介:MagicData-RAMC包括351组多轮普通话对话,时长共计180小时。每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。说话人信息包括了性别、年龄和地域,录制信息包括了环境和设备。

  • 下载链接:https://magichub.com/datasets/magicdata-ramc/

6)Free ST Chinese Mandarin Corpus

  • 简介: 参与者:855人 这个语料库是用手机在室内安静的环境中录制的。它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对保证转录精度。语料库包含:1音频文件;2转录;3元数据;

  • 下载链接:http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

2.说话人识别

1)CN-Celeb

  • 简介:这是一个非实验室环境收集的大规模说话人识别数据集。数据集由两个子集CN-Celeb1和CN-Celeb2组成。所有音频文件均编码为单通道,并以16位精度以16kHz采样。对于CN-Celeb1,它包含了来自1000位中国名人的130000多篇演讲,涵盖了现实世界中的11种不同体裁。对于CN-Celeb2,它包含了来自2000位中国名人的52万多篇演讲,涵盖了现实世界中的11种不同体裁。数据收集过程由清华大学语音和语言技术中心组织。

  • 下载链接:https://openslr.org/82/

2)MTASS

  • 简介:MTASS数据集包含55.6小时训练集、2.8小时开发集和2.8小时测试集。其中语音、音乐和噪音数据均为10秒的片段,采样率为16kHz。MTASS的语音数据由中文语音数据组成,训练集中包含100个说话人,开发集和测试集各包含50个说话人。MTASS的音乐数据由完整歌曲组成,训练集中包含70首歌曲,开发集和测试集各包含15首歌曲。对于每个音频片段,音乐和噪音都以随机-5到5dB信噪比加入到语音中。

  • 下载链接:https://github.com/Windstudent/Complex-MTASSNet

  • 论文:https://arxiv.org/pdf/2107.06467.pdf

3)VoxCeleb

  • 简介:VoxCeleb1和VoxCeleb2是没有重复交集的两个说话人识别数据集,它们均是通过一套基于计算机视觉技术开发的全自动程序从开源视频网站中捕捉而得到的。它们的区别在于规模大小的不同,而这是由于相关的全自动数据集采集程序的不同而造成的。

  • 下载链接:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

4)THCHS-30

  • 简介:THCHS30是由清华大学语音与语言技术中心发布的开源中文语音数据集。数据集包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。THCHS-30是在安静的办公室环境下,通过单个碳粒麦克风录取,采样频率16kHz,采样大小16bits。

  • 下载链接:http://www.openslr.org/18/

3.语音合成

1)Speechocean762

  • 简介:Speechocean762是一个开源语音语料库,专为发音评估而设计,由250名非母语人士的5000个英语发音组成,其中一半的人是儿童。五位专家在句子层面、单词层面和音素层面对每一句话进行了注释。本语料库可自由用于商业和非商业目的。为了避免主观偏见,每个专家在同一标准下独立得分。

  • 下载链接:https://www.openslr.org/101/

2)Hi-Fi Multi-Speaker English TTS Dataset

  • 简介:该数据集基于LibriVox的公共有声读物和古腾堡项目的文本。Hi-Fi TTS数据集包含来自10个扬声器的约291.6小时的语音,每个扬声器至少有17小时的采样频率为44.1kHz。

  • 下载链接:http://www.openslr.org/109/

  • 论文:https://arxiv.org/abs/2104.01497

3)RyanSpeech

  • 简介:RyanSpeech是一个用于自动文本到语音(TTS)系统研究的语音语料库。此数据集包含来自真实会话设置的文本材料。这些材料包含超过10个小时的专业男性配音演员以44.1 kHz录制的演讲。

  • 下载链接:http://mohammadmahoor.com/ryanspeech/

  • 论文:https://arxiv.org/abs/2106.08468

4)AISHELL-3 语音合成数据库

  • 简介:希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。(支持学术研究,未经允许禁止商用。)时长:85小时,参与人数:218人,采样率:44.1kHz,16bit

  • 下载链接:https://link.ailemon.net/?target=https://openslr.magicdatatech.com/resources/93/data_aishell3.tgz

4.语种识别

1)Speechocean762

  • 简介:Speechocean762是一个开源语音语料库,专为发音评估而设计,由250名非母语人士的5000个英语发音组成,其中一半的人是儿童。五位专家在句子层面、单词层面和音素层面对每一句话进行了注释。本语料库可自由用于商业和非商业目的。为了避免主观偏见,每个专家在同一标准下独立得分。

  • 下载链接:https://www.openslr.org/101/

致谢

本列表由Datawhale整理维护。

目录

数据集简介

数据集

1.语音识别

1)Common Voice

2)CMU Wilderness Multilingual Speech Dataset

3)KeSpeech

4)GigaSpeech

5)MagicData-RAMC

6)Free ST Chinese Mandarin Corpus

2.说话人识别

1)CN-Celeb

2)MTASS

3)VoxCeleb

4)THCHS-30

3.语音合成

1)Speechocean762

2)Hi-Fi Multi-Speaker English TTS Dataset

3)RyanSpeech

4)AISHELL-3 语音合成数据库

4.语种识别

1)Speechocean762

致谢