从何处获取机器学习的音频:一系列根据知识共享许可的开放库

对于开发机器学习模型的人的一小部分摘要。

在削减下-带有工业单位语音,音乐和噪音的数据集。


照片艾米丽灰浆 / Unsplash



音频集


该数据集由Google 机器感知实验室的工程师监督。它包含来自YouTube视频的超过200万个语音剪辑,长达10秒。它们全部分为632个类别,描述了视频中发生的事情。这里仅举几个例子:音乐,笑声,打,爆炸,割草机的噪音,溪流的杂音,狗的吠叫。

AudioSet提供三组:测试平衡不平衡第一个包括20383个视频片段,分为527个声音类别。它们每个都包含至少59个剪辑。平衡集与测试集相似,但有一个例外-它有22,176个段。至于不平衡,它包含所有两百万个样本,没有任何排序。

用于下载的数据以两种格式表示:作为文本csv文件和作为通过卷积神经网络从视频中提取的音频符号。要卸载收集数据所依据的所有视频,可以使用python模块-youtube-dl该数据集获得CC BY 4.0的许可可以在Google组中监视更新:audioset-users



MIMII数据集


日立的工程师介绍了一个带有工业设备运转声音的录音基地。该数据集适用于确定机器学习故障的机器学习模型的开发选择包含阀门,泵和风扇的噪音。超过2.6万个10秒样本专门用于以正常模式运行的设备。

另外有6000份文件记录了机器在不完美条件下的运行情况:没有润滑,刀片断裂或导板损坏。

所有录音均以WAV格式制作,采样频率为16 kHz-总重量超过150 GB您可以在此处听示例该套件由CC BY-SA许可




照片弥敦道罗瑟 / Unsplash



利比佩佩奇


该数据集包括一千小时的英语语音(16 kHz)。他由约翰·霍普金斯大学的工程师Vasil Panayotov和Daniel Povey监督。数据取自非营利性LibriVox项目创建的有声读物。它们是由志愿者在美国公共领域阅读的文本写下的,例如,来自Gutenberg项目的文本

除了数据集本身之外,您还可以在该站点上将所有带有录音的MP3文件(这是87 GB)和元数据下载到其中已安装的许可证是CC BY 4.0。您可以在kaldi-asr.org上评估使用此数据集训练的声学模型



百万首歌曲数据集


免费收集一百万个流行曲目的音频标签和元数据。它本身不包含录音,但是,可以使用开发人员提供的代码来“收紧”原始曲目。他们是美国国家科学基金会的工程师,负责该国科学技术的发展。该数据集的首批数据之一由Spotify 自2014年以来拥有的Echo Nest分析平台提供。 Last.fm,Musixmatch和SecondHandSongs也做出了贡献。

整个基座的重量约为300 GB。但是作者提供了一个包含一万首歌曲的小型测试样本 -这是1.8 GB。所有这些都分为几类,我们可以区分:艺术家,类型,发行日期,心情等。



我们的“高保真音响世界”中的更多收藏:

在哪里为您的项目获取音频样本:九个主题资源的集合
12个主题资源,并带有知识共享许可下的曲目在
哪里获取游戏开发和其他商业项目的音频



在4月5日之前,我们冻结了许多商品的价格这是购买您长期关注的小工具的绝佳机会。例如,声学或“转台”,最高可达2.5万卢布。


PS所示价格仅在发布之日相关。检查Audiomania的官方网站,选择适合您口味的音频小工具

All Articles