Où obtenir de l'audio pour l'apprentissage automatique: une sélection de bibliothèques ouvertes sous licence Creative Commons

Un petit condensé pour ceux qui développent des modèles d'apprentissage automatique.

Sous la coupe - ensembles de données avec la parole, la musique et le bruit des unités industrielles.


Photo Emily Morter / Unsplash



Audioset


Cet ensemble de données est supervisé par des ingénieurs du laboratoire Machine Perception , qui fait partie de Google. Il contient plus de deux millions de clips vocaux de vidéos YouTube d'une durée maximale de dix secondes. Tous sont divisés en 632 classes qui décrivent ce qui se passe dans la vidéo. Voici quelques exemples: musique, rires, ronflements, explosion, bruit d'une tondeuse à gazon, murmure d'un ruisseau, aboiements d'un chien.

AudioSet propose trois ensembles: test , symétrique et asymétrique. Le premier comprend 20 383 segments vidéo, qui sont classés en 527 classes sonores. Chacun d'eux contient au moins 59 clips. L'ensemble équilibré est similaire à l'ensemble de test, à une exception près: il comporte 22 176 segments. Quant au déséquilibré, il contient les deux millions d'échantillons sans aucun tri.

Les données à télécharger sont présentées sous deux formats : sous forme de fichiers texte CSV et sous forme de caractéristiques audio extraites de vidéos par un réseau de neurones convolutionnels. Pour décharger toutes les vidéos sur la base desquelles les données sont collectées, vous pouvez utiliser le module python - youtube-dl . L'ensemble de données est sous licence CC BY 4.0 . Les mises à jour peuvent être surveillées dans le groupe Google: utilisateurs de l' ensemble audio .



Ensemble de données MIMII


Les ingénieurs d'Hitachi ont présenté une base d'enregistrement audio avec les sons d'équipements industriels fonctionnels. L'ensemble de données convient au développement de modèles d'apprentissage automatique qui déterminent les dysfonctionnements des unités industrielles . La sélection contient le bruit des vannes, des pompes et des ventilateurs. Plus de 26 000 échantillons de dix secondes sont consacrés aux équipements fonctionnant en mode normal.

6.000 autres fichiers sont des enregistrements de machines fonctionnant dans des conditions imparfaites: sans lubrification, avec des lames cassées ou des guides endommagés.

Tous les enregistrements sont effectués au format WAV avec une fréquence d'échantillonnage de 16 kHz - leur poids total dépasse 150 Go . Vous pouvez écouter les exemples ici . Le kit est sous licence CC BY-SA .




Photo Nathan Roser / Unsplash



Libripepeech


Cet ensemble de données comprend mille heures de discours en anglais (16 kHz). Il est supervisé par les ingénieurs Vassil Panayotov et Daniel Povey de l'Université Johns Hopkins. Les données sont extraites de livres audio créés par le projet à but non lucratif LibriVox. Ils sont rédigés par des volontaires qui lisent des textes qui sont du domaine public aux États-Unis - par exemple, du projet Gutenberg .

En plus de l'ensemble de données lui - même , sur le site, vous pouvez télécharger tous les fichiers MP3 avec des enregistrements (cela fait 87 Go ) et des métadonnées . La licence installée est CC BY 4.0. Vous pouvez évaluer des modèles acoustiques formés à l'aide de cet ensemble de données sur kaldi-asr.org .



Million Song Dataset


Une collection gratuite de balises audio et de métadonnées pour un million de pistes populaires. Il ne contient pas les enregistrements audio eux-mêmes, cependant, les pistes originales peuvent être «resserrées» en utilisant le code fourni par les développeurs. Il s'agissait d'ingénieurs de la US National Science Foundation, responsables du développement de la science et de la technologie dans le pays. L'une des premières données de l'ensemble de données a été fournie par la plate-forme analytique Echo Nest, que Spotify possède depuis 2014 . Last.fm, Musixmatch et SecondHandSongs ont également contribué.

La base entière pèse environ 300 Go . Mais les auteurs proposent un petit échantillon de test de 10 000 chansons - soit 1,8 Go. Tous sont divisés en catégories, parmi lesquelles on peut distinguer: artiste, genre, date de sortie, humeur et autres.



Plus de collections dans notre "Hi-Fi World":

Où obtenir des échantillons audio pour vos projets: une collection de neuf ressources
thématiques 12 ressources thématiques avec des pistes sous licence Creative Commons
Où obtenir de l'audio pour le développement de jeux et d'autres projets commerciaux



Jusqu'au 5 avril, nous avons gelé les prix d'un certain nombre de marchandises. Il s'agit d'une excellente occasion d'acheter un gadget que vous regardez depuis longtemps. Par exemple, l'acoustique ou «plateau tournant» jusqu'à 25 mille roubles. :


PS Les prix indiqués ne sont valables qu'à la date de publication. Consultez le site officiel d'Audiomania pour choisir le gadget audio qui vous convient.

All Articles