Dónde obtener audio para el aprendizaje automático: una selección de bibliotecas abiertas bajo licencia Creative Commons

Un pequeño resumen para quienes desarrollan modelos de aprendizaje automático.

Bajo el corte: conjuntos de datos con voz, música y ruido de unidades industriales.


Foto Emily Morter / Unsplash



Audioset


Este conjunto de datos es supervisado por ingenieros del laboratorio Machine Perception , parte de Google. Contiene más de dos millones de clips de voz de videos de YouTube de hasta diez segundos de duración. Todos ellos están divididos en 632 clases que describen lo que está sucediendo en el video. Aquí hay solo un par de ejemplos: música, risas, ronquidos, una explosión, el ruido de un cortacésped, el murmullo de un arroyo y el ladrido de un perro.

AudioSet ofrece tres conjuntos: prueba , balanceado y no balanceado. El primero incluye 20,383 segmentos de video, que se clasifican en 527 clases de sonido. Cada uno de ellos contiene al menos 59 clips. El conjunto equilibrado es similar al conjunto de prueba, con una excepción: tiene 22,176 segmentos. En cuanto a desequilibrado, contiene los dos millones de muestras sin ningún tipo de clasificación.

Los datos para descargar se presentan en dos formatos : como archivos de texto csv y como señales de audio extraídas de videos por una red neuronal convolucional. Para descargar todos los videos en función de los cuales se recopilan los datos, puede usar el módulo python - youtube-dl . El conjunto de datos está licenciado bajo CC BY 4.0 . Las actualizaciones se pueden monitorear en el grupo de Google: audioset-users .



Conjunto de datos MIMII


Los ingenieros de Hitachi presentaron una base de grabación de audio con los sonidos de equipos industriales en funcionamiento. El conjunto de datos es adecuado para el desarrollo de modelos de aprendizaje automático que determinan el mal funcionamiento de las unidades industriales . La selección contiene el ruido de válvulas, bombas y ventiladores. Más de 26 mil muestras de diez segundos se dedican a equipos que funcionan en el modo normal.

Otros 6 mil archivos son registros de máquinas que operan en condiciones imperfectas: sin lubricación, con cuchillas rotas o guías dañadas.

Todas las grabaciones se realizan en formato WAV con una frecuencia de muestreo de 16 kHz; su peso total supera los 150 GB . Puedes escuchar los ejemplos aquí . El kit está licenciado bajo CC BY-SA .




Foto Nathan Roser / Unsplash



Libripepeech


Este conjunto de datos incluye mil horas de habla inglesa (16 kHz). Es supervisado por los ingenieros Vassil Panayotov y Daniel Povey de la Universidad Johns Hopkins. Los datos se toman de audiolibros creados por el proyecto sin fines de lucro LibriVox. Son escritos por voluntarios que leen textos que son de dominio público en los EE. UU., Por ejemplo, del proyecto Gutenberg .

Además del conjunto de datos en sí , en el sitio puede descargar todos los archivos MP3 con grabaciones (esto es 87 GB ) y metadatos . La licencia instalada es CC BY 4.0. Puede evaluar los modelos acústicos entrenados con este conjunto de datos en kaldi-asr.org .



Million Song Dataset


Una colección gratuita de etiquetas de audio y metadatos para un millón de pistas populares. No contiene las grabaciones de audio en sí mismas, sin embargo, las pistas originales se pueden "ajustar" utilizando el código proporcionado por los desarrolladores. Eran ingenieros de la Fundación Nacional de Ciencias de EE. UU., Responsables del desarrollo de la ciencia y la tecnología en el país. Uno de los primeros datos para el conjunto de datos fue proporcionado por la plataforma analítica The Echo Nest, que Spotify posee desde 2014 . Last.fm, Musixmatch y SecondHandSongs también contribuyeron.

Toda la base pesa unos 300 GB . Pero los autores ofrecen una pequeña muestra de prueba de 10 mil canciones, esto es 1.8 GB. Todos ellos están divididos en categorías, entre las cuales podemos distinguir: artista, género, fecha de lanzamiento, estado de ánimo y otros.



Más colecciones en nuestro "Mundo de alta fidelidad":

dónde obtener muestras de audio para sus proyectos: una colección de nueve recursos
temáticos 12 recursos temáticos con pistas con licencia de Creative Commons
Dónde obtener audio para el desarrollo de juegos y otros proyectos comerciales



Hasta el 5 de abril, congelamos los precios de varios productos. Esta es una gran oportunidad para comprar un gadget que has estado mirando durante mucho tiempo. Por ejemplo, acústica o "plataforma giratoria" de hasta 25 mil rublos. :


PD Los precios indicados son relevantes solo en la fecha de publicación. Visite el sitio web oficial de Audiomanía para elegir el dispositivo de audio que se adapte a sus gustos.

All Articles