Onde obter áudio para aprendizado de máquina: uma seleção de bibliotecas abertas licenciadas sob Creative Commons

Um pequeno resumo para quem desenvolve modelos de aprendizado de máquina.

Sob o corte - conjuntos de dados com fala, música e ruído de unidades industriais.


Foto Emily Morter / Unsplash



Audioset


Esse conjunto de dados é supervisionado por engenheiros do laboratório Machine Perception , parte do Google. Ele contém mais de dois milhões de clipes de voz de vídeos do YouTube com duração de dez segundos. Todos eles são divididos em 632 classes que descrevem o que está acontecendo no vídeo. Aqui estão apenas alguns exemplos: música, risos, roncos, uma explosão, o barulho de um cortador de grama, o murmúrio de um riacho, o latido de um cachorro.

O AudioSet oferece três conjuntos: teste , balanceado e desbalanceado. O primeiro inclui 20.383 segmentos de vídeo, classificados em 527 classes de som. Cada um deles contém pelo menos 59 clipes. O conjunto balanceado é semelhante ao conjunto de teste, com uma exceção - possui 22.176 segmentos. Quanto ao desequilíbrio, ele contém todos os dois milhões de amostras sem nenhuma classificação.

Os dados para download são apresentados em dois formatos : como arquivos csv de texto e como sinais de áudio extraídos de vídeos por uma rede neural convolucional. Para descarregar todos os vídeos com base nos quais os dados são coletados, você pode usar o módulo python - youtube-dl . O conjunto de dados é licenciado sob o CC BY 4.0 . As atualizações podem ser monitoradas no grupo do Google: audioset-users .



Conjunto de dados MIMII


Os engenheiros da Hitachi apresentaram uma base de gravação de áudio com os sons de equipamentos industriais em funcionamento. O conjunto de dados é adequado para o desenvolvimento de modelos de aprendizado de máquina que determinam o mau funcionamento de unidades industriais . A seleção contém o ruído de válvulas, bombas e ventiladores. Mais de 26 mil amostras de dez segundos são dedicadas ao equipamento que opera no modo normal.

Outros 6 mil arquivos são registros de máquinas operando em condições imperfeitas: sem lubrificação, com lâminas quebradas ou guias danificadas.

Todas as gravações são feitas no formato WAV com uma frequência de amostragem de 16 kHz - seu peso total excede 150 GB . Você pode ouvir os exemplos aqui . O kit é licenciado sob CC BY-SA .




Foto Nathan Roser / Unsplash



Libripepeech


Este conjunto de dados inclui mil horas de fala em inglês (16 kHz). Ele é supervisionado pelos engenheiros Vassil Panayotov e Daniel Povey da Johns Hopkins University. Os dados são obtidos de livros de áudio criados pelo projeto LibriVox, sem fins lucrativos. Eles são escritos por voluntários lendo textos que são de domínio público nos EUA - por exemplo, do projeto Gutenberg .

Além do próprio conjunto de dados , no site você pode baixar todos os arquivos MP3 com gravações (isto é, 87 GB ) e metadados para eles . A licença instalada é o CC BY 4.0. Você pode avaliar modelos acústicos treinados usando esse conjunto de dados em kaldi-asr.org .



Conjunto de dados de milhões de músicas


Uma coleção gratuita de tags de áudio e metadados para um milhão de faixas populares. Ele não contém as gravações de áudio em si, no entanto, as faixas originais podem ser "reforçadas" usando o código fornecido pelos desenvolvedores. Eles eram engenheiros da National Science Foundation dos EUA, responsáveis ​​pelo desenvolvimento de ciência e tecnologia no país. Um dos primeiros dados para o conjunto de dados foi fornecido pela plataforma analítica The Echo Nest, que o Spotify possui desde 2014 . Last.fm, Musixmatch e SecondHandSongs também contribuíram.

Toda a base pesa cerca de 300 GB . Mas os autores oferecem uma pequena amostra de teste de 10 mil músicas - 1,8 GB. Todos eles são divididos em categorias, entre as quais podemos distinguir: artista, gênero, data de lançamento, humor e outros.



Mais coleções em nosso “Mundo Hi-Fi”:

Onde obter amostras de áudio para seus projetos: uma coleção de nove recursos
temáticos 12 recursos temáticos com faixas licenciadas sob Creative Commons
Onde obter áudio para desenvolvimento de jogos e outros projetos comerciais



Até 5 de abril, congelamos os preços de várias mercadorias. Esta é uma ótima oportunidade para comprar um gadget que você vê há muito tempo. Por exemplo, acústica ou "toca-discos" de até 25 mil rublos. :


PS Os preços indicados são relevantes apenas na data de publicação. Verifique o site oficial da Audiomania para escolher o gadget de áudio que se adapta ao seu gosto.

All Articles