Di mana mendapatkan audio untuk pembelajaran mesin: pilihan perpustakaan terbuka berlisensi di bawah Creative Commons

Intisari kecil bagi mereka yang mengembangkan model pembelajaran mesin.

Di bawah set data cut dengan pidato, musik dan kebisingan unit industri.


Foto Emily Morter / Unsplash



Audioset


Dataset ini diawasi oleh insinyur dari lab Persepsi Mesin , bagian dari Google. Ini berisi lebih dari dua juta klip suara dari video YouTube hingga sepuluh detik. Semuanya dibagi menjadi 632 kelas yang menggambarkan apa yang terjadi di video. Berikut ini hanya beberapa contoh: musik, tawa, dengkuran, ledakan, suara mesin pemotong rumput, gumaman sungai, gonggongan anjing.

AudioSet menawarkan tiga set: tes , seimbang dan tidak seimbang. Yang pertama mencakup 20.383 segmen video, yang diurutkan ke dalam 527 kelas suara. Masing-masing berisi setidaknya 59 klip. Set yang seimbang mirip dengan set tes, dengan satu pengecualian - ia memiliki 22.176 segmen. Adapun tidak seimbang, itu berisi semua dua juta sampel tanpa penyortiran.

Data untuk mengunduh disajikan dalam dua format : sebagai file teks csv dan sebagai tanda audio yang diekstraksi dari video oleh jaringan saraf convolutional. Untuk membongkar semua video berdasarkan data yang dikumpulkan, Anda dapat menggunakan modul python - youtube-dl . Dataset ini dilisensikan dengan CC BY 4.0 . Pembaruan dapat dimonitor dalam grup Google: audioset-users .



Dataset MIMII


Insinyur Hitachi menghadirkan basis rekaman audio dengan suara peralatan industri yang berfungsi. Dataset ini cocok untuk pengembangan model pembelajaran mesin yang menentukan kerusakan unit industri . Pilihan tersebut berisi derau katup, pompa, dan kipas. Lebih dari 26 ribu sampel sepuluh detik dikhususkan untuk peralatan yang beroperasi dalam mode normal.

Enam ribu file lainnya adalah catatan mesin yang beroperasi dalam kondisi tidak sempurna: tanpa pelumasan, dengan bilah yang rusak atau pemandu yang rusak.

Semua rekaman dibuat dalam format WAV dengan frekuensi sampling 16 kHz - total bobotnya melebihi 150 GB . Anda dapat mendengarkan contoh di sini . Kit ini dilisensikan di bawah CC BY-SA .




Foto Nathan Roser / Unsplash



Libripepeech


Kumpulan data ini mencakup seribu jam pidato bahasa Inggris (16 kHz). Dia diawasi oleh insinyur Vassil Panayotov dan Daniel Povey dari Universitas Johns Hopkins. Data diambil dari buku audio yang dibuat oleh proyek LibriVox nirlaba. Mereka ditulis oleh sukarelawan yang membaca teks-teks yang ada dalam domain publik di AS - misalnya, dari proyek Gutenberg .

Selain dataset itu sendiri , di situs ini Anda dapat mengunduh semua file MP3 dengan rekaman (ini adalah 87 GB ) dan metadata padanya . Lisensi yang diinstal adalah CC BY 4.0. Anda dapat mengevaluasi model akustik yang dilatih menggunakan dataset ini di kaldi-asr.org .



Juta Lagu Dataset


Kumpulan tag dan metadata audio gratis untuk sejuta trek populer. Itu tidak mengandung rekaman audio itu sendiri, namun, trek asli dapat "diperketat" menggunakan kode yang disediakan oleh pengembang. Mereka adalah insinyur dari US National Science Foundation, yang bertanggung jawab untuk pengembangan ilmu pengetahuan dan teknologi di negara ini. Salah satu data pertama untuk dataset diberikan oleh platform analitis Echo Nest, yang dimiliki Spotify sejak 2014 . Last.fm, Musixmatch dan SecondHandSongs juga berkontribusi.

Seluruh dasar memiliki berat sekitar 300 GB . Tetapi penulis menawarkan sampel uji kecil 10 ribu lagu - ini adalah 1,8 GB. Semuanya terbagi dalam beberapa kategori, di antaranya dapat kita bedakan: artis, genre, tanggal rilis, suasana hati dan lainnya.



Lebih banyak koleksi di "Hi-Fi World" kami:

Di mana mendapatkan sampel audio untuk proyek Anda: koleksi sembilan sumber daya
tematik 12 sumber daya tematik dengan trek yang dilisensikan di bawah Creative Commons
Di mana mendapatkan audio untuk pengembangan game dan proyek komersial lainnya



Hingga 5 April, kami membekukan harga untuk sejumlah barang. Ini adalah kesempatan bagus untuk membeli gadget yang sudah lama Anda minati. Misalnya, akustik atau "turntable" hingga 25 ribu rubel. :


PS Harga yang ditunjukkan hanya relevan pada tanggal publikasi. Periksa situs web resmi Audiomania untuk memilih gadget audio yang sesuai dengan selera Anda.

All Articles