Wo Sie Audio für maschinelles Lernen erhalten: Eine Auswahl offener Bibliotheken, die unter Creative Commons lizenziert sind

Eine kleine Übersicht für diejenigen, die Modelle für maschinelles Lernen entwickeln.

Unter dem Schnitt - Datensätze mit Sprache, Musik und Lärm von Industrieanlagen.


Foto Emily Morter / Unsplash



Audioset


Dieser Datensatz wird von Ingenieuren des Machine Perception-Labors von Google überwacht . Es enthält mehr als zwei Millionen Sprachclips aus YouTube-Videos mit einer Länge von bis zu zehn Sekunden. Alle von ihnen sind in 632 Klassen unterteilt , die beschreiben, was im Video passiert. Hier nur einige Beispiele: Musik, Lachen, Schnarchen, eine Explosion, das Geräusch eines Rasenmähers, das Murmeln eines Baches, das Bellen eines Hundes.

AudioSet bietet drei Sets: Test , symmetrisch und unsymmetrisch. Das erste enthält 20.383 Videosegmente, die in 527 Tonklassen sortiert sind. Jeder von ihnen enthält mindestens 59 Clips. Der ausgeglichene Satz ähnelt dem Testsatz mit einer Ausnahme - er hat 22.176 Segmente. Unausgeglichen enthält alle zwei Millionen Proben ohne Sortierung.

Die Daten zum Herunterladen werden in zwei Formaten dargestellt : als CSV-Textdateien und als Audiofunktionen, die von einem Faltungsnetzwerk aus Videos extrahiert werden. Um alle Videos zu entladen, auf deren Grundlage die Daten gesammelt werden, können Sie das Python-Modul youtube-dl verwenden . Der Datensatz ist unter CC BY 4.0 lizenziert . Updates können in der Google-Gruppe überwacht werden: Audioset-Benutzer .



MIMII-Datensatz


Die Ingenieure von Hitachi präsentierten eine Audioaufzeichnungsbasis mit den Geräuschen funktionierender Industrieanlagen. Der Datensatz eignet sich für die Entwicklung von Modellen für maschinelles Lernen, die die Fehlfunktionen von Industrieanlagen bestimmen . Die Auswahl enthält das Geräusch von Ventilen, Pumpen und Lüftern. Mehr als 26.000 Zehn-Sekunden-Proben sind Geräten gewidmet, die im normalen Modus arbeiten.

Weitere 6.000 Dateien sind Aufzeichnungen von Maschinen, die unter einwandfreien Bedingungen arbeiten: ohne Schmierung, mit gebrochenen Klingen oder beschädigten Führungen.

Alle Aufnahmen werden im WAV-Format mit einer Abtastfrequenz von 16 kHz gemacht - ihr Gesamtgewicht übersteigt 150 GB . Die Beispiele können Sie hier anhören . Das Kit ist unter CC BY-SA lizenziert .




Foto Nathan Roser / Unsplash



Libripepeech


Dieser Datensatz enthält tausend Stunden englische Sprache (16 kHz). Er wird von den Ingenieuren Vasil Panayotov und Daniel Povey von der Johns Hopkins University betreut. Die Daten stammen aus Hörbüchern, die vom gemeinnützigen LibriVox-Projekt erstellt wurden. Sie werden von Freiwilligen niedergeschrieben, die in den USA gemeinfreie Texte lesen - zum Beispiel aus dem Gutenberg-Projekt .

Zusätzlich zum Datensatz selbst können Sie auf der Website alle MP3-Dateien mit Aufzeichnungen (dies sind 87 GB ) und Metadaten herunterladen . Die installierte Lizenz ist CC BY 4.0. Mit diesem Datensatz können Sie auf kaldi-asr.org akustische Modelle auswerten .



Million Song Dataset


Eine kostenlose Sammlung von Audio-Tags und Metadaten für eine Million beliebter Titel. Es enthält nicht die Audioaufnahmen selbst, die Originalspuren können jedoch mit dem von den Entwicklern bereitgestellten Code „verschärft“ werden . Sie waren Ingenieure der US National Science Foundation, die für die Entwicklung von Wissenschaft und Technologie im Land verantwortlich waren. Einer der ersten Daten für den Datensatz wurde von The Echo Nest Analyseplattform bereitgestellt, die Spotify gehört , hat seit 2014 . Last.fm, Musixmatch und SecondHandSongs haben ebenfalls dazu beigetragen.

Die gesamte Basis wiegt ca. 300 GB . Die Autoren bieten jedoch ein kleines Testbeispiel mit 10.000 Songs an - das sind 1,8 GB. Alle von ihnen sind in Kategorien unterteilt, zwischen denen wir unterscheiden können: Künstler, Genre, Erscheinungsdatum, Stimmung und andere.



Weitere Sammlungen in unserer „Hi-Fi-Welt“:

Wo Sie Audiobeispiele für Ihre Projekte erhalten: Eine Sammlung von neun thematischen Ressourcen
12 thematische Ressourcen mit unter Creative Commons lizenzierten Titeln
Wo Sie Audio für die Spieleentwicklung und andere kommerzielle Projekte erhalten



Bis zum 5. April haben wir die Preise für eine Reihe von Waren eingefroren. Dies ist eine großartige Gelegenheit, ein Gerät zu kaufen, das Sie schon lange im Auge haben. Zum Beispiel Akustik oder "Plattenspieler" bis zu 25 Tausend Rubel. ::


PS Die angegebenen Preise gelten nur zum Zeitpunkt der Veröffentlichung. Besuchen Sie die offizielle Website von Audiomania , um das Audio-Gadget auszuwählen, das Ihrem Geschmack entspricht.

All Articles