مكان الحصول على الصوت للتعلم الآلي: مجموعة مختارة من المكتبات المفتوحة المرخصة بموجب Creative Commons

ملخص صغير لأولئك الذين يطورون نماذج التعلم الآلي.

تحت القطع - مجموعات البيانات مع الكلام والموسيقى والضوضاء للوحدات الصناعية.


صور إميلي الملاط / Unsplash



صوتيات


يشرف على مجموعة البيانات هذه مهندسون من مختبر تصور الآلة ، وهو جزء من Google. يحتوي على أكثر من مليوني مقطع صوتي من مقاطع فيديو يوتيوب تصل مدتها إلى عشر ثوان. كلهم مقسمون إلى 632 صفًا يصفون ما يحدث في الفيديو. فيما يلي بعض الأمثلة: الموسيقى ، الضحك ، الشخير ، الانفجار ، ضجيج جزازة العشب ، نفخة جدول ، نباح الكلب.

تقدم AudioSet ثلاث مجموعات: اختبار ، متوازنة و غير متوازن. يشمل الأول 20383 مقطع فيديو ، يتم تصنيفها إلى 527 فئة صوت. يحتوي كل منها على 59 مقطعًا على الأقل. تشبه المجموعة المتوازنة مجموعة الاختبار ، باستثناء واحد - فهي تحتوي على 22،176 قطعة. أما غير المتوازن فهو يحتوي على مليوني عينة دون أي فرز.

يتم تقديم البيانات للتنزيل بتنسيقين : كملفات csv نصية وإشارات صوتية مستخرجة من مقاطع الفيديو بواسطة شبكة عصبية تلافيفية. لتفريغ جميع مقاطع الفيديو التي يتم جمع البيانات بناءً عليها ، يمكنك استخدام وحدة python - youtube-dl . تم ترخيص مجموعة البيانات بموجب CC BY 4.0 . يمكن مراقبة التحديثات في مجموعة Google: مستخدمي الصوتيات .



مجموعة بيانات MIMII


قدم مهندسو هيتاشي قاعدة تسجيل صوتي بأصوات المعدات الصناعية العاملة. مجموعة البيانات مناسبة لتطوير نماذج التعلم الآلي التي تحدد الأعطال في الوحدات الصناعية . يحتوي الاختيار على ضجيج الصمامات والمضخات والمراوح. تم تخصيص أكثر من 26 ألف عينة من عشر ثوان للمعدات التي تعمل في الوضع العادي.

6 آلاف ملف آخر هي سجلات لآلات تعمل في ظروف غير كاملة: بدون تشحيم ، مع شفرات مكسورة أو أدلة تالفة.

يتم إجراء جميع التسجيلات بتنسيق WAV بتردد أخذ العينات يبلغ 16 كيلوهرتز - يتجاوز وزنها الإجمالي 150 جيجابايت . يمكنك الاستماع إلى الأمثلة هنا . المجموعة مرخصة بموجب CC BY-SA .




صور ناثان روزر / Unsplash



خطاب


تتضمن مجموعة البيانات هذه ألف ساعة من التحدث باللغة الإنجليزية (16 كيلو هرتز). يشرف عليه المهندسون فاسيل بانايوتوف ودانيال بوفي من جامعة جونز هوبكنز. البيانات مأخوذة من كتب صوتية أنشأها مشروع LibriVox غير الربحي. يتم تدوينها بواسطة متطوعين يقرؤون النصوص الموجودة في المجال العام في الولايات المتحدة - على سبيل المثال ، من مشروع جوتنبرج .

بالإضافة إلى مجموعة البيانات نفسها ، على الموقع ، يمكنك تنزيل جميع ملفات MP3 مع تسجيلات (تبلغ 87 غيغابايت ) وبيانات وصفية لها . الترخيص المثبت هو CC BY 4.0. يمكنك تقييم النماذج الصوتية المدربة باستخدام مجموعة البيانات هذه على kaldi-asr.org .



مجموعة بيانات مليون سونغ


مجموعة مجانية من العلامات الصوتية والبيانات الوصفية لملايين المسارات الشعبية. لا يحتوي على التسجيلات الصوتية نفسها ، ومع ذلك ، يمكن "تشديد" المسارات الأصلية باستخدام الكود المقدم من قبل المطورين. كانوا مهندسين من مؤسسة العلوم الوطنية الأمريكية ، ومسؤولين عن تطوير العلوم والتكنولوجيا في البلاد. تم توفير إحدى البيانات الأولى لمجموعة البيانات بواسطة منصة Echo Nest التحليلية ، التي تمتلكها Spotify منذ عام 2014 . كما ساهم كل من Last.fm و Musixmatch و SecondHandSongs. تزن

القاعدة بأكملها حوالي 300 جيجابايت . لكن المؤلفين يقدمون عينة اختبار صغيرة مكونة من 10 آلاف أغنية - هذا 1.8 غيغابايت. تنقسم جميعها إلى فئات ، يمكننا التمييز بينها: الفنان ، النوع ، تاريخ الإصدار ، الحالة المزاجية وغيرها.



المزيد من المجموعات في عالم Hi-Fi الخاص بنا:

مكان الحصول على عينات صوتية لمشاريعك: مجموعة من تسعة موارد
مواضيعية 12 موارد مواضيعية مع مسارات مرخصة بموجب Creative Commons
أين يمكن الحصول على الصوت لتطوير الألعاب والمشاريع التجارية الأخرى



حتى 5 أبريل ، قمنا بتجميد أسعار عدد من السلع. هذه فرصة رائعة لشراء أداة كنت تتطلع إليها لفترة طويلة. على سبيل المثال ، الصوتيات أو "القرص الدوار" حتى 25 ألف روبل. :


ملاحظة: الأسعار المشار إليها ذات صلة فقط في تاريخ النشر. تحقق من الموقع الرسمي لـ Audiomania لاختيار الأداة الصوتية التي تناسب ذوقك.

All Articles