لماذا يستخدم تعلُم الآلة البيانات "التركيبية"

نناقش آراء مجتمع تكنولوجيا المعلومات وخبراء الصناعة. نأخذ في الاعتبار أيضًا مشروعين يطوران فيهما أدوات لتوليد البيانات "الاصطناعية". ومثل أحدهم مهاجرون من وكالة الأمن القومي الأمريكية وجوجل.


صور - فرانكي شماكي - Unsplash

مشكلة MO


تتطلب بعض خوارزميات MO بيانات منظمة للعمل. على سبيل المثال ، لحل مشاكل رؤية الآلة ، يتم توفيرها من خلال مشروع ImageNet - في قاعدة بياناته هناك أكثر من 14 مليون صورة ، مقسمة إلى 22 ألف فئة. إن العمل مع مثل هذه المجموعة الكبيرة يؤتي ثماره. الخوارزميات التي تستخدمها خاطئة في تحديد الكائن في الصور الفوتوغرافية في 3.75٪ فقط من الحالات. للمقارنة - في البشر ، يتجاوز هذا الرقم 5 ٪.

ولكن إنشاء مجموعات بيانات مثل ImageNet لكل مهمة أمر مستحيل. على الأقل لأنه تم وضع علامة (أو فحص) على السجلات الموجودة يدويًا. في الوقت نفسه ، قد تكون البيانات الحقيقية - على سبيل المثال ، المصرفية أو الطبية - مغلقة وغير قابلة للوصول إلى جميع المطورين وعلماء البيانات. ولكن حتى في حالة وجود مثل هذه البيانات ، يجب أن تكون مجهولة المصدر قبل المعالجة.

مع حل هذه الصعوبات ، تساعد البيانات الاصطناعية. فهي مصطنعة ومولدة بالكمبيوتر ، لكنها تبدو حقيقية بالمثل.

من يعمل في هذا المجال


تشارك العديد من الجامعات وشركات تكنولوجيا المعلومات والشركات الناشئة في مشاريع في هذا المجال. على سبيل المثال ، يكتب Gretel برنامجًا يولد مجموعة بيانات اصطناعية استنادًا إلى مجموعة بيانات حقيقية. تأسست الشركة من قبل مجموعة من المهاجرين من جوجل وأمازون ووكالة الأمن القومي الأمريكية (NSA).

بادئ ذي بدء ، يحلل نظامهم الأساسي المعلومات المتاحة. استخدم المهندسون ركوب السكوتر الكهربائي Uber كمثال . جريتل يصنف لهم وتسميات ثم anonymizes لهم باستخدام الخصوصية التفاضلية الطرق . الناتج هو "مجموعة بيانات اصطناعية بالكامل". كود مطوري قراراتهمنشر على جيثب .

تم تنفيذ مشروع مماثل في جامعة إلينوي في أوربانا شامبين. لقد كتب المهندسون مكتبة Python يمكن استخدامها لإنشاء بيانات اصطناعية لتنسيقات CSV و TSV وتنسيقات JSON و Parquet و Avro المنظمة جزئيًا. في الحالة الأولى ، استخدم الخبراء الشبكات التنافسية التوليدية ، وفي الثانية ، الشبكات العصبية المتكررة .

ما مدى فعالية البيانات الاصطناعية؟


أنها توفر فرصة لعلماء البيانات والمطورين لتدريب نماذج للمشاريع في المناطق التي لا تتوفر فيها البيانات الضخمة بعد. وفقًا لـ Alex Watson ، أحد مؤسسي Gretel ، في كثير من الحالات ، هناك قيم كافية تبدو فقط كمستخدم حقيقي.

تقدر شركة Gartner أنه بحلول عام 2022 ، سيتم تدريب 40٪ من نماذج MO على مجموعات البيانات الاصطناعية.

وقد ربط رئيس شركة Haze ، شركة أنظمة الذكاء الاصطناعي ، نشر التكنولوجيا بـ "مرونتها". المعلومات الاصطناعية أسهل لتكميلها وتعديلها من أجل زيادة فعالية النموذج المدرب.

هناك أيضًا عدد من المهام المتعلقة برؤية الكمبيوتر ، حيث يصعب استخدام شيء آخر غير مجموعة البيانات الاصطناعية - على سبيل المثال ، في الروبوتات. عند تصميم الروبوتات الصناعية والمركبات غير المأهولة ، يتم استخدام التعلم المعزز . في هذه الحالة ، يتعلم نظام الذكاء الاصطناعي من خلال التفاعل المباشر مع بيئة معينة. بناءً على استجابة هذه البيئة ، يعدل الروبوت إجراءاته.

لكن الطائرة بدون طيار لا يمكنها الخروج وتحديد من خلال التجربة والخطأ أنه لا يمكن "سحق" المشاة. لذلك ، يلجأ المهندسون إلى البيانات الاصطناعية - فهم يحاكيون البيئة في الفضاء الافتراضي. على سبيل المثال ، تقدم Nvidia حلاً لمثل هذه التجارب . كما تم إجراء أبحاث على تدريب الجهاز باستخدام لسرقة السيارات الكبرى V محرك اللعبة .


صور - Andrea Ang - Unsplash على

الرغم من جميع مزايا البيانات الاصطناعية ، إلا أن لها عيوبها. أنها تعتبرأقل دقة - حتى إذا تم إنشاؤها على بيانات حقيقية - ويمكن أن تؤدي إلى نماذج تؤدي إلى نتائج معقولة ، ولكن لا يمكن إعادة إنتاجها في نتائج العالم الحقيقي. ومع ذلك ، يشير أحد سكان Hacker News في موضوع موضوعي إلى أن هذه ليست مشكلة كبيرة. يمكن استخدام البيانات الاصطناعية لاختبار خوارزميات نظام ذكي.

مستخدم آخر في أخبار هاكر يقول أن تقنيات مشابهة تعقيد عملية التعلم من النماذج وزيادة تكاليف التنمية. تم تأكيد كلماته من قبل متخصص من جامعة إلينوي - يمكن أن يصل الفرق إلى 50 ٪.

على أي حال ، لا يمكن اعتبار مجموعات البيانات الاصطناعية "رصاصة فضية". هذه مجرد أداة يمكن أن تساعد في حل مجموعة معينة من المشاكل. ولكن من الممكن أن يتوسع هذا الطيف بسرعة بمرور الوقت.

ما نكتب عنه في مدونة الشركة:

كمبيوتر يرفض الموت ،
"خذ بصماتك واترك لعطلة نهاية الأسبوع": كيفية إزالة نفسك من الخدمات الأكثر شعبية
ما هي الأدوات التي ستساعد اللائحة العامة لحماية البيانات على مطابقة
"الفوضى تقريبًا": تاريخ موجز لـ Fidonet ، مشروع "لا يهمه" "لتحقيق النصر عبر الإنترنت

All Articles