AutoML رائع وقوي

ربما ، في الوقت الحالي ، لا يوجد شخص واحد مهتم بتكنولوجيا المعلومات ولم يسمع أن التعلم الآلي ، والتنقيب عن البيانات ، وأنظمة دعم القرار هي واحدة من المجالات الرئيسية لتنفيذ سيناريوهات التحول الرقمي.

تغطي سيناريوهات العمل التي تستخدم ML (التعلم الآلي) جميع مجالات العمل وتستخدم معظم أنواع البيانات: الجدولية ، والنصية والصوتية ، والصور ، وما إلى ذلك. هناك المزيد والمزيد من المشاريع ، وعدد المتخصصين ينمو ليس بهذه السرعة. هناك فكرة أنه يمكن أتمتة جزء من عمل هذه البيانات "باهظة الثمن" العلماء. وهنا يأتي AutoML إلى الإنقاذ.

بواسطة AutoML تعني أشياء مختلفة. في SAP ، نعتقد أن هذا هو أتمتة العمليات الروتينية لعلوم البيانات. ربما ، ليس من الضروري وصف التعريف بمزيد من التفصيل في هذه المقالة ، لأن أليكسي نيتكين قام بالفعل بكل شيء جيد هنا .

إذا شاهدت الفيديو ليس هناك رغبة ، فإليك بعض الأفكار حول الموضوع:

صورة

هناك مثال جيد على هذا الموضوع. ذات مرة ، في مجموعة DS ، ناقشنا حالة من الممارسة - الشخص الذي ادعى دور DS الأقدم جاء لإجراء مقابلة ، كل
ما يمكنه فعله هو تشغيل إحدى أدوات AutoML الشائعة. بالنسبة لسؤال معقول ، كيف يمكن للمرء أن يتأهل للحصول على مستوى رفيع بمثل هذه المعرفة ، كانت إجابته لا تشوبها شائبة: "أحمل المال إلى الأعمال التجارية ، وهذه هي أداتي". أي أن AutoML في السيناريوهات حيث يتم بالفعل جمع البيانات بدقة في واجهات المتاجر ، ويتم إنشاء ميزات المجال ، ويتم تحديد مقاييس الجودة ، مما يسمح لك بتشغيل خدمة جديدة بسرعة. نعم ، قد تكون النتيجة أسوأ من الأستاذ. DS ، ولكن على الأرجح أفضل من يونيو ، وفي بعض الحالات ، يمكنك استخدامه على الفور.

إليك المزيد من الأمثلة على ما يعتقده الأشخاص المشهورون من المجتمع حول هذا الأمر (يشير التعليق الأول إلى مناقشة الأخبار التي احتلت AutoML من Google المركز الثاني).

صورة

ويتم الحصول على استخدام عدد كبير من الموارد ، لأنه لا يوجد الآن تدريب تلوي متقدم. بتعبير أدق ، إنها نقطة في بعض القرارات أو في مرحلة مبكرة للغاية من الاستعداد. يمكن العثور عليها أيضًا في شكل نماذج أولية. والباقي عبارة عن بحث عشوائي عن معلمات مفرطة أو طرق واعدة أكثر: TPE ، Bayesian optimization ، NAS ، RL.

حتى يمكن مقارنة حلول ومناهج AutoML ، ظهر معيار مفتوح. الحلول التجارية لا تحب مثل هذه المقارنات لسبب بسيط للغاية - المواجهة المفتوحة تكاد تكون مستحيلة. بالإضافة إلى الدقة ، هناك تركيز كبير على أنواع البيانات والتضمين والاستخدام. لجعل النموذج نفسه هو 15-20 ٪ من العمل (أو ربما أقل) ، بالإضافة إلى وجود طبقة ضخمة من الأعمال الأخرى - من عمليات النقل إلى نشر الخدمة.

تحتل SAP موقعها في سوق AutoML. لدينا عدة محركات مختلفة بمستويات مختلفة من النضج.

تم تطوير مكتبة SAP Automed Preditive Library في SAP HANA ، والتي ظهرت تاريخيًا بعد الاستحواذ على KXEN في عام 2013 ، بشكل حصري كأداة لتحقيق أسرع تنفيذ ممكن للنماذج. إنها مناسبة عندما لا تكون هناك ميزانية ثقيلة (في الوقت المناسب) لنماذج التدريب ، ولكن النتيجة عالية الجودة بما فيه الكفاية مهمة. في الواقع - اعتبر هذا إصدارًا سريعًا من AutoGBDT ، الآن هناك غلاف ثعبان مألوف لمعظم ، ويبدو شيئًا مثل هذا (الشكل 1).

صورة
الصورة 1.

ظهر الفرع الثاني من حل AutoML في SAP Data Intelligence من SAP في ديسمبر 2019. هذا نهج مبني على أساس أدوات مفتوحة المصدر مألوفة ومكملة بتطوراتنا الخاصة. هنا ، يتم تحديد وقت الحساب المحتمل ، وضمن المجموعة ، يتم تحديد التركيبة المثلى للخطوات والخوارزميات والمعلمات الفائقة ، حيث يبدو خط الأنابيب النهائي على هذا النحو (الشكل 2).

صورة
الشكل 2.

هذا هو AutoML ، وهو جزء من نظام SAP Data Intelligence ويمكنه العمل في السحابة وفي المؤسسة. أيضًا ، يظهر هنا كل ما هو مطلوب لإدارة مجموعات البيانات والتكامل ، وربما الأهم من ذلك ، آليات التكامل القياسية في SAP S / 4HANA مع إنشاء واجهات وخدمات.

إذا نظرنا في الخطوات التالية ، فمن الواضح تمامًا أن البيانات ، من وجهة نظر العمل ، يجب أن تكون مشبعة بالتعليقات التوضيحية التي ستكون ذات صلة بمهام معينة. هذه هي علامات المجال ، وأفضل أشكال التجميع مع علاقات معينة لكائنات الأعمال ، والشبكات العصبية الدقيقة المدربة مسبقًا - مستخرجو الميزات.

إذا نظرت إلى المسابقات والمقالات في مجال AutoML ، يمكنك تحديد المجالات التالية بوضوح:

  1. جدول تلقائي - بيانات مجدولة
  2. AutoCV - الصور ومقاطع الفيديو
  3. AutoNLP - النصوص
  4. AutoTS - السلاسل الزمنية
  5. AutoGraph - الرسوم البيانية
  6. AutoSpeach - الصوت
  7. AutoAD - ابحث عن الحالات الشاذة

أفترض أنه سيكون هناك أيضًا حلول تحت AutoRL - للتدريب مع التعزيزات.

تركز SAP حاليًا على العمل مع البيانات المجدولة ، والسلاسل الزمنية ، والشذوذ من حيث حلول AutoML. والسبب بسيط ، فبناء مشروع ذكي ممكن فقط مع عدد كبير من النماذج في كل مجال من مجالات الأعمال.

حسنًا ، بالطبع ، لكل شركة تفاصيلها الخاصة ، لذلك ، إذا كانت النماذج القياسية (النموذجية) غير مناسبة ، فإن تخصيصها ضروري. وأسهل طريقة للقيام بذلك هي استخدام أدوات لا تتطلب مشاركة متخصصي DS.

بشكل عام ، ينتظرنا الكثير من الأشياء الجديدة والمثيرة للاهتمام في المستقبل ...

بقلم ديميتري بوسلوف ، كبير مهندسي حلول الأعمال ، SAP CIS.

All Articles