بافيل كليمنكوف ، NVIDIA: نحن نحاول تضييق الفجوة بين ما يمكن لعالم البيانات القيام به وما يحتاجه ليتمكن من القيام به.

بدأت المجموعة الثانية من طلاب البرنامج الرئيسي في علوم البيانات وذكاء الأعمال Ozon Masters - ومن أجل اتخاذ قرار بترك التطبيق واجتياز الاختبار عبر الإنترنت كان الأمر أسهل ، سألنا معلمي البرنامج عما يمكن توقعه من التدريب والعمل مع البيانات.

صورة تحدث كبير علماء البيانات في NVIDIA ومعلم دورة البيانات الكبيرة وهندسة البيانات Pavel Klemenkov عن سبب كتابة علماء الرياضيات للكود والدراسة في Ozon Masters لمدة عامين.

- هل هناك العديد من الشركات التي تستخدم خوارزميات علوم البيانات؟


- في الواقع الكثير. عدد قليل من الشركات الكبيرة التي لديها بيانات كبيرة حقًا إما تبدأ العمل معها بكفاءة أو تعمل منذ فترة طويلة. من الواضح أن نصف السوق يستخدم البيانات التي يمكن أن تتناسب مع جهاز Excel-tablet أو يمكن حسابها على خادم كبير ، ولكن من المستحيل القول أنه لا يوجد سوى عدد قليل من الشركات التي يمكنها العمل مع البيانات.

- أخبرني قليلاً عن المشاريع التي تستخدم علوم البيانات.


- على سبيل المثال ، أثناء العمل في Rambler ، أنشأنا نظامًا إعلانيًا يعمل على مبادئ RTB (عرض الأسعار في الوقت الفعلي) - كنا بحاجة إلى إنشاء العديد من النماذج التي من شأنها تحسين شراء الإعلانات أو ، على سبيل المثال ، يمكن التنبؤ باحتمالية النقرة والتحويل وما إلى ذلك. في الوقت نفسه ، يُنشئ مزاد الإعلانات الكثير من البيانات: سجلات طلبات الموقع للمشترين المحتملين للإعلانات ، وسجلات مرات ظهور الإعلان ، وسجلات النقرات - هذه هي عشرات تيرابايت من البيانات يوميًا.

علاوة على ذلك ، لاحظنا في هذه المهام ظاهرة مثيرة للاهتمام: كلما زادت البيانات التي تقدمها لتدريب النموذج ، زادت جودته. عادة ، بالنسبة لكمية معينة من البيانات ، تتوقف جودة التنبؤ عن التحسن ، ولتحسين الدقة بشكل أكبر ، تحتاج إلى استخدام نموذج مختلف بشكل أساسي ، ونهج مختلف لإعداد البيانات ، والميزات ، وما إلى ذلك. هنا قمنا بصب المزيد من البيانات ونمت الجودة.

هذه حالة نموذجية حيث كان يتعين على المحللين ، أولاً ، العمل مع مجموعات كبيرة من البيانات لإجراء تجربة على الأقل ، وحيث كان من المستحيل الحصول عليها مع عينة صغيرة تناسب جهاز Macbook مريحًا. في الوقت نفسه ، كنا بحاجة إلى نماذج موزعة ، لأنه بخلاف ذلك كان من المستحيل تدريبهم. مع إدخال رؤية الكمبيوتر في الإنتاج ، أصبحت هذه الأمثلة أكثر شيوعًا ، لأن الصور هي كمية كبيرة من البيانات ، وهناك حاجة إلى ملايين الصور لتدريب نموذج كبير.

يطرح السؤال على الفور: كيفية تخزين كل هذه المعلومات ، وكيفية معالجتها بكفاءة ، وكيفية استخدام خوارزميات التعلم الموزعة - يتحول التركيز من الرياضيات العارية نحو الهندسة. حتى إذا لم تكتب رمزًا في الإنتاج ، يجب أن تكون قادرًا على العمل باستخدام الأدوات الهندسية لإجراء تجربة.

- كيف تغيرت مقاربة الوظائف الشاغرة في علوم البيانات في السنوات الأخيرة؟


- توقفت البيانات الضخمة عن الضجيج وأصبحت حقيقة. محركات الأقراص الصلبة رخيصة بما يكفي ، مما يعني أن هناك فرصة لجمع جميع البيانات بشكل عام ، بحيث تكون في المستقبل كافية لاختبار أي فرضيات. ونتيجة لذلك ، أصبحت المعرفة بأدوات العمل باستخدام البيانات الضخمة شائعة جدًا ، ونتيجة لذلك ، تظهر المزيد والمزيد من فرص العمل لمهندسي البيانات.

في رأيي ، فإن نتيجة عمل عالم البيانات ليست تجربة ، بل منتج وصل إلى الإنتاج. ومن وجهة النظر هذه ، قبل ظهور الضجيج حول البيانات الضخمة ، كانت العملية أكثر بساطة: كان المهندسون يشاركون في التعلم الآلي لحل مشاكل معينة ، ولم تكن هناك مشاكل في جلب الخوارزميات إلى الإنتاج.

- ما المطلوب للبقاء متخصصًا مطلوبًا؟


- وصل الآن العديد من الأشخاص إلى علم البيانات الذين تعلموا الرياضيات ، ونظرية التعلم الآلي ، وشاركوا في مسابقات تحليل البيانات حيث يتم توفير بنية تحتية جاهزة: يتم مسح البيانات ، وتحديد المقاييس ، ولا توجد متطلبات للحل ليكون قابلاً للتكرار وسريعًا.

ونتيجة لذلك ، يأتي الرجال الذين ليس لديهم استعداد جيد لواقع الأعمال للعمل ، وتتشكل فجوة بين المبتدئين والمطورين ذوي الخبرة.

مع تطوير الأدوات التي تسمح لك بتجميع النموذج الخاص بك من الوحدات الجاهزة - و Microsoft و Google والعديد من الآخرين لديهم بالفعل مثل هذه الحلول - وأتمتة التعلم الآلي ، ستصبح هذه الفجوة أكثر وضوحًا. في المستقبل ، سيكون هناك طلب على الباحثين الجادين الذين يبتكرون خوارزميات جديدة وموظفين يتمتعون بمهارات هندسية متقدمة في المهنة ، والذين سينفذون النماذج وأتمتة العمليات. تركز دورة Ozon Masters فقط في هندسة البيانات على تطوير المهارات الهندسية والقدرة على استخدام خوارزميات التعلم الآلي الموزعة على البيانات الضخمة. نحن نحاول تضييق الفجوة بين ما يمكن أن يفعله عالم البيانات وما يجب أن يكون قادرًا على القيام به في الممارسة.

- لماذا تذهب الرياضيات الحاصلة على دبلوم للدراسة في مجال الأعمال؟


- أصبح مجتمع علم البيانات الروسي يدرك أن المهارة والخبرة تتحول بسرعة إلى أموال ، لذلك ، بمجرد أن يمتلك الأخصائي خبرة عملية ، تبدأ تكلفته في النمو بسرعة كبيرة ، وأكثر الناس مهارة باهظة الثمن - وهذا صحيح في الوقت الحالي من التطور سوق.

معظم عمل عالم البيانات هو الذهاب إلى البيانات ، وفهم ما يكمن هناك ، والتشاور مع الأشخاص المسؤولين عن العمليات التجارية وإنشاء هذه البيانات - وعندئذ فقط استخدامها لبناء النماذج. للبدء في العمل باستخدام البيانات الضخمة ، من المهم للغاية أن تكون لديك مهارات هندسية - من الأسهل بكثير الالتفاف على الزوايا الحادة ، والتي يوجد الكثير منها في علوم البيانات.

قصة نموذجية: لقد كتبت استعلام SQL يتم تنفيذه باستخدام خلية إطار العمل ، والتي تعمل على البيانات الضخمة. تتم معالجة الطلب في عشر دقائق ، في أسوأ الأحوال - في غضون ساعة أو ساعتين ، وغالبًا عندما تتلقى تحميلات هذه البيانات ، تدرك أنك نسيت أن تأخذ في الاعتبار بعض العوامل أو المعلومات الإضافية. يجب عليك إعادة إرسال الطلب والانتظار لهذه الدقائق والساعات. إذا كنت عبقريًا في الكفاءة ، فسنتولى مهمة أخرى ، ولكن ، كما تظهر الممارسة ، لدينا عدد قليل من عبقري الكفاءة ، والناس ينتظرون فقط. لذلك ، في الدورات ، سوف نكرس الكثير من الوقت للعمل بكفاءة من أجل كتابة الاستعلامات التي لا تعمل لمدة ساعتين ، ولكن لعدة دقائق. تضاعف هذه المهارة الإنتاجية ، ومعها قيمة المتخصص.

- كيف يختلف برنامج Ozon Masters عن الدورات الأخرى؟


- يقوم موظفو Ozon بالتدريس في برنامج Ozon Masters ، وتستند المهام إلى حالات العمل الحقيقية التي يتم حلها في الشركات. في الواقع ، بالإضافة إلى الافتقار إلى المهارات الهندسية ، فإن الشخص الذي تعلم علوم البيانات في الجامعة لديه مشكلة أخرى: مهمة العمل تصاغ في لغة الأعمال ، وهدفها بسيط للغاية: كسب المزيد من المال. ويعلم عالم الرياضيات جيدًا كيفية تحسين المقاييس الرياضية - ولكن العثور على مقياس يرتبط بمقياس الأعمال أمر صعب. وعليك أن تفهم أنك تقوم بحل مشكلة عمل ، وصياغة مقاييس يمكن تحسينها حسابيًا مع الأعمال. يتم اكتساب هذه المهارة على حساب الحالات الحقيقية ، ويعطيها الأوزون.
وحتى إذا أسقطت الحالات ، فإن المدرسة تعلم الكثير من الممارسين الذين يحلون مشاكل العمل في الشركات الحقيقية. ونتيجة لذلك ، لا يزال نهج التدريس أكثر عملية. على الأقل في دراستي ، سأحاول تحويل التركيز على كيفية استخدام الأدوات ، وما هي الأساليب الموجودة ، وما إلى ذلك. بالتعاون مع الطلاب ، سوف نفهم أن لكل مهمة أداة خاصة بها ، ولكل أداة مجال للتطبيق.

أشهر برنامج تدريبي في تحليل البيانات بالطبع شاد - ما الفرق منه بالتحديد؟


- من الواضح أن SHAD و Ozon Masters ، بالإضافة إلى الوظيفة التعليمية ، يحلون مشكلة التدريب المحلية. يتم تعيين أفضل خريجي SHAD بشكل أساسي في Yandex ، لكن المشكلة هي أن Yandex ، بسبب خصوصيتها - وكانت كبيرة عندما لم تكن أدوات جيدة للعمل مع البيانات الضخمة - لديها بنيتها الأساسية وأدواتها للعمل مع البيانات ، مما يعني سيكون عليهم إتقانهم. لدى Ozon Masters رسالة مختلفة - إذا كنت قد أتقنت البرنامج بنجاح ، ويدعوك Ozon أو واحدة من 99 ٪ من الشركات الأخرى للعمل ، فسيكون من الأسهل بكثير بدء الاستفادة من الأعمال التجارية ؛ وستكون مجموعة المهارات المكتسبة من خلال Ozon Masters كافية لبدء العمل.

- تستغرق الدورة سنتين. لماذا يستغرق الكثير من الوقت؟


- سؤال جيد. لفترة طويلة ، لأن محتوى ومستوى المعلمين هو برنامج متكامل للماجستير ، يتطلب الكثير من الوقت لإتقان ، بما في ذلك الواجبات المنزلية.

من وجهة نظر الدورة ، فإن توقع أن يقضي الطالب 2-3 ساعات في الأسبوع في المهام أمر شائع. أولاً ، يتم تنفيذ المهام في مجموعة التدريب ، وتشير أي مجموعة مشتركة إلى أن العديد من الأشخاص يستخدمونها في وقت واحد. أي ، عليك الانتظار حتى تبدأ المهمة في التشغيل ، ويمكن تحديد بعض الموارد ونقلها إلى قائمة انتظار ذات أولوية أعلى. من ناحية أخرى ، فإن أي عمل باستخدام البيانات الضخمة يستغرق وقتًا طويلاً.

, — , 25 12:00, Ozon Masters . c Zoom YouTube.

All Articles