بودكاست: ما ينتظر العلماء المبتدئين في مجال الدفاع

كما وعدنا ، نقدم نسخة كاملة من الإصدار الأول من البودكاست الخاص بنا ( يمكنك الاستماع إليه في Apple Podcasts ). اندريه Filchenkov ، دكتوراه في الفيزياء والرياضيات، أستاذ مشارك في كلية تكنولوجيا المعلومات والبرمجة ورئيس مجموعة تعلم الآلة في الدولية الحاسوب مختبر العلوم، وتحدث معنا .


تصوير صموئيل بورك (Unsplash.com)

ديمتري: فيالعام الماضيحصلتعلى جائزة إيليا سيغالوفيتش ، وقلت إنك منخرط في مجالات مختلفة ، دون أي ناقل شائع إلى جانب التعلم الآلي. يرجى التعليق على هذا النهج. هل هذه الحرية حاسمة بالنسبة لك؟

Andrey Filchenkov:عندما جئت للعمل في جامعة ITMO ، في مختبرنا لتقنيات الكمبيوتر ، والذي أصبح بالفعل مركزًا علميًا ، لم يكن هناك أي شيء مرتبط مباشرة بتعلم الآلة. وبدأنا في التجربة. كان عام 2014.

ديمتري:هل قمت بصياغة المهمة بنفسك؟

أندرو:قرروا ، قرروا. تم تصميم التعلم الآلي بطريقة تتدفق الأفكار من منطقة إلى أخرى ، وتتدفق النماذج من مهمة إلى أخرى. من الصعب أن تقتصر على شيء ما. لذا فنحن لسنا وحدنا من يعمل. دائمًا ، لا يجلس الباحثون في مجال التعلم الآلي بشكل صارم في مكان واحد ، فهناك دائمًا الكثير من البحث.

شيء آخر هو أنه في البداية لم يكن لدينا ناقل يمكن أن نبني حوله عملنا. ولكننا الآن نتعمق في مواضيع محددة ونحد بشكل عام من عدد المنافذ التي نعمل فيها. بادئ ذي بدء ، هذا هو التعلم الآلي التلقائي ، كل ما يتعلق بمعالجة الصور وتوليدها ، بما في ذلك الفيديو ، وتحليل الشبكات الاجتماعية.

ظهر موضوعان جديدان نسبيًا العام الماضي: التعلم الآلي لتحليل الكود والتعلم الآلي للتوجيه. لقد تم التوجيه منذ عام 2016 ، ولكننا بحثنا في هذا الموضوع. حاولنا القيام بمجموعة متنوعة من المهام ، ولكن هذا النهج يؤثر على النتائج. نحاول الآن التركيز على الجودة أكثر من التركيز على التنوع.

ديمتري: وبالتالي ، فأنت تقوم بالفعل بصياغة مشاكل نقطة لأولئك الذين يعملون في المختبر ، وتعمل كموجه نظري لعدد كبير من المتخصصين؟

أندرو: نعم.

ديمتري: قد يبدو للشخص العادي أن هذا النشاط مرتبط بأشياء أساسية جدًا وصيغ ومقالات علمية. لكن الرجال من المختبر ، كما ترون، العمل مع تحليل الشبكات الاجتماعية ، محركات التوصية ، تحليل ترامب على تويتر. من فضلك أخبرنا عن هذه المشاريع التي يمكن فهمها على المستوى العملي؟

أندري: يمكن تقسيم نشاطنا إلى فئتين. الأول هو الخوارزميات التي تنطبق على الكثير من الأشياء. على سبيل المثال ، خوارزميات اختيار الميزة. وهي ضرورية للعديد من المهام - لتحليل تسلسلات الحمض النووي ، ومعالجة البيانات الطبية ، وما إلى ذلك. الفئة الثانية هي المهام من مجال الموضوع الذي نحاول فيه بالفعل استخدام خوارزميات مختلفة. هناك المزيد من المهام في هذه الفئة ، وهي مفهومة ومتنوعة ، وليست دائمًا علمية بالكامل.

في الصورة: أندريه فيلتشينكوف
بالإضافة إلى المختبر ، لدينا بيئة مشتركة تدور فيها الشركات الناشئة والشركات. يأتون مع الطلبات الصناعية ، تنشأ المهام العملية للغاية. لقد عملنا مؤخرًا مع قناة TVC. لديهم عدد كبير من الوثائق والمقالات المختلفة. وهم مهتمون جدًا بمراقبة كيفية عرض هذه الظاهرة أو تلك في الصحافة وكيف تتغير بمرور الوقت - كم عدد قناع Ilon التقليدي في الصحافة ، في أي سياق واجهه. قمنا بكتابة محرك بحث لهم من أجل إجراء استعلامات معقدة نوعًا ما عبر قاعدة بيانات كبيرة إلى حد ما.

ديمتري: كان أكثر فاعلية بالنسبة لهم للاتصال بك وإدخال تطوير مخصص ، بدلاً من الذهاب إلى السوق للحصول على منتج "محاصر" نهائي؟

أندرو: نعم. لديهم مهمة محددة. لا توجد مثل هذه الحلول في السوق.

نقوم أيضًا بأشياء مثيرة للاهتمام للغاية مع Vk ، حيث يعمل أحد طلابنا الخريجين. يعد الإعلان أحد مصادر الإيرادات الرئيسية للموقع ، مثل معظم هذه الشركات. وعليك أن تفهم لمن تُظهر هذا الإعلان ، حتى يكون كل شيء فعالاً. تبدو المهمة هكذا. هناك عدد كبير من المعلنين. نحتاج إلى التأكد من أن لديهم عروض ، وأن يأتي الناس ذات الصلة.

هناك عدد من الدراسات المتعلقة بالطب. على سبيل المثال ، تحليل الجلد من صورة لتحديد العلامات الطبية الهامة. هناك موضوعان. يتعلق المرء بتحديد ما إذا كان الشامة شامة أم أنها إشارة إلى أن شيئًا خطيرًا يمكن أن يكون. والثاني هو فهم أسباب هذه أو تلك البقع والطفح الجلدي (يمكن أن تكون هذه أعراض عدد كبير من الجلد والأمراض المنقولة جنسيا).

ديمتري:وهنا يمكنك زيادة توافر التشخيص الأساسي؟

أندرو: نعم. ولكن حتى لو كانت الأعراض مرئية لأنها على الجلد ، فإن تصنيفها ليس بهذه البساطة. نقوم بأتمتة هذه المهمة بحيث يمكنك وضع التطبيق على هاتفك ، والتقاط صورة وفهمها ، ولكن هناك شيء مريب. نحن لا نتخذ قرارات هنا ، ولكن إذا أخبر التطبيق الشخص أنه يبدو أن لديه شيء خاطئ ، فمن الأفضل الذهاب إلى الطبيب والحصول على استشارة.



نقل الحلول المختلفة وتطوير مجال منطقة موسكو


Timecode ( إصدار صوتي ) - 09:07



ديمتري: هل واجهت حالات عندما اتخذت قرارات تم اختبارها في مجال نشاط واحد وطبقتها في منطقة أخرى ، كتجربة أو عندما كنت تواجه صعوبة في مهمة؟

أندرو:عادة نحاول استخدام التعلم الآلي التلقائي. تقريبًا ، لدينا بعض الصندوق الأسود الذي نترك فيه المهام ونحصل على الحلول الأساسية. بالطبع ، عادةً ما تكون أسوأ مما يمكنك القيام به بيديك بعد ذلك ، ولكن هذا هو الأساس الذي يمكنك التركيز عليه. إذا تحدثنا عن حلول محددة ، على سبيل المثال ، تتعلق بمعالجة الصور ، فإن النقل يعمل هنا. الشيء الأساسي هو VGG تم تدريبه مسبقًا وتدريبه الإضافي على البيانات. يعد تشكيل الحلول الأساسية القائمة على شبكات الوصول المدربة والمخططة خطوة قياسية. وغالبًا ما يتبين أنه من الأفضل عدم فعل أي شيء في التهيئة الحالية.

ديمتري: في هذه الحالة ، هل يتبين أنك تقوم بتغيير بعض الأشياء المعمارية من وجهة نظر الحديد ، أم أنها تتعلق فقط بالحلول البرمجية والخوارزميات؟

أندرو:عادة نتحدث فقط عن الخوارزميات. كانت هناك بعض المشاكل التي كان علينا أن نتكيف معها مع الحديد. ألمع ما فعلناه مع Huawei للتعرف على الشخصيات في الصور. كانت هناك قيود صارمة إلى حد ما مرتبطة بحقيقة أنه يجب تنفيذ هذا النموذج على الهاتف. حيث لا يوجد الكثير من الذاكرة ، هناك قيود على العمليات التي يمكن استخدامها ، لأنه من المستحيل تطبيق ما قمنا به على TensorFlow بشكل نقي. وهنا كان علينا أن نراوغ ، لأنه كانت هناك قرارات جيدة ، ولكن من دون إمكانية النقل ، وكان علينا أن نحاول جاهدين. ولكن في كثير من الأحيان نتخذ قرارًا يعمل بسرعة في مكان ما على الخادم ، ولكن دون قيود على كل شيء آخر.

ديمتري:أسأل ، لأن السؤال الذي يطرح نفسه في كثير من الأحيان حول ما قد تعتمد عليه كفاءة مثل هذا النظام. أخبرنا ما هي المشاكل التي تواجهها حاليًا من حيث تطور الخوارزميات والمقاربات النظرية في هذا المجال؟ هل هناك حد وصل إليه هذا المجال أم أنه يتطور بسرعة الآن؟

أندرو:السؤال معقد إلى حد ما ، ولكنه مثير للاهتمام. لفترة طويلة ، كان كل شيء يقتصر على الحديد. كانت هناك خوارزميات معقدة للغاية ، لكنها لم تعمل دائمًا بشكل جيد. الآن الكثير مرتبط بالشبكات العصبية ، لأن قوة الحوسبة ظهرت تسمح لها بالقيادة. على الرغم من أن قوة الحوسبة أصبحت أقل أهمية من نقطة ما ، فإننا نعني دائمًا أنه سيكون لدينا تكاليف معينة. إذا تحدثنا عن الخوارزميات الكلاسيكية ، فلا توجد مشاكل خاصة بالقدرات. السؤال هو كيفية إيجاد أفضل الحلول بسرعة وكفاءة.

في البداية ، نظرًا لأن القدرات كانت محدودة ، كان من المهم أن يفهم الشخص الذي يحل المشكلة كيفية عمل الخوارزميات ومتطلبات الموارد وقابلية التطبيق لهذه المهمة. كانت هناك فترة أصبح فيها هذا ليس كذلك ، حيث أصبحت القدرات في متناول الجميع.

ديمتري: أي أنه كانت هناك قفزة كبيرة في نمو قوة وقدرات الحوسبة. قمنا برفع يد من النبض قليلاً. الآن أنت تعيده.

أندريه: نعم ، شهد العامان الماضيان زيادة في التعلم الآلي. وهناك إصدار يمكن استبدال جميع الخبرات الموجودة حاليًا في التعلم الآلي بزيادة مائة ضعف في قوة الحوسبة. يحاول التعلم الآلي تلقائيًا إيجاد حل لمشكلتك. وهذه مسألة قدرات ، لأن هذا بحث ، وليس بحثًا شاملاً ، ولكنه لا يزال معقدًا جدًا وطويلًا وواسع النطاق ويتطلب كمية هائلة من موارد الحوسبة. ونتيجة لذلك ، نرتكز مرة أخرى على حقيقة أن الخبرة يتم استبدالها بالموارد وتوافرها.


تصوير فرانكي شاماكي (Unsplash.com)

لا أعتقد أننا سنجد أنفسنا في موقف لن تكون فيه هناك حاجة إلى خبير ، لأنه لا تزال هناك العديد من المهام التي لا يمكن القيام بها وأتمتة مثل هذا (تحديد مهمة ، فهم العمليات التجارية) حتى نخرج بأنظمة قوية الذكاء الاصطناعي. على الأقل ، لن يكون قريبًا جدًا. لذلك ، سيتم الحفاظ على المهمة ، ولكن متطلبات بدء تشغيل الكمبيوتر مرة أخرى تصبح أحد العوامل الرئيسية.

ديمتري: ولكن في نفس الوقت ، لا يزال عليك اتخاذ بعض الإجراءات "لمواكبة" نمو قوة الحوسبة من حيث كفاءة الخوارزميات نفسها. الشركات التي يمكن أن تتمتع بقدرات ضخمة ، ولكن يبدو لي أن لكل مهمة إطارًا زمنيًا معينًا ، يجب حلها وتبقى ملائمة.

أندرو: نعم. هناك نوعية مرغوبة ، وهناك وقت ضروري لتحقيقها. نحن مقيدون على كلا الجانبين. إذا كان هناك ما يكفي من الوقت ، فإن الجودة يمكن تحقيقها دائمًا تقريبًا. على الرغم من أن كل مهمة ، بالطبع ، لها قيود أساسية على الجودة التي يمكن الحصول عليها. بشكل تقريبي ، لن نتمكن من التنبؤ بالشخصية من خلال موقع الأقمار بشكل أفضل من العملة. ولكن إذا لم يصل القيد المطلوب إلى السقف ، فيمكننا تحقيق الجودة المطلوبة لبعض الوقت. أحيانًا يمكننا القول أنه في الوقت المخصص وجدنا حلًا جيدًا إلى حد ما ، لا يمكننا الحصول على الأفضل في هذا الوقت. هناك دائمًا هذين "الإحداثيات".



دراسة النتائج الجديدة وفهمها وتكييفها


Timecode ( إصدار صوتي ) - 16:41



ديمتري: من وجهة نظر التطوير المهني لأولئك الذين يعملون في المختبر الخاص بك ، كيف يمكنك تقييم توزيع المعرفة الأساسية والتدريب النظري مقارنة بما عليك دراسته مباشرة في العملية: تحليل المقالات العلمية ، والاختراقات ، والتغيرات في هذا المجال؟ كم عدد هذه التغييرات تأتي كجزء من أسبوع أو شهر؟ ما مدى صعوبة تنفيذها في أنشطتك ، في تلك المشاريع التي تعمل عليها هنا الآن؟

أندرو:هذا سؤال جيد جدا. كل هذا يتوقف على المنطقة. على سبيل المثال ، يحميني الآن طالب دراسات عليا يقوم بأتمتة مهمة التكتل. بشكل عام ، لا يوجد تيار كبير جدًا من النتائج الجديدة. من ناحية أخرى ، يقوم AutoML بالتجميع. هنا ليس من السهل تتبع دفق النتائج الجديدة. علاوة على ذلك ، من الصعب أن تقتصر على منطقة واحدة.

كما قلت في البداية ، في مجال التعلم الآلي ، كل شيء مرتبط بقوة. الأفكار التي نشأت في الأصل في مجال تدفق معالجة الصور في بضع خطوات في مكان آخر. معالجة النصوص هي أقرب مرشح. أحد أهم عوامل النجاح هو أن تكون على دراية بما يحدث ليس فقط في مكانك ، ولكن أيضًا في مجال التعلم الآلي بشكل عام.

تصوير نيك هيلير (Unsplash.com)
يصعب القيام بذلك لأنه يتم إنشاء الكثير من النتائج. عشرات الآلاف من المشاركين في المؤتمرات الكبرى ، وعدد كبير من الأعمال ، ومئات الأعمال في الأسبوع في الأرشيف. مثل هذا المبلغ صعب التقليب فيه. لكن المعالم مهمة لمشاهدة.

للقيام بذلك ، لا تحتاج إلى مسح الأرشيف أو قراءة مجموعات المؤتمرات من الغلاف إلى الغلاف ، ولكن الاشتراك في الجمهور المتعلق بالتعلم الآلي وتتبع ما هو مكتوب هناك أمر مهم للغاية.

في البداية ، كانت هناك العديد من النتائج المختلفة في معالجة اللغة. بمجرد ظهور Word2vec ، بدأ الجميع في الانتقال إلى التضمين. وهناك الكثير منهم. كان هناك العديد من المهام الأساسية ، ولكن بالنسبة لمهام معينة مختلفة كان لديهم مهامهم الخاصة ، وكان من الضروري مراقبة كيفية تحسينها. ثم طرحت Google BERT ، وحققت زيادة كبيرة جدًا. في مرحلة ما ، اتضح أنه إذا فهمت كيفية عمل BERT ، وإذا كنت مشتركًا في معالجة اللغة الإنجليزية ، فأنت حقًا لا تحتاج إلى أي شيء.

لا داعي للقلق بشأن نجاح الإصدارات الجديدة من fastText والتضمينات المستندة إليها. لدى BERT الآن الكثير من التغييرات. لا تزال أساسية ، مثل Word2vec في وقت واحد. ولكن هناك بالفعل العديد من التعديلات التي تخرج مع تكرار عدة وظائف في الشهر أو حتى أقل من العمل في الأسبوع.

وتتغير هذه الديناميكية طوال الوقت. هناك مكان ينهار فيه كل شيء ، وهنا يمكنك اللحاق بشيء ، ثم يبدأ في الازدهار بألوان مختلفة مرة أخرى ، وتحتاج إلى متابعة ذلك. تكمن المشكلة في أن هذا يحدث في كثير من الأحيان ، أي أن السرعة التي تظهر بها النتائج الجديدة تتزايد فقط. كيفية تتبع ذلك هي واحدة من مشاكل الحياة الأساسية التي أواجهها.

ديمتري: هل تظهر مثل هذه الاندفاعات من النشاط بشكل أكبر حول الشركات الكبيرة التي تنشئ أطرها الخاصة بها ، أم أن المجتمع العلمي يرمي بشيء ما؟

أندرو:الجميع متورطون بدرجات متفاوتة. يجب أن أعترف بأن الشركات لديها نتائج أكثر من الجامعات. ذلك يعتمد على المنطقة. السيناريو النموذجي هو عندما يعمل العلماء الكبار ليس فقط في الجامعات ، ولكن أيضًا في الشركات. غالبًا ما يوظفون أولئك الذين يستمرون في إجراء أنشطة بحثية. لذلك ، تراكمت الشركة إمكانات فكرية ضخمة. نادرًا ما يمكن للجامعات أن توفر قوة حوسبية ومجموعات بيانات مماثلة ، لذلك يتم العثور على نرد الشركة على المقالات (الانتماء) أكثر فأكثر.

ديمتري: حتى على المقالات ، على الرغم من حقيقة أن الشركة لديها القدرة على إغلاق معظم تطوراتها وأبحاثها من الجمهور؟ هذا منطقي. لكن الجامعة لا تملك مثل هذه الفرصة ، فهي بطبيعتها ملزمة بنشر شيء ما.

أندرو:في الواقع ، قد يكون هناك تحيز. تنشر الجامعات في أي حال ، لأن هذه هي خصوصية عملها. تدفق المقالات من الجامعات أكبر ، لأن هناك العديد من الجامعات ، يتم نشر الناس ، والشركات لا ترحب بذلك في كل مكان. لكن النتائج الخارقة - الشركات لديها المزيد منها.

لذا فهم يستغلون شهرتهم وكفاءاتهم ، ويجذبون علماء جدد ، موضحين أن البحث يمكن أن يتم معهم ، وهو أمر رائع جدًا. على سبيل المثال ، صنعوا نموذجًا جديدًا ، يمكن أن يكون نظريًا للغاية. ولكن في كثير من الأحيان ، لها أهمية عملية كبيرة ، في الشركة في المقام الأول. يمكن وضعها في مصدر مفتوح ، ولكن ، على سبيل المثال ، مثل Google ، ستكون بالفعل بعض الإصدارات السابقة ، والتي يعتبرونها أنفسهم قديمة.



التطوير المفتوح وإعداد المطبوعات والمتطلبات الخاصة بها


Timecode ( إصدار صوتي ) - 23:48



ديمتري: ما مدى أهمية تطوير المصدر المفتوح في عملك؟ كيف يؤثرون عليها؟ في المثال مع الأتمتة العنقودية ، قلت أنك تأخذ تطويرًا مفتوح المصدر وتطبقه على أساس أساسي يمكنك دراسته ، والعمل بدقة ، أي الذهاب في الاتجاه المعاكس وعدم الارتباط بالتغيرات السريعة في المجال الضيق.

أندرو:الرمز المنشور مهم جدا. دائمًا ما ينشأ السؤال المعياري - يقوم بما تم وضعه من عمل. لا يزال - أسئلة المقارنة مع النتائج. عندما يبتكر الشخص شيئًا ما ، عليه أن يثبت أنه أفضل مما كان عليه من قبل. لسوء الحظ ، غالبًا ما ينشأ موقف عندما يقارن الناس بما تعرض لهم ، وفقًا للأرقام المنشورة في المقالة. هذا ليس صحيحا جدا ليس هناك ما يضمن أن الشخص يعيد إنتاج تجربة بالطريقة التي قام بها الآخرون. لذلك ، من المهم اتخاذ قرارات مختلفة وتشغيلها بنفسك ، والتحقق من كيفية عملها ، والتأكد من أنك قمت بعمل أفضل في إعداد تجريبي مماثل.

يمكنك المقارنة بشكل صحيح فقط إذا كان لديك الرمز.


صور تقدما (Unsplash.com)

ثانيًا ، إذا لم يطور الشخص أي شيء جديد من وجهة نظر المنافسة ، ولكنه يريد تطبيق الطريقة ، فسيكون من الجيد وجوده على GitHub ، ويمكن استخدامه. ولكن حتى عندما يتم وضع شيء ما ، لا تتوفر الوثائق دائمًا. نادرا ما تنشر العمل مع وثائق جيدة. يحدث أنهم لا يقومون بتحميل الرمز على الإطلاق ، ويجب عليك تنفيذ كل شيء كما هو موضح في المقالة. هذه مشكله. يخلق هذا الموقف صعوبات في استنساخ نتائج التعلم الآلي. وهذه هي المشكلة الرئيسية تقريبًا في مجالنا.

من السهل نشر نتائج إعادة التدريب ، ولكن من الصعب التحقق من عدم وجود رمز. قارنا AutoML الخاص بنا مع الحلول الموجودة. لحسن الحظ ، هناك مكتبات منشورة يتم استخدامها بنشاط. هناك المزيد من الحلول الجديدة ، ولكن لم يتم وضع التعليمات البرمجية الخاصة بهم. كان من الواضح أنهم كانوا أسوأ - ما عرضوه كان حالة خاصة لقرارنا.

ديمتري: هل من الممكن تصور بعض الأساليب التي من شأنها القضاء على هذه المشكلة ، على الأقل في إطار عملك وضمان إمكانية استنساخ النتائج؟

أندرو:يمكنك الارتباط لفتح المستودعات وتوفير الوثائق. أحاول أن أجعلها كلها في جميع المقالات. لسوء الحظ ، ليس هذا هو الحال دائمًا. يحدث هذا مع الجميع تقريبًا: كتب شخص رمزًا ، وهو يعمل ، ولكن الناس يشعرون بالحرج من مشاركته مع الآخرين ، لأنهم يخجلون من بعض عناصره. لكني أحاول نشر فكرة أنه عند كتابة مقال ، تحتاج إلى استكماله برابط إلى GitHub. يجب إعداد المستودع الذي يحتوي على الرمز مقدمًا.

ديمتري: هنا تحتاج إلى قضاء بعض الوقت في توثيقه.

أندرو: على الأقل على الأقل. هذا ضروري حتى يساعد ما هو مكتوب في المقالة على فهم ما يحدث ، حتى لو لم يتم توثيق الرمز على الإطلاق. على الرغم من أنه صعب. كلما كبر المشروع ، قل ما تساعده المقالة.



عمل أخصائي المختبرات وتواتر المخرجات


Timecode ( إصدار صوتي ) - 28:37



ديمتري: إذا قمت بتقييم وقت إعداد مقالة علمية ومشروع عملي ، في أي إطار زمني يمكن للشخص أن يدرك شيئًا في مجال نشاطك؟ تقليديا ، كل ستة أشهر أو سنة ينشر مقالا ، ويستغرق بعض المشاريع الكبيرة ، على سبيل المثال ، عامين.

أندري: هناك مشكلة كبيرة في حقيقة أنها تعتمد بشدة على الفرضية نفسها. من الصعب حقا الإجابة على هذا السؤال. يمكنني رسم المشروع بحيث يتم تنفيذه في شهرين وفي عامين. في هذه الحالة ، سيتم تحقيق نتائج مماثلة.

هذا لا يعني أنه يمكنك أن تأخذ هذين الشهرين وأن تفعل كل يوم 12 مرة أقل. هنا كما هو الحال مع تسع أمهات. نحن مرتبطون بقدرة الحوسبة ، ولكن يمكن موازاة أشياء كثيرة. يمكن إكمال العديد من الأشياء اعتمادًا على موضوع المشروع.

وبالمثل مع إعداد المقالات. هناك أشياء يتعلم فيها النموذج ساعة ، وهناك أشياء يتعلم فيها النموذج يومًا. في AutoML ، يمكن أن تستمر التجارب من أسبوع. يحدث ذلك أن التجارب لا يتم وضعها في مهام معقولة ، لأنها لا تحسب. لذلك ، هناك العديد من المهام حيث يتم النظر في كل شيء على بعض CIFAR. على الأقل بعض مجموعات البيانات المعقولة ، مثل الممارسة ، لا أحد يحاول اللمس ، لأن المقالة ستصدر في غضون عامين ، سيكون النموذج ، ولكن قديمًا بالفعل.

المعيار الثاني الذي يؤثر على حالة الأمور هو ما تعرفه بالفعل عن مجال الموضوع. إذا كان لديك فهم للنماذج الموجودة ، يتم إعداد تجربة ، تختبر فرضية معينة ، ثم كل شيء على ما يرام. ولكن عادة ما يمكن أن تتغير المهمة في العملية. ليس كثيرا.

Photo Science in HD (Unsplash.com)
ولكن الآن تغيرت قليلاً في اتجاه ما ، ومن الضروري إثبات حداثة ما اقترحته. من الضروري النظر إلى ما تم القيام به في وقت سابق ، للمقارنة.

اتضح أن قرارك جديد ، لكنه ليس الأروع. أنت تحاول تحسينه ، والنتيجة تتغير. من الضروري إثبات أن النتيجة جديدة. وأيضا ، رجل ثمل مكان التدريب التعزيز ، والآن يجب أن ننظر في هذا الاتجاه.

يمكن أن تمتد هذه العملية للغاية. هناك مقالات طويلة الأمد ، وهي مكتوبة لفترة طويلة ، لأن الأشياء تتغير قليلاً. نقطة أخرى هي المنصة حيث يتم التخطيط لنشر المقالة. في الأماكن الجيدة ، يتطلب الأمر مبررًا لسبب نتيجتك. يحدث أن هذا التفسير هو الأكثر استهلاكا للوقت. أي أن النموذج يعمل ، وفهم سبب عمله هو مهمة منفصلة ، أكثر تعقيدًا من الخروج بهذا النموذج.

وأخيرًا ، كتابة المقالة نفسها. لسوء الحظ ، فإن جميع الأماكن الجديرة بالنشر من أجل المساهمة في العلوم تتحدث الإنجليزية. هذا يفرض حدوده. كتابة مقالات باللغة الإنجليزية ليست سهلة. إذا كتب أحد موظفي المختبر مقالته الأولى ، فسيعملها لفترة طويلة جدًا. إذا كان هذا هو مقاله العشرين بسرعة. علاوة على ذلك ، إذا لم أركل شخصًا بنشاط ، فسوف يكتب بضعة أشهر ، إذا فعلت ذلك ، على أي حال بضعة أسابيع. بالطبع ، كل هذا يتوقف على مدى تعقيد الموضوع الذي يفكر فيه.



اختيار مجال التنمية والمتطلبات المسبقة


Timecode ( إصدار صوتي ) - 33:04



ديمتري: كيف يؤثر الاختيار الأولي للاتجاه على التنمية؟ على سبيل المثال ، بدأ الشخص للتو في القيام بكل هذا على مستوى جاد ، على سبيل المثال ، يأخذ مساحة واسعة جدًا لنفسه. وهنا تبدأ العكازات في الصعود بتغيرات ومكاسب دورية في نتائج الصناعات ذات الصلة ، ويعلق الشخص فيها مثل المستنقع. كيف تركز على المراحل الأولية؟

أندرو: تنشأ مثل هذه القصص إذا تصور الشخص مجموعة متنوعة من التقنيات التي يمكنه استخدامها. إذا كان قد بدأ للتو ، فعلى الأرجح لن تكون هناك مثل هذه المشاكل.

ديمتري: لأن القاعدة الأصلية ، التي تحدثنا عنها ، تستمد النتائج الحالية ، ولا يأتي الشخص بأي شيء جديد؟

أندرو:نعم، بإمكانك قول ذلك. القراءة الجيدة مهمة هنا. كلما قرأت المزيد من المقالات ، كان من الأسهل كتابتها. لغة المقالات هي لغة منفصلة. هذه هي اللغة الإنجليزية العلمية. علاوة على ذلك ، تختلف اللغة الإنجليزية العلمية في التعلم الآلي عن اللغة الإنجليزية العلمية في علم الأحياء. إذا قرأ الشخص الكثير من المقالات ، يصبح من الأسهل عليه صياغة الأفكار وتركيب المقالة.

ديمتري: أخبرنا عن الميزات التي تتوقع رؤيتها في الوافدين الجدد - أولئك الذين يستعدون للتو للانضمام إليك.

أندرو:بادئ ذي بدء ، هذه هي القدرة على البرمجة. يتم تطبيق الحقل بدونه في أي مكان. إذا أجرينا بحثًا في مجال أساسي تمامًا ، فلن نتمكن من التفكير فيه - فالتدريب الرياضي سيكون كافيًا. لكن كل ما نقوم به هو افتراض أنه سيتم تنفيذه في Python ، على سبيل المثال. مهارة البرمجة حاسمة.


تصوير هيتيش شودري (Unsplash.com)

والثاني هو الكفاءات الأساسية في مجال التعلم الآلي. من المهم أن يفهم الشخص ككل ماهية التعلم الآلي ، وكيف يتم ترتيبه ، حتى لو كان منخرطًا في مهمته الضيقة. على سبيل المثال ، بدأ التدريب باستخدام التعزيزات ، ولكن هنا ما زلت بحاجة إلى فهم كيفية تنظيم التعلم الآلي بشكل عام ، ما هو إعادة التدريب. من المهم أيضًا معرفة النماذج والأفكار الموجودة لمحاولة تطبيقها في المنزل. العامل الأكثر أهمية هو الدافع والرغبة في الغوص والاهتمام الداخلي. إذا كان لدى الشخص عقل جيد القراءة ، وفهم المجال ، ووجود أفكاره الخاصة ، فسيكون أكثر قدرة على كتابة المقالات ووضع نفسه في مجالنا.

ديمتري:ماذا يمكنك أن تفعل بالإضافة إلى إدارة المختبر والمشاركة في عمل الأجنحة؟ بطريقة أو بأخرى ، عليك الخوض في وفهم واقتراح الحلول وتصحيح الأخطاء. هل لديك أي مشاريع شخصية تابعة لجهة خارجية؟ ربما يبدو يومك مميزًا إلى حد ما؟ أو هل تذهب كل الجهود إلى أنشطة الملف الشخصي فقط ، وهل هي هوايتك؟

أندريه: كل يوم ليس مثل يوم آخر. على سبيل المثال ، في تشرين الثاني (نوفمبر) ، كنت أقل احتمالًا أن أكون في سان بطرسبرغ مما كنت عليه في سان بطرسبرج. من المستحيل أن أقول إن لدي نشاط منتظم منتظم في وقت أو آخر. أحاول أن أكتب ما أريد القيام به في غضون شهر. على سبيل المثال ، لقراءة العديد من المقالات ، تحدث إلى طلاب الدراسات العليا ، وقم بتوزيع المهام اعتمادًا على مكان تواجدي ، وما أفعله ، والعوامل التي تؤثر عليه.

منذ الطفولة ، أردت أن أقوم بالعلوم ، أحب أن أكرسها طوال الوقت. صحيح أن إدارة المختبر ليست علمًا تمامًا. النشاط التنظيمي والنشاط العلمي شيئان مختلفان. عادة ، لا يهتم العلماء بشكل خاص بالتنظيم والبيروقراطية. إذا تمكن الشخص من إدارة الأمور بشكل جيد ، فلن يكون لديه الوقت للانغماس العميق في المهمة. لسوء الحظ ، لا يمكنني دمجها بشكل فعال: إما أن أبدأ في الخوض في القيادة وأخرج عن السياق ، أو أبدأ البحث ، والعملية التنظيمية في طريقها للانطلاق. لذا أحاول الآن إعادة النظر في النهج. مختبرنا لديه مدير ، إيفان سميتانكوف ، لدينا موظفين إداريين ، ولكن لا يزال هناك عدد غير كاف من الموظفين.

القيادة عملية معقدة ومرهقة ، وتستغرق الكثير من الوقت. هذا شر لا بد منه للانخراط في الأنشطة العلمية وحل أكثر من مشكلة محددة. يمكنني أن أكون باحثًا أولًا وأتعامل مع مهمة أو عدة مهام ، ولكن بهذه الطريقة يمكنك التعامل مع عدد كبير من المواضيع ، ويكون الأمر دائمًا أكثر إثارة للاهتمام - الغوص ، والتفريغ ، والخروج بحلول. من المثير لي أن أتوصل إلى حل بدلاً من تنفيذه والتحقق منه. يفعل الآخرون ذلك ، لكن هذا ليس تفويضًا روتينيًا.

في دراسة ، لا يمكنك أبدًا أن تقول: "افعل هذا!" بدلاً من ذلك ، يقولون: "حاول القيام بذلك وفكر في ذلك". يمكنك تحديد اتجاه شخص ، وإعطاء أدلة ، ليس لديه أي عمل روتيني على الإطلاق. إذا قلت: "حاول حل هذه المشكلة" ، فسوف ينجح شخص ما ، ولكن لن ينجح شخص آخر. ليس من الواضح دائمًا من أين تبدأ وأين تبحث. في مكان ما أقوم بتوجيهه فقط ، في مكان ما أقوم فيه بمهمة ، وفي مكان ما تقريبًا ، أطرح حلًا.

ديمتري: وهل تختار من سيشارك في مجالات مختلفة؟

أندريه: نناقش مع الجميع ما يريد أن يفعله وما سيبحث عنه.

ديمتري: مثل هذا النهج الشخصي؟

أندرو:بالطبع بكل تأكيد. العديد من الدراسات في التعلم الآلي أشياء فردية تمامًا. من الواضح أن الأشخاص يتعاونون في مجموعات ويفعلون شيئًا معًا ، ولكن إجبار الشخص على فعل شيء ما هو نهج غير فعال. يحدث أنه ليس لديه أي تفضيلات ، ويمكن دعوته للقيام بشيء ما. يمكنه التورط. ولكن إذا لم يتم جذب الشخص ، فلن يكون لديه دافع جوهري ، فلن يقرأ ، ولن يتطور. سيكون مؤدًا جيدًا ، لكن هذا لا يكفي لإجراء بحث جيد. تحتاج إلى مصلحة شخصية. لذلك ، من الضروري اختيار دراسة لشخص.

ديمتري: ما هي المصادر أو الأدبيات التي توصي بها لأولئك الذين يريدون الانتقال من البرمجة بمعناها الواسع إلى موضوع التعلم الآلي؟

أندرو: التوصية الرئيسية - الدوراتعلى Coursera بواسطة أندرو إيون (أندرو نغ). هناك دورات أعمق في المدرسة العليا للاقتصاد. من المهم أن يكون هناك ممارسة. يتعلّم التعلم الآلي كيفية عمل الخوارزميات حقًا مع البيانات. هذا أبعد ما يكون عن الرياضيات ، لأن البيانات تؤثر على ما عليك القيام به حيال ذلك. يمكنك الشعور بذلك عند التعلم ، هناك العديد من المزالق والتفاصيل في الكود. يمكنني أن أوصي بالكتب: Deep Learning by Sergei Nikolenko أو Hesti الأكثر كلاسيكية أو Tibshirani أو Friedman أو الأسقف الكلاسيكي تمامًا . بالطبع ، إنها قديمة بعض الشيء ، ولكن يمكنك تقديم فكرة جيدة.



بودكاست طهاة ويؤدي دميتريكابانوف.

قراءة إضافية:




الشركات الناشئة في جامعة ITMO (موادنا باللغة الإنجليزية عن حبري):




All Articles