3 الفخاخ التي يقع فيها علماء البيانات المبتدئين

هذا ما يمكن أن يحدث إذا لم تكن جيدًا في الرياضيات.





مرحبا! هذا هو بيتر لوكيانتشينكو ، مؤلف وقائد الدورات عبر الإنترنت "الرياضيات لعلوم البيانات" في OTUS. في الفصل الدراسي ، نحب توضيح كل شيء بالحالات ، لذا هنا أيضًا ، كل مشكلة يواجهها المبتدئون ، سأبدأ بمثال.

التاريخ رقم 1 ., , , . , -, , . , 0,95. , «», , . , , , , .

— , , - ?



في قصتنا ، قام المتدرب بإعداد البيانات بشكل غير صحيح لأنه لم يفهم نوع الاعتماد الذي يجب أن يفترضه. هذا هو الخطأ الأكثر شيوعًا وخطورة الذي يرتكبه الوافدون الجدد إلى تحليل البيانات.

في كل الفصول ننشر شيئين:

  1. يجب أن يبدأ أي تحليل بفرضية
  2. قد تكون الفرضية خاطئة. ليس من المخيف أن ترتكب خطأ ، من المهم فهم وتصحيح ومواصلة التحليل في الوقت المناسب.

تسبب القدرة على صياغة الفرضيات ، التي يتم اختبارها فيما بعد على البيانات ، أكبر صعوبة للمبتدئين والمتدربين والمتخصصين الشباب في علوم البيانات. وهم ، كقاعدة عامة ، يعرفون الإحصائيات جيدًا ، ولكن ليس لديهم خبرة ، لذلك غالبًا ما يعتقدون بشكل أعمى أن القيمة الجيدة للإشارات المترية تشير إلى أن نتائجهم صحيحة. ولهذا السبب ، غالبًا ما يكون الدافع وراء القادمين الجدد هو الرغبة في الحصول على قيمة ارتباط عالية. لكن الارتباط العالي في حد ذاته ليس ضمانًا للتبعية الصحيحة!

عادة ما تكون الارتباطات التخيلية (الانحدارات) مضحكة للغاية. يمكنك أن تأخذ أي معلمتين ، وإذا كان لكل منها مكون اتجاه ، فإن الارتباط التقديري سيصبح قريبًا من الوحدة ، في حين أن المعلمات نفسها قد لا يكون لها أي علاقة.

على سبيل المثال ، يدرس شخص الأنهار الجليدية في غرينلاند ويقرر أن يرى كيف تؤثر كمية هطول الأمطار في تايلاند خلال موسم الرياح الموسمية على معدل ذوبان الجليد. في فترة معينة ، يزداد كلا هذين المتغيرين ، أي أن لهما بعض المكونات الشائعة: في تايلاند ، يزداد حجم هطول الأمطار في نفس الوقت عندما تبدأ فترة ساخنة وتذوب الأنهار الجليدية بشكل أسرع. إذا اعتبرنا العلاقة "وجها لوجه" ، فإنها ستكون قريبة من الوحدة ، مما يعني أن هناك علاقة مباشرة بين القيم. لذلك ، قبل التحليلات ، يجب عليك أولاً العمل مع البيانات - مسحها من مكون الاتجاه ، أي ثني واحصل على القيمة اليومية للزيادة. والآن يتم استخدام هذه المتغيرات Δx للحصول على الارتباط. هذا شيء بسيط للغاية ، ومع ذلك يحسن بشكل كبير من جودة التحليل.

التاريخ رقم 2. . - , — . , : , . ?

, , . , , , , .

إنه الاختيار الخاطئ للفترة الزمنية للمعايرة ، عندما لا تؤخذ العوامل الخارجية في الاعتبار ، هذا هو الخطأ الأكثر شيوعًا عندما يصبح النموذج الذي يعمل في البداية عديم الفائدة.


قم بتحميل البيانات في النموذج كما في الصندوق الأسود


لعدة سنوات من التطور السريع لمجالات علوم البيانات ، جمعت البشرية مكتبات رائعة من النماذج وطرق معالجة البيانات. وهذا أمر رائع - يمكن استخدامها لحل المشاكل العادية ، والتي يلجأ إليها العديد من الخبراء ، ليس فقط للمبتدئين ، ولكن أيضًا ذوي الخبرة. يكمن الخطر في أخذ النموذج النهائي ، ما عليك سوى لصق البيانات فيه والحصول على بعض القيمة التنبؤية عند الإخراج. يستخدم الأخصائي المتمرس دائمًا أدوات الرياضيات لاختبار الطريقة وتكييفها مع مهمته.

بالنسبة للمبتدئين ، من الصعب في البداية تحديد استعادة التوزيع التجريبي في البيانات الموجودة. وحتى إذا اختار أخصائي مبتدئ بنجاح الطريقة المناسبة في المكتبة أو ساعده أحد كبار الزملاء في إعداد النموذج ، فإن هناك خطرًا آخر في انتظاره: في أي وقت ، قد تتغير طبيعة سلوك البيانات أو قد تتغير العملية الداخلية للسلسلة الزمنية. هذا يعني أنك بحاجة إلى إعادة معايرة النموذج بسرعة ، نظرًا لانخفاض دقته ، ونتيجة لذلك ، انخفضت فعالية التنبؤ بأكمله. من أجل التقاط هذا وضبط النموذج ، تحتاج إلى امتلاك طرق إحصائية وفهم المبدأ الذي يعمل به.

حتى إذا كانت الطريقة مبرمجة في Python وهي في مكان ما في المربع ، يجب عرضها مرة واحدة على الأقل يدويًا لفهم كيفية عملها. إذا صادفت هذه الطريقة في المشروع وتحتاج إلى تكييفها ، فسوف تعرف بالفعل السلاسل التي يجب عليك القيام بها.

التاريخ رقم 3. تخيل أن لديك مصفوفة بيانات 10000 صف لكل 10000 عمود. يتم إنفاق 30 مللي ثانية تقريبًا على مضاعفة كل زوج من العناصر ، أي أن الخوارزمية ستعالج البيانات لأكثر من ساعة! وإذا كان سيكون مصفوفة مليار إلى مليار؟ أو هل تحتاج إلى تشغيل الكثير من هذه الخوارزميات؟

المصفوفات الخام


غالبًا ما يحدث أن الوافدين الجدد لا يعالجون المصفوفات أو يعدونها قبل التحليل. ونتيجة لذلك ، تأخذ العملية وقتهم وجهدهم الإضافيين. لتبسيط وتسريع العمل باستخدام المصفوفات ، يستخدم المتخصصون أدوات من الجبر الخطي. وهي تعمل على هذا النحو: يتم عرض مصفوفة البيانات الموجودة في فضاء فرعي منخفض الرتبة وبالتالي تقليل أبعادها مؤقتًا.

يمكنك تعلم كيفية القيام بكل هذا في دوراتنا عبر الإنترنت "الرياضيات لعلوم البيانات". تم تصميم المستوى الأساسي للتدريب من المناهج المدرسية ويركز على المكون الرياضي. يجب أن تذهب إلى المستوى المتقدم إذا كنت قد درست مرة واحدة ، حتى لفترة طويلة ، الرياضيات العليا أو لديك بالفعل خبرة في علوم البيانات. على المستوى المتقدم ، نقوم بتحليل طرق تحليل البيانات للمهام المختلفة. في نهاية الدورة ، يقوم الطلاب بأعمال التصميم: يحاولون تنفيذ إحدى الطرق يدويًا لفهم كيفية ترتيبها وتعديل أحد أقسامها. سيساعدك اختبار القبول على تحديد المستوى.

إن النظرية والمهارات العملية التي سوف تتقنها في الفصل الدراسي ضرورية في المقام الأول للمتخصصين الأوسط ، ولكنها ستكون مفيدة أيضًا في بداية المهنة. أجرينا استبيانًا بين أصحاب العمل الشريكين في مجال علوم البيانات ووجدنا أن أكثر من نصفهم مستعدون لتوظيف متدرب لديه معرفة بالرياضيات ، حتى لو لم يكن يعرف كيفية العمل مع مكتبات Python.

أيضًا ، إذا كنت تعمل أو مجرد إلقاء نظرة على Data Science ، فأنا أدعوك للاشتراك في قناة برقية شارع البيانات ، حيث أشارك تجربتي وأجمع مواد مفيدة من عالم الرياضيات وتحليل البيانات وتعلم الآلة. يسعدني أن أراك هنا في دورات OTUS!

يمكنك معرفة المزيد عن الدورات ، وكذلك اجتياز اختبار القبول لاختبار معرفتك ، من خلال النقر على الروابط أدناه:


All Articles