مشكلة فارغة في علوم البيانات والتعلم الآلي

التعريف الحالي لـ Null in Data Science محدود للغاية. مع القليل من الجهد؟ سنقوم بتحسين معالجة البيانات الموجودة في Null بشكل كبير.


المشكلة القديمة هي مشكلة "Null" . تمت صياغته في مقال بواسطة Codd بخصوص دلالات قاعدة البيانات.


يجب أن يعمل المبرمجون بجد للتعامل مع القيم الخالية. ولعل هذا هو السبب في أنهم لا يحبون Null وحتى أنهم روجوا للفكرة التي يمكنك القيام بها بدون Null. المثل الشائع هو أن تضمين Null في SQL كان خطأ .


التعريفات الصفرية التالية متاحة:


  • غير متاح
  • لا ينطبق
  • افتقد
  • مجهول

التعريف الأخير هو الأكثر استخدامًا في قاعدة البيانات.


يعرّف Data Science Null على أنه قيمة مفقودة.
هنا يناقش Jake VanderPlas استخدام وتفسير القيم Null و NaN و NA و None في python و Pandas و numpy.


فيما يلي سأوضح أن النهج الحالي لا يعكس الواقع إلا بشكل جزئي ، وفي كثير من الحالات يمكن توسيعه خصيصًا للاستخدام في علوم البيانات.


في ما يلي نظرة عامة جيدة على الوضع الحالي مع البيانات المفقودة (شكرًاالكانت !)


خذ بعين الاعتبار الحالات النموذجية حيث في المثال (العينة) ، التي تمثل مجموعة من القيم ، بعض القيم مفقودة.


ليس هنالك معلومات


مثال: المستشعر الذي يأخذ قيمة لم يعطها. قد يتلف المستشعر. أو قد تكون قناة قراءة البيانات غير مستقرة مع فقدان بعض البيانات.


غير متأكد


  • القيم المتنافسة : صنفت الخوارزمية القيمة على أنها A و B بنفس الاحتمال. وفقًا للقاعدة الحالية ، لا نسجل قيمتين في نفس الوقت ، ولكن نكتبها كـ Null.
  • احتمال منخفض : صنفت الخوارزمية القيمة على أنها A ، ولكن مع احتمال ضئيل جدًا. وفقًا للقاعدة الحالية ، لا يمكننا قبول قيمة A.
  • : . , , . , .


  • outlier: " " 1000 . 1000 Null.

, .


Null . , Null " ", . Null " ", , . " " ( ).


ML , Null , .


Null


. — . . :


  1. , , . .
  2. , . .
  3. . , . , , . , . .
  4. , , : , , .. .
  5. . .

Null. , ^ , : " ", " ", " ", "", " ". Null . , . , , .


- .


هناك أيضًا ناقص في استبدال Null بعدة فئات أكثر تفصيلاً. Null عبارة عن تجريد على مستوى أنواع البيانات ، على مستوى اللغة ، مما يمنحنا العديد من الوظائف والأساليب المضمنة في معالجة البيانات.


نحن في الواقع ، نضيف فئات جديدة إلى نظام التصنيف الخاص بنا ، والذي لا يعقد عملية المعالجة كثيرًا.


وعلى الأقل ، نحتاج إلى أن نفهم بوضوح المقصود بالقيم الخالية في بياناتنا. سيؤدي الفهم الأفضل للبيانات دائمًا إلى نتائج أفضل ، أليس كذلك؟


All Articles