مسح البيانات ، مثل لعبة "حجر ، مقص ، ورق". هل هذه لعبة مع أو بدون نهاية؟ الجزء 1. النظري

1. البيانات المصدر


يعد تنظيف البيانات أحد التحديات التي تواجه مهام تحليل البيانات. تعكس هذه المادة التطورات والقرارات التي نشأت نتيجة لحل المشكلة العملية لتحليل قاعدة البيانات أثناء تكوين القيمة المساحية. المصادر هنا هي "التقرير رقم 01 / -2019 بشأن نتائج التقييم المساحي الحكومي لجميع أنواع العقارات (باستثناء الأراضي) في Okrug Khanty-Mansiysk Autonomous Okrug - Ugra" .

تم النظر في ملف "total.ods النموذجي المقارن" في "الملحق ب. نتائج تحديد مؤتمر الأطراف الخامس. معلومات حول طريقة تحديد القيمة المساحية 5.1 النهج المقارن".

الجدول 1. المؤشرات الإحصائية لمجموعة البيانات في ملف "total.ods النموذجي المقارن"
إجمالي عدد الحقول ، أجهزة الكمبيوتر. - 44
إجمالي عدد السجلات - 365،490
إجمالي عدد الحروف ، قطعة. - 101،714،693
متوسط ​​عدد الحروف في السجل ، أجهزة الكمبيوتر. - 278.297
الانحراف المعياري للشخصيات في السجل ، أجهزة الكمبيوتر. - 15،510
الحد الأدنى لعدد الأحرف في السجل ، أجهزة الكمبيوتر. - 198
الحد الأقصى لعدد الأحرف في السجل ، أجهزة الكمبيوتر. - 363

2. الجزء التمهيدي. المعايير الأساسية


متابعة لتحليل قاعدة البيانات المشار إليها ، تم تشكيل مهمة لتحديد متطلبات درجة التنقية ، حيث أن قاعدة البيانات هذه ، كما يفهم الجميع ، تشكل العواقب القانونية والاقتصادية للمستخدمين. في هذه العملية ، اتضح أنه لم يتم تكوين متطلبات خاصة لدرجة تنقية البيانات الضخمة. بتحليل الأعراف القانونية في هذا الأمر ، توصلت إلى استنتاج مفاده أنها كلها مكونة من الفرص. أي ، ظهرت مهمة معينة ، يتم إكمال مصادر المعلومات للمهمة ، ثم يتم تشكيل مجموعة بيانات ، واستنادًا إلى مجموعة البيانات التي تم إنشاؤها ، وأدوات لحل المشكلة. الحلول التي تم الحصول عليها هي نقاط مرجعية في اختيار البدائل. قدم هذا في الشكل 1.



نظرًا لأنه من الأفضل الاعتماد على التقنيات المثبتة في تحديد المعايير ، فقد اخترت معايير التحليل كأساس للمتطلبات المنصوص عليها في تعريفات وإرشادات تكامل بيانات MHRA GxP للصناعة ، لأنني اعتبرت هذه الوثيقة هي الأكثر شمولية لهذه المشكلة. على وجه الخصوص ، يقرأ القسم في هذه الوثيقة "يجب ملاحظة أن متطلبات تكامل البيانات تنطبق بشكل متساوٍ على البيانات اليدوية (الورقية) والبيانات الإلكترونية". (عبر. "... تنطبق متطلبات سلامة البيانات بالتساوي على البيانات اليدوية (الورقية) والبيانات الإلكترونية"). ترتبط هذه الصياغة بشكل خاص بمفهوم "الأدلة المكتوبة" ، في قواعد المادة 71 من قانون الإجراءات المدنية ، المادة 70 CAS ، المادة 75 AIC ، "كتابة" الفن. 84 مؤسسة الخليج للاستثمار.

يعرض الشكل 2 رسمًا تخطيطيًا لتشكيل مناهج لأنواع المعلومات في الفقه.


تين. 2. المصدر هنا .

يوضح الشكل 3 آلية الشكل 1 لمهام "التوجيه" أعلاه. عند المقارنة ، من السهل أن نرى أن النهج المستخدمة ، عند تلبية متطلبات سلامة المعلومات ، في المعايير الحديثة لنظم المعلومات ، محدودة بشكل كبير مقارنة بالمفهوم القانوني للمعلومات.


Fig.3

في الوثيقة المشار إليها (الإرشاد)، وتصل إلى الجزء التقني، وقدرات تجهيز وتخزين البيانات، ويؤكد بشكل جيد من قبل اقتباس من الفصل 18.2. قاعدة البيانات العلائقية: "بنية الملف هذه أكثر أمانًا بطبيعتها ، حيث يتم الاحتفاظ بالبيانات بتنسيق ملف كبير يحافظ على العلاقة بين البيانات والبيانات الوصفية."

في الواقع ، في هذا النهج - من القدرات التقنية الحالية ، لا يوجد شيء طبيعي ، وهو في حد ذاته عملية طبيعية ، حيث أن توسيع المفاهيم يأتي من النشاط الأكثر دراسة - تصميم قاعدة البيانات. ولكن ، من ناحية أخرى ، تظهر المعايير القانونية التي لا توفر خصومات على القدرات التقنية للأنظمة الحالية ، على سبيل المثال: اللائحة العامة لحماية البيانات - اللائحة العامة لحماية البيانات .


تين. 4. قمع القدرات الفنية ( المصدر ).

في هذه الجوانب ، يصبح من الواضح أنه يجب الحفاظ على مجموعة البيانات الأولية (الشكل 1) ، أولاً وقبل كل شيء ، وثانيًا ، أن تكون أساسًا لاستخراج معلومات إضافية منها. حسنًا ، كمثال: كاميرات تثبيت SDA منتشرة على نطاق واسع ، وأنظمة معالجة المعلومات ترشح المخالفين ، ولكن يمكن أيضًا تقديم معلومات أخرى للمستهلكين الآخرين ، على سبيل المثال ، مثل مراقبة التسويق لهيكل تدفق العملاء إلى مركز التسوق. وهذا مصدر قيمة مضافة إضافية عند استخدام Bigdat. من المتصور تمامًا أن مجموعات البيانات التي يتم تجميعها الآن ، في مكان ما في المستقبل ، سيكون لها قيمة بآلية مماثلة لقيمة الكتب النادرة من القرن الثامن عشر في الوقت الحاضر. في الواقع ، تعتبر مجموعات البيانات المؤقتة فريدة من نوعها ومن غير المحتمل أن تتكرر في المستقبل.

3. الجزء التمهيدي. معيار التقييم


أثناء المعالجة ، تم تطوير التصنيف التالي للأخطاء.

1. فئة الخطأ (بناءً على GOST R 8.736-2011): أ) الأخطاء المنهجية ؛ ب) أخطاء عشوائية ؛ ج) خطأ فادح.

2. بالتعدد: أ) تشويه أحادي. ب) تشويه متعدد.

3. حسب خطورة النتائج: أ) حرجة. ب) ليست حرجة.

4. حسب مصدر حدوث:

أ) الفني - الأخطاء الناشئة أثناء تشغيل المعدات. خطأ حالي إلى حد ما لأنظمة إنترنت الأشياء ، وأنظمة ذات درجة كبيرة من التأثير على جودة الاتصالات والمعدات (الأجهزة).

ب) عامل - أخطاء في مجموعة واسعة من الأخطاء المطبعية للمشغل أثناء الدخول إلى الأخطاء في المواصفات الفنية لتصميم قاعدة البيانات.

ج) مخصص - هنا أخطاء المستخدم في النطاق بأكمله من "نسيت تبديل التخطيط" إلى ما أخذته العدادات للقدم.

5. تم اختياره في فصل منفصل:

أ) "مهمة الفاصل" ، أي الفراغ و ":" (في حالتنا) عندما تم تكرارها ؛
ب) الكلمات كلها في قطعة واحدة ؛
ج) عدم وجود مسافة بعد أحرف الخدمة
؛ د) أحرف الجمع المتماثل: () ، "" ، "...".

بشكل عام ، مع تنظيم أخطاء قاعدة البيانات المقدمة في الشكل 5 ، تم تشكيل نظام إحداثيات فعال بما فيه الكفاية للبحث عن الأخطاء وتطوير خوارزمية لبيانات التنظيف ، على سبيل المثال.


تين. 5. الأخطاء النموذجية المقابلة للوحدات الهيكلية لقاعدة البيانات (المصدر: Oreshkov VI، Paklin NB "المفاهيم الأساسية لدمج البيانات" ).

الدقة ، تكامل المجال ، نوع البيانات ، الاتساق ، التكرار ، الاكتمال ، الازدواجية ، التوافق مع قواعد العمل ، الهيكلية الدقة ، شذوذ البيانات ، الوضوح ، الالتزام في الوقت المناسب ، قواعد تكامل البيانات. (الصفحة 334. أساسيات تخزين البيانات لمتخصصي تكنولوجيا المعلومات / Paulraj Ponniah. - الطبعة الثانية)

قدم الصيغ الإنجليزية والترجمة الآلية الروسية بين قوسين.

صحة القيمة المخزنة في النظام لعنصر البيانات هي القيمة الصحيحة لهذا الحدوث لعنصر البيانات. إذا كان لديك اسم عميل وعنوان مخزن في سجل ، فإن العنوان هو العنوان الصحيح للعميل بهذا الاسم. إذا وجدت الكمية المطلوبة على أنها 1000 وحدة في السجل لرقم الطلب 12345678 ، فإن تلك الكمية هي الكمية الدقيقة لذلك الطلب.
[صحة. القيمة المخزنة في النظام لعنصر البيانات هي القيمة الصحيحة لهذا الحدوث لعنصر البيانات. إذا كان لديك اسم عميل والعنوان المخزن في السجل ، فإن العنوان هو العنوان الصحيح للعميل بهذا الاسم. إذا وجدت الكمية المطلوبة 1000 وحدة في إدخال الأمر 12345678 ، فإن هذه الكمية هي الكمية المحددة لهذا الأمر.]

تكامل المجال تقع قيمة بيانات السمة في نطاق القيم المسموح بها والمحددة. المثال الشائع هو القيم المسموح بها وهي "ذكر" و "أنثى" لعنصر بيانات النوع.
[تكامل المجال. تندرج قيمة بيانات السمة في نطاق القيم الصالحة المحددة. مثال شائع هو قيم الذكور والإناث الصالحة لعنصر

بيانات النوع. ] نوع البيانات. يتم تخزين قيمة سمة البيانات بالفعل كنوع البيانات المحدد لهذه السمة. عندما يتم تعريف نوع بيانات حقل اسم المخزن على أنه "نص" ، تحتوي جميع مثيلات هذا الحقل على اسم المخزن المعروض بتنسيق نصي وليس رموزًا رقمية.
[نوع البيانات. يتم تخزين قيمة سمة البيانات بالفعل كنوع البيانات المحدد لهذه السمة. إذا تم تعريف نوع بيانات حقل اسم المخزن على أنه "نص" ، فستحتوي جميع مثيلات هذا الحقل على اسم المخزن المعروض بتنسيق النص وليس في أكواد رقمية.]

الاتساق. شكل ومحتوى حقل البيانات هو نفسه عبر أنظمة مصدر متعددة. إذا كان رمز المنتج للمنتج ABC في نظام واحد هو 1234 ، فإن رمز هذا المنتج هو 1234 في كل نظام مصدر.
[التناسق. شكل ومحتوى حقل البيانات متماثلان في أنظمة المصدر المختلفة. إذا كان رمز المنتج لمنتج ABC في نظام واحد هو 1234 ، فإن رمز هذا المنتج هو 1234 في كل نظام مصدر.]

وفرة. لا يجب تخزين نفس البيانات في أكثر من مكان في النظام. إذا تم تخزين عنصر بيانات عن عمد لأسباب تتعلق بالكفاءة في أكثر من مكان واحد في النظام ، فيجب تحديد التكرار والتحقق منه بوضوح.
[وفرة. لا يجب تخزين نفس البيانات في أكثر من مكان في النظام. إذا، لأسباب تتعلق بالكفاءة، يتم تخزين عناصر البيانات عمدا في عدة أماكن في النظام، ثم التكرار يجب أن تكون محددة بوضوح والتحقق منها.]

الاكتمال. لا توجد قيم مفقودة لسمة معينة في النظام. على سبيل المثال ، في ملف العميل ، يجب أن تكون هناك قيمة صالحة لحقل "الحالة" لكل عميل. في الملف للحصول على تفاصيل الطلب ، يجب ملء كل سجل تفاصيل للطلب بالكامل.
[اكتمال. لا توجد قيم مفقودة لهذه السمة في النظام. على سبيل المثال ، يجب أن يكون لملف العميل قيمة صالحة لحقل "الحالة" لكل عميل. في ملف تفاصيل الطلب ، يجب ملء كل سجل تفاصيل الطلب بالكامل.]

التكرار. يتم حل ازدواجية السجلات في النظام بالكامل. إذا كان من المعروف أن ملف المنتج يحتوي على سجلات مكررة ، فسيتم تحديد جميع السجلات المكررة لكل منتج وإنشاء مرجع تبادلي.
[الازدواجية. يتم القضاء على ازدواجية الإدخالات في النظام تمامًا. إذا كان من المعروف أن ملف المنتج يحتوي على إدخالات مكررة ، فسيتم تحديد جميع الإدخالات المكررة لكل منتج وإسنادها إليها.]

التوافق مع قواعد العمل. تلتزم قيم كل عنصر بيانات بقواعد العمل المحددة. في نظام المزاد ، لا يمكن أن يكون سعر المطرقة أو البيع أقل من سعر الاحتياطي. في نظام القروض المصرفية ، يجب أن يكون رصيد القرض دائمًا موجبًا أو صفرًا.
[الامتثال لقواعد العمل. تتوافق قيم كل عنصر بيانات مع قواعد العمل المعمول بها. في نظام المزاد ، لا يمكن أن يكون سعر المطرقة أو البيع أقل من سعر الاحتياطي. في نظام الائتمان المصرفي ، يجب أن يكون رصيد الائتمان دائمًا موجبًا أو صفرًا.]

الدقة الهيكلية. حيثما يمكن بشكل طبيعي تنظيم عنصر بيانات في مكونات فردية ، يجب أن يحتوي العنصر على هذه البنية المحددة جيدًا. على سبيل المثال ، ينقسم اسم الفرد بشكل طبيعي إلى الاسم الأول والاسم الأوسط الأوسط واسم العائلة. يجب تخزين قيم أسماء الأفراد كاسم أول واسم وسط واسم أخير. هذه الخاصية لجودة البيانات تبسط تطبيق المعايير وتقلل من القيم المفقودة.
[اليقين الهيكلي. عندما يمكن تنظيم عنصر البيانات بشكل طبيعي في مكونات منفصلة ، يجب أن يحتوي العنصر على هذه البنية المحددة جيدًا. على سبيل المثال ، ينقسم اسم الشخص بشكل طبيعي إلى الاسم الأول والاسم الأوسط الأوسط واسم العائلة. يجب تخزين قيم أسماء الأفراد كاسم أول واسم وسط واسم أخير. تبسط ميزة جودة البيانات هذه تطبيق المعايير وتقليل القيم المفقودة.]

شذوذ البيانات. يجب استخدام الحقل فقط للغرض الذي تم تعريفه من أجله. إذا تم تحديد حقل العنوان 3 لأي سطر ثالث محتمل من العناوين الطويلة ، فيجب استخدام هذا الحقل فقط لتسجيل السطر الثالث من العنوان. لا يجب استخدامه لإدخال رقم الهاتف أو الفاكس للعميل.
[شذوذ البيانات. يجب استخدام الحقل فقط للغرض الذي تم تعريفه من أجله. إذا تم تحديد حقل العنوان 3 لأي سطر عنوان ثالث محتمل للعناوين الطويلة ، فيجب استخدام هذا الحقل فقط لتسجيل سطر العنوان الثالث. لا يجب استخدامه لإدخال رقم هاتف أو فاكس للعميل.]

الوضوح. قد يمتلك عنصر البيانات جميع الخصائص الأخرى لبيانات الجودة ، ولكن إذا لم يفهم المستخدمون معناه بوضوح ، فإن عنصر البيانات ليس له قيمة للمستخدمين. تساعد اصطلاحات التسمية الصحيحة في جعل عناصر البيانات مفهومة جيدًا من قبل المستخدمين.
[وضوح. قد يمتلك عنصر البيانات جميع الخصائص الأخرى لبيانات الجودة ، ولكن إذا لم يفهم المستخدمون معناه بشكل واضح ، فإن عنصر البيانات لن يكون ذا قيمة للمستخدمين. تساعد اصطلاحات التسمية الصحيحة في جعل عناصر البيانات مفهومة جيدًا من قبل المستخدمين.] في

الوقت المناسب. يحدد المستخدمون توقيت البيانات. إذا كان المستخدمون يتوقعون ألا تكون بيانات أبعاد العميل أقدم من يوم واحد ، فيجب تطبيق التغييرات على بيانات العملاء في أنظمة المصدر على مستودع البيانات يوميًا.
[في الوقت المناسب. يحدد المستخدمون توقيت البيانات. إذا توقع المستخدمون أن بيانات قياس العميل لن تكون أقدم من يوم واحد ، فيجب تطبيق التغييرات على بيانات العميل في أنظمة المصدر على مستودع البيانات يوميًا.]

فائدة يجب أن يفي كل عنصر بيانات في مستودع البيانات ببعض متطلبات جمع المستخدمين. قد يكون عنصر البيانات دقيقًا وذو جودة عالية ، ولكن إذا لم يكن ذا قيمة للمستخدمين ، فليس من الضروري تمامًا أن يكون عنصر البيانات هذا في مستودع البيانات.
[خدمة. يجب أن يفي كل عنصر بيانات في مستودع البيانات ببعض متطلبات مجموعة المستخدم. يمكن أن يكون عنصر البيانات دقيقًا وعالي الجودة ، ولكن إذا لم يكن ذا قيمة للمستخدمين ، فليس من الضروري أن يكون عنصر البيانات في مستودع البيانات.]

الالتزام بقواعد تكامل البيانات. يجب أن تلتزم البيانات المخزنة في قواعد البيانات الارتباطية لأنظمة المصدر بسلامة الكيان وقواعد التكامل المرجعي. لا يتضمن أي جدول يسمح بالقيمة الفارغة كمفتاح أساسي تكامل الكيان. تفرض النزاهة المرجعية إنشاء العلاقات بين الوالدين والطفل بشكل صحيح. في علاقة العميل بالطلب ، يضمن التكامل المرجعي وجود عميل لكل طلب في قاعدة البيانات.
[الامتثال لقواعد سلامة البيانات. يجب أن تتوافق البيانات المخزنة في قواعد البيانات الارتباطية لأنظمة المصدر مع قواعد تكامل الكيان والتكامل المرجعي. لا يحتوي أي جدول يسمح بالصفر كمفتاح أساسي على تكامل الكيان. تفرض النزاهة المرجعية إقامة العلاقة الصحيحة بين الآباء والأبناء. في علاقة العميل بالطلب ، يضمن التكامل المرجعي وجود عميل لكل طلب في قاعدة البيانات.]

4. جودة تنظيف البيانات


تعد جودة تنظيف البيانات مشكلة معقدة نوعًا ما في البيانات الكبيرة. للإجابة على السؤال عن درجة تطهير البيانات اللازمة عند أداء المهمة ، يعد أمرًا أساسيًا لكل محلل بيانات. في معظم المهام الحالية ، يثبت كل محلل هذا بنفسه ومن غير المحتمل أن يكون شخص من الخارج قادرًا على تقييم هذا الجانب في قراره. ولكن بالنسبة لهذه المهمة في هذه الحالة ، كان هذا السؤال مهمًا للغاية ، نظرًا لأن موثوقية البيانات القانونية يجب أن تميل إلى الوحدة.

النظر في تقنيات اختبار البرمجيات لتحديد الموثوقية في العمل. اليوم ، هناك أكثر من 200 من هذه النماذج . تستخدم العديد من النماذج نموذج خدمة التطبيق:


الشكل. 6

التفكير على النحو التالي: "إذا كان الخطأ حدثًا مشابهًا لحدث الفشل في هذا النموذج ، فكيف يمكن العثور على تمثيلي للمعلمة t؟" وقمت بعمل النموذج التالي: تخيل أن الوقت الذي يستغرقه المختبر لفحص سجل واحد هو دقيقة واحدة (لقاعدة البيانات المعنية) ، ثم للعثور على جميع الأخطاء ، سيستغرق 365،494 دقيقة ، وهو ما يقرب من 3 سنوات و 3 أشهر من وقت العمل. كما نفهمها ، هذا ليس مقدارًا صغيرًا جدًا من العمل وستكون تكاليف التحقق من قاعدة البيانات غير محتملة لمترجم قاعدة البيانات هذه. في هذا التفكير ، يظهر المفهوم الاقتصادي للتكاليف وبعد أن توصل التحليل إلى استنتاج مفاده أن هذه أداة فعالة إلى حد ما. بناء على قانون الاقتصاد: "حجم الإنتاج (بالوحدات) الذي تحقق فيه أقصى ربح للشركة ،"يقع في النقطة التي تتم فيها مقارنة التكلفة الحدية لإنتاج وحدة إنتاج جديدة بالسعر الذي يمكن أن تحصل عليه هذه الشركة لوحدة جديدة." الاعتماد على الفرضية القائلة بأن العثور على كل خطأ لاحق يتطلب المزيد والمزيد من التحقق من السجلات ، وهذا عامل تكلفة. أي أن الفرضية المعتمدة في نماذج الاختبار منطقية جسديًا ، في الانتظام التالي: إذا كان للعثور على الخطأ ith ، كان من الضروري التحقق من سجلات n ، ثم للعثور على الخطأ التالي (i + 1) ، سيكون من الضروري بالفعل التحقق من السجلات m و n <m. هذه الفرضية ، في نماذج الاختبار ، تتم صياغتها بشكل رئيسي من خلال اشتراط إصلاح الأخطاء التي تم العثور عليها ، ولكن لا يتم تصحيحها ، بحيث يتم اختبار البرنامج في حالته الطبيعية ، أي أن تدفق الفشل متجانس. تبعا لذلك ، لقضيتنا ،يمكن أن يظهر التحقق من السجلات نوعين من التوحيد:

  1. ;
  2. .

ولتحديد القيمة الحرجة ، لجأ إلى مفهوم الجدوى الاقتصادية ، والذي في هذه الحالة ، عند استخدام مفهوم التكاليف الاجتماعية ، يمكن صياغته على النحو التالي: "يجب أن يتحمل الوكيل الاقتصادي تكلفة تصحيح الخطأ الذي يمكنه القيام بذلك بأقل تكلفة". لدينا وكيل واحد - هذا هو المختبر الذي يقضي دقيقة واحدة في التحقق من سجل واحد. من الناحية النقدية ، مع أرباح 6000 روبل / يوم ، سيصل هذا إلى 12.2 روبل. (اليوم تقريبًا). يبقى تحديد الجانب الثاني من التوازن في القانون الاقتصادي. لقد فكر هكذا. سيتطلب الخطأ الحالي أنه يتعلق بشخص ما ليبذل جهودًا لتصحيحه ، أي مالك العقار. لنفترض أنك بحاجة إلى يوم واحد من العمل (بما في ذلك التطبيق ، والحصول على الوثيقة المصححة).ثم ، من وجهة نظر عامة ، ستكون تكاليفها مساوية لمتوسط ​​الراتب في اليوم. متوسط ​​الراتب المتراكم في Okrug خانتي-مانسي ذاتية الحكم"نتائج التنمية الاجتماعية والاقتصادية لـ Okrug Khanty-Mansiysk ذاتية الحكم - Ugra من يناير إلى سبتمبر 2019" 73285 روبل. أو 3053.542 روبل / يوم. وفقًا لذلك ، نحصل على قيمة حرجة تساوي:
3053.542: 12.2 = 250.4 وحدة.

هذا يعني ، من وجهة نظر عامة ، أنه إذا قام المختبر بفحص 251 إدخالًا ووجد خطأ واحدًا ، فهذا يعادل المستخدم الذي قام بإصلاح هذا الخطأ بنفسه. وفقًا لذلك ، إذا قضى المختبر الوقت يساوي التحقق من 252 سجلًا للعثور على الخطأ التالي ، فمن الأفضل في هذه الحالة تحويل تكاليف التصحيح إلى المستخدم.

يتم تقديم نهج مبسط هنا ، لأنه من وجهة نظر عامة ، من الضروري مراعاة جميع التكاليف الإضافية التي يولدها كل متخصص ، أي التكاليف بما في ذلك الضرائب والمدفوعات الاجتماعية ، ولكن النموذج واضح. نتيجة هذه العلاقة هي المتطلبات التالية للمتخصصين: يجب أن يكون أخصائي تكنولوجيا المعلومات راتبًا أعلى من المتوسط ​​الوطني. إذا كان راتبه أقل من متوسط ​​الراتب لمستخدمي قاعدة البيانات المحتملين ، فعليه بنفسه التحقق من قاعدة البيانات بأكملها في القتال اليدوي.

عند استخدام المعيار الموصوف ، يتم تكوين الشرط الأول لجودة قاعدة البيانات:
I (tr). يجب ألا تتجاوز حصة الأخطاء الفادحة 1 / 250.4 = 0.39938٪. أقل بقليل من تكرير الذهب في الصناعة. وعينًا ، لا يزيد عن 1،459 إدخالًا بها أخطاء.

تراجع اقتصادي.

في الواقع ، من خلال السماح بهذا العدد من الأخطاء في الإدخالات ، توافق الشركة على خسائر اقتصادية بمبلغ:

1،459 * 3،053.542 = 4،455،118 روبل.

يتم تحديد هذا المبلغ من خلال حقيقة أن الشركة ليس لديها أدوات لخفض هذه التكاليف. ويترتب على ذلك أنه إذا طور شخص ما تقنية تسمح بتقليل عدد السجلات التي تحتوي على أخطاء ، على سبيل المثال ، 259 ، فهذا يسمح للمجتمع بتوفير:
1200 * 3053.542 = 3،664،250 روبل.

ولكن في نفس الوقت ، يمكنه أن يطلب موهبته وعمله ، حسنًا ، دعنا نقول - مليون روبل.
أي ، يتم تخفيض التكاليف الاجتماعية بمقدار:

3 664 250-1000000 = 266450 روبل.

في الواقع ، هذا التأثير هو القيمة المضافة من استخدام تقنيات Bigdat.

ولكن هنا يجب أن يوضع في الاعتبار أن هذا تأثير اجتماعي ، وأن مالك قاعدة البيانات هو السلطات البلدية ، ودخلهم من استخدام الممتلكات المسجلة في قاعدة البيانات هذه بنسبة 0.3٪ هو: 2.778 مليار روبل / سنة. وهذه التكاليف (4545118 روبل) لا تزعجه كثيراً ، حيث يتم نقلها إلى أصحاب العقار. وفي هذا الجانب ، سيتعين على مطور المزيد من تقنيات التكرير في Bigdata إظهار القدرة على إقناع مالك قاعدة البيانات هذه ، وهذه الأشياء تحتاج إلى موهبة كبيرة.

في هذا المثال ، تم تحديد خوارزمية تقدير الخطأ بناءً على التحقق من برنامج نموذج شومان [2] عند اختبار الموثوقية. نظرا لانتشارها في الشبكة والقدرة على الحصول على المؤشرات الإحصائية اللازمة. المنهجية مأخوذة من Monks Yu.M. "الاستقرار الوظيفي لنظم المعلومات" ، انظر تحت المفسد في الشكل. 7-9.

تين. 7 - 9 منهجية شومان النموذجية






يقدم الجزء الثاني من هذه المادة مثالًا لتنظيف البيانات ، حيث يتم الحصول على نتائج استخدام نموذج Schuman.
سأقدم النتائج:
العدد التقديري للأخطاء N = 3167 shN.
المعلمة C ، وظيفة لامدا والموثوقية:


الشكل 17

في الواقع ، لامدا هو مؤشر فعلي لشدة اكتشاف الأخطاء في كل مرحلة. إذا نظرت ، في الجزء الثاني ، فإن تقدير هذا المؤشر كان 42.4 خطأ في الساعة ، وهو ما يمكن مقارنته تمامًا مع رقم شومان. أعلاه ، تم تحديد أن معدل اكتشاف الخطأ من قبل المطور يجب ألا يقل عن خطأ واحد لكل 250.4 سجل ، أثناء فحص سجل واحد في الدقيقة. ومن هنا القيمة الحاسمة لامدا لنموذج شومان:

60 / 250.4 = 0.239617.

أي أنه يجب تنفيذ إجراءات تحديد موقع الخطأ حتى تنخفض لامدا ، من 38.964 المتاحة ، إلى 0.239617.

أو حتى لا ينقص المؤشر N (عدد الأخطاء المحتمل) ناقص n (عدد الأخطاء المصححة) أقل من العتبة التي اعتمدناها - 1459 قطعة.

المؤلفات


  1. Monakhov، Yu. M. الاستقرار الوظيفي لنظم المعلومات. الساعة 3. الجزء 1. موثوقية البرمجيات: كتاب مدرسي. بدل / يو م. موناخوف ؛ فلاديم. حالة غير ر - فلاديمير: Izdvo Vladim. حالة جامعة 2011 - 60 ص. - ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman ، "نماذج احتمالية للتنبؤ بموثوقية البرامج".
  3. أساسيات تخزين البيانات لمتخصصي تكنولوجيا المعلومات / Paulraj Ponniah - الطبعة الثانية.

الجزء الثاني. نظري

All Articles