Daten löschen, wie das Spiel „Stein, Schere, Papier“. Ist das ein Spiel mit oder ohne Ende? Teil 1. Theoretisch

1. Die Quelldaten


Die Datenbereinigung ist eine der Herausforderungen bei der Datenanalyse. Dieses Material spiegelte die Entwicklungen und Entscheidungen wider, die sich aus der Lösung des praktischen Problems der Analyse der Datenbank wĂ€hrend der Bildung des Katasterwerts ergaben. Quellen hier sind "BERICHT Nr. 01 / -2019 ĂŒber die Ergebnisse der staatlichen Katasterbewertung aller Arten von Immobilien (außer GrundstĂŒcken) im autonomen Okrug Khanty-Mansiysk - Ugra" .

Die Datei „Vergleichsmodell total.ods“ wurde in „Anhang B“ berĂŒcksichtigt. Ergebnisse der Bestimmung des COP 5. Informationen zur Methode zur Bestimmung des Katasterwerts 5.1 Vergleichsansatz “.

Tabelle 1. Statistikindikatoren des Datensatzes in der Datei „Vergleichsmodell total.ods“
Gesamtzahl der Felder, Stk. - 44
Gesamtzahl der DatensÀtze - 365.490
Die Gesamtzahl der Zeichen, Stk. - 101.714.693 Die
durchschnittliche Anzahl von Zeichen in einem Datensatz, Stk. - 278.297
Standardabweichung der Zeichen im Datensatz, Stck. - 15.510
Die Mindestanzahl von Zeichen im Datensatz, Stk. - 198 Die
maximale Anzahl von Zeichen im Datensatz, Stk. - 363

2. EinfĂŒhrungsteil. Grundstandards


Bei der Analyse der angegebenen Datenbank wurde eine Aufgabe gebildet, um die Anforderungen fĂŒr den Reinigungsgrad festzulegen, da diese Datenbank, wie jeder versteht, die rechtlichen und wirtschaftlichen Konsequenzen fĂŒr die Benutzer darstellt. Dabei stellte sich heraus, dass keine besonderen Anforderungen an den Reinigungsgrad von Big Data gestellt wurden. Bei der Analyse der rechtlichen Normen in dieser Angelegenheit bin ich zu dem Schluss gekommen, dass sie alle aus Chancen bestehen. Das heißt, eine bestimmte Aufgabe wurde angezeigt, Informationsquellen fĂŒr die Aufgabe werden vervollstĂ€ndigt, dann wird ein Datensatz gebildet und basierend auf dem erstellten Datensatz Werkzeuge zur Lösung des Problems. Die erhaltenen Lösungen sind Bezugspunkte bei der Auswahl von Alternativen. Dargestellt in Abbildung 1.



Da es vorzuziehen ist, sich bei der Festlegung von Standards auf bewĂ€hrte Technologien zu stĂŒtzen, habe ich die Analysekriterien als Grundlage fĂŒr die Anforderungen gewĂ€hlt, die in den Definitionen und Leitlinien fĂŒr die DatenintegritĂ€t von MHRA GxP fĂŒr die Industrie festgelegt sind , da ich dieses Dokument als das ganzheitlichste fĂŒr dieses Problem angesehen habe. Im Abschnitt dieses Dokuments heißt es insbesondere: „Es ist zu beachten, dass die Anforderungen an die DatenintegritĂ€t fĂŒr manuelle (Papier-) und elektronische Daten gleichermaßen gelten.“ (trans. "... DatenintegritĂ€tsanforderungen gelten gleichermaßen fĂŒr manuelle (Papier) und elektronische Daten"). Dieser Wortlaut ist ganz spezifisch mit dem Begriff „schriftlicher Beweis“ in den Normen von Artikel 71 der Zivilprozessordnung, Artikel, verbunden 70 CAS, Art. 75 AIC, "Schreiben" Art. 84 GIC.

In Abbildung 2 ist ein Diagramm zur Bildung von AnsĂ€tzen fĂŒr die Arten von Informationen in der Rechtsprechung dargestellt.


Feige. 2. Quelle hier .

Abbildung 3 zeigt den Mechanismus von Abbildung 1 fĂŒr die Aufgaben der obigen „Anleitung“. Ein Vergleich lĂ€sst sich leicht feststellen, dass die AnsĂ€tze, die bei der ErfĂŒllung der Anforderungen an die IntegritĂ€t von Informationen in modernen Standards fĂŒr Informationssysteme verwendet werden, im Vergleich zum rechtlichen Informationskonzept erheblich eingeschrĂ€nkt sind.


Abb.3

In dem angegebenen Dokument (Anleitung) wird die VerknĂŒpfung mit dem technischen Teil, den Verarbeitungs- und SpeicherfĂ€higkeiten der Daten durch das Zitat aus Kapitel 18.2 gut bestĂ€tigt. Relationale Datenbank: "Diese Dateistruktur ist von Natur aus sicherer, da die Daten in einem großen Dateiformat gespeichert werden, das die Beziehung zwischen Daten und Metadaten beibehĂ€lt."

TatsĂ€chlich gibt es bei diesem Ansatz - von den vorhandenen technischen FĂ€higkeiten her - nichts Normales und an sich ist es ein natĂŒrlicher Prozess, da die Erweiterung der Konzepte aus dem am besten untersuchten AktivitĂ€tsdatenbankdesign stammt. Andererseits erscheinen jedoch gesetzliche Normen, die keine Rabatte auf die technischen FĂ€higkeiten bestehender Systeme vorsehen , zum Beispiel: DSGVO - Allgemeine Datenschutzverordnung .


Feige. 4. Trichter der technischen FĂ€higkeiten ( Quelle ).

In diesen Aspekten wird deutlich, dass der ursprĂŒngliche Datensatz (Abb. 1) erstens erhalten bleiben muss und zweitens die Grundlage fĂŒr das Extrahieren zusĂ€tzlicher Informationen daraus sein muss. Ein Beispiel: Fixierungskameras fĂŒr Verkehrsregeln sind weit verbreitet, Informationsverarbeitungssysteme filtern VerstĂ¶ĂŸe heraus, aber andere Informationen können auch anderen Verbrauchern angeboten werden, beispielsweise als MarketingĂŒberwachung des Kundenflusses zu einem Einkaufszentrum. Dies ist eine zusĂ€tzliche Wertschöpfungsquelle bei der Verwendung von Bigdat. Es ist durchaus denkbar, dass die DatensĂ€tze, die jetzt und irgendwann in der Zukunft zusammengestellt werden, einen Wert haben, der dem Wert seltener BĂŒcher des 18. Jahrhunderts entspricht. In der Tat sind temporĂ€re DatensĂ€tze einzigartig und werden in Zukunft wahrscheinlich nicht wiederholt.

3. EinfĂŒhrungsteil. Evaluationskriterien


WĂ€hrend der Verarbeitung wurde die folgende Klassifizierung von Fehlern entwickelt.

1. Fehlerklasse (basierend auf GOST R 8.736-2011): a) systematische Fehler; b) zufÀllige Fehler; c) ein grober Fehler.

2. Durch MultiplizitÀt: a) Monoverzerrung; b) Mehrfachverzerrung.

3. Entsprechend der KritikalitÀt der Folgen: a) kritisch; b) nicht kritisch.

4. Nach der Quelle des Auftretens:

A) Technische Fehler, die wĂ€hrend des Betriebs des GerĂ€ts auftreten. Ein ziemlich aktueller Fehler fĂŒr IoT-Systeme, Systeme mit einem erheblichen Einfluss auf die QualitĂ€t der Kommunikation, AusrĂŒstung (Hardware).

B) Bediener - Fehler in einem weiten Bereich von typografischen Fehlern des Bedieners bei der Eingabe bis hin zu Fehlern in den technischen Spezifikationen fĂŒr das Datenbankdesign.

C) Benutzerdefiniert - hier die Fehler des Benutzers im gesamten Bereich von "Vergessen, das Layout zu Ă€ndern" bis zu dem, was die ZĂ€hler fĂŒr FĂŒĂŸe genommen haben.

5. In einer separaten Klasse ausgewÀhlt:

a) die "Trennaufgabe", dh das Leerzeichen und ":" (in unserem Fall), als sie dupliziert wurde;
b) Wörter alle in einem StĂŒck;
c) das Fehlen eines Leerzeichens nach den Dienstzeichen
; d) symmetrisch-plurale Zeichen: (), "", "...".

Insgesamt wird mit der in 5 dargestellten Systematisierung von Datenbankfehlern ein ausreichend effektives Koordinatensystem zum Suchen von Fehlern und Entwickeln eines Algorithmus zum Bereinigen von Daten fĂŒr dieses Beispiel gebildet.


Feige. 5. Typische Fehler, die den Struktureinheiten der Datenbank entsprechen (Quelle: Oreshkov VI, Paklin NB „SchlĂŒsselkonzepte der Datenkonsolidierung“ ).

Genauigkeit, DomĂ€nenintegritĂ€t, Datentyp, Konsistenz, Redundanz, VollstĂ€ndigkeit, VervielfĂ€ltigung, KonformitĂ€t mit GeschĂ€ftsregeln, Struktur Bestimmtheit, Datenanomalie, Klarheit, AktualitĂ€t, Einhaltung der DatenintegritĂ€tsregeln. (Seite 334. Data Warehousing-Grundlagen fĂŒr IT-Experten / Paulraj Ponniah. - 2. Aufl.)

PrĂ€sentierte englische Formulierungen und russische maschinelle Übersetzung in Klammern.

Richtigkeit Der im System fĂŒr ein Datenelement gespeicherte Wert ist der richtige Wert fĂŒr das Auftreten des Datenelements. Wenn Sie einen Kundennamen und eine Adresse in einem Datensatz gespeichert haben, ist die Adresse die richtige Adresse fĂŒr den Kunden mit diesem Namen. Wenn Sie die bestellte Menge als 1000 Einheiten im Datensatz fĂŒr die Bestellnummer 12345678 finden, ist diese Menge die genaue Menge fĂŒr diese Bestellung.
[Richtigkeit. Der im System fĂŒr das Datenelement gespeicherte Wert ist der korrekte Wert fĂŒr dieses Auftreten des Datenelements. Wenn Sie einen Kundennamen und die Adresse im Datensatz gespeichert haben, ist die Adresse die richtige Adresse fĂŒr den Kunden mit diesem Namen. Wenn Sie die bestellte Menge als 1000 Einheiten im Eintrag fĂŒr die Bestellnummer 12345678 finden, ist diese Menge die genaue Menge fĂŒr diese Bestellung.]

DomĂ€nenintegritĂ€t Der Datenwert eines Attributs fĂ€llt in den Bereich zulĂ€ssiger definierter Werte. Das hĂ€ufigste Beispiel sind die zulĂ€ssigen Werte "mĂ€nnlich" und "weiblich" fĂŒr das Geschlechtsdatenelement.
[DomĂ€nenintegritĂ€t Der Wert der Attributdaten fĂ€llt in den Bereich gĂŒltiger, definierter Werte. Ein hĂ€ufiges Beispiel sind die gĂŒltigen mĂ€nnlichen und weiblichen Werte fĂŒr ein Geschlechtsdatenelement.]

Datentyp. Der Wert fĂŒr ein Datenattribut wird tatsĂ€chlich als der fĂŒr dieses Attribut definierte Datentyp gespeichert. Wenn der Datentyp des Felds fĂŒr den GeschĂ€ftsnamen als "Text" definiert ist, enthalten alle Instanzen dieses Felds den im Textformat angezeigten GeschĂ€ftsnamen und keine numerischen Codes.
[Datentyp. Der Wert des Datenattributs wird tatsĂ€chlich als der fĂŒr dieses Attribut definierte Datentyp gespeichert. Wenn der Datentyp des Felds fĂŒr den GeschĂ€ftsnamen als "Text" definiert ist, enthalten alle Instanzen dieses Felds den GeschĂ€ftsnamen, der im Textformat und nicht in numerischen Codes angezeigt wird.]

Konsistenz. Form und Inhalt eines Datenfelds sind fĂŒr mehrere Quellsysteme gleich. Wenn der Produktcode fĂŒr Produkt ABC in einem System 1234 lautet, lautet der Code fĂŒr dieses Produkt in jedem Quellsystem 1234.
[Konsistenz. Form und Inhalt des Datenfeldes sind in verschiedenen Quellsystemen gleich. Wenn der Produktcode fĂŒr ein ABC-Produkt in einem System 1234 lautet, lautet der Code fĂŒr dieses Produkt in jedem Quellsystem 1234.]

Redundanz. Dieselben Daten dĂŒrfen nicht an mehr als einem Ort in einem System gespeichert werden. Wenn ein Datenelement aus EffizienzgrĂŒnden absichtlich an mehr als einer Stelle in einem System gespeichert wird, muss die Redundanz eindeutig identifiziert und ĂŒberprĂŒft werden.
[Redundanz. Dieselben Daten sollten nicht an mehr als einer Stelle im System gespeichert werden. Wenn das Datenelement aus EffizienzgrĂŒnden absichtlich an mehreren Stellen im System gespeichert wird, sollte die Redundanz klar definiert und ĂŒberprĂŒft werden.]

VollstĂ€ndigkeit. Es fehlen keine Werte fĂŒr ein bestimmtes Attribut im System. Beispielsweise muss in einer Kundendatei fĂŒr jeden Kunden ein gĂŒltiger Wert fĂŒr das Feld "Status" vorhanden sein. In der Datei mit den Bestelldetails muss jeder Detaildatensatz fĂŒr eine Bestellung vollstĂ€ndig ausgefĂŒllt sein.
[VollstĂ€ndigkeit. Es fehlen keine Werte fĂŒr dieses Attribut im System. Beispielsweise muss die Client-Datei fĂŒr jeden Client einen gĂŒltigen Wert fĂŒr das Feld "Status" haben. In der Bestelldetails-Datei muss jeder Bestelldetail-Datensatz vollstĂ€ndig ausgefĂŒllt sein.]

VervielfĂ€ltigung. Das Duplizieren von DatensĂ€tzen in einem System wird vollstĂ€ndig behoben. Wenn bekannt ist, dass die Produktdatei doppelte DatensĂ€tze enthĂ€lt, werden alle doppelten DatensĂ€tze fĂŒr jedes Produkt identifiziert und ein Querverweis erstellt.
[VervielfĂ€ltigung. Das Duplizieren von EintrĂ€gen im System entfĂ€llt vollstĂ€ndig. Wenn bekannt ist, dass die Produktdatei doppelte EintrĂ€ge enthĂ€lt, werden alle doppelten EintrĂ€ge fĂŒr jedes Produkt identifiziert und mit Querverweisen versehen.]

KonformitÀt mit GeschÀftsregeln. Die Werte jedes Datenelements entsprechen den vorgeschriebenen GeschÀftsregeln. In einem Auktionssystem darf der Hammer- oder Verkaufspreis nicht unter dem Mindestpreis liegen. In einem Bankdarlehenssystem muss der Darlehensbestand immer positiv oder Null sein.
Einhaltung der GeschÀftsregeln. Die Werte jedes Datenelements entsprechen den festgelegten GeschÀftsregeln. In einem Auktionssystem kann der Preis eines Hammers oder Verkaufs nicht unter dem Mindestpreis liegen. In einem Bankkreditsystem sollte das Guthaben immer positiv oder null sein.]

Strukturelle Bestimmtheit. Überall dort, wo ein Datenelement natĂŒrlich in einzelne Komponenten strukturiert werden kann, muss das Element diese genau definierte Struktur enthalten. Zum Beispiel teilt sich der Name einer Person natĂŒrlich in Vorname, mittlere Initiale und Nachname. Werte fĂŒr Namen von Personen mĂŒssen als Vorname, mittlerer Vorname und Nachname gespeichert werden. Dieses Merkmal der DatenqualitĂ€t vereinfacht die Durchsetzung von Standards und reduziert fehlende Werte.
Strukturelle Sicherheit Wenn ein Datenelement auf natĂŒrliche Weise in separate Komponenten strukturiert werden kann, sollte das Element diese genau definierte Struktur enthalten. Beispielsweise wird der Name einer Person natĂŒrlich in Vorname, mittleren Vor- und Nachnamen unterteilt. Werte fĂŒr die Namen von Personen mĂŒssen als Vorname, mittlerer Vor- und Nachname gespeichert werden. Dieses Merkmal der DatenqualitĂ€t vereinfacht die Anwendung von Standards und reduziert fehlende Werte.]

Datenanomalie. Ein Feld darf nur fĂŒr den Zweck verwendet werden, fĂŒr den es definiert ist. Wenn das Feld Adresse-3 fĂŒr eine mögliche dritte Adresszeile fĂŒr lange Adressen definiert ist, darf dieses Feld nur zum Aufzeichnen der dritten Adresszeile verwendet werden. Es darf nicht zur Eingabe einer Telefon- oder Faxnummer fĂŒr den Kunden verwendet werden.
[Datenanomalie Das Feld sollte nur fĂŒr den Zweck verwendet werden, fĂŒr den es definiert ist. Wenn das Feld Adresse 3 fĂŒr eine mögliche dritte Adresszeile fĂŒr lange Adressen definiert ist, sollte dieses Feld nur zum Aufzeichnen der dritten Adresszeile verwendet werden. Es sollte nicht zur Eingabe einer Telefon- oder Faxnummer fĂŒr einen Kunden verwendet werden.]

Klarheit. Ein Datenelement kann alle anderen Merkmale von QualitĂ€tsdaten besitzen, aber wenn die Benutzer seine Bedeutung nicht klar verstehen, hat das Datenelement fĂŒr die Benutzer keinen Wert. Richtige Namenskonventionen tragen dazu bei, dass die Datenelemente fĂŒr die Benutzer gut verstĂ€ndlich sind.
[Klarheit. Ein Datenelement kann alle anderen Merkmale von QualitĂ€tsdaten besitzen. Wenn Benutzer jedoch seine Bedeutung nicht klar verstehen, ist das Datenelement fĂŒr Benutzer nicht wertvoll. Richtige Namenskonventionen tragen dazu bei, dass Datenelemente fĂŒr Benutzer gut verstĂ€ndlich sind.]

Rechtzeitig. Die Benutzer bestimmen die AktualitĂ€t der Daten. Wenn die Benutzer erwarten, dass Kundendimensionsdaten nicht Ă€lter als ein Tag sind, mĂŒssen die Änderungen an Kundendaten in den Quellsystemen tĂ€glich auf das Data Warehouse angewendet werden.
[Rechtzeitig. Benutzer bestimmen die AktualitĂ€t der Daten. Wenn Benutzer erwarten, dass die Messdaten des Kunden nicht Ă€lter als ein Tag sind, sollten Änderungen an den Kundendaten in den Quellsystemen tĂ€glich auf das Data Warehouse angewendet werden.]

NĂŒtzlichkeit Jedes Datenelement im Data Warehouse muss einige Anforderungen an die Benutzererfassung erfĂŒllen. Ein Datenelement mag genau und von hoher QualitĂ€t sein, aber wenn es fĂŒr die Benutzer keinen Wert hat, ist es völlig unnötig, dass sich dieses Datenelement im Data Warehouse befindet.
[NĂŒtzlichkeit. Jedes Datenelement im Data Warehouse muss einige der Anforderungen einer Benutzersammlung erfĂŒllen. Ein Datenelement kann genau und von hoher QualitĂ€t sein. Wenn es jedoch fĂŒr Benutzer nicht von Wert ist, muss sich das Datenelement nicht im Data Warehouse befinden.]

Einhaltung der DatenintegritĂ€tsregeln. Die in den relationalen Datenbanken der Quellsysteme gespeicherten Daten mĂŒssen den Regeln fĂŒr EntitĂ€tsintegritĂ€t und referenzielle IntegritĂ€t entsprechen. Jede Tabelle, die null als PrimĂ€rschlĂŒssel zulĂ€sst, hat keine EntitĂ€tsintegritĂ€t. Die referenzielle IntegritĂ€t erzwingt den korrekten Aufbau der Eltern-Kind-Beziehungen. In einer Kunden-zu-Bestell-Beziehung stellt die referenzielle IntegritĂ€t die Existenz eines Kunden fĂŒr jede Bestellung in der Datenbank sicher.
Einhaltung der DatenintegritĂ€tsregeln Die in den relationalen Datenbanken der Quellsysteme gespeicherten Daten mĂŒssen den Regeln der EntitĂ€tsintegritĂ€t und der referenziellen IntegritĂ€t entsprechen. Jede Tabelle, die null als PrimĂ€rschlĂŒssel zulĂ€sst, hat keine EntitĂ€tsintegritĂ€t. Die referenzielle IntegritĂ€t erzwingt die Herstellung der richtigen Beziehung zwischen Eltern und Kindern. In einer Kunden-Bestell-Beziehung stellt die referenzielle IntegritĂ€t sicher, dass fĂŒr jede Bestellung in der Datenbank ein Kunde vorhanden ist.]

4. Die QualitÀt der Datenbereinigung


Die QualitĂ€t der Datenbereinigung ist bei BigData eine eher problematische Frage. Die Beantwortung der Frage, welcher Grad an Datenbereinigung bei der AusfĂŒhrung der Aufgabe erforderlich ist, ist fĂŒr jeden Datenanalysten von grundlegender Bedeutung. Bei den meisten aktuellen Aufgaben stellt jeder Analyst dies selbst fest, und es ist unwahrscheinlich, dass jemand von außen diesen Aspekt in seiner Entscheidung bewerten kann. FĂŒr diese Aufgabe war diese Frage in diesem Fall jedoch Ă€ußerst wichtig, da die ZuverlĂ€ssigkeit der Rechtsdaten zur Einheit tendieren sollte.

BerĂŒcksichtigung von Softwaretesttechnologien zur Bestimmung der ZuverlĂ€ssigkeit bei der Arbeit. Heute gibt es mehr als 200 dieser Modelle . Viele Modelle verwenden das Anwendungsdienstmodell:


Abb. 6

Denken Sie wie folgt: "Wenn der gefundene Fehler ein Ereignis ist, das dem Fehlerereignis in diesem Modell Ă€hnlich ist, wie kann man dann ein Analogon des Parameters t finden?" Und ich habe das folgende Modell erstellt: Stellen Sie sich vor, ein Tester benötigt 1 Minute, um einen Datensatz zu ĂŒberprĂŒfen (fĂŒr die betreffende Datenbank). Um alle Fehler zu finden, dauert es 365.494 Minuten, was ungefĂ€hr 3 Jahren und 3 Monaten Arbeitszeit entspricht. Nach unserem VerstĂ€ndnis ist dies kein sehr geringer Arbeitsaufwand, und die Kosten fĂŒr die ÜberprĂŒfung der Datenbank sind fĂŒr den Compiler dieser Datenbank unertrĂ€glich. In dieser Reflexion erscheint das ökonomische Kostenkonzept und kam nach Analyse zu dem Schluss, dass dies ein ziemlich wirksames Instrument ist. Basierend auf dem Wirtschaftsgesetz: „Das Produktionsvolumen (in Einheiten), bei dem der maximale Gewinn des Unternehmens erzielt wird,"befindet sich an dem Punkt, an dem die Grenzkosten fĂŒr die Herstellung einer neuen Produktionseinheit mit dem Preis verglichen werden, den dieses Unternehmen fĂŒr eine neue Einheit erhalten kann." Unter Berufung auf das Postulat, dass das Auffinden jedes nachfolgenden Fehlers eine immer stĂ€rkere ÜberprĂŒfung der Aufzeichnungen erfordert, ist dies ein Kostenfaktor. Das heißt, das in den Testmodellen verwendete Postulat ist in der folgenden RegelmĂ€ĂŸigkeit physikalisch sinnvoll: Wenn zum Auffinden des i-ten Fehlers n DatensĂ€tze ĂŒberprĂŒft werden mussten, um den nĂ€chsten (i + 1) Fehler zu finden, mĂŒssen bereits m DatensĂ€tze und n <m ĂŒberprĂŒft werden. Dieses Postulat in Testmodellen wird hauptsĂ€chlich durch die Anforderung formuliert, dass die gefundenen Fehler behoben, aber nicht korrigiert werden mĂŒssen, damit die Software in ihrem natĂŒrlichen Zustand getestet wird, dh der Fehlerfluss ist gleichmĂ€ĂŸig. Dementsprechend ist fĂŒr unseren FallDie Validierung von DatensĂ€tzen kann zwei Varianten der Einheitlichkeit zeigen:

  1. ;
  2. .

Um den kritischen Wert zu bestimmen, wandte er sich dem Konzept der wirtschaftlichen Machbarkeit zu, das in diesem Fall unter Verwendung des Konzepts der sozialen Kosten wie folgt formuliert werden kann: "Die Kosten fĂŒr die Korrektur des Fehlers sollten vom Wirtschaftsakteur getragen werden, der dies zu den niedrigsten Kosten tun kann." Wir haben einen Agenten - dies ist ein Tester, der 1 Minute damit verbringt, einen Datensatz zu ĂŒberprĂŒfen. In Geld ausgedrĂŒckt wird dies bei einem Gewinn von 6000 Rubel / Tag 12,2 Rubel betragen. (ungefĂ€hr heute). Es bleibt die zweite Seite des wirtschaftsrechtlichen Gleichgewichts zu bestimmen. Er ĂŒberlegte so. Der vorhandene Fehler erfordert, dass jemand Anstrengungen unternimmt, um ihn zu korrigieren, dh der EigentĂŒmer der Immobilie. Angenommen, Sie benötigen dafĂŒr 1 Aktionstag (fĂŒgen Sie den Antrag bei und holen Sie sich das korrigierte Dokument).Aus öffentlicher Sicht entsprechen die Kosten dann dem Durchschnittsgehalt pro Tag. Das durchschnittliche aufgelaufene Gehalt im Khanty-Mansi Autonomous Okrug"Ergebnisse der sozioökonomischen Entwicklung des autonomen Okrugs Khanty-Mansiysk - Ugra fĂŒr Januar-September 2019" 73285 Rubel. oder 3053,542 Rubel / Tag. Dementsprechend erhalten wir einen kritischen Wert von:
3053,542: 12,2 = 250,4 Einheiten.

Aus öffentlicher Sicht bedeutet dies, dass wenn der Tester 251 EintrĂ€ge ĂŒberprĂŒft und einen Fehler gefunden hat, dies dem Benutzer entspricht, der diesen Fehler selbst behebt. Wenn der Tester die Zeit damit verbracht hat, 252 DatensĂ€tze zu ĂŒberprĂŒfen, um den nĂ€chsten Fehler zu finden, ist es in diesem Fall besser, die Korrekturkosten auf den Benutzer zu verlagern.

Hier wird ein vereinfachter Ansatz vorgestellt, da aus öffentlicher Sicht alle zusĂ€tzlichen Kosten berĂŒcksichtigt werden mĂŒssen, die von jedem Spezialisten verursacht werden, dh Kosten einschließlich Steuern und Sozialleistungen, aber das Modell ist klar. Die Konsequenz dieser Beziehung ist die folgende Anforderung an Spezialisten: Ein IT-Spezialist sollte ein Gehalt haben, das ĂŒber dem nationalen Durchschnitt liegt. Wenn sein Gehalt unter dem Durchschnittsgehalt potenzieller Datenbankbenutzer liegt, muss er selbst die gesamte Datenbank im Nahkampf ĂŒberprĂŒfen.

Bei Verwendung des beschriebenen Kriteriums wird die erste Anforderung an die QualitÀt der Datenbank gebildet:
I (tr). Der Anteil kritischer Fehler sollte 1 / 250,4 = 0,39938% nicht ĂŒberschreiten. Etwas weniger als Goldraffinierung in der Industrie. Und in Form von Sachleistungen nicht mehr als 1.459 fehlerhafte EintrĂ€ge.

Wirtschaftlicher RĂŒckzug. Indem

das Unternehmen eine solche Anzahl von Fehlern in den EintrÀgen

zulÀsst , stimmt es wirtschaftlichen Verlusten in Höhe von: 1.459 * 3.053.542 = 4.455.118 Rubel zu.

Dieser Betrag wird durch die Tatsache bestimmt, dass das Unternehmen nicht ĂŒber Instrumente zur Reduzierung dieser Kosten verfĂŒgt. Daraus folgt, dass wenn jemand eine Technologie entwickelt, mit der die Anzahl fehlerhafter DatensĂ€tze auf beispielsweise 259 reduziert werden kann, die Gesellschaft dadurch sparen kann:
1200 * 3053,542 = 3.664.250 Rubel.

Gleichzeitig kann er nach seinem Talent und seiner Arbeit fragen, sagen wir mal - 1 Million Rubel.
Das heißt, die sozialen Kosten werden reduziert um:

3 664 250 - 1 000 000 = 2 664 250 Rubel.

TatsÀchlich ist dieser Effekt der Mehrwert durch den Einsatz von Bigdat-Technologien.

Hierbei ist jedoch zu berĂŒcksichtigen, dass dies ein sozialer Effekt ist und der EigentĂŒmer der Datenbank die Kommunalbehörden sind. Ihr Einkommen aus der Nutzung von in dieser Datenbank erfasstem Eigentum betrĂ€gt 0,3%: 2,778 Milliarden Rubel / Jahr. Und diese Kosten (4 455 118 Rubel) stören ihn nicht sonderlich, da sie auf die EigentĂŒmer des GrundstĂŒcks ĂŒbertragen werden. In dieser Hinsicht muss der Entwickler von mehr Verfeinerungstechnologien in Bigdata die FĂ€higkeit nachweisen, den EigentĂŒmer dieser Datenbank zu ĂŒberzeugen, und solche Dinge erfordern betrĂ€chtliches Talent.

In diesem Beispiel wurde ein FehlerschĂ€tzungsalgorithmus basierend auf der SoftwareĂŒberprĂŒfung des Schumann-Modells [2] beim Testen auf ZuverlĂ€ssigkeit ausgewĂ€hlt. Aufgrund seiner Verbreitung im Netzwerk und der FĂ€higkeit, die erforderlichen statistischen Indikatoren zu erhalten. Die Methodik stammt von Monks Yu.M. "FunktionsstabilitĂ€t von Informationssystemen", siehe unter dem Spoiler in Abb. 7-9.

Feige. 7 - 9 Schumann-Modellmethodik






Der zweite Teil dieses Materials enthĂ€lt ein Beispiel fĂŒr die Datenbereinigung, bei dem die Ergebnisse der Verwendung des Schuman-Modells erhalten werden.
Ich werde die Ergebnisse prÀsentieren: Die
geschÀtzte Anzahl von Fehlern N = 3167 shN.
Parameter C, Lambda und ZuverlÀssigkeitsfunktion:


Abb.17

TatsĂ€chlich ist Lambda ein tatsĂ€chlicher Indikator fĂŒr die IntensitĂ€t, mit der Fehler in jeder Stufe erkannt werden. Wenn Sie sich den zweiten Teil ansehen, dann betrug die SchĂ€tzung dieses Indikators 42,4 Fehler pro Stunde, was durchaus mit der Zahl von Schumann vergleichbar ist. Oben wurde festgestellt, dass die Fehlererkennungsrate durch den Entwickler nicht niedriger als 1 Fehler pro 250,4 DatensĂ€tze sein sollte, wĂ€hrend 1 Datensatz pro Minute ĂŒberprĂŒft wurde. Daher der kritische Wert von Lambda fĂŒr das Schumann-Modell:

60 / 250,4 = 0,239617.

Das heißt, die Notwendigkeit von Fehlerlokalisierungsverfahren muss ausgefĂŒhrt werden, bis das Lambda von den verfĂŒgbaren 38,964 auf 0,239617 fĂ€llt.

Oder bis der Indikator N (mögliche Anzahl von Fehlern) minus n (korrigierte Anzahl von Fehlern) nicht weniger als der von uns angenommene Schwellenwert abnimmt - 1459 StĂŒck.

Literatur


  1. Monakhov, Yu. M. FunktionsstabilitÀt von Informationssystemen. Nach 3 Stunden. Teil 1. Software-ZuverlÀssigkeit: Lehrbuch. Zulage / Yu. M. Monakhov; Vladim. Zustand un-t - Vladimir: Izdvo Vladim. Zustand UniversitÀt, 2011 .-- 60 p. - ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Probabilistische Modelle fĂŒr die Vorhersage der SoftwarezuverlĂ€ssigkeit."
  3. Grundlagen des Data Warehousing fĂŒr IT-Experten / Paulraj Ponniah - 2. Aufl.

Zweiter Teil. Theoretisch

All Articles