👩🏾 🏌️ 💫 Daten löschen, wie das Spiel „Stein, Schere, Papier“. Ist das ein Spiel mit oder ohne Ende? Teil 1. Theoretisch 📁 👋🏾 🙀

1. Die Quelldaten

Die Datenbereinigung ist eine der Herausforderungen bei der Datenanalyse. Dieses Material spiegelte die Entwicklungen und Entscheidungen wider, die sich aus der Lösung des praktischen Problems der Analyse der Datenbank während der Bildung des Katasterwerts ergaben. Quellen hier sind "BERICHT Nr. 01 / -2019 über die Ergebnisse der staatlichen Katasterbewertung aller Arten von Immobilien (außer Grundstücken) im autonomen Okrug Khanty-Mansiysk - Ugra" .

Die Datei „Vergleichsmodell total.ods“ wurde in „Anhang B“ berücksichtigt. Ergebnisse der Bestimmung des COP 5. Informationen zur Methode zur Bestimmung des Katasterwerts 5.1 Vergleichsansatz “.

Tabelle 1. Statistikindikatoren des Datensatzes in der Datei „Vergleichsmodell total.ods“
Gesamtzahl der Felder, Stk. - 44
Gesamtzahl der Datensätze - 365.490
Die Gesamtzahl der Zeichen, Stk. - 101.714.693 Die
durchschnittliche Anzahl von Zeichen in einem Datensatz, Stk. - 278.297
Standardabweichung der Zeichen im Datensatz, Stck. - 15.510
Die Mindestanzahl von Zeichen im Datensatz, Stk. - 198 Die
maximale Anzahl von Zeichen im Datensatz, Stk. - 363

2. Einführungsteil. Grundstandards

Bei der Analyse der angegebenen Datenbank wurde eine Aufgabe gebildet, um die Anforderungen für den Reinigungsgrad festzulegen, da diese Datenbank, wie jeder versteht, die rechtlichen und wirtschaftlichen Konsequenzen für die Benutzer darstellt. Dabei stellte sich heraus, dass keine besonderen Anforderungen an den Reinigungsgrad von Big Data gestellt wurden. Bei der Analyse der rechtlichen Normen in dieser Angelegenheit bin ich zu dem Schluss gekommen, dass sie alle aus Chancen bestehen. Das heißt, eine bestimmte Aufgabe wurde angezeigt, Informationsquellen für die Aufgabe werden vervollständigt, dann wird ein Datensatz gebildet und basierend auf dem erstellten Datensatz Werkzeuge zur Lösung des Problems. Die erhaltenen Lösungen sind Bezugspunkte bei der Auswahl von Alternativen. Dargestellt in Abbildung 1.

Da es vorzuziehen ist, sich bei der Festlegung von Standards auf bewährte Technologien zu stützen, habe ich die Analysekriterien als Grundlage für die Anforderungen gewählt, die in den Definitionen und Leitlinien für die Datenintegrität von MHRA GxP für die Industrie festgelegt sind , da ich dieses Dokument als das ganzheitlichste für dieses Problem angesehen habe. Im Abschnitt dieses Dokuments heißt es insbesondere: „Es ist zu beachten, dass die Anforderungen an die Datenintegrität für manuelle (Papier-) und elektronische Daten gleichermaßen gelten.“ (trans. "... Datenintegritätsanforderungen gelten gleichermaßen für manuelle (Papier) und elektronische Daten"). Dieser Wortlaut ist ganz spezifisch mit dem Begriff „schriftlicher Beweis“ in den Normen von Artikel 71 der Zivilprozessordnung, Artikel, verbunden 70 CAS, Art. 75 AIC, "Schreiben" Art. 84 GIC.

In Abbildung 2 ist ein Diagramm zur Bildung von Ansätzen für die Arten von Informationen in der Rechtsprechung dargestellt.

Feige. 2. Quelle hier .

Abbildung 3 zeigt den Mechanismus von Abbildung 1 für die Aufgaben der obigen „Anleitung“. Ein Vergleich lässt sich leicht feststellen, dass die Ansätze, die bei der Erfüllung der Anforderungen an die Integrität von Informationen in modernen Standards für Informationssysteme verwendet werden, im Vergleich zum rechtlichen Informationskonzept erheblich eingeschränkt sind.

Abb.3

In dem angegebenen Dokument (Anleitung) wird die Verknüpfung mit dem technischen Teil, den Verarbeitungs- und Speicherfähigkeiten der Daten durch das Zitat aus Kapitel 18.2 gut bestätigt. Relationale Datenbank: "Diese Dateistruktur ist von Natur aus sicherer, da die Daten in einem großen Dateiformat gespeichert werden, das die Beziehung zwischen Daten und Metadaten beibehält."

Tatsächlich gibt es bei diesem Ansatz - von den vorhandenen technischen Fähigkeiten her - nichts Normales und an sich ist es ein natürlicher Prozess, da die Erweiterung der Konzepte aus dem am besten untersuchten Aktivitätsdatenbankdesign stammt. Andererseits erscheinen jedoch gesetzliche Normen, die keine Rabatte auf die technischen Fähigkeiten bestehender Systeme vorsehen , zum Beispiel: DSGVO - Allgemeine Datenschutzverordnung .

Feige. 4. Trichter der technischen Fähigkeiten ( Quelle ).

In diesen Aspekten wird deutlich, dass der ursprüngliche Datensatz (Abb. 1) erstens erhalten bleiben muss und zweitens die Grundlage für das Extrahieren zusätzlicher Informationen daraus sein muss. Ein Beispiel: Fixierungskameras für Verkehrsregeln sind weit verbreitet, Informationsverarbeitungssysteme filtern Verstöße heraus, aber andere Informationen können auch anderen Verbrauchern angeboten werden, beispielsweise als Marketingüberwachung des Kundenflusses zu einem Einkaufszentrum. Dies ist eine zusätzliche Wertschöpfungsquelle bei der Verwendung von Bigdat. Es ist durchaus denkbar, dass die Datensätze, die jetzt und irgendwann in der Zukunft zusammengestellt werden, einen Wert haben, der dem Wert seltener Bücher des 18. Jahrhunderts entspricht. In der Tat sind temporäre Datensätze einzigartig und werden in Zukunft wahrscheinlich nicht wiederholt.

3. Einführungsteil. Evaluationskriterien

Während der Verarbeitung wurde die folgende Klassifizierung von Fehlern entwickelt.

1. Fehlerklasse (basierend auf GOST R 8.736-2011): a) systematische Fehler; b) zufällige Fehler; c) ein grober Fehler.

2. Durch Multiplizität: a) Monoverzerrung; b) Mehrfachverzerrung.

3. Entsprechend der Kritikalität der Folgen: a) kritisch; b) nicht kritisch.

4. Nach der Quelle des Auftretens:

A) Technische Fehler, die während des Betriebs des Geräts auftreten. Ein ziemlich aktueller Fehler für IoT-Systeme, Systeme mit einem erheblichen Einfluss auf die Qualität der Kommunikation, Ausrüstung (Hardware).

B) Bediener - Fehler in einem weiten Bereich von typografischen Fehlern des Bedieners bei der Eingabe bis hin zu Fehlern in den technischen Spezifikationen für das Datenbankdesign.

C) Benutzerdefiniert - hier die Fehler des Benutzers im gesamten Bereich von "Vergessen, das Layout zu ändern" bis zu dem, was die Zähler für Füße genommen haben.

5. In einer separaten Klasse ausgewählt:

a) die "Trennaufgabe", dh das Leerzeichen und ":" (in unserem Fall), als sie dupliziert wurde;
b) Wörter alle in einem Stück;
c) das Fehlen eines Leerzeichens nach den Dienstzeichen
; d) symmetrisch-plurale Zeichen: (), "", "...".

Insgesamt wird mit der in 5 dargestellten Systematisierung von Datenbankfehlern ein ausreichend effektives Koordinatensystem zum Suchen von Fehlern und Entwickeln eines Algorithmus zum Bereinigen von Daten für dieses Beispiel gebildet.

Feige. 5. Typische Fehler, die den Struktureinheiten der Datenbank entsprechen (Quelle: Oreshkov VI, Paklin NB „Schlüsselkonzepte der Datenkonsolidierung“ ).

Genauigkeit, Domänenintegrität, Datentyp, Konsistenz, Redundanz, Vollständigkeit, Vervielfältigung, Konformität mit Geschäftsregeln, Struktur Bestimmtheit, Datenanomalie, Klarheit, Aktualität, Einhaltung der Datenintegritätsregeln. (Seite 334. Data Warehousing-Grundlagen für IT-Experten / Paulraj Ponniah. - 2. Aufl.)

Präsentierte englische Formulierungen und russische maschinelle Übersetzung in Klammern.

Richtigkeit Der im System für ein Datenelement gespeicherte Wert ist der richtige Wert für das Auftreten des Datenelements. Wenn Sie einen Kundennamen und eine Adresse in einem Datensatz gespeichert haben, ist die Adresse die richtige Adresse für den Kunden mit diesem Namen. Wenn Sie die bestellte Menge als 1000 Einheiten im Datensatz für die Bestellnummer 12345678 finden, ist diese Menge die genaue Menge für diese Bestellung.
[Richtigkeit. Der im System für das Datenelement gespeicherte Wert ist der korrekte Wert für dieses Auftreten des Datenelements. Wenn Sie einen Kundennamen und die Adresse im Datensatz gespeichert haben, ist die Adresse die richtige Adresse für den Kunden mit diesem Namen. Wenn Sie die bestellte Menge als 1000 Einheiten im Eintrag für die Bestellnummer 12345678 finden, ist diese Menge die genaue Menge für diese Bestellung.]

Domänenintegrität Der Datenwert eines Attributs fällt in den Bereich zulässiger definierter Werte. Das häufigste Beispiel sind die zulässigen Werte "männlich" und "weiblich" für das Geschlechtsdatenelement.
[Domänenintegrität Der Wert der Attributdaten fällt in den Bereich gültiger, definierter Werte. Ein häufiges Beispiel sind die gültigen männlichen und weiblichen Werte für ein Geschlechtsdatenelement.]

Datentyp. Der Wert für ein Datenattribut wird tatsächlich als der für dieses Attribut definierte Datentyp gespeichert. Wenn der Datentyp des Felds für den Geschäftsnamen als "Text" definiert ist, enthalten alle Instanzen dieses Felds den im Textformat angezeigten Geschäftsnamen und keine numerischen Codes.
[Datentyp. Der Wert des Datenattributs wird tatsächlich als der für dieses Attribut definierte Datentyp gespeichert. Wenn der Datentyp des Felds für den Geschäftsnamen als "Text" definiert ist, enthalten alle Instanzen dieses Felds den Geschäftsnamen, der im Textformat und nicht in numerischen Codes angezeigt wird.]

Konsistenz. Form und Inhalt eines Datenfelds sind für mehrere Quellsysteme gleich. Wenn der Produktcode für Produkt ABC in einem System 1234 lautet, lautet der Code für dieses Produkt in jedem Quellsystem 1234.
[Konsistenz. Form und Inhalt des Datenfeldes sind in verschiedenen Quellsystemen gleich. Wenn der Produktcode für ein ABC-Produkt in einem System 1234 lautet, lautet der Code für dieses Produkt in jedem Quellsystem 1234.]

Redundanz. Dieselben Daten dürfen nicht an mehr als einem Ort in einem System gespeichert werden. Wenn ein Datenelement aus Effizienzgründen absichtlich an mehr als einer Stelle in einem System gespeichert wird, muss die Redundanz eindeutig identifiziert und überprüft werden.
[Redundanz. Dieselben Daten sollten nicht an mehr als einer Stelle im System gespeichert werden. Wenn das Datenelement aus Effizienzgründen absichtlich an mehreren Stellen im System gespeichert wird, sollte die Redundanz klar definiert und überprüft werden.]

Vollständigkeit. Es fehlen keine Werte für ein bestimmtes Attribut im System. Beispielsweise muss in einer Kundendatei für jeden Kunden ein gültiger Wert für das Feld "Status" vorhanden sein. In der Datei mit den Bestelldetails muss jeder Detaildatensatz für eine Bestellung vollständig ausgefüllt sein.
[Vollständigkeit. Es fehlen keine Werte für dieses Attribut im System. Beispielsweise muss die Client-Datei für jeden Client einen gültigen Wert für das Feld "Status" haben. In der Bestelldetails-Datei muss jeder Bestelldetail-Datensatz vollständig ausgefüllt sein.]

Vervielfältigung. Das Duplizieren von Datensätzen in einem System wird vollständig behoben. Wenn bekannt ist, dass die Produktdatei doppelte Datensätze enthält, werden alle doppelten Datensätze für jedes Produkt identifiziert und ein Querverweis erstellt.
[Vervielfältigung. Das Duplizieren von Einträgen im System entfällt vollständig. Wenn bekannt ist, dass die Produktdatei doppelte Einträge enthält, werden alle doppelten Einträge für jedes Produkt identifiziert und mit Querverweisen versehen.]

Konformität mit Geschäftsregeln. Die Werte jedes Datenelements entsprechen den vorgeschriebenen Geschäftsregeln. In einem Auktionssystem darf der Hammer- oder Verkaufspreis nicht unter dem Mindestpreis liegen. In einem Bankdarlehenssystem muss der Darlehensbestand immer positiv oder Null sein.
Einhaltung der Geschäftsregeln. Die Werte jedes Datenelements entsprechen den festgelegten Geschäftsregeln. In einem Auktionssystem kann der Preis eines Hammers oder Verkaufs nicht unter dem Mindestpreis liegen. In einem Bankkreditsystem sollte das Guthaben immer positiv oder null sein.]

Strukturelle Bestimmtheit. Überall dort, wo ein Datenelement natürlich in einzelne Komponenten strukturiert werden kann, muss das Element diese genau definierte Struktur enthalten. Zum Beispiel teilt sich der Name einer Person natürlich in Vorname, mittlere Initiale und Nachname. Werte für Namen von Personen müssen als Vorname, mittlerer Vorname und Nachname gespeichert werden. Dieses Merkmal der Datenqualität vereinfacht die Durchsetzung von Standards und reduziert fehlende Werte.
Strukturelle Sicherheit Wenn ein Datenelement auf natürliche Weise in separate Komponenten strukturiert werden kann, sollte das Element diese genau definierte Struktur enthalten. Beispielsweise wird der Name einer Person natürlich in Vorname, mittleren Vor- und Nachnamen unterteilt. Werte für die Namen von Personen müssen als Vorname, mittlerer Vor- und Nachname gespeichert werden. Dieses Merkmal der Datenqualität vereinfacht die Anwendung von Standards und reduziert fehlende Werte.]

Datenanomalie. Ein Feld darf nur für den Zweck verwendet werden, für den es definiert ist. Wenn das Feld Adresse-3 für eine mögliche dritte Adresszeile für lange Adressen definiert ist, darf dieses Feld nur zum Aufzeichnen der dritten Adresszeile verwendet werden. Es darf nicht zur Eingabe einer Telefon- oder Faxnummer für den Kunden verwendet werden.
[Datenanomalie Das Feld sollte nur für den Zweck verwendet werden, für den es definiert ist. Wenn das Feld Adresse 3 für eine mögliche dritte Adresszeile für lange Adressen definiert ist, sollte dieses Feld nur zum Aufzeichnen der dritten Adresszeile verwendet werden. Es sollte nicht zur Eingabe einer Telefon- oder Faxnummer für einen Kunden verwendet werden.]

Klarheit. Ein Datenelement kann alle anderen Merkmale von Qualitätsdaten besitzen, aber wenn die Benutzer seine Bedeutung nicht klar verstehen, hat das Datenelement für die Benutzer keinen Wert. Richtige Namenskonventionen tragen dazu bei, dass die Datenelemente für die Benutzer gut verständlich sind.
[Klarheit. Ein Datenelement kann alle anderen Merkmale von Qualitätsdaten besitzen. Wenn Benutzer jedoch seine Bedeutung nicht klar verstehen, ist das Datenelement für Benutzer nicht wertvoll. Richtige Namenskonventionen tragen dazu bei, dass Datenelemente für Benutzer gut verständlich sind.]

Rechtzeitig. Die Benutzer bestimmen die Aktualität der Daten. Wenn die Benutzer erwarten, dass Kundendimensionsdaten nicht älter als ein Tag sind, müssen die Änderungen an Kundendaten in den Quellsystemen täglich auf das Data Warehouse angewendet werden.
[Rechtzeitig. Benutzer bestimmen die Aktualität der Daten. Wenn Benutzer erwarten, dass die Messdaten des Kunden nicht älter als ein Tag sind, sollten Änderungen an den Kundendaten in den Quellsystemen täglich auf das Data Warehouse angewendet werden.]

Nützlichkeit Jedes Datenelement im Data Warehouse muss einige Anforderungen an die Benutzererfassung erfüllen. Ein Datenelement mag genau und von hoher Qualität sein, aber wenn es für die Benutzer keinen Wert hat, ist es völlig unnötig, dass sich dieses Datenelement im Data Warehouse befindet.
[Nützlichkeit. Jedes Datenelement im Data Warehouse muss einige der Anforderungen einer Benutzersammlung erfüllen. Ein Datenelement kann genau und von hoher Qualität sein. Wenn es jedoch für Benutzer nicht von Wert ist, muss sich das Datenelement nicht im Data Warehouse befinden.]

Einhaltung der Datenintegritätsregeln. Die in den relationalen Datenbanken der Quellsysteme gespeicherten Daten müssen den Regeln für Entitätsintegrität und referenzielle Integrität entsprechen. Jede Tabelle, die null als Primärschlüssel zulässt, hat keine Entitätsintegrität. Die referenzielle Integrität erzwingt den korrekten Aufbau der Eltern-Kind-Beziehungen. In einer Kunden-zu-Bestell-Beziehung stellt die referenzielle Integrität die Existenz eines Kunden für jede Bestellung in der Datenbank sicher.
Einhaltung der Datenintegritätsregeln Die in den relationalen Datenbanken der Quellsysteme gespeicherten Daten müssen den Regeln der Entitätsintegrität und der referenziellen Integrität entsprechen. Jede Tabelle, die null als Primärschlüssel zulässt, hat keine Entitätsintegrität. Die referenzielle Integrität erzwingt die Herstellung der richtigen Beziehung zwischen Eltern und Kindern. In einer Kunden-Bestell-Beziehung stellt die referenzielle Integrität sicher, dass für jede Bestellung in der Datenbank ein Kunde vorhanden ist.]

4. Die Qualität der Datenbereinigung

Die Qualität der Datenbereinigung ist bei BigData eine eher problematische Frage. Die Beantwortung der Frage, welcher Grad an Datenbereinigung bei der Ausführung der Aufgabe erforderlich ist, ist für jeden Datenanalysten von grundlegender Bedeutung. Bei den meisten aktuellen Aufgaben stellt jeder Analyst dies selbst fest, und es ist unwahrscheinlich, dass jemand von außen diesen Aspekt in seiner Entscheidung bewerten kann. Für diese Aufgabe war diese Frage in diesem Fall jedoch äußerst wichtig, da die Zuverlässigkeit der Rechtsdaten zur Einheit tendieren sollte.

Berücksichtigung von Softwaretesttechnologien zur Bestimmung der Zuverlässigkeit bei der Arbeit. Heute gibt es mehr als 200 dieser Modelle . Viele Modelle verwenden das Anwendungsdienstmodell:

Abb. 6

Denken Sie wie folgt: "Wenn der gefundene Fehler ein Ereignis ist, das dem Fehlerereignis in diesem Modell ähnlich ist, wie kann man dann ein Analogon des Parameters t finden?" Und ich habe das folgende Modell erstellt: Stellen Sie sich vor, ein Tester benötigt 1 Minute, um einen Datensatz zu überprüfen (für die betreffende Datenbank). Um alle Fehler zu finden, dauert es 365.494 Minuten, was ungefähr 3 Jahren und 3 Monaten Arbeitszeit entspricht. Nach unserem Verständnis ist dies kein sehr geringer Arbeitsaufwand, und die Kosten für die Überprüfung der Datenbank sind für den Compiler dieser Datenbank unerträglich. In dieser Reflexion erscheint das ökonomische Kostenkonzept und kam nach Analyse zu dem Schluss, dass dies ein ziemlich wirksames Instrument ist. Basierend auf dem Wirtschaftsgesetz: „Das Produktionsvolumen (in Einheiten), bei dem der maximale Gewinn des Unternehmens erzielt wird,"befindet sich an dem Punkt, an dem die Grenzkosten für die Herstellung einer neuen Produktionseinheit mit dem Preis verglichen werden, den dieses Unternehmen für eine neue Einheit erhalten kann." Unter Berufung auf das Postulat, dass das Auffinden jedes nachfolgenden Fehlers eine immer stärkere Überprüfung der Aufzeichnungen erfordert, ist dies ein Kostenfaktor. Das heißt, das in den Testmodellen verwendete Postulat ist in der folgenden Regelmäßigkeit physikalisch sinnvoll: Wenn zum Auffinden des i-ten Fehlers n Datensätze überprüft werden mussten, um den nächsten (i + 1) Fehler zu finden, müssen bereits m Datensätze und n <m überprüft werden. Dieses Postulat in Testmodellen wird hauptsächlich durch die Anforderung formuliert, dass die gefundenen Fehler behoben, aber nicht korrigiert werden müssen, damit die Software in ihrem natürlichen Zustand getestet wird, dh der Fehlerfluss ist gleichmäßig. Dementsprechend ist für unseren FallDie Validierung von Datensätzen kann zwei Varianten der Einheitlichkeit zeigen:

;
.

Um den kritischen Wert zu bestimmen, wandte er sich dem Konzept der wirtschaftlichen Machbarkeit zu, das in diesem Fall unter Verwendung des Konzepts der sozialen Kosten wie folgt formuliert werden kann: "Die Kosten für die Korrektur des Fehlers sollten vom Wirtschaftsakteur getragen werden, der dies zu den niedrigsten Kosten tun kann." Wir haben einen Agenten - dies ist ein Tester, der 1 Minute damit verbringt, einen Datensatz zu überprüfen. In Geld ausgedrückt wird dies bei einem Gewinn von 6000 Rubel / Tag 12,2 Rubel betragen. (ungefähr heute). Es bleibt die zweite Seite des wirtschaftsrechtlichen Gleichgewichts zu bestimmen. Er überlegte so. Der vorhandene Fehler erfordert, dass jemand Anstrengungen unternimmt, um ihn zu korrigieren, dh der Eigentümer der Immobilie. Angenommen, Sie benötigen dafür 1 Aktionstag (fügen Sie den Antrag bei und holen Sie sich das korrigierte Dokument).Aus öffentlicher Sicht entsprechen die Kosten dann dem Durchschnittsgehalt pro Tag. Das durchschnittliche aufgelaufene Gehalt im Khanty-Mansi Autonomous Okrug"Ergebnisse der sozioökonomischen Entwicklung des autonomen Okrugs Khanty-Mansiysk - Ugra für Januar-September 2019" 73285 Rubel. oder 3053,542 Rubel / Tag. Dementsprechend erhalten wir einen kritischen Wert von:
3053,542: 12,2 = 250,4 Einheiten.

Aus öffentlicher Sicht bedeutet dies, dass wenn der Tester 251 Einträge überprüft und einen Fehler gefunden hat, dies dem Benutzer entspricht, der diesen Fehler selbst behebt. Wenn der Tester die Zeit damit verbracht hat, 252 Datensätze zu überprüfen, um den nächsten Fehler zu finden, ist es in diesem Fall besser, die Korrekturkosten auf den Benutzer zu verlagern.

Hier wird ein vereinfachter Ansatz vorgestellt, da aus öffentlicher Sicht alle zusätzlichen Kosten berücksichtigt werden müssen, die von jedem Spezialisten verursacht werden, dh Kosten einschließlich Steuern und Sozialleistungen, aber das Modell ist klar. Die Konsequenz dieser Beziehung ist die folgende Anforderung an Spezialisten: Ein IT-Spezialist sollte ein Gehalt haben, das über dem nationalen Durchschnitt liegt. Wenn sein Gehalt unter dem Durchschnittsgehalt potenzieller Datenbankbenutzer liegt, muss er selbst die gesamte Datenbank im Nahkampf überprüfen.

Bei Verwendung des beschriebenen Kriteriums wird die erste Anforderung an die Qualität der Datenbank gebildet:
I (tr). Der Anteil kritischer Fehler sollte 1 / 250,4 = 0,39938% nicht überschreiten. Etwas weniger als Goldraffinierung in der Industrie. Und in Form von Sachleistungen nicht mehr als 1.459 fehlerhafte Einträge.

Wirtschaftlicher Rückzug. Indem

das Unternehmen eine solche Anzahl von Fehlern in den Einträgen

zulässt , stimmt es wirtschaftlichen Verlusten in Höhe von: 1.459 * 3.053.542 = 4.455.118 Rubel zu.

Dieser Betrag wird durch die Tatsache bestimmt, dass das Unternehmen nicht über Instrumente zur Reduzierung dieser Kosten verfügt. Daraus folgt, dass wenn jemand eine Technologie entwickelt, mit der die Anzahl fehlerhafter Datensätze auf beispielsweise 259 reduziert werden kann, die Gesellschaft dadurch sparen kann:
1200 * 3053,542 = 3.664.250 Rubel.

Gleichzeitig kann er nach seinem Talent und seiner Arbeit fragen, sagen wir mal - 1 Million Rubel.
Das heißt, die sozialen Kosten werden reduziert um:

3 664 250 - 1 000 000 = 2 664 250 Rubel.

Tatsächlich ist dieser Effekt der Mehrwert durch den Einsatz von Bigdat-Technologien.

Hierbei ist jedoch zu berücksichtigen, dass dies ein sozialer Effekt ist und der Eigentümer der Datenbank die Kommunalbehörden sind. Ihr Einkommen aus der Nutzung von in dieser Datenbank erfasstem Eigentum beträgt 0,3%: 2,778 Milliarden Rubel / Jahr. Und diese Kosten (4 455 118 Rubel) stören ihn nicht sonderlich, da sie auf die Eigentümer des Grundstücks übertragen werden. In dieser Hinsicht muss der Entwickler von mehr Verfeinerungstechnologien in Bigdata die Fähigkeit nachweisen, den Eigentümer dieser Datenbank zu überzeugen, und solche Dinge erfordern beträchtliches Talent.

In diesem Beispiel wurde ein Fehlerschätzungsalgorithmus basierend auf der Softwareüberprüfung des Schumann-Modells [2] beim Testen auf Zuverlässigkeit ausgewählt. Aufgrund seiner Verbreitung im Netzwerk und der Fähigkeit, die erforderlichen statistischen Indikatoren zu erhalten. Die Methodik stammt von Monks Yu.M. "Funktionsstabilität von Informationssystemen", siehe unter dem Spoiler in Abb. 7-9.

Feige. 7 - 9 Schumann-Modellmethodik

Der zweite Teil dieses Materials enthält ein Beispiel für die Datenbereinigung, bei dem die Ergebnisse der Verwendung des Schuman-Modells erhalten werden.
Ich werde die Ergebnisse präsentieren: Die
geschätzte Anzahl von Fehlern N = 3167 shN.
Parameter C, Lambda und Zuverlässigkeitsfunktion:

Abb.17

Tatsächlich ist Lambda ein tatsächlicher Indikator für die Intensität, mit der Fehler in jeder Stufe erkannt werden. Wenn Sie sich den zweiten Teil ansehen, dann betrug die Schätzung dieses Indikators 42,4 Fehler pro Stunde, was durchaus mit der Zahl von Schumann vergleichbar ist. Oben wurde festgestellt, dass die Fehlererkennungsrate durch den Entwickler nicht niedriger als 1 Fehler pro 250,4 Datensätze sein sollte, während 1 Datensatz pro Minute überprüft wurde. Daher der kritische Wert von Lambda für das Schumann-Modell:

60 / 250,4 = 0,239617.

Das heißt, die Notwendigkeit von Fehlerlokalisierungsverfahren muss ausgeführt werden, bis das Lambda von den verfügbaren 38,964 auf 0,239617 fällt.

Oder bis der Indikator N (mögliche Anzahl von Fehlern) minus n (korrigierte Anzahl von Fehlern) nicht weniger als der von uns angenommene Schwellenwert abnimmt - 1459 Stück.

Literatur

Monakhov, Yu. M. Funktionsstabilität von Informationssystemen. Nach 3 Stunden. Teil 1. Software-Zuverlässigkeit: Lehrbuch. Zulage / Yu. M. Monakhov; Vladim. Zustand un-t - Vladimir: Izdvo Vladim. Zustand Universität, 2011 .-- 60 p. - ISBN 978-5-9984-0189-3.
Martin L. Shooman, "Probabilistische Modelle für die Vorhersage der Softwarezuverlässigkeit."
Grundlagen des Data Warehousing für IT-Experten / Paulraj Ponniah - 2. Aufl.

Zweiter Teil. Theoretisch

Daten löschen, wie das Spiel „Stein, Schere, Papier“. Ist das ein Spiel mit oder ohne Ende? Teil 1. Theoretisch

1. Die Quelldaten

2. Einführungsteil. Grundstandards

3. Einführungsteil. Evaluationskriterien

4. Die Qualität der Datenbereinigung

Literatur

More articles: