Effacement des données, comme le jeu "Stone, Scissors, Paper". Est-ce un jeu avec ou sans finition? Partie 1. Théorique

1. Les données source


Le nettoyage des données est l'un des défis auxquels sont confrontées les tâches d'analyse des données. Ce matériel reflétait les développements, les décisions qui résultaient de la résolution du problème pratique de l'analyse de la base de données lors de la formation de la valeur cadastrale. Les sources ici sont le "RAPPORT n ° 01 / -2019 sur les résultats de l'évaluation cadastrale par l'État de tous les types de biens immobiliers (à l'exception des terrains) dans la région autonome de Khanty-Mansiysk Okrug - Ugra" .

Nous avons examiné le fichier «Modèle comparatif total.ods» dans «Annexe B. Résultats de la détermination du COP 5. Informations sur la méthode de détermination de la valeur cadastrale 5.1 Approche comparative».

Tableau 1. Indicateurs statistiques de l'ensemble de données dans le fichier «Modèle comparatif total.ods»
Nombre total de champs, pcs. - 44
Nombre total d'enregistrements - 365 490
Le nombre total de caractères, pcs. - 101 714 693 Le
nombre moyen de caractères dans un enregistrement, pcs. - 278.297
Écart type des caractères du dossier, pcs. - 15 510
Le nombre minimum de caractères dans l'enregistrement, pcs. - 198 Le
nombre maximum de caractères dans l'enregistrement, pcs. - 363

2. Partie introductive. Normes de base


Poursuivant l'analyse de la base de données indiquée, une tâche a été formée pour préciser les exigences du degré de purification, car, comme chacun le comprend, cette base de données a des conséquences juridiques et économiques pour les utilisateurs. Au cours du processus, il s'est avéré qu'aucune exigence particulière concernant le degré de purification des mégadonnées n'a été formulée. En analysant les normes juridiques en la matière, j'en suis venu à la conclusion qu'elles sont toutes formées d'opportunités. C'est-à-dire qu'une certaine tâche est apparue, des sources d'informations sont complétées pour la tâche, puis un ensemble de données est formé et, sur la base de l'ensemble de données créé, des outils pour résoudre le problème. Les solutions obtenues sont des points de référence dans le choix des alternatives. Présenté cela dans la figure 1.



Puisqu'il est préférable de s'appuyer sur des technologies éprouvées pour déterminer les normes, j'ai choisi les critères d'analyse comme base pour les exigences énoncées dans les définitions et les directives d'intégrité des données MHRA GxP pour l'industrie , parce que je considérais ce document comme le plus holistique pour ce problème. En particulier, la section de ce document se lit comme suit: «Il convient de noter que les exigences en matière d'intégrité des données s'appliquent également aux données manuelles (papier) et électroniques». (trans. "... les exigences en matière d'intégrité des données s'appliquent également aux données manuelles (papier) et électroniques"). Cette formulation est tout à fait spécifiquement associée à la notion de «preuve écrite», dans les normes de l'article 71 du Code de procédure civile, article 70 CAS, article 75 AIC, "écriture" Art. 84 CPG.

La figure 2 présente un diagramme de la formation d'approches aux types d'informations en jurisprudence.


Figure. 2. Source ici .

La figure 3 montre le mécanisme de la figure 1, pour les tâches du «guide» ci-dessus. En comparant, il est facile de voir que les approches utilisées, lors du respect des exigences d'intégrité de l'information, dans les normes modernes pour les systèmes d'information, sont considérablement limitées par rapport au concept juridique de l'information.


Fig.3

Dans le document indiqué (Guidance), le lien vers la partie technique, les capacités de traitement et de stockage des données, est bien confirmé par la citation du chapitre 18.2. Base de données relationnelle: "Cette structure de fichiers est intrinsèquement plus sécurisée, car les données sont conservées dans un grand format de fichier qui préserve la relation entre les données et les métadonnées."

En fait, dans cette approche - à partir des capacités techniques existantes, il n'y a rien de normal et, en soi, c'est un processus naturel, car l'expansion des concepts vient de l'activité la plus étudiée - la conception de bases de données. Mais, d'autre part, des normes juridiques apparaissent qui n'offrent pas de rabais sur les capacités techniques des systèmes existants, par exemple: RGPD - Règlement général sur la protection des données .


Figure. 4. Entonnoir de capacités techniques ( source ).

Dans ces aspects, il devient clair que l'ensemble de données initial (Fig. 1) devra être préservé, tout d'abord, et, deuxièmement, être la base pour en extraire des informations supplémentaires. Eh bien, à titre d'exemple: les caméras de fixation SDA sont répandues, les systèmes de traitement de l'information filtrent les contrevenants, mais d'autres informations peuvent également être proposées à d'autres consommateurs, par exemple, en tant que suivi marketing de la structure du flux de clients vers le centre commercial. Et c'est une source de valeur ajoutée supplémentaire lors de l'utilisation de Bigdat. Il est tout à fait concevable que les ensembles de données en cours d'assemblage maintenant, quelque part dans le futur, aient une valeur par un mécanisme similaire à la valeur des livres rares des années 1700 à l'heure actuelle. En effet, en fait, les ensembles de données temporaires sont uniques et peu susceptibles d'être répétés à l'avenir.

3. Partie introductive. Critère d'évaluation


Pendant le traitement, la classification suivante des erreurs a été développée.

1. Classe d'erreur (basée sur GOST R 8.736-2011): a) erreurs systématiques; b) erreurs aléatoires; c) une erreur grossière.

2. Par multiplicité: a) mono-distorsion; b) multi-distorsion.

3. Selon la criticité des conséquences: a) critique; b) non critique.

4. Par la source de l'événement:

A) Technique - erreurs survenues pendant le fonctionnement de l'équipement. Une erreur assez courante pour les systèmes IoT, les systèmes avec un degré d'influence significatif sur la qualité de la communication, les équipements (hardware).

B) Opérateur - erreurs dans un large éventail d'erreurs typographiques de l'opérateur lors de la saisie à des erreurs dans les spécifications techniques pour la conception de la base de données.

C) Personnalisé - ici les erreurs de l'utilisateur dans toute la plage, de «oublié de changer la disposition» à ce que les mètres ont pris pour les pieds.

5. Sélectionnés dans une classe distincte:

a) la «tâche de séparation», c'est-à-dire l'espace et «:» (dans notre cas) quand elle a été dupliquée;
b) des mots en un seul morceau;
c) l'absence d'espace après les caractères de service
; d) les caractères symétriques-pluriels: (), "", "...".

Dans l'ensemble, avec la systématisation des erreurs de base de données illustrée à la figure 5, un système de coordonnées suffisamment efficace est formé pour trouver les erreurs et développer un algorithme pour nettoyer les données, pour cet exemple.


Figure. 5. Erreurs typiques correspondant aux unités structurelles de la base de données (Source: Oreshkov VI, Paklin NB «Concepts clés de la consolidation des données» ).

Précision, intégrité du domaine, type de données, cohérence, redondance, exhaustivité, duplication, conformité aux règles métier, structurel Définition, anomalie des données, clarté, opportunité, respect des règles d'intégrité des données. (Page 334. Fondamentaux de l'entreposage de données pour les professionnels de l'informatique / Paulraj Ponniah. - 2e éd.)

Présentation des formulations anglaises et de la traduction automatique russe entre parenthèses.

Précision La valeur stockée dans le système pour un élément de données est la bonne valeur pour cette occurrence de l'élément de données. Si vous avez un nom de client et une adresse stockés dans un enregistrement, alors l'adresse est l'adresse correcte pour le client avec ce nom. Si vous trouvez la quantité commandée comme 1000 unités dans l'enregistrement pour le numéro de commande 12345678, alors cette quantité est la quantité exacte pour cette commande.
[Précision. La valeur stockée dans le système pour l'élément de données est la valeur correcte pour cette occurrence de l'élément de données. Si vous avez un nom de client et l'adresse stockée dans l'enregistrement, alors l'adresse est l'adresse correcte pour le client avec ce nom. Si vous trouvez la quantité commandée en tant que 1000 unités dans l'entrée pour le numéro de commande 12345678, alors cette quantité est la quantité exacte pour cette commande.]

Intégrité du domaine La valeur de données d'un attribut se situe dans la plage de valeurs définies autorisées. L'exemple commun est les valeurs autorisées étant «masculin» et «féminin» pour l'élément de données sur le sexe.
[Intégrité du domaine. La valeur des données d'attribut tombe dans la plage de valeurs définies et valides. Un exemple courant est les valeurs masculines et féminines valides pour un élément de données de genre.]

Type de données. La valeur d'un attribut de données est en fait stockée en tant que type de données défini pour cet attribut. Lorsque le type de données du champ de nom de magasin est défini comme «texte», toutes les instances de ce champ contiennent le nom de magasin affiché au format textuel et non des codes numériques.
[Type de données. La valeur de l'attribut de données est en fait stockée en tant que type de données défini pour cet attribut. Si le type de données du champ de nom de magasin est défini comme «texte», toutes les instances de ce champ contiennent le nom de magasin affiché au format texte et non en codes numériques.]

Cohérence. La forme et le contenu d'un champ de données sont identiques sur plusieurs systèmes sources. Si le code produit du produit ABC dans un système est 1234, le code de ce produit est 1234 dans chaque système source.
[Cohérence. La forme et le contenu du champ de données sont identiques dans différents systèmes sources. Si le code produit d'un produit ABC dans un système est 1234, le code de ce produit est 1234 dans chaque système source.]

Redondance. Les mêmes données ne doivent pas être stockées à plusieurs endroits dans un système. Si, pour des raisons d'efficacité, un élément de données est intentionnellement stocké à plusieurs endroits dans un système, la redondance doit être clairement identifiée et vérifiée.
[Redondance. Les mêmes données ne doivent pas être stockées à plusieurs endroits du système. Si, pour des raisons d'efficacité, l'élément de données est intentionnellement stocké à plusieurs endroits du système, la redondance doit être clairement définie et vérifiée.]

Exhaustivité. Il n'y a aucune valeur manquante pour un attribut donné dans le système. Par exemple, dans un fichier client, il doit y avoir une valeur valide pour le champ «état» pour chaque client. Dans le fichier des détails de la commande, chaque enregistrement de détail d'une commande doit être complètement rempli.
[Complétude. Il n'y a aucune valeur manquante pour cet attribut dans le système. Par exemple, le fichier client doit avoir une valeur valide pour le champ «état» de chaque client. Dans le fichier des détails de la commande, chaque enregistrement des détails de la commande doit être entièrement rempli.]

Duplication. La duplication des enregistrements dans un système est complètement résolue. Si le fichier produit est connu pour avoir des enregistrements en double, tous les enregistrements en double pour chaque produit sont identifiés et une référence croisée est créée.
[Reproduction. La duplication des entrées dans le système est complètement éliminée. S'il est connu que le fichier produit contient des entrées en double, toutes les entrées en double pour chaque produit sont identifiées et référencées.]

Conformité aux règles commerciales. Les valeurs de chaque élément de données respectent les règles métier prescrites. Dans un système d'enchères, le prix du marteau ou de la vente ne peut pas être inférieur au prix de réserve. Dans un système de prêt bancaire, le solde du prêt doit toujours être positif ou nul.
[Respect des règles commerciales. Les valeurs de chaque élément de données sont conformes aux règles commerciales établies. Dans un système d'enchères, le prix d'un marteau ou d'une vente ne peut être inférieur au prix de réserve. Dans un système de crédit bancaire, le solde créditeur doit toujours être positif ou nul.]

Définition structurelle. Partout où un élément de données peut naturellement être structuré en composants individuels, l'élément doit contenir cette structure bien définie. Par exemple, le nom d'un individu se divise naturellement en prénom, initiale du deuxième prénom et nom de famille. Les valeurs des noms de personnes doivent être stockées comme prénom, initiale du deuxième prénom et nom de famille. Cette caractéristique de la qualité des données simplifie l'application des normes et réduit les valeurs manquantes.
[Certitude structurelle. Lorsqu'un élément de données peut être naturellement structuré en composants séparés, l'élément doit contenir cette structure bien définie. Par exemple, le nom d'une personne est naturellement divisé en prénom, initiale du deuxième prénom et nom de famille. Les valeurs des noms des individus doivent être stockées comme prénom, initiale du deuxième prénom et nom de famille. Cette caractéristique de la qualité des données simplifie l'application des normes et réduit les valeurs manquantes.]

Anomalie des données. Un champ doit être utilisé uniquement dans le but pour lequel il est défini. Si le champ Adresse-3 est défini pour une troisième ligne d'adresse possible pour les adresses longues, ce champ doit être utilisé uniquement pour enregistrer la troisième ligne d'adresse. Il ne doit pas être utilisé pour saisir un numéro de téléphone ou de fax pour le client.
[Anomalie de données. Le champ ne doit être utilisé qu'aux fins pour lesquelles il est défini. Si le champ Adresse-3 est défini pour une troisième ligne d'adresse possible pour les adresses longues, ce champ ne doit être utilisé que pour enregistrer la troisième ligne d'adresse. Il ne doit pas être utilisé pour saisir un numéro de téléphone ou de fax pour un client.]

Clarté. Un élément de données peut posséder toutes les autres caractéristiques des données de qualité, mais si les utilisateurs ne comprennent pas clairement sa signification, alors l'élément de données n'a aucune valeur pour les utilisateurs. Des conventions de dénomination appropriées aident à rendre les éléments de données bien compris par les utilisateurs.
[Clarté. Un élément de données peut posséder toutes les autres caractéristiques des données de qualité, mais si les utilisateurs ne comprennent pas clairement sa signification, alors l'élément de données n'a pas de valeur pour les utilisateurs. Des conventions de dénomination appropriées aident à rendre les éléments de données bien compris par les utilisateurs.] En

temps opportun. Les utilisateurs déterminent l'actualité des données. Si les utilisateurs s'attendent à ce que les données de dimension client ne dépassent pas un jour, les modifications apportées aux données client dans les systèmes source doivent être appliquées quotidiennement à l'entrepôt de données.
[En temps opportun. Les utilisateurs déterminent l'actualité des données. si les utilisateurs s'attendent à ce que les données de mesure du client ne dépassent pas un jour, les modifications apportées aux données du client dans les systèmes source doivent être appliquées quotidiennement à l'entrepôt de données.]

Utilité Chaque élément de données dans l'entrepôt de données doit répondre à certaines exigences de la collecte des utilisateurs. Un élément de données peut être précis et de haute qualité, mais s'il n'a aucune valeur pour les utilisateurs, il n'est pas nécessaire que cet élément de données se trouve dans l'entrepôt de données.
[Utilitaire. Chaque élément de données dans l'entrepôt de données doit répondre à certaines des exigences d'une collection d'utilisateurs. Un élément de données peut être précis et de haute qualité, mais s'il n'a pas de valeur pour les utilisateurs, il n'est pas nécessaire que l'élément de données se trouve dans l'entrepôt de données.]

Respect des règles d'intégrité des données. Les données stockées dans les bases de données relationnelles des systèmes source doivent respecter les règles d'intégrité d'entité et d'intégrité référentielle. Toute table qui autorise null comme clé primaire n'a pas d'intégrité d'entité. L'intégrité référentielle oblige à établir correctement les relations parent-enfant. Dans une relation client-à-commande, l'intégrité référentielle garantit l'existence d'un client pour chaque commande de la base de données.
[Conformité aux règles d'intégrité des données. Les données stockées dans les bases de données relationnelles des systèmes source doivent respecter les règles d'intégrité d'entité et d'intégrité référentielle. Toute table qui autorise null comme clé primaire n'a pas d'intégrité d'entité. L'intégrité référentielle oblige à établir la bonne relation entre parents et enfants. Dans une relation client-commande, l'intégrité référentielle garantit qu'un client existe pour chaque commande dans la base de données.]

4. La qualité du nettoyage des données


La qualité du nettoyage des données est une question plutôt problématique dans les bigdata. Pour répondre à la question de savoir quel degré de nettoyage des données est nécessaire lors de l'exécution de la tâche, est fondamental pour chaque analyste de données. Dans la plupart des tâches actuelles, chaque analyste l'établit lui-même et il est peu probable qu'une personne extérieure puisse évaluer cet aspect dans sa décision. Mais pour cette tâche dans ce cas, cette question était extrêmement importante, car la fiabilité des données juridiques devrait tendre à l'unité.

Envisager des technologies de test de logiciels pour déterminer la fiabilité du travail. Aujourd'hui, il existe plus de 200 de ces modèles . De nombreux modèles utilisent le modèle de service d'application:


Fig. 6

En pensant comme suit: "Si l'erreur trouvée est un événement similaire à l'événement de défaillance dans ce modèle, alors comment trouver un analogue du paramètre t?" Et j'ai fait le modèle suivant: Imaginez que le temps qu'il faut à un testeur pour vérifier un enregistrement soit de 1 minute (pour la base de données en question), puis pour trouver toutes les erreurs, cela prendra 365494 minutes, soit environ 3 ans et 3 mois de temps de travail. Comme nous le comprenons, ce n'est pas une très petite quantité de travail et les coûts de vérification de la base de données seront insupportables pour le compilateur de cette base de données. Dans cette réflexion, le concept économique des coûts apparaît et après analyse est arrivé à la conclusion qu'il s'agit d'un outil assez efficace. Basé sur la loi de l'économie: «Le volume de production (en unités) auquel le profit maximum de l'entreprise est atteint,"est situé au point où le coût marginal de production d'une nouvelle unité de production est comparé au prix que cette entreprise peut recevoir pour une nouvelle unité." S'appuyant sur le postulat que la recherche de chaque erreur ultérieure nécessite de plus en plus de vérification des enregistrements, il s'agit d'un facteur de coût. Autrement dit, le postulat adopté dans les modèles de test a un sens physique, dans la régularité suivante: si, pour trouver la ième erreur, il était nécessaire de vérifier n enregistrements, puis pour trouver l'erreur suivante (i + 1), il sera déjà nécessaire de vérifier m enregistrements et n <m. Ce postulat, dans les modèles de test, est formulé principalement par l'exigence que les erreurs trouvées doivent être corrigées, mais non corrigées, afin que le logiciel soit testé dans son état naturel, c'est-à-dire que le flux de défaillance soit uniforme. En conséquence, pour notre cas,La validation des enregistrements peut montrer deux variantes d'uniformité:

  1. ;
  2. .

Pour déterminer la valeur critique, il s'est tourné vers le concept de faisabilité économique qui, dans ce cas, lors de l'utilisation du concept de coûts sociaux, peut être formulé comme suit: "Le coût de la correction de l'erreur devrait être supporté par l'agent économique qui peut le faire au moindre coût". Nous avons un agent - c'est un testeur qui passe 1 minute à vérifier un enregistrement. En termes monétaires, avec des gains de 6000 roubles / jour, cela s'élèvera à 12,2 roubles. (environ aujourd'hui). Reste à déterminer le deuxième versant de l'équilibre en droit économique. Il a raisonné comme ça. L'erreur existante exigera qu'elle concerne quelqu'un pour déployer des efforts pour la corriger, c'est-à-dire le propriétaire du bien. Supposons que vous ayez besoin d'un jour d'action (incluez l'application, obtenez le document corrigé).Ensuite, d'un point de vue public, ses coûts seront égaux au salaire moyen par jour. Le salaire moyen accumulé dans le Khanty-Mansi Autonomous Okrug"Résultats du développement socio-économique de l'Okrug autonome de Khanty-Mansiysk - Ugra pour janvier-septembre 2019" 73285 roubles. ou 3053,542 roubles / jour. En conséquence, nous obtenons une valeur critique égale à:
3053,542: 12,2 = 250,4 unités.

Cela signifie, d'un point de vue public, si le testeur a vérifié 251 entrées et trouvé une erreur, cela équivaut à ce que l'utilisateur corrige cette erreur par lui-même. En conséquence, si le testeur a passé le temps égal à vérifier 252 enregistrements pour trouver l'erreur suivante, alors dans ce cas, il est préférable de transférer les coûts de correction à l'utilisateur.

Une approche simplifiée est présentée ici, car d'un point de vue public, il est nécessaire de prendre en compte tous les coûts supplémentaires générés par chaque spécialiste, c'est-à-dire les coûts, taxes et paiements sociaux compris, mais le modèle est clair. La conséquence de cette relation est l'exigence suivante pour les spécialistes: un informaticien doit avoir un salaire supérieur à la moyenne nationale. Si son salaire est inférieur au salaire moyen des utilisateurs potentiels de la base de données, il doit lui-même vérifier l'intégralité de la base de données au corps à corps.

Lors de l'utilisation du critère décrit, la première exigence de qualité de la base de données est formée:
I (tr). La part des erreurs critiques ne doit pas dépasser 1 / 250,4 = 0,39938%. Un peu moins que le raffinage de l' or dans l'industrie. Et en nature, pas plus de 1 459 entrées avec des erreurs.

Retraite économique.

En fait, en autorisant un tel nombre d'erreurs dans les entrées, la société accepte des pertes économiques d'un montant de:

1 459 * 3 053 542 = 4 455 118 roubles.

Ce montant est déterminé par le fait que l'entreprise ne dispose pas d'outils pour réduire ces coûts. Il s'ensuit que si quelqu'un développe une technologie qui permet de réduire le nombre d'enregistrements avec des erreurs à, par exemple, 259, cela permet à la société d'économiser:
1200 * 3053,542 = 3 664 250 roubles.

Mais en même temps, il peut demander son talent et son travail, disons - 1 million de roubles.
Autrement dit, les coûts sociaux sont réduits de:

3 664 250 - 1 000 000 = 2 664 250 roubles.

En fait, cet effet est la valeur ajoutée de l'utilisation des technologies Bigdat.

Mais il convient de garder à l'esprit qu'il s'agit d'un effet social, et le propriétaire de la base de données est les autorités municipales, leurs revenus provenant de l'utilisation des biens enregistrés dans cette base de données au taux de 0,3% sont de: 2,778 milliards de roubles / an. Et ces frais (4 455 118 roubles) ne le dérangent pas beaucoup, car ils sont transférés aux propriétaires de la propriété. Et, dans cet aspect, le développeur de technologies de raffinage plus en Bigdata devra montrer la capacité de convaincre le propriétaire de cette base de données, et de telles choses nécessitent un talent considérable.

Dans cet exemple, un algorithme d'estimation d'erreur a été sélectionné sur la base de la vérification du logiciel du modèle Schumann [2] lors des tests de fiabilité. En raison de sa prévalence dans le réseau et de la capacité à obtenir les indicateurs statistiques nécessaires. La méthodologie est tirée de Monks Yu.M. "Stabilité fonctionnelle des systèmes d'information", voir sous le spoiler de la Fig. 7-9.

Figure. 7 - 9 Méthodologie du modèle Schumann






La deuxième partie de ce document présente un exemple de nettoyage des données, dans lequel les résultats de l'utilisation du modèle Schuman sont obtenus.
Je présenterai les résultats: Le
nombre estimé d'erreurs N = 3167 shN.
Paramètre C, lambda et fonction de fiabilité:


Fig.17

En fait, lambda est un indicateur réel de l'intensité avec laquelle les erreurs sont détectées à chaque étape. Si vous regardez, dans la deuxième partie, alors l'estimation de cet indicateur était de 42,4 erreurs par heure, ce qui est assez comparable à la figure de Schumann. Ci-dessus, il a été déterminé que le taux de détection d'erreurs par le développeur ne devrait pas être inférieur à 1 erreur pour 250,4 enregistrements, tout en vérifiant 1 enregistrement par minute. D'où la valeur critique de lambda pour le modèle Schumann:

60 / 250,4 = 0,239617.

Autrement dit, la nécessité de procédures de localisation des erreurs doit être effectuée jusqu'à ce que le lambda, à partir des 38,964 disponibles, tombe à 0,239617.

Ou jusqu'à ce que l'indicateur N (nombre potentiel d'erreurs) moins n (nombre d'erreurs corrigé) ne diminue pas moins que le seuil que nous avons adopté - 1459 pièces.

Littérature


  1. Monakhov, Yu. M. Stabilité fonctionnelle des systèmes d'information. À 3 heures Partie 1. Fiabilité du logiciel: manuel. allocation / Yu. M. Monakhov; Vladim. Etat un-t - Vladimir: Izdvo Vladim. Etat Université, 2011 .-- 60 p. - ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, «Modèles probabilistes pour la prédiction de la fiabilité des logiciels».
  3. Bases de l'entreposage de données pour les professionnels de l'informatique / Paulraj Ponniah.- 2e éd.

Deuxième partie. Théorique

All Articles