Borrar datos, como el juego "Piedra, tijeras, papel". ¿Es este un juego con o sin final? Parte 1. Teórica

1. Los datos de origen


La limpieza de datos es uno de los desafíos que enfrentan las tareas de análisis de datos. Este material reflejó los desarrollos, decisiones que surgieron como resultado de resolver el problema práctico de analizar la base de datos durante la formación del valor catastral. Las fuentes aquí son "INFORME No. 01 / -2019 sobre los resultados de la valoración catastral estatal de todo tipo de bienes inmuebles (excepto tierra) en el Okrug Autónomo Khanty-Mansiysk - Ugra" .

El archivo "Modelo comparativo total.ods" se consideró en el "Apéndice B. Resultados de la determinación de la COP 5. Información sobre el método para determinar el valor catastral 5.1 Enfoque comparativo".

Tabla 1. Indicadores estadísticos del conjunto de datos en el archivo "Modelo comparativo total.ods"
Número total de campos, pcs. - 44
Número total de registros - 365,490
El número total de caracteres, pcs. - 101,714,693 El
número promedio de caracteres en un registro, pcs. - 278.297
Desviación estándar de caracteres en el registro, pcs. - 15,510
El número mínimo de caracteres en el registro, pcs. - 198 El
número máximo de caracteres en el registro, pcs. - 363

2. Parte introductoria. Normas básicas


Tras el análisis de la base de datos indicada, se formó una tarea para especificar los requisitos para el grado de purificación, ya que, como todos entienden, esta base de datos forma las consecuencias legales y económicas para los usuarios. En el proceso, resultó que no se formaron requisitos particulares para el grado de purificación de big data. Analizando las normas legales en este asunto, llegué a la conclusión de que todas están formadas por oportunidades. Es decir, ha aparecido una determinada tarea, se completan las fuentes de información para la tarea, luego se forma un conjunto de datos y, en función del conjunto de datos creado, herramientas para resolver el problema. Las soluciones obtenidas son puntos de referencia en la elección de alternativas. Presentó esto en la Figura 1.



Dado que es preferible confiar en tecnologías comprobadas para determinar los estándares, elegí los criterios de análisis como base para los requisitos establecidos en las Definiciones de integridad de datos de MHRA GxP y la Guía para la industria , porque consideraba que este documento era el más holístico para este problema. En particular, la sección de este documento dice "Debe tenerse en cuenta que los requisitos de integridad de datos se aplican por igual a los datos manuales (en papel) y electrónicos". (trans. "... los requisitos de integridad de datos se aplican igualmente a los datos manuales (en papel) y electrónicos"). Esta redacción está asociada específicamente con el concepto de “evidencia escrita”, en las normas del Artículo 71 del Código de Procedimiento Civil, Artículo 70 CAS, Art. 75 AIC, "escritura" Art. 84 GIC.

La Figura 2 presenta un diagrama de la formación de enfoques para los tipos de información en jurisprudencia.


Higo. 2. Fuente aquí .

La Figura 3 muestra el mecanismo de la Figura 1, para las tareas de la "Orientación" anterior. Es fácil, haciendo una comparación, ver que los enfoques utilizados, cuando se cumplen los requisitos para la integridad de la información, en los estándares modernos para sistemas de información, son significativamente limitados, en comparación con el concepto legal de información.


Fig.3

En el documento indicado (Orientación), el enlace a la parte técnica, las capacidades de procesamiento y almacenamiento de los datos, está bien confirmado por la cita del capítulo 18.2. Base de datos relacional: "Esta estructura de archivos es inherentemente más segura, ya que los datos se mantienen en un formato de archivo grande que preserva la relación entre datos y metadatos".

De hecho, en este enfoque, a partir de las capacidades técnicas existentes, no hay nada normal y, en sí mismo, es un proceso natural, ya que la expansión de conceptos proviene de la actividad más estudiada: el diseño de bases de datos. Pero, por otro lado, aparecen normas legales que no ofrecen descuentos en las capacidades técnicas de los sistemas existentes, por ejemplo: GDPR - Reglamento general de protección de datos .


Higo. 4. Embudo de capacidades técnicas ( Fuente ).

En estos aspectos, queda claro que el conjunto de datos inicial (Fig. 1) tendrá que ser preservado, en primer lugar, y, en segundo lugar, será la base para extraer información adicional de él. Bueno, como ejemplo: las cámaras de fijación SDA están muy extendidas, los sistemas de procesamiento de información filtran a los infractores, pero también se puede ofrecer otra información a otros consumidores, por ejemplo, como monitoreo de marketing de la estructura del flujo de clientes al centro comercial. Y esta es una fuente de valor agregado adicional cuando se usa Bigdat. Es totalmente concebible que los conjuntos de datos que se ensamblan ahora, en algún lugar en el futuro, tengan valor por un mecanismo similar al valor de las ediciones raras de los 1700 en la actualidad. De hecho, de hecho, los conjuntos de datos temporales son únicos y es poco probable que se repitan en el futuro.

3. Parte introductoria. Criterios de evaluación


Durante el procesamiento, se desarrolló la siguiente clasificación de errores.

1. Clase de error (basado en GOST R 8.736-2011): a) errores sistemáticos; b) errores aleatorios; c) un error grave.

2. Por multiplicidad: a) mono-distorsión; b) distorsión múltiple.

3. Según la criticidad de las consecuencias: a) crítico; b) no crítico.

4. Por la fuente de ocurrencia:

A) Técnico - errores que surgen durante la operación del equipo. Un error bastante actual para los sistemas IoT, sistemas con un grado significativo de influencia de la calidad de la comunicación, el equipo (hardware).

B) Operador: errores en una amplia gama, desde errores tipográficos del operador durante la entrada hasta errores en las especificaciones técnicas para el diseño de la base de datos.

C) Personalizado: aquí los errores del usuario en todo el rango de "olvidé cambiar el diseño" a lo que los metros tomaron por pies.

5. Seleccionado en una clase separada:

a) la "tarea de separación", es decir, el espacio y ":" (en nuestro caso) cuando se duplicó;
b) palabras todas en una sola pieza;
c) la ausencia de un espacio después de los caracteres de servicio
; d) caracteres simétricos-plurales: (), "", "...".

En conjunto, con la sistematización de los errores de la base de datos presentada en la Figura 5, se forma un sistema de coordenadas suficientemente efectivo para buscar errores y desarrollar un algoritmo para limpiar datos, para este ejemplo.


Higo. 5. Errores típicos correspondientes a las unidades estructurales de la base de datos (Fuente: Oreshkov VI, Paklin NB "Conceptos clave de consolidación de datos" ).

Precisión, integridad del dominio, tipo de datos, coherencia, redundancia, integridad, duplicación, conformidad con las normas comerciales, estructural Definitividad, anomalía de datos, claridad, puntualidad, adherencia a las reglas de integridad de datos. (Página 334. Fundamentos del almacenamiento de datos para profesionales de TI / Paulraj Ponniah. - 2ª ed.)

Presentado entre paréntesis formulaciones en inglés y traducción automática en ruso.

Exactitud El valor almacenado en el sistema para un elemento de datos es el valor correcto para esa aparición del elemento de datos. Si tiene un nombre de cliente y una dirección almacenados en un registro, entonces la dirección es la dirección correcta para el cliente con ese nombre. Si encuentra la cantidad pedida como 1000 unidades en el registro para el número de pedido 12345678, entonces esa cantidad es la cantidad exacta para ese pedido.
[Exactitud. El valor almacenado en el sistema para el elemento de datos es el valor correcto para esta aparición del elemento de datos. Si tiene un nombre de cliente y la dirección almacenada en el registro, entonces la dirección es la dirección correcta para el cliente con este nombre. Si encuentra la cantidad pedida como 1000 unidades en la entrada para el número de pedido 12345678, entonces esta cantidad es la cantidad exacta para este pedido.]

Integridad de dominio El valor de datos de un atributo se encuentra en el rango de valores definidos permitidos. El ejemplo común es que los valores permitidos son "masculino" y "femenino" para el elemento de datos de género.
[Integridad del dominio. El valor de los datos del atributo cae dentro del rango de valores válidos y definidos. Un ejemplo común son los valores masculinos y femeninos válidos para un elemento de datos de género.]

Tipo de datos. El valor para un atributo de datos se almacena realmente como el tipo de datos definido para ese atributo. Cuando el tipo de datos del campo de nombre de la tienda se define como "texto", todas las instancias de ese campo contienen el nombre de la tienda que se muestra en formato de texto y no códigos numéricos.
[Tipo de datos. El valor del atributo de datos se almacena realmente como el tipo de datos definido para este atributo. Si el tipo de datos del campo de nombre de la tienda se define como "texto", todas las instancias de este campo contienen el nombre de la tienda que se muestra en formato de texto y no en códigos numéricos.]

Consistencia. La forma y el contenido de un campo de datos es el mismo en múltiples sistemas de origen. Si el código de producto para el producto ABC en un sistema es 1234, entonces el código para este producto es 1234 en cada sistema fuente.
[Consistencia. La forma y el contenido del campo de datos son los mismos en diferentes sistemas de origen. Si el código del producto para un producto ABC en un sistema es 1234, entonces el código para este producto es 1234 en cada sistema fuente.]

Redundancia. Los mismos datos no deben almacenarse en más de un lugar en un sistema. Si, por razones de eficiencia, un elemento de datos se almacena intencionalmente en más de un lugar en un sistema, entonces la redundancia debe ser claramente identificada y verificada.
[Redundancia. Los mismos datos no deben almacenarse en más de un lugar en el sistema. Si, por razones de eficiencia, el elemento de datos se almacena intencionalmente en varios lugares del sistema, entonces la redundancia debe definirse y verificarse claramente.]

Completitud. No hay valores faltantes para un atributo dado en el sistema. Por ejemplo, en un archivo de cliente, debe haber un valor válido para el campo "estado" para cada cliente. En el archivo de detalles del pedido, cada registro de detalles de un pedido debe completarse por completo.
[Lo completo. No hay valores faltantes para este atributo en el sistema. Por ejemplo, el archivo del cliente debe tener un valor válido para el campo "estado" para cada cliente. En el archivo de detalles del pedido, cada registro de detalles del pedido debe estar completamente lleno.]

Duplicación. La duplicación de registros en un sistema está completamente resuelta. Si se sabe que el archivo del producto tiene registros duplicados, se identifican todos los registros duplicados para cada producto y se crea una referencia cruzada.
[Duplicación. La duplicación de entradas en el sistema se elimina por completo. Si se sabe que el archivo del producto contiene entradas duplicadas, todas las entradas duplicadas para cada producto se identifican y se hacen referencias cruzadas.]

Conformidad con las normas comerciales. Los valores de cada elemento de datos se adhieren a las reglas comerciales prescritas. En un sistema de subasta, el precio de venta o martillo no puede ser inferior al precio de reserva. En un sistema de préstamos bancarios, el saldo del préstamo siempre debe ser positivo o cero.
[Cumplimiento de las normas comerciales. Los valores de cada elemento de datos están de acuerdo con las reglas comerciales establecidas. En un sistema de subasta, el precio de un martillo o venta no puede ser inferior al precio de reserva. En un sistema de crédito bancario, el saldo crediticio siempre debe ser positivo o cero.]

Definitividad estructural. Donde sea que un elemento de datos pueda estructurarse naturalmente en componentes individuales, el elemento debe contener esta estructura bien definida. Por ejemplo, el nombre de un individuo se divide naturalmente en nombre, inicial del segundo nombre y apellido. Los valores para los nombres de las personas deben almacenarse como nombre, inicial del segundo nombre y apellido. Esta característica de la calidad de los datos simplifica la aplicación de las normas y reduce los valores faltantes.
[Certeza estructural. Cuando un elemento de datos puede estructurarse naturalmente en componentes separados, el elemento debe contener esta estructura bien definida. Por ejemplo, el nombre de una persona se divide naturalmente en nombre, inicial del segundo nombre y apellido. Los valores para los nombres de las personas deben almacenarse como nombre, inicial del segundo nombre y apellido. Esta característica de calidad de datos simplifica la aplicación de estándares y reduce los valores faltantes.]

Anomalía de datos. Un campo debe usarse solo para el propósito para el que está definido. Si el campo Dirección-3 se define para cualquier posible tercera línea de dirección para direcciones largas, entonces este campo debe usarse solo para registrar la tercera línea de dirección. No debe usarse para ingresar un número de teléfono o fax para el cliente.
[Anomalía de datos. El campo debe usarse solo para el propósito para el cual está definido. Si el campo Dirección-3 se define para cualquier posible tercera línea de dirección para direcciones largas, entonces este campo solo debe usarse para registrar la tercera línea de dirección. No debe usarse para ingresar un número de teléfono o fax para un cliente.]

Claridad. Un elemento de datos puede poseer todas las demás características de los datos de calidad, pero si los usuarios no entienden su significado claramente, entonces el elemento de datos no tiene valor para los usuarios. Las convenciones de nomenclatura adecuadas ayudan a que los elementos de datos sean bien entendidos por los usuarios.
[Claridad. Un elemento de datos puede poseer todas las demás características de los datos de calidad, pero si los usuarios no entienden su significado claramente, entonces el elemento de datos no es valioso para los usuarios. Las convenciones de nomenclatura adecuadas ayudan a que los usuarios comprendan bien los elementos de datos.]

Oportunamente. Los usuarios determinan la puntualidad de los datos. Si los usuarios esperan que los datos de la dimensión del cliente no sean anteriores a un día, los cambios en los datos del cliente en los sistemas de origen deben aplicarse diariamente al almacén de datos.
[De una manera oportuna. Los usuarios determinan la puntualidad de los datos. si los usuarios esperan que los datos de medición del cliente no sean anteriores a un día, los cambios en los datos del cliente en los sistemas de origen deben aplicarse al almacén de datos diariamente.]

Utilidad Cada elemento de datos en el almacén de datos debe cumplir algunos requisitos de la recopilación de usuarios. Un elemento de datos puede ser preciso y de alta calidad, pero si no tiene ningún valor para los usuarios, entonces es totalmente innecesario que ese elemento de datos esté en el almacén de datos.
[Utilidad. Cada elemento de datos en el almacén de datos debe cumplir con algunos de los requisitos de una colección de usuarios. Un elemento de datos puede ser preciso y de alta calidad, pero si no tiene valor para los usuarios, entonces no es necesario que el elemento de datos esté en el almacén de datos.]

Adhesión a las reglas de integridad de datos. Los datos almacenados en las bases de datos relacionales de los sistemas de origen deben cumplir con la integridad de la entidad y las reglas de integridad referencial. Cualquier tabla que permita nulo como clave primaria no tiene integridad de entidad. La integridad referencial obliga al establecimiento de las relaciones padre-hijo correctamente. En una relación de cliente a pedido, la integridad referencial garantiza la existencia de un cliente para cada pedido en la base de datos.
[Cumplimiento de las normas de integridad de datos. Los datos almacenados en las bases de datos relacionales de los sistemas fuente deben cumplir con las reglas de integridad de entidad e integridad referencial. Cualquier tabla que permita nulo como clave primaria no tiene integridad de entidad. La integridad referencial obliga a establecer la relación correcta entre padres e hijos. En una relación cliente-pedido, la integridad referencial asegura que exista un cliente para cada pedido en la base de datos.]

4. La calidad de la limpieza de datos.


La calidad de la limpieza de datos es una pregunta bastante problemática en bigdata. Para responder a la pregunta, qué grado de limpieza de datos es necesario al realizar la tarea, es básico para todo analista de datos. En la mayoría de las tareas actuales, cada analista establece esto por sí mismo y es poco probable que alguien externo pueda evaluar este aspecto en su decisión. Pero para esta tarea en este caso, esta pregunta era extremadamente importante, ya que la fiabilidad de los datos legales debería tender a la unidad.

Teniendo en cuenta las tecnologías de prueba de software para determinar la fiabilidad en el trabajo. Hoy en día, hay más de 200 de estos modelos . Muchos de los modelos usan el modelo de servicio de aplicación:


Fig. 6 6

Pensando de la siguiente manera: "Si el error encontrado es un evento similar al evento de falla en este modelo, entonces, ¿cómo encontrar un análogo del parámetro t?" E hice el siguiente modelo: imagine que el tiempo que le toma a un probador verificar un registro es de 1 minuto (para la base de datos en cuestión), luego, para encontrar todos los errores, tomará 365,494 minutos, que son aproximadamente 3 años y 3 meses de tiempo de trabajo. Según lo entendemos, esta no es una cantidad de trabajo muy pequeña y los costos de verificar la base de datos serán insoportables para el compilador de esta base de datos. En esta reflexión, aparece el concepto económico de costos y después del análisis llegó a la conclusión de que esta es una herramienta bastante efectiva. Basado en la ley de la economía: "El volumen de producción (en unidades) en el que se alcanza el máximo beneficio de la empresa,"está ubicado en el punto donde el costo marginal de producir una nueva unidad de producción se compara con el precio que esta compañía puede recibir por una nueva unidad". Confiando en el postulado de que encontrar cada error subsiguiente requiere más y más verificación de registros, este es un factor de costo. Es decir, el postulado adoptado en los modelos de prueba tiene sentido físicamente, en la siguiente regularidad: si, para encontrar el i-ésimo error, fue necesario verificar n registros, entonces para encontrar el siguiente error (i + 1), ya será necesario verificar m registros yn <m. Este postulado, en los modelos de prueba, está formulado principalmente por el requisito de que los errores encontrados deben ser corregidos, pero no corregidos, para que el software se pruebe en su estado natural, es decir, el flujo de falla es uniforme. En consecuencia, para nuestro caso,La validación de registros puede mostrar dos variantes de uniformidad:

  1. ;
  2. .

Para determinar el valor crítico, recurrió al concepto de viabilidad económica, que en este caso, al utilizar el concepto de costos sociales, puede formularse de la siguiente manera: "El costo de corregir el error debe ser asumido por el agente económico que puede hacerlo al menor costo". Tenemos un agente: este es un probador que dedica 1 minuto a verificar un registro. En términos monetarios, con ganancias de 6000 rublos / día, esto equivaldrá a 12,2 rublos. (aproximadamente hoy). Queda por determinar el segundo lado del equilibrio en el derecho económico. Razonó así. El error existente requerirá que se trate de alguien que se esfuerce por corregirlo, es decir, el propietario de la propiedad. Supongamos que para esto necesita 1 día de acción (incluya la aplicación, obtenga el documento corregido).Luego, desde un punto de vista público, sus costos serán iguales al salario promedio por día. El salario acumulado promedio en el Okrug Autónomo Khanty-Mansi"Resultados del desarrollo socioeconómico del Okrug Autónomo Khanty-Mansiysk - Ugra para enero-septiembre de 2019" 73285 rublos. o 3053.542 rublos / día. En consecuencia, obtenemos un valor crítico igual a:
3053.542: 12.2 = 250.4 unidades.

Esto significa que, desde un punto de vista público, si el probador verificó 251 entradas y encontró un error, esto equivale a que el usuario corrija este error por su cuenta. En consecuencia, si el probador pasó el tiempo equivalente a verificar 252 registros para encontrar el siguiente error, entonces en este caso es mejor transferir los costos de corrección al usuario.

Aquí se presenta un enfoque simplificado, ya que desde un punto de vista público, es necesario tener en cuenta todos los costos adicionales generados por cada especialista, es decir, costos que incluyen impuestos y pagos sociales, pero el modelo es claro. La consecuencia de esta relación es el siguiente requisito para los especialistas: un especialista en TI debe tener un salario mayor que el promedio nacional. Si su salario es menor que el salario promedio de los usuarios potenciales de la base de datos, entonces él mismo debe verificar toda la base de datos en combate cuerpo a cuerpo.

Cuando se utiliza el criterio descrito, se forma el primer requisito para la calidad de la base de datos:
I (tr). La proporción de errores críticos no debe exceder 1 / 250.4 = 0.39938%. Ligeramente menos que el refinado de oro en la industria. Y en especie, no más de 1,459 entradas con errores.

Retiro económico.

De hecho, al permitir tal cantidad de errores en las entradas, la compañía acepta pérdidas económicas por un monto de:

1,459 * 3,053.542 = 4,455,118 rublos.

Esta cantidad está determinada por el hecho de que la empresa no tiene herramientas para reducir estos costos. De esto se deduce que si alguien desarrolla una tecnología que permita reducir el número de registros con errores a, por ejemplo, 259, esto le permite a la sociedad ahorrar:
1200 * 3053.542 = 3,664,250 rublos.

Pero al mismo tiempo, puede pedir su talento y trabajo, bueno, digamos: 1 millón de rublos.
Es decir, los costos sociales se reducen en:

3 664 250 - 1 000 000 = 2 664 250 rublos.

De hecho, este efecto es el valor agregado del uso de las tecnologías Bigdat.

Pero aquí debe tenerse en cuenta que esto es un efecto social, y el propietario de la base de datos son las autoridades municipales, sus ingresos por el uso de la propiedad registrada en esta base de datos a una tasa del 0.3% es: 2.778 mil millones de rublos / año. Y estos costos (4 455 118 rublos) no le molestan mucho, ya que se transfieren a los propietarios de la propiedad. Y, en este aspecto, el desarrollador de tecnologías más refinadas en Bigdata tendrá que mostrar la capacidad de convencer al propietario de esta base de datos, y esas cosas necesitan un talento considerable.

En este ejemplo, se seleccionó un algoritmo de estimación de errores basado en la verificación del software del modelo Schumann [2] al probar la confiabilidad. Debido a su prevalencia en la red y la capacidad de obtener los indicadores estadísticos necesarios. La metodología está tomada de Monks Yu.M. "Estabilidad funcional de los sistemas de información", ver debajo del spoiler en la Fig. 7-9.

Higo. 7 - 9 Metodología modelo Schumann






La segunda parte de este material presenta un ejemplo de limpieza de datos, en el que se obtienen los resultados del uso del modelo de Schuman.
Presentaré los resultados: El
número estimado de errores N = 3167 shN.
Parámetro C, lambda y función de fiabilidad:


Fig.17

De hecho, lambda es un indicador real de la intensidad con la que se detectan errores en cada etapa. Si observa, en la segunda parte, la estimación de este indicador fue de 42.4 errores por hora, lo cual es bastante comparable con la cifra de Schumann. Arriba, se determinó que la tasa de detección de errores por parte del desarrollador no debería ser inferior a 1 error por cada 250.4 registros, mientras se verificaba 1 registro por minuto. De ahí el valor crítico de lambda para el modelo de Schumann:

60 / 250.4 = 0.239617.

Es decir, la necesidad de procedimientos de localización de errores debe llevarse a cabo hasta que el lambda, desde los 38.964 disponibles, caiga a 0.239617.

O hasta que el indicador N (número potencial de errores) menos n (número corregido de errores) no disminuya menos que el umbral que adoptamos - 1459 piezas.

Literatura


  1. Monakhov, Yu. M. Estabilidad funcional de los sistemas de información. A las 3 horas Parte 1. Fiabilidad del software: libro de texto. subsidio / Yu. M. Monakhov; Vladim estado un-t - Vladimir: Izdvo Vladim. estado Universidad, 2011 .-- 60 p. - ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, "Modelos probabilísticos para la predicción de confiabilidad de software".
  3. Fundamentos de almacenamiento de datos para profesionales de TI / Paulraj Ponniah. - 2ª ed.

La segunda parte. Teórico

All Articles