Estructuración de riesgos y decisiones al usar BigData para estadísticas oficiales

Prefacio del traductor El

material me interesó, principalmente debido a la siguiente tabla:



dado que las estadísticas (y el ruso, a nivel genético), por decirlo suavemente, no me gusta todo lo que difiere de la dependencia lineal, estos tipos lograron arrastrar el uso de la función de activación en forma parabólica para determinar el grado de riesgo de usar BigData en las estadísticas oficiales. Bien hecho. Naturalmente, los estadísticos agregaron su nota a este trabajo: “1 Cualquier error u omisión es responsabilidad exclusiva de los autores. Las opiniones expresadas en este documento son personales y no reflejan necesariamente la posición oficial de la Comisión Europea ". Pero el trabajo fue publicado. Creo que por hoy, esto es suficiente, y ellos (los autores) no prohibieron a nadie encontrar sus escalas en estos aspectos.

El trabajo puede estar bastante estructurado para separar dónde y cómo difieren los métodos estadísticos de los métodos de investigación para BigData. En mi opinión, el mayor beneficio de este trabajo será cuando hable con el cliente y refute sus declaraciones, tales como:

- Y nosotros mismos recopilamos las estadísticas, ¿qué es lo que aún quiere investigar?
- Y nos presenta sus resultados para que los coordinemos con nuestras estadísticas. En esta pregunta, los autores dicen que sería bueno leer este trabajo (3 ¿Qué tan grande es Big Data? Explorando el papel de Big Data en las estadísticas oficiales )

En este documento, los autores rebajan su visión del nivel de riesgo. Este parámetro está entre paréntesis, no debe confundirse con la referencia a las fuentes.

La segunda observación. Los autores usan el término BDS: este es un análogo del concepto de BigData. (aparentemente reverencia a las estadísticas oficiales).

Prefacio por

Un número creciente de oficinas de estadística está explorando la posibilidad de utilizar grandes fuentes de datos para producir estadísticas oficiales. Actualmente, solo hay unos pocos ejemplos en los que estas fuentes se integraron completamente en la producción estadística real. En consecuencia, aún no se conoce el alcance total de las consecuencias causadas por su integración. Mientras tanto, se hicieron los primeros intentos para analizar las condiciones y el impacto de los grandes datos en varios aspectos de la producción estadística, como la calidad o la metodología. Recientemente, el grupo de trabajo ha desarrollado un marco de calidad para producir estadísticas de big data en el contexto del proyecto de big data de la Comisión Económica de las Naciones Unidas para Europa (CEPE).Según el Código Estadístico Europeo de Prácticas, la provisión de información estadística de alta calidad es la tarea principal de las oficinas de estadística. Dado que el riesgo se define como el efecto de la incertidumbre sobre los objetivos (por ejemplo, la organización internacional de normalización ISO 31000), consideramos apropiado clasificar los riesgos de acuerdo con las mediciones de calidad que afectan.
La estructura de calidad propuesta de los datos estadísticos obtenidos de grandes fuentes de datos proporciona una idea estructurada de la calidad asociada con todas las etapas del proceso estadístico de negocios y, por lo tanto, puede servir como base para una evaluación y gestión integral de los riesgos asociados con estas nuevas fuentes de datos. Introduce nuevas dimensiones cualitativas que son específicas de K o (de gran importancia cuando) el uso de big data para estadísticas oficiales, como el entorno institucional / empresarial o la complejidad. Utilizando estas nuevas mediciones cualitativas, es posible identificar de manera más sistemática los riesgos asociados con el uso de grandes fuentes de datos en las estadísticas oficiales.

En este documento, buscamos identificar los riesgos causados ​​por el uso de big data en el contexto de las estadísticas oficiales. Tomamos un enfoque sistemático para identificar riesgos en el contexto de la estructura de calidad propuesta. Al centrarnos en las nuevas medidas de calidad propuestas, podemos describir los riesgos que actualmente están ausentes o que no afectan la producción de estadísticas oficiales. Al mismo tiempo, podemos determinar los riesgos actuales, que se evaluarán de maneras completamente diferentes cuando se utilicen grandes datos para obtener estadísticas. Luego pasamos al ciclo de gestión de riesgos y proporcionamos una evaluación de la probabilidad y el impacto de estos riesgos. Dado que la evaluación de riesgos implica subjetividad en su atribución, la probabilidad y el impacto en varios riesgos, medimos el acuerdo entre docenas de diferentes partes interesadas,proporcionado de forma independiente. Luego ofrecemos opciones para mitigar estos riesgos en cuatro categorías principales: evitar, reducir, compartir y retener. Según ISO, uno de los principios de la gestión de riesgos debería ser la creación de valor, es decir, los recursos para reducir los riesgos deberían ser más bajos que para la inacción. De acuerdo con este principio, finalmente evaluaremos el posible impacto de algunas medidas de mitigación de riesgos en la calidad de los resultados finales para llegar a una evaluación más integral del uso de Big Data para las estadísticas oficiales.Uno de los principios de la gestión de riesgos debería ser la creación de valor, es decir, los recursos para reducir los riesgos deberían ser más bajos que para la inacción. De acuerdo con este principio, finalmente evaluaremos el posible impacto de algunas medidas de mitigación de riesgos en la calidad de los resultados finales para llegar a una evaluación más integral del uso de Big Data para las estadísticas oficiales.Uno de los principios de la gestión de riesgos debería ser la creación de valor, es decir, los recursos para reducir los riesgos deberían ser más bajos que para la inacción. De acuerdo con este principio, finalmente evaluaremos el posible impacto de algunas medidas de mitigación de riesgos en la calidad de los resultados finales para llegar a una evaluación más integral del uso de Big Data para las estadísticas oficiales.

1. Introducción


1.1. Antecedentes


El desarrollo de "big data" se caracterizó por Kenneth Neil Kukier y Victor Mayer-Schoenberger en su artículo "Growing Big Data" (2. www.foreignaffairs.com/articles/139104/kenneth-neil-cukier-and-viktor-mayer-schoenberger/ therise-of-big-data ) con el término transferencia de datos. Datafication se describe como el proceso de "tomar todos los aspectos de la vida y convertirlos en datos". Por ejemplo. Facebook proporciona redes personales, sensores para todo tipo de condiciones ambientales, teléfonos inteligentes para comunicaciones y movimientos personales, datos portátiles para condiciones personales. Esto lleva a una recolección y disponibilidad de datos casi universal.

Como en muchos otros sectores, las estadísticas oficiales solo recientemente han comenzado a discutir el problema del big data a nivel estratégico. Todavía no hay una comprensión común y generalizada del camino a seguir, ya sea un desafío o una oportunidad, ya sea pequeña o grande, etc. Como parte del Grupo de alto nivel sobre la modernización de la producción y servicios estadísticos (3 ¿Qué tan grande es Big Data? Explorando el papel de Big Data en estadísticas oficiales: www1.unece.org/stat/platform/download/attachments/99484307/Virtual%20Sprint%20Big%20Data%20paper.docx?version=1&modificationDate=1395217470975&api=v2), se realizó un primer análisis FODA seguido de un análisis de riesgo / beneficio bruto. Se señaló que "un análisis integral de riesgos también incluirá aspectos como la probabilidad y el impacto, y también se puede ampliar para identificar estrategias para mitigar y gestionar los riesgos".

Aunque este documento aún está lejos de ser un análisis de riesgo completo, su objetivo es mejorar la situación precisamente creando la primera revisión estructurada. Nos gustaría enfatizar que esta revisión debe ser vista como un punto de partida para estimular la discusión general dentro de la Comunidad Estadística Oficial (OSC).

1.2. Esfera


Este artículo está dedicado exclusivamente a los riesgos, excluyendo no solo las ventajas, sino también las fortalezas y debilidades, oportunidades y amenazas. Esto significa que los "riesgos de inacción" (por ejemplo, el riesgo de que el OSC esté fuera de competencia con otros participantes si no se moderniza) no están cubiertos por el alcance; Es más bien una amenaza. En cambio, estamos tratando de resaltar los riesgos que pueden surgir (a) si OSC aprovecha las oportunidades proporcionadas por big data y comienza a desarrollar o mejorar un "producto de estadísticas oficiales basado en big data" específico (BOSP); (b) riesgos para el nuevo "negocio ordinario", es decir, riesgos para las estadísticas oficiales basadas en la producción de "big data". (Dado que toda la producción de estadísticas oficiales está asociada con riesgos, nos limitamos a (b) los riesgos específicos de Big Data, es decir,riesgos que no existen o que son insignificantes para el proceso "tradicional" de recopilación de estadísticas oficiales).

1.3. Estructura


En la sección 2, presentamos los principios básicos asociados con esta tarea, comenzando con el marco claramente necesario para la gestión y gestión del riesgo (sección 2.1). También presentamos una estructura de calidad preliminar para los datos estadísticos obtenidos sobre la base de big data (Sección 2.2), ya que vincular la estructura de calidad con los riesgos cumple dos objetivos:

  • Establece el contexto para identificar riesgos. Ciertos indicadores de calidad, junto con las características consideradas, expresan los valores del objeto, que se consideran importantes y cruciales para la prestación de servicios a clientes y usuarios.
  • Esto le permite asignar riesgos específicos a mediciones cualitativas que están integradas en hiperespacios comunes y están vinculadas a ciertas etapas en la producción de productos estadísticos.

En las secciones 3, 4, 5 y 6, presentamos los riesgos identificados hasta ahora en varios contextos (4 Los documentos de casos de negocios del ESS (https://www.europeansocialsurvey.org/about/structure_and_governance.html) Proyecto Big Data como así como en Big Data, los ESSets contienen una lista de riesgos parcialmente relacionados con el proyecto y parcialmente con el uso de fuentes de Big Data para fines estadísticos. El documento "Un Marco sugerido para la calidad de Big Data" menciona algunos riesgos relacionados con las dimensiones de calidad. Los documentos de caso de negocio del proyecto Big Data de ESS, así como las redes de Big Data de ESS, contienen una lista de riesgos parcialmente relacionados con el proyecto y parcialmente usando fuentes de big data para fines estadísticos. Algunos riesgos propuestos se mencionan en el documento "Estructura propuesta para la calidad de big data" con indicadores de calidad).Aquí usamos la clasificación del acceso a datos, el entorno legal, la privacidad y seguridad de los datos, así como las habilidades; La reorganización de acuerdo con la estructura de calidad de las estadísticas obtenidas de Big Data (Sección 2.2) debe considerarse de inmediato tan pronto como esta estructura alcance un estado más completo. Para cada uno de los riesgos identificados, (i) proporcionamos una evaluación de la probabilidad y el impacto (de acuerdo con la Sección 2.1.3) y (ii) proponemos estrategias para mitigar y gestionar los riesgos (consulte la Sección 2.1.4).Para cada uno de los riesgos identificados, (i) proporcionamos una evaluación de la probabilidad y el impacto (de acuerdo con la Sección 2.1.3) y (ii) proponemos estrategias para mitigar y gestionar los riesgos (consulte la Sección 2.1.4).Para cada uno de los riesgos identificados, (i) proporcionamos una evaluación de la probabilidad y el impacto (de acuerdo con la Sección 2.1.3) y (ii) proponemos estrategias para mitigar y gestionar los riesgos (consulte la Sección 2.1.4).

Al final, discutimos nuestros hallazgos y describimos algunos de los siguientes pasos en la Sección 7.

2. Lo básico


2.1. Riesgos y gestión de riesgos


Según la norma ISO 31000: 20095, el riesgo se define como "el efecto de la incertidumbre en los objetivos". Esto significa que los objetivos deben definirse o conocerse antes de identificar los riesgos. Estos objetivos generalmente están determinados por el contexto institucional de la organización. Otra consideración importante es que los riesgos conllevan una caracterización de la incertidumbre, es decir, no está claro si ocurrirá el evento descrito. Por lo tanto, los riesgos se miden en términos de la probabilidad de que ocurra el evento y sus consecuencias, es decir, el impacto que el evento tiene en el logro de sus objetivos. La evaluación de riesgos debería proporcionar información más objetiva, que en última instancia le permitirá encontrar el equilibrio adecuado entre la realización de oportunidades de ganancias y minimizar los efectos adversos.La gestión de riesgos es una parte integral de la práctica de gestión y un elemento importante de las buenas prácticas corporativas (6 Statistics Canada: informe 2014-2015 sobre Planes y prioridades,www.statcan.gc.ca/aboutapercu/rpp/2014-2015/s01p06-eng.htm ). Es un proceso iterativo que idealmente permite la mejora continua del proceso de toma de decisiones y contribuye a la mejora continua de la productividad.

Los riesgos también están asociados con la calidad. El uso de un sistema de calidad debería permitir el uso de las oportunidades proporcionadas por diversas fuentes y metodologías para lograr un resultado de cierto nivel de calidad en el sentido de que este resultado satisface las necesidades de los usuarios. Al igual que los riesgos, los niveles de calidad pueden derivarse del entorno institucional y los objetivos de ciertas instituciones. En este contexto, el entorno institucional determina el nivel general de riesgo que la organización está dispuesta a soportar para lograr sus objetivos.

El proceso de evaluación y gestión de riesgos puede dividirse en varias etapas, que incluyen establecer el contexto, identificar riesgos, analizar los riesgos en términos de probabilidad e impacto, evaluar los riesgos y, finalmente, procesar los riesgos.

2.1.1 Contexto institucional


Como primer paso, es necesario establecer un contexto estratégico, organizativo y de gestión de riesgos en el que se llevará a cabo el resto del proceso. Esto incluye establecer criterios mediante los cuales se evaluarán los riesgos y determinar la estructura del análisis.

2.1.2. Identificación de riesgo


En la segunda etapa, se deben identificar los eventos que pueden afectar el logro de las metas. La identificación debe incluir preguntas relacionadas con el tipo de riesgo, el momento del evento, el lugar o cómo los eventos pueden prevenir, empeorar, retrasar o mejorar el logro de los objetivos.

2.1.3. Evaluación de riesgos


El siguiente paso es identificar los controles existentes y el análisis de riesgos en términos de probabilidad, así como en términos de posibles consecuencias. En el contexto de este artículo, la probabilidad o probabilidad de ocurrencia de riesgos utiliza una escala de 1 (poco probable) a 5 (frecuente). El impacto de los eventos se mide en una escala de 1 (insignificante) a 5 (extremo). Como se muestra en la Tabla 1, el producto de probabilidad e impacto tiene un "nivel de riesgo" que varía de 1 a 25. Los



niveles de riesgo estimados se pueden comparar con criterios predefinidos para lograr un equilibrio entre los beneficios potenciales y los resultados adversos. Esto le permite emitir juicios sobre las prioridades de gestión.



Se debe dar prioridad a la acción sobre los riesgos críticos (ver Tabla 2), es decir, aquellos que pueden ocurrir y que tienen consecuencias graves o extremas para los objetivos de la organización.

2.1.4. Respuesta a los riesgos


El paso final consiste en decisiones sobre cómo responder a los riesgos. Algunos riesgos que están por debajo de un nivel de riesgo predeterminado pueden ser ignorados o tolerados. Para otros, los costos de la mitigación de riesgos pueden ser tan altos que superan los beneficios potenciales. En este caso, la organización puede decidir abandonar las actividades relevantes. Los riesgos también pueden transferirse a terceros, como el seguro, que compensa los costos incurridos. La opción final es tener en cuenta los riesgos al definir estrategias y acciones que equilibren los costos con los beneficios potenciales. Por lo tanto, la organización decidirá la implementación de estrategias para maximizar los beneficios y minimizar los costos potenciales.



2.2. Sistemas de calidad


El grupo de trabajo, compuesto por representantes de organizaciones estadísticas nacionales e internacionales, desarrolló en 2014 un marco de calidad preliminar para estadísticas derivadas de big data. El grupo de trabajo trabajó bajo los auspicios del proyecto UNECE / HLG "El papel de los grandes datos en la modernización de la producción estadística". Amplió los sistemas de calidad existentes diseñados para evaluar estadísticas de fuentes de datos administrativos, con indicadores de calidad que se consideraron relevantes para grandes fuentes de datos.

Dentro de este sistema, se hace una distinción entre las tres fases de un proceso de negocio: entrada, productividad y salida. La fase de entrada corresponde a las fases de "diseño" y "colección" de GSBP, el rendimiento de las fases de "proceso" y "análisis", y la salida es equivalente a la fase de "propagación".

La estructura utiliza una estructura jerárquica, que se tomó de la estructura de datos administrativos desarrollada por Statistics Netherlands (7 Daas, P., S. Ossen, R. Vis-Visschers y J. Arends-Toth, (2009), Lista de verificación para la calidad evaluación de fuentes de datos administrativos (Estadísticas de los Países Bajos, La Haya / Heerlen). Las dimensiones de calidad están integradas en una estructura jerárquica llamada hiperespacios. Las tres hiperdimensiones definidas son "fuente", "metadatos" y "datos". Las mediciones de calidad están integradas en estas hiperdimensiones y asignadas a cada una de las etapas de producción. Para la fase de entrada, se propusieron aspectos adicionales: "confidencialidad y confidencialidad", "complejidad" (de acuerdo con la estructura de datos), "integridad" de los metadatos y "conectividad" (la capacidad de vincular datos con otros datos),para agregar al modelo de calidad estándar. Para cada uno de los indicadores de calidad, se proponen factores relacionados con su descripción, así como posibles indicadores.

En el contexto de este artículo, los riesgos pueden excluirse de estos factores. Por ejemplo, los factores que deben considerarse para medir la calidad del entorno institucional / empresarial son la sostenibilidad del proveedor de datos. Un riesgo relacionado puede ser que los datos no estarán disponibles del proveedor de datos en el futuro. Otro ejemplo se relaciona con el aspecto recientemente propuesto de calidad, privacidad y seguridad. Un factor importante es la "percepción", que significa posibles percepciones negativas del uso previsto de fuentes de datos específicas por parte de varios interesados.

3. Riesgos asociados con el acceso a datos.


3.1. Falta de acceso a los datos
3.1.1. Descripción


Este riesgo consiste en un proyecto relacionado con el desarrollo de BOSP que no obtiene acceso al Big Data Source (BDS) requerido.

Hasta la fecha, el OSC ha aprendido por las malas que incluso salir de los bloques iniciales y obtener este acceso es a veces un obstáculo insuperable. A veces es fácil acceder a una fuente específica, como registros de datos de llamadas (CDR), con fines de prueba / investigación, pero es mucho más difícil (por razones legales o comerciales) acceder a ella con fines de producción.

3.1.2. Probabilidad


La probabilidad depende en gran medida de las características del BDS. Cuando se trata de datos administrativos grandes, puede ser tan pequeño como 1, en particular si (como es el caso de los datos de bucle de tráfico estudiados por Daas et al. 8 Daas, P., M. Puts, B. Buelens y P. van den Hurk. 2015. "Big Data como fuente de estadísticas oficiales". Journal of Official Statistics 31 (2). (Próximamente; publicación prevista para junio de 2015.)) no hay problemas para proteger los datos personales. Si el caso BDS pertenece a un individuo privado, en particular si es sensible (por ejemplo, desde el punto de vista de la protección de datos) o valioso (desde un punto de vista comercial), la probabilidad puede ser muy alta (5).

3.1.3. Influencia


El impacto depende del BOSP y la forma en que usa BDS. Si el BDS está en el centro, el impacto puede ser muy alto (4 = no es posible producir BOSP), mientras que puede ser menor si aún es posible producir BOSP (aunque con menor calidad), dependiendo de otro DRM, lo que conduce a a la exposición en el rango de 2-3.

3.1.4. Prevención


Para reducir el riesgo de falta de acceso, debe establecer contactos preliminares con el proveedor de datos y celebrar un acuerdo de acceso a datos a largo plazo. Además, se debe llevar a cabo una revisión legal integral con respecto a la combinación específica de BDS y BOSP. Las posibilidades de acceder a los datos también deben evaluarse utilizando la legislación actual o futura.

3.1.5. Reblandecimiento


Si hay BDS alternativos que pueden usarse para BOSP, podrían explorarse en su lugar. Si no hay forma de producir BOSP sin BDS, y si es imposible superar la falta de acceso, se deben detener los esfuerzos y no se lanzará el nuevo BOSP.

3.2. Pérdida de acceso a los datos
3.2.1. Descripción


Este riesgo es que la oficina de estadística está perdiendo el BDS subyacente BOSP.

3.2.2. Probabilidad


Si ya se está produciendo BOSP, generalmente hay algo de estabilidad y, en algunos casos, el riesgo puede ser muy bajo (1). Sin embargo, en particular, en el caso de entidades privadas con las que se concluyeron acuerdos insuficientemente firmes, nada interfiere, por ejemplo. nueva orientación de las políticas cambiantes de informes de datos, lo que conduce a un riesgo moderado de una brecha (3). Además, si BDS está asociado con actividades inestables, siempre existe el riesgo de que el proveedor simplemente vaya a la quiebra, y el riesgo puede ser aún mayor (4).

3.2.3. Influencia


Dado que el BOSP existente puede no ser posible de fabricar, a menudo se produce un impacto muy fuerte (5). En otros casos, cuando BDS es auxiliar, el impacto puede ser más bien una pérdida de calidad con un impacto en el rango de 2-3.

3.2.4. Prevención


La estrategia de prevención es similar a la estrategia de falta de acceso a los datos, pero con un mayor énfasis en la vigilancia constante también en el entorno de producción.

No poner todos sus huevos en una sola canasta (es decir, tener múltiples BDS subyacentes a cada BSOP) también puede ser una estrategia, pero puede ser poco práctico o demasiado costoso.

3.2.5. Reblandecimiento


Si el BDS es el resultado de actividades insostenibles, es posible que un nuevo BDS que refleje el mismo fenómeno social esté disponible gradualmente. Sin embargo, sería demasiado tarde para iniciar un "análisis de mercado" tan pronto como el BSOP falle; se requerirá vigilancia constante, y esto puede ser difícil de lograr.

4. Riesgo legal


4.1. Incumplimiento de la legislación pertinente
4.1.1. Descripción


Este riesgo consiste en un proyecto relacionado con el desarrollo de BOSP, que no tiene en cuenta la legislación pertinente, lo que hace que BOSP sea incompatible con la legislación especificada. Esto puede aplicarse a la legislación de protección de datos, la carga regulatoria de respuesta, etc.

4.1.2. Probabilidad


Dada la ignorancia de OSC de big data, es posible que ocurra un incumplimiento accidental (3). La probabilidad se asocia típicamente con BDS, ya que cuanto menos "sensible" es la fuente, es menos probable que cree una falta de coincidencia.

4.1.3. Influencia


El impacto suele ser crítico (4) en el sentido de que para una producción inapropiada será necesario detener BOSP (o, si aún no ha alcanzado la etapa de implementación, su desarrollo debería detenerse). Incluso puede ser extremo (5), ya que los riesgos de reputación derivados de estadísticas oficiales inapropiadas ("ilegales") pueden tener consecuencias

4.1.4. Prevención


Para cualquier BOSP, es necesario un análisis legal exhaustivo, y esto ocurre en varias etapas (lo que es aceptable en la etapa de desarrollo / exploración puede no ser correcto en la etapa de implementación / producción). Esto, a su vez, puede conducir a la reingeniería de BOSP para que sea compatible.

4.1.5. Reblandecimiento


Dependiendo de la gravedad de la discrepancia, el primer paso puede ser desconectar BOSP.

La reingeniería de BOSP para que sea compatible puede ser una opción, pero si el BOSP se "guarda" de esta manera depende en gran medida de la naturaleza de la falta de coincidencia.

4.2. Cambios adversos en el entorno legal
4.2.1. Descripción


Se puede introducir una nueva legislación relacionada con el desarrollo del BOSP, que efectivamente lo hace incompatible.

4.2.2 Probabilidad


Es posible que los defensores de la protección de datos mejorada puedan introducir nuevos requisitos que afectan directa o indirectamente la capacidad de crear BOSP específicos. La probabilidad en el rango de 2-3 parece una estimación realista.

4.2.3 Influencia


La exposición suele ser crítica (4), en el sentido de que una producción inapropiada requerirá un cierre de BOSP.

4.2.4 Prevención


Cierta información comercial debe llevarse a cabo regularmente para monitorear el desarrollo de la legislación, posiblemente también para influir en ella, argumentando a favor de las estadísticas oficiales en foros relevantes (por ejemplo, de asesoramiento).

4.2.5 Reblandecimiento


Siempre que se haya llevado a cabo un monitoreo proactivo, puede haber tiempo para que la reingeniería de BOSP lo alinee con la nueva legislación desde el primer día de su entrada en vigencia.

Si, por otro lado, el monitoreo no se llevó a cabo, de modo que la nueva legislación "fue una sorpresa", o si la legislación es tan radical que no hay forma de hacer que BOSP sea incompatible, la única opción sería desactivar BOSP.

5. Riesgos asociados con la privacidad y seguridad de los datos.


5.1. Violaciones de la seguridad de los datos
5.1.1. Descripción


Este riesgo se relaciona con el acceso no autorizado a los datos almacenados en las oficinas de estadística. Los terceros pueden recibir datos que están bajo embargo, por ejemplo, debido a la publicación del cronograma (9 Para cualquier BOSP que esté completamente basado en un solo BDS, es inevitable que los datos sean conocidos implícitamente por el propietario de los datos originales, y si la metodología es transparente, las estadísticas derivadas también Esta situación no se aborda aquí, sino que corre el riesgo de abuso de posición oficial por parte de los propietarios. (10 Además, estos datos pueden conllevar el riesgo de violación de la confidencialidad. Este riesgo se considerará por separado). Estos pueden ser, por ejemplo, los datos que los inversores esperan en el mercado de valores.

5.1.2. Probabilidad


En cuanto a los aspectos técnicos de la protección del entorno de TI en la oficina de estadística, el riesgo es tan probable para los SDE como para las fuentes tradicionales. Sin embargo, hay dos aspectos adicionales que deben considerarse.

En primer lugar, con algunos BDS, el riesgo general aumenta ligeramente debido al hecho de que la seguridad de los datos del propietario original puede verse comprometida. Esto puede deberse, por ejemplo, al espionaje industrial o piratería.

En segundo lugar, tan pronto como se almacenen datos potencialmente valiosos en la oficina, aumentará el riesgo de atraer intenciones maliciosas. Si los datos almacenados tienen un valor muy alto para la empresa, debe estar preparado para una probabilidad muy alta de ataques dirigidos a la infraestructura de TI, por lo que la probabilidad de un pirateo puede ser potencialmente mayor (4).

Si no se percibe que los datos almacenados tienen valor, la probabilidad general no parece ser muy alta, de (1) a (3) dependiendo de la fuente de datos.

5.1.3. Influencia


El daño potencial a su reputación puede ser grande (5). Lo importante en el caso de BDS es que si la violación de seguridad ocurre con el propietario original, se espera que el impacto en la reputación de la oficina de estadísticas sea menor que si la violación ocurriera con los datos almacenados en ella.

Por otro lado, es posible que una violación en la oficina de estadística pueda tener consecuencias negativas para el propietario original. En este caso, nuevamente es posible un fuerte impacto negativo debido al daño en términos de confianza entre el proveedor y la oficina de estadística (5).

5.1.4. Prevención


Lo que es característico del caso BDS es que los procedimientos de seguridad del propietario original pueden ser apropiados. Es poco probable que las oficinas de estadísticas tengan credenciales de auditoría para controlar esto. Los propietarios cuyos datos se utilizan para hacer registros con horarios de publicación confidenciales deben ser informados de las implicaciones para las estadísticas oficiales de posibles violaciones de seguridad en sus instalaciones y deben recibir una garantía oficial de que se están aplicando los procedimientos de seguridad adecuados.

Una forma directa de evitar un grave impacto de una violación de seguridad en las instalaciones del propietario en la oficina de estadística es utilizar múltiples fuentes para el mismo producto, de modo que una fuente comprometida no sea suficiente para obtener la cifra final. La ventaja de este enfoque es que un mayor control está en manos de la oficina de estadística.

La forma de evitar las consecuencias negativas de una violación de seguridad en la oficina de estadística para el propietario de los datos originales es encontrar una forma de trabajo que no implique transferir datos que sean potencialmente sensibles desde el punto de vista del propietario a la oficina de estadísticas. En forma cruda. Un posible enfoque preventivo es utilizar datos agregados. Sin embargo, debe recordarse que algunas formas de agregación, por ejemplo, aquellas diseñadas para evitar la identificación de miembros individuales de la población, pueden no ser apropiadas en este caso. Una razón para esto puede ser el hecho de que el riesgo para el propietario está asociado con el valor comercial de los datos, que puede ser significativo incluso después de lograr el anonimato.

5.1.5. Reblandecimiento


En caso de violación de los datos administrados por la oficina de estadística, las medidas de mitigación serán las mismas que en el caso de las fuentes tradicionales, si no hubo un impacto negativo en el propietario original.

En caso de consecuencias negativas para el propietario original, la oficina de estadística debe revisar y fortalecer sus procedimientos de seguridad y comunicar y demostrar claramente su compromiso con esto.

Si la violación se produjo en las instalaciones del propietario original, la oficina de estadísticas correspondiente debe informar claramente sobre la situación e insistir en mejorar los procedimientos de seguridad del propietario. Si es necesario, puede buscar un proveedor alternativo.

5.2. Violaciones de privacidad de datos


5.2.1. Descripción


Este es un riesgo de que se viole la confidencialidad de una o más personas de la población estadística. Esto puede deberse a un ataque a la infraestructura de TI debido a la presión de otras agencias gubernamentales o debido a controles inadecuados sobre la divulgación de estadísticas.

5.2.2. Probabilidad


Al igual que con el riesgo de violaciones de seguridad de datos, las especificaciones de almacenamiento de microdatos no cambian mucho con la adición de BDS. Sin embargo, hay advertencias aquí.

Los microdatos de ciertas fuentes de datos pueden ser de alto valor comercial, por lo que almacenarlos aumentará la probabilidad de ataques.

Además, algunos microdatos pueden ser potencialmente muy útiles para otras agencias gubernamentales, como la policía, los impuestos o la atención médica. En ciertas circunstancias, la adhesión al principio de confidencialidad estadística puede verse sometida a una gran presión.

En cuanto a las fallas en el control de la divulgación de información estadística, ya existe una práctica establecida. El BDS puede permitir que se produzcan estadísticas para pequeños subgrupos de la población o proporcionar la capacidad de vincular datos agregados de diferentes BDS, lo que puede aumentar el riesgo de riesgo. Además, las nuevas fuentes requerirán nuevos desarrollos metodológicos, por lo que el peligro real es que la metodología para controlar la divulgación no se actualice correctamente.

En general, con medidas preventivas razonables, la probabilidad puede mantenerse a niveles razonables, pero dado que hay muchos factores diferentes y variados, la evaluación correspondiente aquí parece ser que la probabilidad es alta (4).

5.2.3. Influencia


El daño potencial a su reputación puede ser grande (5). Al igual que con el riesgo de violación de datos, una violación en la oficina de estadística puede tener consecuencias negativas para el propietario original. Aquí la influencia de tal evento puede ser potencialmente aún mayor, especialmente siempre que continúen las tendencias actuales en la opinión pública. También se espera que el daño entre el proveedor de datos y la oficina de estadística sea muy grande.

5.2.4. Prevención


Una forma inequívoca de prevenir este riesgo es no tener microdatos de BDS (aunque almacenar otros microdatos aún conlleva un riesgo correspondiente, aunque con una probabilidad e impacto diferentes). De esta forma, como en el caso de un riesgo de violación de la seguridad de los datos, implicará la necesidad de desarrollar otras formas de usar los datos con fines estadísticos. Además, la naturaleza diferente de las fuentes aquí significará que será necesario desarrollar nuevas metodologías con objetivos competitivos para extraer tanta información útil como sea posible y proteger la privacidad del peligro.

En el caso del almacenamiento de microdatos, la seguridad de TI y los mecanismos de control de acceso deben estar en el nivel requerido y monitoreados constantemente. Se debe prestar especial atención a garantizar la seguridad de los nuevos métodos de obtención de datos. Irónicamente, esta nueva forma podría ser el transporte físico de dispositivos de almacenamiento (como discos duros). Si se utiliza este método, la entrega debe ser físicamente segura y se debe utilizar el cifrado.

5.2.5. Reblandecimiento


Las medidas de mitigación aquí son básicamente las mismas que en el caso de violaciones de seguridad de datos. Si la causa de la violación es la presión de otra agencia gubernamental, entonces debe aprovechar la oportunidad de fortalecer la independencia de la gobernanza para que tales violaciones se vuelvan aún más difíciles en el futuro.

5.3. Manipulaciones con una fuente de datos
5.3.1. Descripción


Los proveedores de datos de terceros, como los datos de las redes sociales o los datos proporcionados voluntariamente, corren el riesgo de ser manipulados. Esto puede hacerlo el proveedor de datos o terceros. Por ejemplo, se pueden generar muchos mensajes falsos en las redes sociales para impulsar el índice estadístico obtenido sobre la base de estos datos de una forma u otra, si se sabe que el índice se calcula sobre la base de dichos datos.

Para los datos proporcionados voluntariamente, puede haber ocasiones en que los voluntarios representen un grupo de interés específico con una agenda específica.

5.3.2. Probabilidad


Para los datos cuya manipulación puede ser de gran beneficio, la probabilidad es mayor. Estos pueden ser datos para los que las estadísticas son interesantes, por ejemplo, el mercado de valores. A la luz de los recientes escándalos relacionados con LIBOR y Forex, se puede suponer que mientras existan incentivos, es probable que se intenten manipular los datos.

Para las estadísticas basadas en datos proporcionados voluntariamente, solo necesita mirar la práctica de relaciones públicas reciente de contratar personas que pretenden tener una opinión determinada y a quienes se les paga por la expresión pública (por ejemplo, en foros de Internet) para concluir que la probabilidad no es pequeña . En general, una cifra de 3 a 4 parece adecuada.

5.3.3. Influencia


El gran problema con las manipulaciones es que pueden durar mucho tiempo sin ser detectadas. Si la manipulación continúa durante mucho tiempo, el impacto en la calidad puede volverse significativo. Además, el daño a la confianza del público en las estadísticas oficiales también puede ser grande, especialmente si se enfatiza públicamente el papel de las oficinas de estadística como proveedores de datos de calidad. Por otro lado, si las manipulaciones se detectan a tiempo y luego se publican, esto en realidad puede mejorar la percepción pública. Excepto en casos extremadamente malos, uno puede imaginar el efecto máximo (3).

5.3.4. Prevención


Realizar ejercicios de control regulares con fuentes alternativas es uno de los posibles enfoques preventivos. Estas fuentes alternativas pueden ser tradicionales o diferentes. El uso de estadísticas basadas en una combinación de fuentes puede interferir con los efectos significativos de la manipulación. En los casos en que temen las manipulaciones iniciadas por el proveedor, los acuerdos legales también pueden ser una forma de prevenir tales prácticas.

5.3.5. Reblandecimiento


En términos de daños a las relaciones públicas, las medidas de mitigación que deberían tomarse aquí no son muy diferentes de las medidas para combatir cualquier crisis.

En términos de calidad de los datos, sería útil que los datos pasados ​​pudieran corregirse para que, incluso con un gran retraso, se pudieran
producir las series correctas . La evaluación comparativa regular puede ser útil para esto. Tenga en cuenta que el objetivo de la evaluación comparativa en este caso es ligeramente diferente del objetivo de prevención. Para evitar esto, es importante detectar e investigar rápidamente un desajuste sospechoso entre los datos de referencia y el BDS. Para mitigar los efectos de los viejos datos útiles siempre es útil.

Además, se debe tener cuidado para evitar manipulaciones similares en el futuro; en casos particularmente delicados, esto puede significar recibir datos potencialmente redundantes de varios proveedores para un análisis comparativo.

5.4. Percepción pública adversa del uso de big data por las estadísticas oficiales
5.4.1. Descripción


Los medios de comunicación y el público en general son muy sensibles a los problemas de confidencialidad y al uso de datos personales de grandes fuentes de datos, especialmente en el contexto del uso secundario de datos por parte de agencias gubernamentales que toman medidas administrativas o legales contra los ciudadanos. El uso percibido negativamente puede ser el posicionamiento del control de velocidad basado en el análisis de datos de navegación (11 Ver www.theguardian.com/technology/2011/apr/28/tomtom-satnav-data-police-speed-traps ).
Un caso específico de TomTom Netherlands provocó una caída significativa en la demanda de dispositivos TomTom y llevó a la decisión de la compañía de restringir el acceso a los datos. En este caso particular, los datos se relacionan con individuos, pero con niveles de velocidad a lo largo de secciones de la carretera.

Sin embargo, puede haber aplicaciones con big data que sean bien recibidas por el público. Un ejemplo son las aplicaciones que previenen delitos como el robo basado en métodos de big data.

La opinión pública positiva y negativa puede tener un fuerte impacto en el uso de BDS en el contexto de la producción de estadísticas oficiales.

La consecuencia de la percepción pública negativa puede ser que:

  • BDS ya no estará disponible para las oficinas de estadística, ya sea debido a decisiones del proveedor de datos o decisiones gubernamentales de no usar datos, o
  • El uso de datos será limitado, lo que puede interferir con la producción si ciertos BOSP.

5.4.2. Probabilidad


Factores que pueden afectar la probabilidad de tal evento o su impacto en la producción de estadísticas:

  • confidencialidad de los datos, es decir, con qué facilidad se puede identificar a las personas;
  • la cantidad de información que los datos se divulgan sobre individuos, por ejemplo, aumenta al vincular datos de diferentes fuentes;
  • tipo de datos, por ejemplo, las transacciones financieras se perciben como más confidenciales que otros datos;
  • el tipo de acción potencial que se puede tomar sobre los ciudadanos, por ejemplo, personas buenas para acelerar;
  • entorno legal difuso en el que operan los proveedores y usuarios de datos o cuando las condiciones legales entran en conflicto con las opiniones / estándares éticos públicos;
  • ; . , , . , , .

No es posible una estimación del tiempo de los eventos adversos, ya que la movilización pública a menudo se desencadena por la cobertura de eventos que afectan negativamente a los ciudadanos. Sin embargo, con el uso cada vez mayor de grandes datos por parte de los gobiernos y las empresas privadas, y especialmente con la comercialización activa de datos para otros fines que el que condujo a su recopilación inicial, es más probable que ocurran tales eventos.

Los eventos que influyen fuertemente en la percepción pública no son frecuentes, sino aleatorios (3) y distantes (2). Con el uso cada vez mayor de grandes fuentes de datos, la probabilidad también aumentará.

5.4.3. Influencia


El impacto del evento depende mucho de los factores discutidos anteriormente. En general, el impacto es más grave para la producción ya establecida de datos estadísticos, ya que, tal vez, la acción debería terminarse. El impacto también depende de la disponibilidad de fuentes de datos alternativas, aunque puede suceder que la percepción pública no distinga entre diferentes fuentes de datos en caso de materialización del evento. En el estado actual de uso de Big Data, parece que estas fuentes no pueden reemplazar completamente las fuentes de datos tradicionales, sino que complementan las estadísticas existentes. Esto reducirá el impacto de los eventos. Por lo tanto, el impacto del evento se considera en el rango de 2 (insignificante) a 3 (principal). En la etapa de producción, la influencia puede aumentar a 4 (valor crítico).

5.4.4. Prevención


Las medidas preventivas pueden ser la definición de principios éticos para big data en las estadísticas oficiales. Las directrices éticas deben basarse en principios como un código de práctica para las estadísticas europeas o los principios fundamentales de las estadísticas oficiales (12 unstats.un.org/unsd/dnss/gp/fundprinciples.aspx ). El siguiente paso será definir una estrategia de comunicación que publique los resultados de las pautas éticas para el público y se pueda utilizar para informar a las partes interesadas sobre el uso ético de BDS para BOSP.

Se puede realizar una evaluación de riesgos separada para un SDE específico para identificar riesgos y sugerir acciones preventivas o atenuantes basadas en principios éticos. Una evaluación de riesgos separada también puede incluir a las partes interesadas, como las agencias de protección de datos, para garantizar que se identifiquen todos los riesgos y se justifiquen las acciones.

5.4.5. Reblandecimiento


Una estrategia de comunicación también debe incluir medidas en caso de crecientes actitudes públicas negativas. Una evaluación de riesgos por separado debería recopilar ejemplos positivos del uso de datos y medidas para evitar el mal uso de los datos, que necesariamente se deben tomar a nivel político, y la comunidad estadística puede no ser capaz de influir en ellos de manera efectiva.

5.5. Pérdida de confianza: no obtenida como resultado de la observación
5.5.1. Descripción


Los usuarios de estadísticas oficiales suelen tener una gran confianza en la precisión y fiabilidad de las estadísticas. Esto se basa en el hecho de que la producción de datos estadísticos está integrada en una base metodológica confiable y accesible, así como en la documentación sobre la calidad del producto estadístico. Además, la mayoría de las estadísticas se basan en observaciones, es decir obtenido de encuestas o censos que establecen una relación fácilmente comprensible entre observación y estadísticas. El uso de BDS, que no se recopila con el objetivo principal de las estadísticas, conlleva el riesgo de que estas relaciones se pierdan y los usuarios pierdan la confianza en las estadísticas oficiales. Un ejemplo relacionado con la última ronda (2010) del censo está relacionado conque en algunos países, las estadísticas se obtuvieron utilizando varias fuentes y modelos estadísticos. En varios casos, las partes interesadas han cuestionado las estadísticas.

5.5.2. Probabilidad


La probabilidad de un riesgo depende de factores como la complejidad del modelo estadístico / metodológico, la confiabilidad de la relación entre BSD y BOSP, o si otras estadísticas son consistentes. La probabilidad debe estar en el rango de 3 (aleatorio) a 4 (probable), lo que significa que esto puede suceder varias veces o con frecuencia.

5.5.3. Influencia


El impacto de la ocurrencia de riesgo dependerá en gran medida de si las OSN pueden probar con éxito la precisión y confiabilidad de las estadísticas. Si esto no se puede lograr, el impacto desde el punto de vista de la pérdida de confianza también puede afectar otras áreas estadísticas, es decir, la confiabilidad no solo de algunos datos estadísticos, sino que también pone en duda la propia organización. Las OSN perderían ventaja competitiva sobre otras organizaciones privadas activas en esta área.

5.5.4 Prevención


Las acciones preventivas consistirán en el desarrollo y publicación de una metodología con base científica que sea reconocida por la comunidad científica, enriquecerá los datos con metadatos en calidad, asegurará la consistencia de BOSP con no BOSP y llevará a cabo un estricto control de calidad.

Antes de embarcarse en la producción estadística, el BOSP podría publicarse como experimental, y se alentaría a las partes interesadas a desafiar el BOSP para validarlo o mejorarlo.

5.5.5. Reblandecimiento


Hay dos casos para distinguir. Si las estadísticas se disputan pero de alta / suficiente calidad (correcta / precisa), sería suficiente explicar y llevar las estadísticas al público, proporcionando ejemplos simples para comprender.

6. Riesgos de habilidades


6.1.
6.1.1.


El análisis de las huellas digitales dejadas por las personas durante el curso de sus actividades requiere ciertas herramientas de análisis de datos, que actualmente no son las más comunes en las estadísticas oficiales. Primero, el uso de datos indirectos sobre las actividades de las personas en lugar de encuestas directas en encuestas requiere el uso de modelos estadísticos y, por lo tanto, habilidades de inferencia y aprendizaje automático. En segundo lugar, estos registros digitales consisten en datos que a menudo no tienen el formato de tabla habitual para los resultados de la encuesta, con filas correspondientes a una unidad estadística y columnas con características específicas de estas unidades estadísticas. Las pistas digitales también se presentan en forma de texto, sonido, imagen y video.Extraer información estadística relevante de estos tipos de datos requiere habilidades en procesamiento de lenguaje natural, procesamiento de audio y procesamiento de imágenes. En tercer lugar, estas fuentes de datos tienden a proporcionar conjuntos de datos masivos, cuyo procesamiento requiere una buena comprensión de las metodologías informáticas distribuidas.

El riesgo de la falta de expertos radica en obtener datos de una de estas nuevas fuentes de datos grandes, ya que la oficina de estadística no puede procesarlos y analizarlos adecuadamente debido a que su personal no tiene las habilidades necesarias.

6.1.2. Probabilidad


La probabilidad de este riesgo dependerá de tres factores: 1) los tipos específicos de habilidades necesarias para cada tipo de fuente de big data, y la probabilidad de que la oficina de estadística encuentre la oportunidad de estudiar dicha fuente; 2) la disponibilidad actual de las habilidades necesarias en gestión estadística; y 3) la cultura organizacional de la oficina de estadística.

Con respecto a los tipos de habilidades que pueden requerirse, debe tenerse en cuenta que no todas las fuentes requieren todas las habilidades enumeradas anteriormente. Algunos (por ejemplo, datos como Google Trends) no requieren computación distribuida, ya que ya están preprocesados ​​por el titular de los datos o tienen habilidades de procesamiento de señales, y requerirán principalmente habilidades de modelado estadístico. Sin embargo, existe una gran variedad de fuentes de datos grandes, la mayoría de las cuales requieren habilidades en computación distribuida, procesamiento de señales y aprendizaje automático. Al mismo tiempo, la investigación adecuada de estas rutas digitales requerirá el procesamiento de varias fuentes. Por lo tanto, existe una alta probabilidad de que grandes fuentes de datos que estén disponibles para la oficina de estadística requieran estas habilidades inusuales,y la probabilidad de este riesgo es muy alta (5).

Con respecto a la disponibilidad actual de las habilidades necesarias, esto dependerá de la oficina estadística particular. Incluso si la metodología de la encuesta es menos común que la metodología de la encuesta, también se utiliza en estadísticas oficiales en áreas individuales. Por lo tanto, incluso si esto puede requerir una redistribución de los recursos humanos, las oficinas de estadística pueden encontrar una solución por su cuenta. En cuanto a las habilidades informáticas distribuidas, principalmente relacionadas con TI, dependerán de cómo se gestione la infraestructura de TI en la organización. Dependiendo de cuán externo esté el departamento de TI, se pueden encontrar soluciones en el contexto de los arreglos existentes. Sin embargo, las habilidades de procesamiento de señales y aprendizaje automático generalmente no existen en la mayoría de las oficinas estadísticas oficiales,y la aplicación de estas habilidades no se puede externalizar, ya que deberían ser aplicadas por expertos en el campo de la estadística. Por lo tanto, desde este punto de vista, la probabilidad de este riesgo también parece muy alta (5).

La cultura organizacional también influirá en la probabilidad de este riesgo. Tener personal listo para adquirir las habilidades necesarias a través del autoaprendizaje puede permitir que una organización responda a una situación con una nueva fuente de datos que requiere habilidades diferentes a las normales. Esto dependerá de la cultura organizacional de la oficina de estadística, es decir, de si alentará a los empleados a aprender nuevas habilidades y si esto les da tiempo a los empleados para una capacitación independiente.

Por lo tanto, la probabilidad de que la oficina de estadística no pueda procesar y analizar nuevas fuentes de datos debido a la falta de habilidades entre sus empleados será entre probable (4) y frecuente (5) dependiendo de la cultura de autoaprendizaje de la organización.

6.1.3. Influencia


Una oficina de estadística que no puede procesar y analizar grandes fuentes de datos debido a la falta de habilidades entre sus empleados puede tener dos posibles consecuencias negativas: 1) la fuente de datos no se estudiará, al menos no completamente; 2) la fuente será mal utilizada.

La falta de la capacidad de explorar completamente el potencial de una fuente valiosa de big data tendrá poco impacto (2) a corto plazo, ya que las oficinas de estadística realmente tienen herramientas estadísticas para satisfacer las necesidades actuales. Sin embargo, a largo plazo (y posiblemente incluso a mediano plazo), las consecuencias de perder esta oportunidad serán cruciales (4), ya que las oficinas de estadística se enfrentan cada vez más a la competencia de proveedores privados, que no tienen la misma estructura institucional que les permitirá garantizar a la sociedad independencia estadística

Sin embargo, el uso inadecuado de la fuente tendrá consecuencias extremadamente negativas para las oficinas de estadística, ya que las estadísticas oficiales dependen en gran medida de su reputación en el desempeño de su misión. Sin embargo, podemos argumentar que la habilidad más importante que, si se pierde, puede conducir a resultados incorrectos es la conclusión estadística, en particular la conclusión basada en el modelo, que también es menos probable que esté ausente. Por lo tanto, el impacto esperado será más crítico (4) que extremo.

6.1.4. Prevención


Los servicios estadísticos pueden prevenir activamente este riesgo de dos maneras: 1) capacitación; y 2) un conjunto.

Las oficinas de estadística pueden proporcionar al personal las habilidades necesarias identificando en detalle las habilidades necesarias para utilizar grandes fuentes de datos en la producción estadística, compilando una lista de habilidades existentes del personal, identificando las necesidades de capacitación y luego organizando cursos de capacitación.

Las oficinas de estadística también pueden reclutar nuevos empleados con las habilidades necesarias. Esto parece tener serias limitaciones, ya que las oficinas de estadística no podrán reclutar una masa crítica de personal para una situación en la que el uso de grandes fuentes de datos se generalizará en la oficina y los nuevos empleados aún necesitarán varios años para alcanzar el nivel de experiencia de los empleados existentes. Sin embargo, al menos parte del nuevo personal contratado como parte de una actualización regular del personal puede tener habilidades de big data.

6.1.5. Reblandecimiento


Ante una situación en la que hay nuevas fuentes de big data disponibles sin empleados con las habilidades necesarias, las oficinas de estadística pueden mitigar los efectos negativos de dos maneras: 1) subcontratación; y 2) cooperación.

Las oficinas de estadística pueden celebrar acuerdos para el procesamiento de datos y el análisis de nuevas fuentes de big data con otras organizaciones que brindan este tipo de servicios. Esta parece ser una solución viable, ya que aparece un nuevo sector de empresas especializadas en el procesamiento de este tipo de datos. Sin embargo, esta es una decisión que en sí misma conlleva ciertos riesgos, ya que la oficina de estadística tendrá menos control sobre la producción de productos estadísticos potencialmente sensibles. Esta solución también tiene la desventaja de que no permite a los empleados de la oficina de estadística aprender y adquirir las habilidades necesarias.

La colaboración con otras organizaciones que tienen empleados con las habilidades necesarias y que también están interesados ​​en explorar la fuente de big data parece ser una solución más prometedora. Esta cooperación puede tomar la forma de proyectos conjuntos con empleados de la oficina de estadística y empleados de otras organizaciones en pie de igualdad, que comparten sus conocimientos. Esto no solo reduciría el riesgo de falta de habilidades, sino que también permitiría a la oficina de estadística adquirir estas habilidades.

6.2. Fuga de expertos a otras organizaciones
6.2.1. Descripción


Este riesgo es que las agencias de estadística pierdan su personal a otras organizaciones después de que hayan adquirido habilidades relacionadas con big data.

6.2.2. Probabilidad


La probabilidad de este riesgo dependerá de dos factores: 1) las oportunidades atractivas existentes en organizaciones fuera de las estadísticas oficiales; 2) condiciones de trabajo en oficinas de estadística.

En cuanto a las oportunidades en organizaciones fuera de las estadísticas oficiales, la probabilidad de este riesgo parece probable (4). Hay una gran demanda de personas con habilidades de big data en el sector privado, así como en otras organizaciones del sector público. Después de adquirir habilidades para trabajar con big data, los estadísticos oficiales obtendrán una ventaja comparativa al ser expertos con experiencia en el campo de la estadística. Además de las habilidades específicas de trabajar con Big Data, otras organizaciones requieren especialistas en datos con habilidades más tradicionales, como evaluar las necesidades de los usuarios y desarrollar indicadores clave de rendimiento (KPI) que son comunes a los estadísticos oficiales. Además, también se espera que los empleados que tienen más probabilidades de aprender nuevas habilidades sean aquellosquien también estará más abierto a los cambios de carrera y dejará la oficina de estadística.

En cuanto a las condiciones de trabajo en las oficinas de estadística, esto obviamente dependerá principalmente de la oficina en particular. Sin embargo, las oficinas de estadística en general aún ofrecen oportunidades profesionales atractivas para las personas desde un punto de vista cuantitativo. Las oficinas de estadística ofrecen la mayor variedad de dominios posibles para el trabajo y la mayor selección de datos para el trabajo. Esto reducirá de alguna manera la probabilidad de que las oficinas de estadística pierdan su personal debido a circunstancias imprevistas (3).

6.2.3. Influencia


El impacto de este riesgo será el mismo que el riesgo de falta de personal con habilidades relevantes en primer lugar. Por lo tanto, el impacto será crítico (4), como se indicó anteriormente.

6.2.4. Prevención


Aparentemente, la única forma en que las oficinas de estadística pueden evitar este riesgo es proporcionar condiciones de trabajo atractivas para sus empleados. Esto es generalmente cierto para todo el personal. Sin embargo, en el caso específico, cuando los empleados están abiertos a dominar nuevas habilidades, a saber, las habilidades de trabajar con big data, las condiciones de trabajo pueden mejorarse al brindarles oportunidades de capacitación donde puedan desarrollar sus intereses profesionales. Las oficinas de estadística también pueden prestar especial atención a estar abiertos a nuevos proyectos innovadores e ideas relacionadas con nuevas fuentes de big data provenientes de estadísticos que trabajan en varias áreas de la estadística. Finalmente,La prevención de la pérdida de personal para otras organizaciones en la secuencia de sus habilidades para trabajar con big data dependerá de la buena identificación del personal que pueda y esté dispuesto a trabajar con dichos datos, y de la provisión de buenas oportunidades para su desarrollo profesional.

6.2.5. Reblandecimiento


Se reducirá este riesgo en relación con el riesgo de que un miembro del personal tenga las habilidades apropiadas: 1) subcontratación; y 2) cooperación.

7. Discusión


A partir de esta primera revisión, es obvio que es imposible establecer una sola probabilidad o impacto para un "riesgo de big data" dado; por regla general, ambos indicadores dependen en gran medida de la fuente de big data, así como de "estadísticas oficiales basadas en big data".
producto ".

Por lo tanto, concluimos que el siguiente paso lógico en esta dirección es la adopción de una serie de posibles proyectos piloto (cada uno de los cuales incluye una combinación de uno o más BDS y uno o más BDOS) como punto de partida y, para cada uno de estos pilotos, El deseo de evaluar la probabilidad y el impacto de cada riesgo.

Con este fin, estamos a punto de lanzar una encuesta a las partes interesadas, tratando de evaluar la evaluación de OSC de la probabilidad, impacto (y posibles acciones de mitigación / mitigación) de una serie de posibles proyectos piloto, y buscar propuestas de OSC para riesgos que no hemos incluido en este documento .

8. REFERENCIAS
UNECE (2014), «A suggested Framework for the Quality of Big Data», Deliverables of the UNECE Big Data Quality Task Team, www1.unece.org/stat/platform/download/attachments/108102944/Big%20Dat
a%20Quality%20Framework%20-%20final-%20Jan08-2015.pdf?version=1&modificationDate=1420725063663&api=v2

UNECE (2014), «How big is Big Data? Exploring the role of Big Data in Official Statistics», www1.unece.org/stat/platform/download/attachments/99484307/Virtual%20Sprint%20Big%20Data%20paper.docx?version=1&modificationDate=1395217470975&api=v2

Daas, P., S. Ossen, R. Vis-Visschers, and J. Arends-Toth, (2009), Checklist for the Quality evaluation of Administrative Data Sources, Statistics Netherlands, The Hague/Heerlen

Dorfman, Mark S. (2007), Introduction to Risk Management (e ed.), Cambridge, UK, Woodhead-Faulkner, p. 18, ISBN 0-85941-332-22)

Eurostat (2014), «Accreditation procedure for statistical data from non-official sources» in Analysis of Methodologies for using the Internet for the collection of information society and other statistics, www.cros-portal.eu/content/analysismethodologies-using-internet-collection-information-society-and-other-statistics-1

Reimsbach-Kounatze, C. (2015), “The Proliferation of “Big Data” and Implications for Official Statistics and Statistical Agencies: A Preliminary Analysis”, OECD Digital Economy Papers, No. 245, OECD Publishing. dx.doi.org/10.1787/5js7t9wqzvg8-en

Reis, F., Ferreira, P., Perduca, V. (2014) «The use of web activity evidence to increase the timeliness of official statistics indicators», paper presented at IAOS 2014 conference, iaos2014.gso.gov.vn/document/reis1.p1.v1.docx

Even if not explicitly mentioning risks, this paper in fact approaches the many risks associated to the use of web activity data for official statistics. Eurostat (2007), Handbook on Data Quality Assessment Methods and Tools, ec.europa.eu/eurostat/documents/64157/4373903/05-Handbook-ondata-quality-assessment-methods-and-tools.pdf/c8bbb146-4d59-4a69-b7c4-218c43952214


All Articles