Structurer les risques et les décisions lors de l'utilisation de BigData pour les statistiques officielles

Préface du traducteur Le

matériel m'a intéressé, principalement à cause du tableau ci-dessous:



Étant donné que les statisticiens (et le russe, au niveau génétique), pour le moins, n'aiment pas tout ce qui diffère de la dépendance linéaire, ces gars-là ont réussi à faire glisser l'utilisation de la fonction d'activation sous une forme parabolique pour déterminer le degré de risque d'utilisation de BigData dans les statistiques officielles. Bien joué. Naturellement, les statisticiens ont ajouté leur note à cet ouvrage - «1 Toute erreur ou omission relève de la seule responsabilité des auteurs. Les opinions exprimées dans ce document sont personnelles et ne reflètent pas nécessairement la position officielle de la Commission européenne. » Mais l'œuvre a été publiée. Je pense qu'aujourd'hui, cela suffit, et ils (les auteurs) n'ont interdit à personne de trouver leur balance dans ces aspects.

Le travail peut être assez structuré pour séparer où et comment les méthodes statistiques diffèrent des méthodes de recherche pour BigData. À mon avis, le plus grand avantage de ce travail sera de parler avec le client et de réfuter ses déclarations telles que:

- Et nous collectons nous-mêmes les statistiques, que voulez-vous rechercher ici?
- Et vous nous présentez vos résultats afin que nous les coordonnions avec nos statistiques. Dans cette question, les auteurs disent qu'il serait agréable de lire ce travail (3 Quelle est la taille du Big Data? Exploration du rôle du Big Data dans les statistiques officielles )

Dans cet article, les auteurs exposent leur vision du niveau de risque. Ce paramètre est entre parenthèses, à ne pas confondre avec la référence aux sources.

La deuxième observation. Les auteurs utilisent le terme BDS - c'est un analogue du concept de BigData. (apparemment en révérence aux statistiques officielles).

Préface de

Un nombre croissant d'offices statistiques étudie la possibilité d'utiliser de grandes sources de données pour produire des statistiques officielles. Actuellement, il n'y a que quelques exemples où ces sources ont été pleinement intégrées dans la production statistique réelle. Par conséquent, l’ampleur des conséquences de leur intégration n’est pas encore connue. Parallèlement, les premières tentatives ont été faites pour analyser les conditions et l'impact des mégadonnées sur divers aspects de la production statistique, tels que la qualité ou la méthodologie. Récemment, le groupe de travail a élaboré un cadre de qualité pour la production de statistiques sur les mégadonnées dans le cadre du projet de mégadonnées de la Commission économique des Nations Unies pour l'Europe (CEE-ONU).Selon le Code de bonnes pratiques de la statistique européenne, la fourniture d'informations statistiques de haute qualité est la tâche principale des bureaux de statistique. Le risque étant défini comme l'effet de l'incertitude sur les objectifs (par exemple, l'organisation internationale de normalisation ISO 31000), nous avons jugé approprié de classer les risques en fonction des mesures de qualité qu'ils affectent.
La structure de qualité proposée pour les données statistiques obtenues à partir de sources de données volumineuses fournit une idée structurée de la qualité associée à toutes les étapes du processus opérationnel statistique, et peut ainsi servir de base à une évaluation et une gestion complètes des risques associés à ces nouvelles sources de données. Il introduit de nouvelles dimensions qualitatives spécifiques à K ou (de grande importance lorsque) l'utilisation des mégadonnées pour les statistiques officielles, telles que l'environnement institutionnel / commercial ou la complexité. Grâce à ces nouvelles mesures qualitatives, il est possible d'identifier plus systématiquement les risques liés à l'utilisation de grandes sources de données dans les statistiques officielles.

Dans cet article, nous cherchons à identifier les risques liés à l'utilisation des mégadonnées dans le cadre des statistiques officielles. Nous adoptons une approche systématique pour identifier les risques dans le cadre de la structure de qualité proposée. En nous concentrant sur les mesures de qualité nouvellement proposées, nous pouvons décrire les risques qui sont actuellement absents ou n'affectent pas la production de statistiques officielles. Dans le même temps, nous pouvons déterminer les risques actuels, qui seront évalués de manière complètement différente lors de l'utilisation des mégadonnées pour obtenir des statistiques. Ensuite, nous passons au cycle de gestion des risques et évaluons la probabilité et l'impact de ces risques. Étant donné que l'évaluation des risques implique la subjectivité dans leur attribution, la probabilité et l'impact sur divers risques, nous mesurons l'accord entre des dizaines de parties prenantes différentes,fournis indépendamment. Nous proposons ensuite des options d'atténuation de ces risques dans quatre catégories principales: évitement, réduction, partage et rétention. Selon l'ISO, l'un des principes de la gestion des risques devrait être la création de valeur, c'est-à-dire que les ressources pour réduire les risques devraient être plus faibles que pour l'inaction. Conformément à ce principe, nous évaluerons enfin l'impact possible de certaines mesures d'atténuation des risques sur la qualité des résultats finaux afin d'arriver à une évaluation plus complète de l'utilisation du Big Data pour les statistiques officielles.l'un des principes de la gestion des risques devrait être la création de valeur, c'est-à-dire que les ressources pour réduire les risques devraient être plus faibles que pour l'inaction. Conformément à ce principe, nous évaluerons enfin l'impact possible de certaines mesures d'atténuation des risques sur la qualité des résultats finaux afin d'arriver à une évaluation plus complète de l'utilisation du Big Data pour les statistiques officielles.l'un des principes de la gestion des risques devrait être la création de valeur, c'est-à-dire que les ressources pour réduire les risques devraient être plus faibles que pour l'inaction. Conformément à ce principe, nous évaluerons enfin l'impact possible de certaines mesures d'atténuation des risques sur la qualité des résultats finaux afin d'arriver à une évaluation plus complète de l'utilisation du Big Data pour les statistiques officielles.

1. Introduction


1.1. Contexte


Le développement du «big data» a été caractérisé par Kenneth Neil Kukier et Victor Mayer-Schoenberger dans leur article «Growing Big Data» (2. www.foreignaffairs.com/articles/139104/kenneth-neil-cukier-and-viktor-mayer-schoenberger/ therise-de-grand-données ) avec le transfert de données à long terme. La datafication est décrite comme le processus consistant à «prendre tous les aspects de la vie et à les transformer en données». Par exemple. Facebook fournit des réseaux personnels, des capteurs pour tous les types de conditions environnementales, des smartphones pour la communication et les mouvements personnels, des données portables pour les conditions personnelles. Cela conduit à une collecte et une disponibilité des données presque universelles.

Comme dans de nombreux autres secteurs, les statistiques officielles n'ont commencé que récemment à discuter du problème des mégadonnées à un niveau stratégique. Il n'y a toujours pas de compréhension commune et répandue de la voie à suivre, qu'il s'agisse d'un défi ou d'une opportunité, qu'elle soit petite ou grande, etc. Dans le cadre du Groupe de haut niveau sur la modernisation de la production et des services statistiques (3 Quelle est la taille du Big Data? Exploration du rôle du Big Data dans les statistiques officielles: www1.unece.org/stat/platform/download/attachments/99484307/Virtual%20Sprint%20Big%20Data%20paper.docx?version=1&modificationDate=1395217470975&api=v2), une première analyse SWOT suivie d'une analyse risque / bénéfice brute a été réalisée. Il a été noté qu '«une analyse complète des risques comprendra également des aspects tels que la probabilité et l'impact, et peut également être élargie pour identifier des stratégies d'atténuation et de gestion des risques».

Bien que ce document soit encore loin d'une analyse complète des risques, il vise précisément à améliorer la situation en créant la première revue structurée. Nous tenons à souligner que cet examen doit être considéré comme un point de départ pour stimuler le débat général au sein de la Communauté statistique officielle (OSC).

1.2. Sphère


Cet article est exclusivement consacré aux risques, excluant non seulement les avantages, mais aussi les forces et les faiblesses, les opportunités et les menaces. Cela signifie que les «risques d'inaction» (par exemple, le risque que l'OSC soit hors compétition avec les autres participants s'il n'est pas modernisé) ne sont pas couverts par le champ d'application; c'est plutôt une menace. Au lieu de cela, nous essayons de mettre en évidence les risques qui peuvent survenir (a) si l'OSC profite des opportunités offertes par les mégadonnées et commence à développer ou à améliorer un «produit statistique officiel basé sur les mégadonnées» (BOSP); (b) les risques pour la nouvelle «activité ordinaire», c'est-à-dire les risques pour les statistiques officielles basées sur la production de «big data». (Étant donné que toute production de statistiques officielles est associée à des risques, nous nous limitons à (b) les risques spécifiques au Big Data, c'est-à-direrisques qui n'existent pas ou sont insignifiants pour le processus «traditionnel» de collecte des statistiques officielles.)

1.3. Structure


Dans la section 2, nous présentons les principes de base associés à cette tâche, en commençant par le cadre clairement nécessaire pour la gestion des risques et la gestion des risques (section 2.1). Nous présentons également une structure de qualité préliminaire pour les données statistiques obtenues sur la base des mégadonnées (section 2.2), car lier la structure de qualité aux risques remplit deux objectifs:

  • Il définit le contexte de l'identification des risques. Certains indicateurs de qualité, ainsi que les caractéristiques considérées, expriment les valeurs de l'objet, qui sont considérées comme importantes et cruciales pour la prestation de services aux clients et aux utilisateurs.
  • Cela vous permet d'attribuer des risques spécifiques à des mesures qualitatives intégrées dans des hyperspaces communs et liées à certaines étapes de la production de produits statistiques.

Dans les sections 3, 4, 5 et 6, nous présentons les risques identifiés jusqu'à présent dans différents contextes (4 Les documents d'analyse de rentabilisation de l'ESS ainsi que sur les Big Data ESSets contiennent une liste de risques en partie liés au projet et en partie à l'utilisation de sources de Big Data à des fins statistiques. Le document "Un cadre suggéré pour la qualité des Big Data" mentionne certains risques liés aux dimensions de la qualité./ Les documents d'analyse de rentabilisation du projet ESS Big Data, ainsi que les réseaux ESS Big Data, contiennent une liste de risques partiellement liés au projet et utilisant partiellement des sources de Big Data à des fins statistiques. Certains risques proposés sont mentionnés dans le document «Structure proposée pour la qualité du Big Data» avec des indicateurs de qualité.).Ici, nous utilisons la classification de l'accès aux données, l'environnement juridique, la confidentialité et la sécurité des données, ainsi que les compétences; une réorganisation conforme à la structure de qualité des statistiques obtenues à partir des mégadonnées (section 2.2) doit être envisagée immédiatement dès que cette structure atteint un statut plus complet. Pour chacun des risques identifiés, nous (i) fournissons une évaluation de la probabilité et de l'impact (conformément à la section 2.1.3) et (ii) proposons des stratégies pour atténuer et gérer les risques (voir la section 2.1.4).Pour chacun des risques identifiés, nous (i) fournissons une évaluation de la probabilité et de l'impact (conformément à la section 2.1.3) et (ii) proposons des stratégies pour atténuer et gérer les risques (voir la section 2.1.4).Pour chacun des risques identifiés, nous (i) fournissons une évaluation de la probabilité et de l'impact (conformément à la section 2.1.3) et (ii) proposons des stratégies pour atténuer et gérer les risques (voir la section 2.1.4).

En fin de compte, nous discutons de nos constatations et décrivons les prochaines étapes de la section 7.

2. Les bases


2.1. Risques et gestion des risques


Selon ISO 31000: 20095, le risque est défini comme «l'effet de l'incertitude sur les objectifs». Cela signifie que les objectifs doivent être définis ou connus avant d'identifier les risques. Ces objectifs sont généralement déterminés par le contexte institutionnel de l'organisation. Une autre considération importante est que les risques comportent une caractérisation de l'incertitude, c'est-à-dire qu'il n'est pas clair si l'événement décrit se produira. Ainsi, les risques sont mesurés en termes de probabilité de survenance de l'événement et de ses conséquences, c'est-à-dire de l'impact que l'événement a sur la réalisation de ses objectifs. L'évaluation des risques doit fournir des informations plus objectives, qui vous permettront en fin de compte de trouver le bon équilibre entre la réalisation d'opportunités de profit et la minimisation des effets négatifs.La gestion des risques fait partie intégrante des pratiques de gestion et constitue un élément important des bonnes pratiques d'entreprise (6 Statistique Canada: Rapport sur les plans et les priorités 2014-2015,www.statcan.gc.ca/aboutapercu/rpp/2014-2015/s01p06-fra.htm ). Il s'agit d'un processus itératif qui permet idéalement une amélioration continue du processus décisionnel et contribue à l'amélioration continue de la productivité.

Les risques sont également associés à la qualité. L'utilisation d'un système qualité devrait permettre d'exploiter les opportunités offertes par diverses sources et méthodologies pour aboutir à un résultat d'un certain niveau de qualité en ce sens que ce résultat répond aux besoins des utilisateurs. Comme les risques, les niveaux de qualité peuvent être dérivés de l'environnement institutionnel et des objectifs de certaines institutions. Dans ce contexte, l'environnement institutionnel détermine le niveau global de risque que l'organisation est prête à supporter pour atteindre ses objectifs.

Le processus d'évaluation et de gestion des risques peut être divisé en plusieurs étapes, qui comprennent la définition du contexte, l'identification des risques, l'analyse des risques en termes de probabilité et d'impact, l'évaluation des risques et, enfin, le traitement des risques.

2.1.1. Contexte institutionnel


Dans un premier temps, il est nécessaire d'établir un contexte stratégique, organisationnel et de gestion des risques dans lequel se déroulera le reste du processus. Cela comprend l'établissement de critères selon lesquels les risques seront évalués et la détermination de la structure de l'analyse.

2.1.2. Identification des risques


Dans la deuxième étape, les événements qui peuvent affecter la réalisation des objectifs doivent être identifiés. L'identification doit comprendre des questions liées au type de risque, au moment de l'événement, au lieu ou à la manière dont les événements peuvent empêcher, aggraver, retarder ou améliorer la réalisation des objectifs.

2.1.3. L'évaluation des risques


L'étape suivante consiste à identifier les contrôles existants et l'analyse des risques en termes de probabilité, ainsi qu'en termes de conséquences potentielles. Dans le cadre de cet article, la probabilité ou la probabilité d'occurrence de risques utilise une échelle de 1 (peu probable) à 5 (fréquent). L'impact des événements est mesuré sur une échelle de 1 (négligeable) à 5 (extrême). Comme le montre le tableau 1, le produit de la probabilité et de l'impact a un «niveau de risque» allant de 1 à 25. Les



niveaux de risque estimés peuvent être comparés à des critères prédéfinis pour trouver un équilibre entre les avantages potentiels et les résultats négatifs. Cela vous permet de porter un jugement sur les priorités de gestion.



La priorité d’action doit être accordée aux risques critiques (voir tableau 2), c’est-à-dire ceux qui peuvent survenir et qui ont des conséquences graves ou extrêmes sur les objectifs de l’organisation.

2.1.4. Réponse au risque


La dernière étape consiste en des décisions sur la façon de réagir aux risques. Certains risques inférieurs à un niveau de risque prédéterminé peuvent être ignorés ou tolérés. Pour d'autres, les coûts de l'atténuation des risques peuvent être si élevés qu'ils l'emportent sur les avantages potentiels. Dans ce cas, l'organisation peut décider d'abandonner les activités pertinentes. Les risques peuvent également être transférés à des tiers, tels que les assurances, qui compensent les coûts encourus. La dernière option consiste à prendre en compte les risques lors de la définition de stratégies et d'actions équilibrant les coûts et les avantages potentiels. Ainsi, l'organisation décidera de la mise en œuvre de stratégies pour maximiser les avantages et minimiser les coûts potentiels.



2.2. Systèmes qualité


Le groupe de travail, composé de représentants d'organisations statistiques nationales et internationales, a élaboré en 2014 un cadre de qualité préliminaire pour les statistiques dérivées des mégadonnées. L'équipe spéciale a travaillé sous les auspices du projet CEE / HLG «Le rôle des mégadonnées dans la modernisation de la production statistique». Il a étendu les systèmes de qualité existants conçus pour évaluer les statistiques provenant de sources de données administratives, avec des indicateurs de qualité jugés pertinents pour les grandes sources de données.

Au sein de ce système, une distinction est établie entre les trois phases d'un processus métier: intrants, productivité et extrants. La phase d'entrée correspond aux phases de «conception» et de «collecte» du GSBP, les performances des phases de «processus» et «d'analyse» et la sortie est équivalente à la phase de «propagation».

La structure utilise une structure hiérarchique, qui est tirée de la structure de données administratives développée par Statistics Netherlands (7 Daas, P., S. Ossen, R. Vis-Visschers et J. Arends-Toth, (2009), Checklist for the Quality évaluation des sources de données administratives, Statistics Netherlands, La Haye / Heerlen). Les dimensions de qualité sont intégrées dans une structure hiérarchique appelée hyperspaces. Les trois hyper dimensions définies sont «source», «métadonnées» et «données». Des mesures de qualité sont intégrées dans ces hyper dimensions et affectées à chacune des étapes de production. Pour la phase de saisie, des aspects supplémentaires ont été proposés: «confidentialité et confidentialité», «complexité» (conformément à la structure des données), «exhaustivité» des métadonnées et «connectivité» (la capacité de lier les données avec d'autres données),à ajouter au modèle de qualité standard. Pour chacun des indicateurs de qualité, des facteurs liés à leur description sont proposés, ainsi que d'éventuels indicateurs.

Dans le cadre de cet article, les risques peuvent être exclus de ces facteurs. Par exemple, les facteurs qui doivent être pris en compte pour mesurer la qualité de l'environnement institutionnel / commercial sont la durabilité du fournisseur de données. Un risque connexe peut être que les données ne seront pas disponibles à l'avenir auprès du fournisseur de données. Un autre exemple concerne l'aspect récemment proposé de la qualité, de la confidentialité et de la sécurité. Un facteur important est la «perception», ce qui signifie des perceptions négatives possibles de l'utilisation prévue de sources de données spécifiques par diverses parties prenantes.

3. Risques associés à l'accès aux données


3.1. Manque d'accès aux données
3.1.1. La description


Ce risque consiste en un projet lié au développement de BOSP qui n'a pas accès à la Big Data Source (BDS) requise.

À ce jour, l'OSC a appris à la dure que même sortir des blocs de départ et obtenir cet accès est parfois un obstacle insurmontable. Parfois, il est facile d'accéder à une source spécifique, comme les enregistrements de données d'appel (CDR), à des fins de test / recherche, mais il est beaucoup plus difficile (pour des raisons juridiques ou commerciales) d'y accéder à des fins de production.

3.1.2. Probabilité


La probabilité dépend largement des caractéristiques du BDS. Lorsqu'il s'agit de données administratives volumineuses, elles peuvent être aussi petites que 1, en particulier si (comme c'est le cas avec les données de boucle de trafic étudiées par Daas et al.8 Daas, P., M. Puts, B.Buelens et P. van den Hurk. 2015. «Les mégadonnées comme source de statistiques officielles», Journal of Official Statistics 31 (2) (à paraître; publication prévue pour juin 2015.)) il n'y a pas de problèmes pour protéger les données personnelles. Si le cas BDS appartient à un particulier, notamment s'il est sensible (par exemple du point de vue de la protection des données) ou précieux (d'un point de vue commercial), la probabilité peut être très élevée (5).

3.1.3. Influence


L'impact dépend du BOSP et de la façon dont vous utilisez le BDS. Si le BDS est au centre même, l'impact peut être très élevé (4 = il n'est pas possible de produire du BOSP du tout), alors qu'il peut être inférieur s'il est toujours possible de produire du BOSP (quoique avec une qualité inférieure), en s'appuyant sur d'autres DRM, qui à une exposition dans la gamme de 2-3.

3.1.4. La prévention


Pour réduire le risque de manque d'accès, vous devez établir des contacts préliminaires avec le fournisseur de données et conclure un accord d'accès aux données à long terme. En outre, un examen juridique complet devrait être entrepris concernant la combinaison spécifique de BDS et de BOSP. Les possibilités d'accès aux données devraient également être évaluées à l'aide de la législation actuelle ou future.

3.1.5. Ramollissement


S'il existe d'autres BDS qui peuvent être utilisés pour BOSP, ils pourraient être explorés à la place. S'il n'y a aucun moyen de produire du BOSP sans BDS, et s'il est impossible de surmonter le manque d'accès, les efforts doivent être arrêtés et le nouveau BOSP ne sera pas publié.

3.2. Perte d'accès aux données
3.2.1. La description


Ce risque est que l'office de statistique perd le BDS sous-jacent du BDS.

3.2.2. Probabilité


Si le BOSP est déjà en cours de production, il y a généralement une certaine stabilité et, dans certains cas, le risque peut être très faible (1). Cependant, en particulier, dans le cas d'entités privées avec lesquelles des accords insuffisamment fermes ont été conclus, rien n'interfère, par exemple. de nouvelles orientations découlant de la modification des politiques de communication des données, ce qui entraîne un risque modéré d'écart (3). De plus, si le BDS est associé à des activités instables, il y a toujours un risque que le fournisseur fasse simplement faillite, et le risque peut être encore plus élevé (4).

3.2.3. Influence


Comme le BOSP existant peut ne pas être possible à fabriquer, un impact très fort se produit souvent (5). Dans d'autres cas, lorsque le BDS est auxiliaire, l'impact peut être plutôt une perte de qualité avec un impact de l'ordre de 2-3.

3.2.4. La prévention


La stratégie de prévention est similaire à la stratégie de manque d'accès aux données, mais avec un accent accru sur la vigilance constante également dans l'environnement de production.

Ne pas mettre tous vos œufs dans le même panier (c'est-à-dire avoir plusieurs BDS sous-jacents à chaque BSOP) peut également être une stratégie, mais cela peut être peu pratique ou trop coûteux.

3.2.5. Ramollissement


Si le BDS est le résultat d'activités non durables, il est possible qu'un nouveau BDS reflétant le même phénomène social devienne progressivement disponible. Cependant, il serait trop tard pour lancer une «analyse du marché» dès que le BSOP tombe en panne; une vigilance constante sera nécessaire - et cela peut être difficile à réaliser.

4. Risque juridique


4.1. Non-respect de la législation applicable
4.1.1. La description


Ce risque consiste en un projet lié au développement du BOSP, qui ne prend pas en compte la législation pertinente, ce qui rend le BOSP incompatible avec la législation spécifiée. Cela peut s'appliquer à la législation sur la protection des données, à la charge réglementaire de réponse, etc.

4.1.2. Probabilité


Étant donné l'ignorance de l'OSC des mégadonnées, il est possible qu'une non-conformité accidentelle (3) se produise. La probabilité est généralement associée au BDS, car moins la source est «sensible», moins elle est susceptible de créer un décalage.

4.1.3. Influence


L'impact est généralement critique (4) dans le sens où pour une production inappropriée, il sera nécessaire d'arrêter le BOSP (ou, s'il n'a pas encore atteint le stade de la mise en œuvre, son développement doit être arrêté). Elle peut même être extrême (5), car les risques de réputation résultant de statistiques officielles inappropriées («illégales») peuvent avoir des conséquences

4.1.4. La prévention


Pour tout BOSP, une analyse juridique approfondie est nécessaire - et cela se produit à plusieurs étapes (ce qui est acceptable au stade de développement / exploration peut ne pas être exact au stade de mise en œuvre / production). Ceci, à son tour, peut conduire à une réingénierie BOSP pour le rendre compatible.

4.1.5. Ramollissement


En fonction de la gravité de l'écart, la première étape peut consister à mettre BOSP hors ligne.

La réingénierie du BOSP pour le rendre compatible peut être une option, mais le fait que le BOSP soit «enregistré» de cette manière dépend fortement de la nature de la non-concordance.

4.2. Modifications défavorables de l'environnement juridique
4.2.1. La description


Une nouvelle législation pourrait être introduite concernant le développement du BOSP, ce qui le rend effectivement incompatible.

4.2.2. Probabilité


Il est possible que les partisans d'une protection renforcée des données soient en mesure d'introduire de nouvelles exigences qui affectent directement ou indirectement la capacité de créer des BOSP spécifiques. Une probabilité de l'ordre de 2-3 semble une estimation réaliste.

4.2.3. Influence


L'exposition est généralement critique (4), dans le sens où une production inappropriée nécessitera un arrêt du BOSP.

4.2.4. La prévention


Certaines informations commerciales devraient être menées régulièrement pour suivre l'évolution de la législation - éventuellement également afin de l'influencer, en plaidant en faveur des statistiques officielles dans les forums pertinents (par exemple, consultatifs).

4.2.5. Ramollissement


Pourvu qu'un contrôle proactif ait été effectué, le réaménagement du BOSP pourrait avoir le temps de le mettre en conformité avec la nouvelle législation dès le premier jour de son entrée en vigueur.

Si, en revanche, le contrôle n'a pas été effectué, de sorte que la nouvelle législation «est venue comme une surprise», ou si la législation est si radicale qu'il n'y a aucun moyen de rendre le BOSP incompatible, la seule option serait de désactiver le BOSP.

5. Risques associés à la confidentialité et à la sécurité des données


5.1. Violations de la sécurité des données
5.1.1. La description


Ce risque est lié à l'accès non autorisé aux données stockées dans les bureaux de statistique. Des tiers peuvent recevoir des données sous embargo, par exemple, en raison de la publication du calendrier (9 Pour tout BOSP qui est entièrement basé sur un seul BDS, il est inévitable que les données soient implicitement connues du propriétaire des données d'origine, et si la méthodologie est transparente, des statistiques dérivées sont également Cette situation n'est pas abordée ici, mais au risque d'abus de pouvoir de la part des propriétaires.) (10 De plus, ces données peuvent comporter un risque de violation de la confidentialité. Ce risque sera considéré séparément.). Il peut s'agir, par exemple, des données attendues par les investisseurs en bourse.

5.1.2. Probabilité


En ce qui concerne les aspects techniques de la protection de l'environnement informatique dans l'office statistique, le risque est aussi probable pour les BDS que pour les sources traditionnelles. Cependant, deux aspects supplémentaires doivent être pris en compte.

Premièrement, avec certains BDS, le risque global est légèrement augmenté du fait que la sécurité des données du propriétaire d'origine peut être compromise. Cela peut être dû, par exemple, à l'espionnage industriel ou au piratage.

Deuxièmement, dès que des données potentiellement précieuses sont stockées au bureau, le risque d'attirer des intentions malveillantes augmente. Si les données stockées ont une valeur très élevée pour l'entreprise, vous devez vous préparer à une très forte probabilité d'attaques visant l'infrastructure informatique, de sorte que la probabilité d'un piratage peut être potentiellement plus élevée (4).

Si les données stockées ne sont pas perçues comme ayant une valeur, la probabilité globale ne semble pas être très élevée - de (1) à (3) selon la source de données.

5.1.3. Influence


Les dommages potentiels à votre réputation peuvent être importants (5). Ce qui est important dans le cas du BDS, c'est que si la violation de la sécurité se produit avec le propriétaire d'origine, l'impact sur la réputation du bureau de statistique devrait être plus faible que si la violation s'est produite avec les données qui y sont stockées.

En revanche, il est possible qu'une infraction au bureau de statistique ait des conséquences négatives pour le propriétaire d'origine. Dans ce cas, un fort impact négatif est à nouveau possible en raison d'un préjudice en termes de confiance entre le fournisseur et l'office statistique (5).

5.1.4. La prévention


Ce qui caractérise le cas BDS, c'est que les procédures de sécurité du propriétaire d'origine peuvent être appropriées. Il est peu probable que les bureaux de statistique disposent de pouvoirs d'audit pour contrôler cela. Les propriétaires dont les données sont utilisées pour effectuer des enregistrements avec des calendriers de publication confidentiels devraient être informés des implications pour les statistiques officielles des violations potentielles de la sécurité dans leurs locaux et devraient recevoir une garantie officielle que les procédures de sécurité appropriées sont appliquées.

Un moyen direct de prévenir un impact grave d'une faille de sécurité dans les locaux du propriétaire du bureau de statistique consiste à utiliser plusieurs sources pour le même produit afin qu'une seule source compromise ne soit pas suffisante pour obtenir le chiffre final. L'avantage de cette approche est qu'un plus grand contrôle est entre les mains de l'office statistique.

Le moyen de prévenir les conséquences négatives d'une faille de sécurité dans le bureau de statistique pour le propriétaire des données d'origine est de trouver une façon de travailler qui n'implique pas de transférer des données potentiellement sensibles du point de vue du propriétaire au bureau de statistique. Sous forme brute. Une approche préventive possible consiste à utiliser des données agrégées. Il convient toutefois de rappeler que certaines formes d'agrégation, par exemple celles conçues pour empêcher l'identification de membres individuels de la population, peuvent ne pas être appropriées dans ce cas. Une des raisons peut être le fait que le risque pour le propriétaire est associé à la valeur commerciale des données, qui peut être importante même après que l'anonymat est atteint.

5.1.5. Ramollissement


En cas de violation des données gérées par l'office statistique, les mesures d'atténuation seront les mêmes que dans le cas des sources traditionnelles, s'il n'y a pas eu d'impact négatif sur le propriétaire d'origine.

En cas de conséquences négatives pour le propriétaire d'origine, l'office de statistique devrait revoir et renforcer ses procédures de sécurité et communiquer clairement et démontrer son engagement à cet égard.

Si la violation s’est produite dans les locaux du propriétaire initial, le bureau de statistique compétent doit clairement rendre compte de la situation et insister pour améliorer les procédures de sécurité du propriétaire. Si nécessaire, vous pouvez rechercher un autre fournisseur.

5.2. Atteintes à la confidentialité des données


5.2.1. La description


Il existe un risque de violation de la confidentialité d'une ou plusieurs personnes de la population statistique. Cela peut être dû à une attaque contre l'infrastructure informatique due à la pression d'autres agences gouvernementales ou à des contrôles inadéquats de la divulgation des statistiques.

5.2.2. Probabilité


Comme pour le risque de violation de la sécurité des données, les spécifications de stockage des microdonnées ne changent pas beaucoup avec l'ajout de BDS. Cependant, il y a des avertissements ici.

Les microdonnées de certaines sources de données peuvent être d'une grande valeur commerciale, leur stockage augmentera donc la probabilité d'attaques.

En outre, certaines microdonnées peuvent être potentiellement très utiles pour d'autres agences gouvernementales, telles que l'application de la loi, la fiscalité ou les soins de santé. Dans certaines circonstances, le respect du principe de confidentialité statistique peut être soumis à de fortes pressions.

Quant aux échecs dans le contrôle de la divulgation des informations statistiques, il existe déjà une pratique établie. Le BDS peut permettre la production de statistiques pour de petits sous-groupes de la population ou fournir la possibilité de lier des données agrégées de différents BDS, ce qui peut augmenter le risque de risque. En outre, de nouvelles sources nécessiteront cependant de nouveaux développements méthodologiques, de sorte que le véritable danger est que la méthodologie de contrôle de la divulgation ne soit pas correctement mise à jour.

En général, avec des mesures préventives raisonnables, la probabilité peut être maintenue à des niveaux raisonnables, mais comme il existe de nombreux facteurs différents et divers, l'évaluation correspondante semble ici être que la probabilité est élevée (4).

5.2.3. Influence


Les dommages potentiels à votre réputation peuvent être importants (5). Comme pour le risque de violation de données, une violation du bureau de statistique peut avoir des conséquences négatives pour le propriétaire d'origine. Ici, l'influence d'un tel événement peut être potentiellement encore plus grande, d'autant plus que les tendances actuelles de l'opinion publique se poursuivent. Les dommages entre le fournisseur de données et l'office statistique devraient également être très importants.

5.2.4. La prévention


Un moyen indubitable de prévenir ce risque est de ne pas avoir du tout de microdonnées du BDS (bien que le stockage d'autres microdonnées comporte toujours un risque correspondant, bien qu'avec une probabilité et un impact différents). De cette façon, comme dans le cas d'un risque d'atteinte à la sécurité des données, il sera nécessaire de développer d'autres façons d'utiliser les données à des fins statistiques. De plus, la nature différente des sources ici signifiera qu'il sera nécessaire de développer de nouvelles méthodologies avec des objectifs concurrents pour extraire autant d'informations utiles que possible et protéger la vie privée du danger.

Dans le cas du stockage de microdonnées, les mécanismes de sécurité informatique et de contrôle d'accès doivent être au niveau requis et surveillés en permanence. Une attention particulière doit être accordée à la sécurité des nouvelles méthodes d'obtention des données. Ironiquement, cette nouvelle façon pourrait être le transport physique des périphériques de stockage (tels que les disques durs). Si cette méthode est utilisée, la livraison doit être physiquement sécurisée et le cryptage doit être utilisé.

5.2.5. Ramollissement


Les mesures d'atténuation ici sont essentiellement les mêmes que dans le cas de violations de la sécurité des données. Si la cause de la violation est la pression d'un autre organisme gouvernemental, vous devez saisir cette occasion pour renforcer l'indépendance de la gouvernance afin que ces violations deviennent encore plus difficiles à l'avenir.

5.3. Manipulations avec une source de données
5.3.1. La description


Les fournisseurs de données tiers, tels que les données des médias sociaux ou les données fournies volontairement, risquent d'être manipulés. Cela peut être fait par le fournisseur de données lui-même ou par des tiers. Par exemple, de nombreux faux messages sur les réseaux sociaux peuvent être générés afin de pousser l'index statistique obtenu sur la base de ces données d'une manière ou d'une autre, s'il est connu que l'indice est calculé sur la base de telles données.

Pour les données fournies volontairement, il peut y avoir des moments où les volontaires représentent un groupe d'intérêt spécifique avec un programme spécifique.

5.3.2. Probabilité


Pour les données dont la manipulation peut être très utile, la probabilité est plus élevée. Il peut s'agir de données pour lesquelles les statistiques sont intéressantes, par exemple la bourse. À la lumière des récents scandales liés au LIBOR et au Forex, on peut supposer que tant qu'il y aura des incitations, des tentatives de manipulation des données seront probables.

Pour les statistiques basées sur des données fournies volontairement, il suffit de regarder la pratique récente des relations publiques qui consiste à embaucher des personnes qui prétendent avoir une certaine opinion et qui sont rémunérées pour l'expression publique (par exemple, sur les forums Internet) pour conclure que la probabilité n'est pas faible . En général, un chiffre de 3 à 4 semble suffisant.

5.3.3. Influence


Le gros problème avec les manipulations est qu'elles peuvent durer longtemps sans détection. Si la manipulation se poursuit pendant longtemps, l'impact sur la qualité peut devenir important. En outre, les atteintes à la confiance du public dans les statistiques officielles peuvent également être importantes, surtout si le rôle des instituts de statistique en tant que fournisseurs de données de qualité est souligné publiquement. En revanche, si des manipulations sont détectées à temps puis publiées, cela peut en fait améliorer la perception du public. Sauf dans des cas extrêmement mauvais, on peut imaginer l'effet maximum (3).

5.3.4. La prévention


La réalisation d'exercices de contrôle réguliers avec des sources alternatives est l'une des approches préventives possibles. Ces sources alternatives peuvent être traditionnelles ou différentes. L'utilisation de statistiques basées sur une combinaison de sources peut interférer avec les effets importants de la manipulation. Dans les cas où ils ont peur des manipulations initiées par les prestataires, les accords juridiques peuvent également être un moyen d'empêcher de telles pratiques.

5.3.5. Ramollissement


En termes de dommages aux relations publiques, les mesures d'atténuation qui devraient être prises ici ne sont pas très différentes des mesures de lutte contre toute crise.

En termes de qualité des données, il serait utile que les données passées puissent être corrigées afin que même avec un retard important, la série correcte puisse être
produite. Une analyse comparative régulière peut être utile à cet effet. Veuillez noter que l'objectif de l'analyse comparative dans ce cas est légèrement différent de l'objectif de la prévention. Pour éviter cela, il est important de repérer rapidement et d'enquêter sur un décalage suspect entre l'indice de référence et le BDS. Atténuer les effets des anciennes données utiles est toujours utile.

En outre, il convient de veiller à empêcher des manipulations similaires à l'avenir - dans des cas particulièrement délicats, cela peut signifier la réception de données potentiellement redondantes de plusieurs fournisseurs pour une analyse comparative.

5.4. Perception défavorable du public quant à l'utilisation des mégadonnées par les statistiques officielles
5.4.1. La description


Les médias et le grand public sont très sensibles aux questions de confidentialité et d'utilisation des données personnelles provenant de grandes sources de données, notamment dans le cadre de l'utilisation secondaire des données par les agences gouvernementales qui prennent des mesures administratives ou juridiques à l'encontre des citoyens. Une utilisation perçue négativement peut être le positionnement du contrôle de vitesse basé sur l'analyse des données de navigation (11 Voir www.theguardian.com/technology/2011/apr/28/tomtom-satnav-data-police-speed-traps ).
Un cas spécifique de TomTom Pays-Bas a provoqué une baisse importante de la demande d'appareils TomTom et conduit à la décision de l'entreprise de restreindre l'accès aux données. Dans ce cas particulier, les données concernaient des individus, mais des niveaux de vitesse le long de tronçons de route.

Cependant, il peut y avoir des applications avec des mégadonnées qui sont bien reçues par le public. Un exemple est les applications qui empêchent les délits tels que le cambriolage, basées sur des méthodes de big data.

Une opinion publique aussi bien positive que négative peut avoir un fort impact sur l'utilisation des BDS dans le cadre de la production de statistiques officielles.

La conséquence d'une perception négative du public peut être que:

  • Le BDS ne sera plus disponible pour les bureaux de statistique, soit en raison des décisions du fournisseur de données ou des décisions du gouvernement de ne pas utiliser les données, ou
  • l'utilisation des données sera limitée, ce qui peut interférer avec la production si certains BOSP.

5.4.2. Probabilité


Facteurs pouvant affecter la probabilité d'un tel événement ou son impact sur la production de statistiques:

  • la confidentialité des données, c'est-à-dire la facilité avec laquelle les personnes peuvent être identifiées;
  • la quantité d'informations que les données sont divulguées sur les individus, par exemple, est augmentée en reliant les données provenant de différentes sources;
  • le type de données, par exemple, les transactions financières sont perçues comme plus confidentielles que les autres données;
  • le type d'action potentielle qui peut être entreprise à l'encontre des citoyens, par exemple, des amendes pour excès de vitesse;
  • environnement juridique flou dans lequel les fournisseurs de données et les utilisateurs opèrent ou lorsque les conditions juridiques sont en conflit avec les opinions / normes éthiques du public;
  • ; . , , . , , .

Une estimation de la durée des événements indésirables n'est pas possible, car la mobilisation du public est souvent déclenchée par la couverture d'événements qui affectent négativement les citoyens. Cependant, avec l'utilisation croissante des mégadonnées par les gouvernements et les entreprises privées, et en particulier avec la commercialisation active des données à d'autres fins que celles qui ont conduit à leur collecte initiale, il est plus probable que de tels événements se produisent.

Les événements qui influencent fortement la perception du public ne sont pas fréquents, mais plutôt aléatoires (3) et distants (2). Avec l'utilisation croissante de grandes sources de données, la probabilité augmentera également.

5.4.3. Influence


L'impact de l'événement est très dépendant des facteurs discutés ci-dessus. En général, l'impact est plus grave pour la production déjà établie de données statistiques, car l'action devrait peut-être être close. L'impact dépend également de la disponibilité de sources de données alternatives, bien qu'il puisse arriver que la perception du public ne fasse pas de distinction entre les différentes sources de données en cas de matérialisation de l'événement. Dans l'état actuel d'utilisation des mégadonnées, il semble que ces sources ne peuvent pas remplacer complètement les sources de données traditionnelles, mais plutôt compléter les statistiques existantes. Cela réduira l'impact des événements. Par conséquent, l'impact de l'événement est considéré dans une fourchette de 2 (insignifiante) à 3 (principale). Au stade de la production, l'influence peut augmenter jusqu'à 4 (valeur critique).

5.4.4. La prévention


Les mesures préventives peuvent être la définition de principes éthiques pour les mégadonnées dans les statistiques officielles. Les directives éthiques devraient être fondées sur des principes tels qu'un code de bonnes pratiques pour les statistiques européennes ou les principes fondamentaux des statistiques officielles (12 unstats.un.org/unsd/dnss/gp/fundprinciples.aspx ). La prochaine étape consistera à définir une stratégie de communication qui publiera les résultats des directives éthiques pour le public et pourra être utilisée pour informer les parties prenantes sur l'utilisation éthique des BDS pour BOSP.

Une évaluation des risques distincte pour un SDE spécifique peut être effectuée pour identifier les risques et suggérer des actions préventives ou d'atténuation basées sur des principes éthiques. Une évaluation des risques distincte peut également inclure les parties prenantes, telles que les agences de protection des données, pour garantir que tous les risques sont identifiés et que les actions sont justifiées.

5.4.5. Ramollissement


Une stratégie de communication devrait également inclure des mesures en cas d'attitudes négatives croissantes du public. Une évaluation des risques distincte devrait recueillir des exemples positifs de l'utilisation des données et des mesures de prévention de l'utilisation abusive des données, qui peuvent nécessairement être prises au niveau politique, et la communauté statistique peut ne pas être en mesure de les influencer efficacement.

5.5. Perte de confiance - non obtenue à la suite de l'observation
5.5.1. La description


Les utilisateurs des statistiques officielles ont généralement une grande confiance dans l'exactitude et la fiabilité des statistiques. Ceci est basé sur le fait que la production de données statistiques est intégrée dans une base méthodologique fiable et accessible, ainsi que sur une documentation sur la qualité du produit statistique. De plus, la plupart des statistiques sont basées sur des observations, c'est-à-dire obtenus à partir d'enquêtes ou de recensements qui établissent une relation facilement compréhensible entre l'observation et les statistiques. L'utilisation des BDS, qui ne sont pas collectés aux fins principales des statistiques, comporte le risque que ces relations soient perdues et que les utilisateurs perdent confiance dans les statistiques officielles. Un exemple lié à la dernière ronde (2010) du recensement est lié àque dans certains pays, les statistiques ont été obtenues à l'aide de plusieurs sources et modèles statistiques. Dans un certain nombre de cas, les parties prenantes ont contesté les statistiques.

5.5.2. Probabilité


La probabilité d'un risque dépend de facteurs tels que la complexité du modèle statistique / méthodologique, la fiabilité de la relation entre BSD et BOSP, ou la cohérence d'autres statistiques. La probabilité doit être comprise entre 3 (aléatoire) et 4 (probable), ce qui signifie que cela peut se produire plusieurs fois ou souvent.

5.5.3. Influence


L'impact de l'occurrence du risque dépendra en grande partie de la capacité des ONS à prouver avec succès l'exactitude et la fiabilité des statistiques. Si cela n'est pas possible, l'impact du point de vue de la perte de confiance peut également affecter d'autres domaines statistiques, c'est-à-dire la fiabilité non seulement de certaines données statistiques, mais aussi jeter le doute sur l'organisation elle-même. Les ONS perdraient un avantage concurrentiel sur les autres organisations privées actives dans ce domaine.

5.5.4. La prévention


Les actions préventives consisteront à développer et publier une méthodologie scientifique reconnue par la communauté scientifique, à enrichir les données avec des métadonnées de qualité, à assurer la cohérence du BOSP avec le non-BOSP et à effectuer un contrôle qualité strict.

Avant de se lancer dans la production statistique, le BOSP pourrait être publié à titre expérimental, et les parties intéressées seraient encouragées à contester le BOSP afin de valider ou d'améliorer le BOSP.

5.5.5. Ramollissement


Il y a deux cas à distinguer. Si les statistiques sont contestées mais de qualité élevée / suffisante (correcte / précise), il suffirait d'expliquer et de communiquer les statistiques au public, en fournissant des exemples simples à comprendre.

6. Risques liés aux compétences


6.1.
6.1.1.


L'analyse des traces numériques laissées par les personnes au cours de leurs activités nécessite certains outils d'analyse de données, qui ne sont actuellement pas les plus courants dans les statistiques officielles. Premièrement, l'utilisation de données indirectes sur les activités des personnes au lieu d'enquêtes directes dans les enquêtes nécessite l'utilisation de modèles statistiques et, par conséquent, des compétences d'inférence et de l'apprentissage automatique. Deuxièmement, ces enregistrements numériques sont constitués de données qui n'ont souvent pas le format de tableau habituel habituel pour les résultats de l'enquête, avec des lignes correspondant à une unité statistique et des colonnes avec des caractéristiques spécifiques de ces unités statistiques. Les pistes numériques sont également présentées sous forme de texte, son, image et vidéo.L'extraction d'informations statistiques pertinentes à partir de ces types de données nécessite des compétences en traitement du langage naturel, en traitement audio et en traitement d'image. Troisièmement, ces sources de données ont tendance à fournir des ensembles de données massifs, dont le traitement nécessite une bonne compréhension des méthodologies de calcul distribué.

Le risque de pénurie d'experts réside dans l'obtention de données auprès de l'une de ces nouvelles grandes sources de données, l'office de statistique n'étant pas en mesure de les traiter et de les analyser correctement du fait que son personnel ne dispose pas des compétences nécessaires.

6.1.2. Probabilité


La probabilité de ce risque dépendra de trois facteurs: 1) les types spécifiques de compétences nécessaires pour chaque type de source de mégadonnées et la probabilité que l'office de statistique trouve la possibilité d'étudier une telle source; 2) la disponibilité actuelle des compétences nécessaires en gestion statistique; et 3) la culture organisationnelle du bureau de statistique.

En ce qui concerne les types de compétences qui peuvent être nécessaires, il convient de noter que toutes les sources n'exigent pas toutes les compétences énumérées ci-dessus. Certaines (par exemple, des données comme Google Trends) ne nécessitent pas de calcul distribué, car elles sont déjà prétraitées à partir du détenteur de données ou ont des compétences en traitement du signal, et elles nécessiteront principalement des compétences en modélisation statistique. Cependant, il existe une grande variété de sources de mégadonnées, dont la plupart nécessitent des compétences en informatique distribuée, en traitement du signal et en apprentissage automatique. Dans le même temps, la recherche appropriée de ces chemins numériques nécessitera le traitement de plusieurs sources. Ainsi, il existe une forte probabilité que de grandes sources de données devenues disponibles au bureau de statistique nécessitent ces compétences inhabituelles,et la probabilité de ce risque est très élevée (5).

En ce qui concerne la disponibilité actuelle des compétences nécessaires, cela dépendra du bureau de statistique concerné. Même si la méthodologie d'enquête est moins courante que la méthodologie d'enquête, elle est également utilisée dans les statistiques officielles dans certains domaines. Par conséquent, même si cela peut nécessiter une certaine redistribution des ressources humaines, les bureaux de statistique peuvent trouver une solution par eux-mêmes. Quant aux compétences informatiques distribuées, principalement liées à l'informatique, elles dépendront de la façon dont l'infrastructure informatique est gérée dans l'organisation. En fonction de l'extérieur du service informatique, des solutions peuvent être trouvées dans le cadre des dispositions existantes. Cependant, les compétences de traitement du signal et d'apprentissage automatique n'existent généralement pas dans la plupart des bureaux de statistique officiels,et l'application de ces compétences ne peut pas être externalisée, car elles devraient être appliquées par des experts dans le domaine des statistiques. Par conséquent, de ce point de vue, la probabilité de ce risque semble également très élevée (5).

La culture organisationnelle influencera également la probabilité de ce risque. Le fait que le personnel soit prêt à acquérir les compétences nécessaires grâce à l'auto-apprentissage peut permettre à une organisation de répondre à une situation avec une nouvelle source de données qui nécessite des compétences autres que la normale. Cela dépendra de la culture organisationnelle de l'office statistique, à savoir si cela encouragera les employés à acquérir de nouvelles compétences et si cela leur laisse du temps pour une formation indépendante.

Ainsi, la probabilité que le bureau de statistique ne soit pas en mesure de traiter et d'analyser de nouvelles sources de données en raison du manque de compétences de ses employés sera entre probable (4) et fréquente (5) selon la culture d'auto-apprentissage de l'organisation.

6.1.3. Influence


Un bureau de statistique qui n'est pas en mesure de traiter et d'analyser de grandes sources de données en raison d'un manque de compétences de ses employés peut avoir deux conséquences négatives possibles: 1) la source de données ne sera pas étudiée, du moins pas complètement; 2) la source sera mal utilisée.

Le manque de capacité à explorer pleinement le potentiel d'une source précieuse de mégadonnées aura peu d'impact (2) à court terme, car les bureaux de statistique disposent réellement d'outils statistiques pour répondre aux besoins actuels. Cependant, à long terme (et peut-être même à moyen terme), les conséquences de la perte de cette opportunité seront cruciales (4), car les bureaux de statistique sont de plus en plus confrontés à la concurrence des prestataires privés, qui n'ont pas la même structure institutionnelle qui leur permettra de garantir la société indépendance statistique.

Cependant, une mauvaise utilisation de la source aura des conséquences extrêmement négatives pour les bureaux de statistique, car les statistiques officielles dépendent fortement de leur réputation dans l'accomplissement de leur mission. Cependant, nous pouvons affirmer que la compétence la plus importante qui, si elle est manquée, peut conduire à des résultats incorrects est la conclusion statistique, en particulier la conclusion basée sur le modèle, qui est également moins susceptible d'être absente. Par conséquent, l'impact attendu sera plus critique (4) qu'extrême.

6.1.4. La prévention


Les services statistiques peuvent activement prévenir ce risque de deux manières: 1) formation; et 2) un ensemble.

Les bureaux de statistique peuvent fournir au personnel les compétences nécessaires en identifiant en détail les compétences nécessaires pour utiliser de grandes sources de données dans la production statistique, dresser une liste des compétences existantes du personnel, identifier les besoins de formation, puis organiser des cours de formation.

Les bureaux de statistique peuvent également recruter de nouveaux employés possédant les compétences nécessaires. Cela semble avoir de sérieuses limites, car les bureaux de statistique ne seront pas en mesure de recruter une masse critique de personnel dans une situation où l'utilisation de grandes sources de données sera répandue dans le bureau et les nouveaux employés auront encore besoin de plusieurs années pour atteindre le niveau d'expérience des employés existants. Cependant, au moins une partie du nouveau personnel recruté dans le cadre d'une mise à niveau régulière du personnel peut avoir des compétences en mégadonnées.

6.1.5. Ramollissement


Confrontés à une situation où de nouvelles sources de mégadonnées sont disponibles sans employés possédant les compétences nécessaires, les bureaux de statistique peuvent atténuer les effets négatifs de deux manières: 1) sous-traitance; et 2) la coopération.

Les bureaux de statistique peuvent conclure des accords pour le traitement des données et l'analyse de nouvelles sources de mégadonnées avec d'autres organisations qui fournissent ces types de services. Cela semble être une solution viable, car un nouveau secteur d'entreprises spécialisées dans le traitement de ce type de données apparaît. Il s'agit toutefois d'une décision qui comporte en soi certains risques, car l'office statistique aura moins de contrôle sur la production de produits statistiques potentiellement sensibles. Cette solution présente également l'inconvénient de ne pas permettre aux employés de l'office statistique d'apprendre et d'acquérir les compétences nécessaires.

La collaboration avec d'autres organisations qui ont des employés ayant les compétences nécessaires et qui sont également intéressées à explorer la source des mégadonnées semble être une solution plus prometteuse. Cette coopération peut prendre la forme de projets communs avec des employés de l'Office statistique et des employés d'autres organisations sur un pied d'égalité, qui partagent leurs connaissances. Cela permettrait non seulement de réduire le risque de manque de compétences, mais permettrait également au bureau de statistique d'acquérir ces compétences.

6.2. Fuite d'experts dans d'autres organisations
6.2.1. La description


Ce risque est que les agences de statistiques perdent leur personnel au profit d'autres organisations après avoir acquis des compétences liées aux mégadonnées.

6.2.2. Probabilité


La probabilité de ce risque dépendra de deux facteurs: 1) les opportunités attractives existantes dans les organisations en dehors des statistiques officielles; 2) les conditions de travail dans les bureaux de statistique.

Quant aux opportunités dans les organisations en dehors des statistiques officielles, la probabilité de ce risque semble probable (4). Il existe une forte demande de personnes possédant des compétences en mégadonnées dans le secteur privé, ainsi que dans d'autres organisations du secteur public. Après avoir acquis des compétences dans le domaine du big data, les statisticiens officiels acquerront un avantage comparatif en étant des experts expérimentés dans le domaine des statistiques. En plus des compétences spécifiques de travailler avec les mégadonnées, d'autres organisations ont besoin de spécialistes des données avec des compétences plus traditionnelles, telles que l'évaluation des besoins des utilisateurs et le développement d'indicateurs de performance clés (KPI) qui sont communs aux statisticiens officiels. En outre, les employés les plus susceptibles d’acquérir de nouvelles compétences devraient également êtrequi sera également plus ouvert aux changements de carrière et quittera l'office de statistique.

Quant aux conditions de travail dans les bureaux de statistique, cela dépendra évidemment principalement du bureau concerné. Cependant, les bureaux de statistique en général offrent toujours des opportunités professionnelles attrayantes pour les personnes d'un point de vue quantitatif. Les bureaux de statistique offrent la plus large gamme de domaines de travail possibles et la plus grande sélection de données pour le travail. Cela réduira en quelque sorte la probabilité que les bureaux de statistique perdent leur personnel en raison de circonstances imprévues (3).

6.2.3. Influence


L'impact de ce risque sera le même que le risque d'un manque de personnel possédant les compétences pertinentes en premier lieu. Par conséquent, l'impact sera critique (4), comme indiqué ci-dessus.

6.2.4. La prévention


Apparemment, le seul moyen pour les bureaux de statistique de prévenir ce risque est d'offrir des conditions de travail attrayantes à leurs employés. Cela est généralement vrai pour tout le personnel. Cependant, dans le cas spécifique, lorsque les employés sont ouverts à la maîtrise de nouvelles compétences, à savoir les compétences de travail avec les mégadonnées, les conditions de travail peuvent être améliorées en leur offrant des opportunités de formation où ils peuvent développer leurs intérêts professionnels. Les bureaux de statistique peuvent également accorder une attention particulière à l'ouverture à de nouveaux projets innovants et à de nouvelles idées concernant les nouvelles sources de mégadonnées provenant de statisticiens travaillant dans plusieurs domaines de la statistique. Finalement,la prévention de la perte de personnel pour d'autres organisations dans la séquence de leurs compétences en matière de traitement des mégadonnées dépendra de la bonne identification du personnel qui est capable et disposé à travailler avec ces données, et de la fourniture de bonnes opportunités pour leur développement professionnel.

6.2.5. Ramollissement


Une réduction de ce risque sera effectuée par rapport au risque d'un membre du personnel possédant les compétences appropriées: 1) sous-traitance; et 2) la coopération.

7. Discussion


D'après ce premier examen, il est évident qu'il est impossible d'établir une probabilité ou un impact unique pour un «risque de mégadonnées» donné - en règle générale, les deux indicateurs dépendent largement de la source des mégadonnées, ainsi que des «statistiques officielles basées sur les mégadonnées».
produit. "

Ainsi, nous concluons que la prochaine étape logique dans cette direction est l'adoption d'un certain nombre de projets pilotes possibles (dont chacun comprend une combinaison d'un ou plusieurs BDS et d'un ou plusieurs BDOS) comme point de départ et - pour chacun de ces pilotes - Le désir d'évaluer la probabilité et l'impact de chaque risque.

À cette fin, nous sommes sur le point de lancer une enquête auprès des parties prenantes, en essayant d'évaluer l'évaluation par la CVMO de la probabilité, de l'impact (et des mesures d'atténuation / d'atténuation possibles) d'un certain nombre de projets pilotes possibles - et de rechercher des propositions de la CVMO pour les risques que nous n'avons pas inclus dans ce document. .

8. RÉFÉRENCES
UNECE (2014), «A suggested Framework for the Quality of Big Data», Deliverables of the UNECE Big Data Quality Task Team, www1.unece.org/stat/platform/download/attachments/108102944/Big%20Dat
a%20Quality%20Framework%20-%20final-%20Jan08-2015.pdf?version=1&modificationDate=1420725063663&api=v2

UNECE (2014), «How big is Big Data? Exploring the role of Big Data in Official Statistics», www1.unece.org/stat/platform/download/attachments/99484307/Virtual%20Sprint%20Big%20Data%20paper.docx?version=1&modificationDate=1395217470975&api=v2

Daas, P., S. Ossen, R. Vis-Visschers, and J. Arends-Toth, (2009), Checklist for the Quality evaluation of Administrative Data Sources, Statistics Netherlands, The Hague/Heerlen

Dorfman, Mark S. (2007), Introduction to Risk Management (e ed.), Cambridge, UK, Woodhead-Faulkner, p. 18, ISBN 0-85941-332-22)

Eurostat (2014), «Accreditation procedure for statistical data from non-official sources» in Analysis of Methodologies for using the Internet for the collection of information society and other statistics, www.cros-portal.eu/content/analysismethodologies-using-internet-collection-information-society-and-other-statistics-1

Reimsbach-Kounatze, C. (2015), “The Proliferation of “Big Data” and Implications for Official Statistics and Statistical Agencies: A Preliminary Analysis”, OECD Digital Economy Papers, No. 245, OECD Publishing. dx.doi.org/10.1787/5js7t9wqzvg8-en

Reis, F., Ferreira, P., Perduca, V. (2014) «The use of web activity evidence to increase the timeliness of official statistics indicators», paper presented at IAOS 2014 conference, iaos2014.gso.gov.vn/document/reis1.p1.v1.docx

Even if not explicitly mentioning risks, this paper in fact approaches the many risks associated to the use of web activity data for official statistics. Eurostat (2007), Handbook on Data Quality Assessment Methods and Tools, ec.europa.eu/eurostat/documents/64157/4373903/05-Handbook-ondata-quality-assessment-methods-and-tools.pdf/c8bbb146-4d59-4a69-b7c4-218c43952214


All Articles