Estruturar riscos e decisões ao usar o BigData para estatísticas oficiais

Prefácio do tradutor O

material me interessou, principalmente por causa da tabela abaixo:



Dado que as estatísticas (e russo, no nível genético), para dizer o mínimo, não gostam de tudo o que difere da dependência linear, esses caras conseguiram arrastar o uso da função de ativação de forma parabólica para determinar o grau de risco do uso do BigData nas estatísticas oficiais. Bem feito. Naturalmente, os estatísticos acrescentaram sua nota a este trabalho: “1 Quaisquer erros e omissões são de responsabilidade exclusiva dos autores. As opiniões expressas neste documento são pessoais e não refletem necessariamente a posição oficial da Comissão Europeia. ” Mas o trabalho foi publicado. Penso que hoje é suficiente, e eles (os autores) não proibiram ninguém de encontrar suas escalas nesses aspectos.

O trabalho pode ser bastante estruturado para separar onde e como os métodos estatísticos diferem dos métodos de pesquisa do BigData. Na minha opinião, o maior benefício desse trabalho será conversar com o cliente e refutar suas declarações, como:

- E nós mesmos coletamos as estatísticas, o que você ainda deseja pesquisar?
- E você nos apresenta seus resultados para que os coordenemos com nossas estatísticas. Nesta questão, os autores dizem que seria bom ler este trabalho (3 Quão grande é o Big Data? Explorando o papel do Big Data nas estatísticas oficiais )

Neste artigo, os autores expuseram sua visão do nível de risco. Este parâmetro está entre colchetes, não deve ser confundido com referência a fontes.

A segunda observação. Os autores usam o termo BDS - este é um análogo do conceito de BigData. (aparentemente reverência às estatísticas oficiais).

Prefácio de

Um número crescente de escritórios de estatística está explorando a possibilidade de usar grandes fontes de dados para produzir estatísticas oficiais. Atualmente, existem apenas alguns exemplos em que essas fontes foram totalmente integradas à produção estatística real. Consequentemente, a extensão total das consequências causadas por sua integração ainda não é conhecida. Enquanto isso, foram feitas as primeiras tentativas para analisar as condições e o impacto do big data em vários aspectos da produção estatística, como qualidade ou metodologia. Recentemente, a força-tarefa desenvolveu uma estrutura de qualidade para a produção de estatísticas de big data no contexto do projeto de big data da Comissão Econômica para a Europa das Nações Unidas (UNECE).Segundo o Código de Prática Estatística Europeu, o fornecimento de informações estatísticas de alta qualidade é a principal tarefa dos serviços de estatística. Como o risco é definido como o efeito da incerteza sobre os objetivos (por exemplo, a organização internacional de padronização ISO 31000), achamos apropriado categorizar os riscos de acordo com as medidas de qualidade que eles afetam.
A estrutura de qualidade proposta para dados estatísticos obtidos de grandes fontes de dados fornece uma idéia estruturada da qualidade associada a todos os estágios do processo estatístico de negócios e, portanto, pode servir como base para uma avaliação e gerenciamento abrangentes dos riscos associados a essas novas fontes de dados. Ele introduz novas dimensões qualitativas específicas para K ou (de alta importância quando) o uso de big data para estatísticas oficiais, como ambiente institucional / de negócios ou complexidade. Usando essas novas medidas qualitativas, é possível identificar sistematicamente os riscos associados ao uso de grandes fontes de dados nas estatísticas oficiais.

Neste artigo, procuramos identificar os riscos causados ​​pelo uso de big data no contexto das estatísticas oficiais. Adotamos uma abordagem sistemática para identificar riscos no contexto da estrutura de qualidade proposta. Ao focarmos nas medidas de qualidade recém-propostas, podemos descrever os riscos que estão ausentes no momento ou que não afetam a produção de estatísticas oficiais. Ao mesmo tempo, podemos determinar os riscos atuais, que serão avaliados de maneiras completamente diferentes ao usar big data para obter estatísticas. Em seguida, passamos ao ciclo de gerenciamento de riscos e fornecemos uma avaliação da probabilidade e do impacto desses riscos. Como a avaliação de riscos envolve subjetividade em sua atribuição, a probabilidade e o impacto em vários riscos, medimos o acordo entre dezenas de diferentes partes interessadas,fornecido de forma independente. Em seguida, oferecemos opções para mitigar esses riscos em quatro categorias principais: prevenção, redução, compartilhamento e retenção. De acordo com a ISO, um dos princípios do gerenciamento de riscos deve ser a criação de valor, ou seja, os recursos para reduzir riscos devem ser menores do que para a inação. De acordo com esse princípio, finalmente avaliaremos o possível impacto de algumas medidas de mitigação de risco na qualidade dos resultados finais, a fim de chegar a uma avaliação mais abrangente do uso do Big Data para estatísticas oficiais.um dos princípios do gerenciamento de riscos deve ser a criação de valor, ou seja, os recursos para redução de riscos devem ser menores do que para a inação. De acordo com esse princípio, finalmente avaliaremos o possível impacto de algumas medidas de mitigação de risco na qualidade dos resultados finais, a fim de chegar a uma avaliação mais abrangente do uso do Big Data para estatísticas oficiais.um dos princípios do gerenciamento de riscos deve ser a criação de valor, ou seja, os recursos para redução de riscos devem ser menores do que para a inação. De acordo com esse princípio, finalmente avaliaremos o possível impacto de algumas medidas de mitigação de risco na qualidade dos resultados finais, a fim de chegar a uma avaliação mais abrangente do uso do Big Data para estatísticas oficiais.

1. Introdução


1.1 fundo


O desenvolvimento de “big data” foi caracterizado por Kenneth Neil Kukier e Victor Mayer-Schoenberger em seu artigo “Crescendo Big Data” (2. www.foreignaffairs.com/articles/139104/kenneth-neil-cukier-and-viktor-mayer-schoenberger/ de dados grandes ) com o termo transferência de dados. Datafication é descrito como o processo de "pegar todos os aspectos da vida e transformá-los em dados". Por exemplo. O Facebook fornece redes pessoais, sensores para todos os tipos de condições ambientais, smartphones para comunicação e movimentos pessoais, dados vestíveis para condições pessoais. Isso leva a uma coleta e disponibilidade quase universal de dados.

Como em muitos outros setores, as estatísticas oficiais começaram apenas recentemente a discutir o problema do big data em nível estratégico. Ainda não existe um entendimento comum e amplo sobre o caminho a seguir, se é um desafio ou uma oportunidade, se é pequeno ou grande, etc. Como parte do Grupo de Alto Nível sobre Modernização da Produção e Serviços Estatísticos (3) Qual é o tamanho do Big Data? de Big Data nas estatísticas oficiais: www1.unece.org/stat/platform/download/attachments/99484307/Virtual%20Sprint%20Big%20Data%20paper.docx?version=1&modificationDate=1395217470975&api=v2), foi realizada uma primeira análise SWOT seguida de uma análise bruta de risco / benefício. Observou-se que "uma análise de risco abrangente também incluirá aspectos como probabilidade e impacto, e também poderá ser expandida para identificar estratégias para mitigar e gerenciar riscos".

Embora este documento ainda esteja longe de ser uma análise de risco completa, ele visa melhorar a situação precisamente criando a primeira revisão estruturada. Gostaríamos de enfatizar que esta revisão deve ser vista como um ponto de partida para estimular a discussão geral na Comunidade Estatística Oficial (OSC).

1.2 Esfera


Este artigo é dedicado exclusivamente a riscos, excluindo não apenas vantagens, mas também pontos fortes e fracos, oportunidades e ameaças. Isso significa que “riscos de inação” (por exemplo, o risco de que o OSC fique fora de competição com outros participantes se não for modernizado) não são cobertos pelo escopo; é sim uma ameaça. Em vez disso, estamos tentando destacar os riscos que podem surgir (a) se a OSC aproveitar as oportunidades oferecidas pelo big data e começar a desenvolver ou melhorar um “produto oficial de estatísticas baseadas em big data” (BOSP); (b) riscos para o novo “negócio comum”, ou seja, riscos para estatísticas oficiais baseadas na produção de “big data”. (Como toda a produção de estatísticas oficiais está associada a riscos, nos restringimos a (b) os riscos específicos do Big Data, ou seja,riscos que não existem ou são insignificantes para o processo “tradicional” de coleta de estatísticas oficiais.)

1.3 Estrutura


Na seção 2, apresentamos os princípios básicos associados a esta tarefa, começando com a estrutura claramente necessária para gerenciamento e gerenciamento de riscos (seção 2.1). Também apresentamos uma estrutura de qualidade preliminar para dados estatísticos obtidos com base em big data (Seção 2.2), uma vez que vincular a estrutura de qualidade a riscos cumpre dois objetivos:

  • Ele define o contexto para identificar riscos. Certos indicadores de qualidade, juntamente com as características consideradas, expressam os valores do objeto, considerados importantes e cruciais para a prestação de serviços a clientes e usuários.
  • Isso permite atribuir riscos específicos a medições qualitativas incorporadas em hiperespaços comuns e vinculadas a determinados estágios da produção de produtos estatísticos.

Nas seções 3, 4, 5 e 6, apresentamos os riscos identificados até agora em vários contextos (4 Os documentos de caso de negócios do ESS (https://www.europeansocialsurvey.org/about/structure_and_governance.html) bem como no Big Data, os ESSets contêm uma lista de riscos parcialmente relacionados ao projeto e parcialmente ao uso de fontes de big data para fins estatísticos. O documento "Uma estrutura sugerida para a qualidade do Big Data" menciona alguns riscos relacionados às dimensões da qualidade./ Os documentos de caso de negócios do projeto ESS Big Data, bem como as redes ESS Big Data, contêm uma lista de riscos parcialmente relacionados ao projeto e parcialmente usando fontes de big data para fins estatísticos. Alguns riscos propostos são mencionados no documento "Estrutura proposta para a qualidade de big data" com indicadores de qualidade.).Aqui usamos a classificação de acesso a dados, o ambiente jurídico, a privacidade e a segurança dos dados, bem como as habilidades; a reorganização de acordo com a estrutura de qualidade das estatísticas obtidas a partir de big data (Seção 2.2) deve ser considerada imediatamente assim que essa estrutura atingir um status mais completo. Para cada um dos riscos identificados, (i) fornecemos uma avaliação da probabilidade e do impacto (de acordo com a Seção 2.1.3) e (ii) propomos estratégias para mitigar e gerenciar riscos (consulte a Seção 2.1.4).Para cada um dos riscos identificados, (i) fornecemos uma avaliação da probabilidade e do impacto (de acordo com a Seção 2.1.3) e (ii) propomos estratégias para mitigar e gerenciar riscos (consulte a Seção 2.1.4).Para cada um dos riscos identificados, (i) fornecemos uma avaliação da probabilidade e do impacto (de acordo com a Seção 2.1.3) e (ii) propomos estratégias para mitigar e gerenciar riscos (consulte a Seção 2.1.4).

No final, discutimos nossas descobertas e esboçamos algumas próximas etapas na Seção 7.

2. O básico


2.1 Riscos e Gerenciamento de Riscos


De acordo com a ISO 31000: 20095, risco é definido como "o efeito da incerteza sobre as metas". Isso significa que as metas devem ser definidas ou conhecidas antes que os riscos possam ser identificados. Esses objetivos são geralmente determinados pelo contexto institucional da organização. Outra consideração importante é que os riscos carregam uma caracterização de incerteza, ou seja, não está claro se o evento descrito ocorrerá. Assim, os riscos são medidos em termos da probabilidade de ocorrência do evento e suas conseqüências, ou seja, o impacto que o evento tem no alcance de seus objetivos. A avaliação de riscos deve fornecer informações mais objetivas, o que permitirá que você encontre o equilíbrio certo entre a realização de oportunidades de lucro e a minimização de efeitos adversos.O gerenciamento de riscos é parte integrante das práticas de gerenciamento e um elemento importante das boas práticas corporativas (6 Statistics Canada: relatório 2014-2015 sobre planos e prioridades,www.statcan.gc.ca/aboutapercu/rpp/2014-2015/s01p06-eng.htm ). É um processo iterativo que idealmente permite a melhoria contínua do processo de tomada de decisão e contribui para a melhoria contínua da produtividade.

Os riscos também estão associados à qualidade. O uso de um sistema de qualidade deve possibilitar o uso das oportunidades oferecidas por várias fontes e metodologias para alcançar um resultado de um certo nível de qualidade, no sentido de que esse resultado satisfaz as necessidades dos usuários. Assim como os riscos, os níveis de qualidade podem ser derivados do ambiente institucional e dos objetivos de certas instituições. Nesse contexto, o ambiente institucional determina o nível geral de risco que a organização está preparada para suportar para alcançar seus objetivos.

O processo de avaliação e gerenciamento de riscos pode ser dividido em várias etapas, que incluem definir o contexto, identificar riscos, analisar riscos em termos de probabilidade e impacto, avaliar riscos e, finalmente, processar riscos.

2.1.1 Contexto institucional


Como primeiro passo, é necessário estabelecer um contexto estratégico, organizacional e de gerenciamento de riscos no qual o restante do processo ocorrerá. Isso inclui estabelecer critérios pelos quais os riscos serão avaliados e determinar a estrutura da análise.

2.1.2 Identificação de riscos


No segundo estágio, os eventos que podem afetar o alcance das metas devem ser identificados. A identificação deve incluir perguntas relacionadas ao tipo de risco, ao momento do evento, ao local ou como os eventos podem impedir, piorar, atrasar ou melhorar a consecução dos objetivos.

2.1.3 Avaliação de risco


O próximo passo é identificar os controles existentes e a análise de risco em termos de probabilidade, bem como em termos de possíveis consequências. No contexto deste artigo, a probabilidade ou probabilidade de ocorrência de riscos usa uma escala de 1 (improvável) a 5 (frequente). O impacto dos eventos é medido em uma escala de 1 (desprezível) a 5 (extremo). Conforme mostrado na Tabela 1, o produto de probabilidade e impacto tem um "nível de risco" que varia de 1 a 25. Os



níveis de risco estimados podem ser comparados com critérios predefinidos para encontrar um equilíbrio entre benefícios potenciais e resultados adversos. Isso permite que você faça julgamentos sobre as prioridades de gerenciamento.



A prioridade da ação deve ser colocada em riscos críticos (consulte a Tabela 2), ou seja, aqueles que podem ocorrer e têm consequências sérias ou extremas para os objetivos da organização.

2.1.4 Resposta ao risco


A etapa final consiste em decisões sobre como responder aos riscos. Alguns riscos que estão abaixo de um nível de risco predeterminado podem ser ignorados ou tolerados. Para outros, os custos da mitigação de riscos podem ser tão altos que superam os benefícios potenciais. Nesse caso, a organização pode decidir abandonar as atividades relevantes. Os riscos também podem ser transferidos para terceiros, como seguros, que compensam os custos incorridos. A opção final é levar em consideração os riscos ao definir estratégias e ações que equilibram custos e benefícios potenciais. Assim, a organização decidirá sobre a implementação de estratégias para maximizar benefícios e minimizar possíveis custos.



2.2 Sistemas de qualidade


A força-tarefa, composta por representantes de organizações estatísticas nacionais e internacionais, desenvolveu em 2014 uma estrutura preliminar de qualidade para estatísticas derivadas de big data. A força-tarefa trabalhou sob os auspícios do projeto UNECE / HLG “O Papel do Big Data na Modernização da Produção Estatística”. Ele expandiu os sistemas de qualidade existentes projetados para avaliar estatísticas de fontes de dados administrativas, com indicadores de qualidade considerados relevantes para grandes fontes de dados.

Nesse sistema, é feita uma distinção entre as três fases de um processo de negócios: entrada, produtividade e saída. A fase de entrada corresponde às fases de "design" e "coleção" do GSBP, desempenho para as fases de "processo" e "análise" e a saída é equivalente à fase de "propagação".

A estrutura usa uma estrutura hierárquica, que foi retirada da estrutura de dados administrativos desenvolvida pela Statistics Netherlands (7 Daas, P., S. Ossen, R. Vis-Visschers e J. Arends-Toth, (2009), Checklist for the Quality avaliação de fontes de dados administrativos (Statistics Netherlands, The Hague / Heerlen). As dimensões de qualidade são incorporadas a uma estrutura hierárquica chamada hiperespaço. As três hipodimensões definidas são "origem", "metadados" e "dados". As medições de qualidade são incorporadas nessas hiper-dimensões e atribuídas a cada um dos estágios de produção. Para a fase de entrada, foram propostos aspectos adicionais "confidencialidade e confidencialidade", "complexidade" (de acordo com a estrutura de dados), "integridade" de metadados e "conectividade" (capacidade de vincular dados a outros dados),para adicionar ao modelo de qualidade padrão. Para cada um dos indicadores de qualidade, são propostos fatores relacionados à sua descrição, bem como possíveis indicadores.

No contexto deste artigo, os riscos podem ser excluídos desses fatores. Por exemplo, fatores que precisam ser considerados para medir a qualidade do ambiente institucional / de negócios são a sustentabilidade do provedor de dados. Um risco relacionado pode ser que os dados não estarão disponíveis no provedor de dados no futuro. Outro exemplo diz respeito ao aspecto recentemente proposto de qualidade, privacidade e segurança. Um fator importante é a "percepção", significando possíveis percepções negativas sobre o uso pretendido de fontes de dados específicas por várias partes interessadas.

3. Riscos associados ao acesso a dados


3.1 Falta de acesso aos dados
3.1.1. Descrição


Esse risco consiste em um projeto relacionado ao desenvolvimento do BOSP que não obtém acesso à Big Data Source (BDS) necessária.

Até a presente data, o OSC aprendeu da maneira mais difícil que mesmo sair dos blocos de partida e obter esse acesso às vezes é um obstáculo intransponível. Às vezes, é fácil acessar uma fonte específica, como CDR (registro de dados de chamadas), para fins de teste / pesquisa, mas é muito mais difícil (por razões legais ou comerciais) acessá-la para fins de produção.

3.1.2 Probabilidade


A probabilidade é amplamente dependente das características do BDS. Quando se trata de dados administrativos grandes, pode ser tão pequeno quanto 1, em particular se (como é o caso dos dados do loop de tráfego estudados por Daas et al. 8 Daas, P., M. Puts, B. Buelens e P. van den Hurk. 2015. “Big Data como fonte de estatísticas oficiais.” Journal of Official Statistics 31 (2). (A publicar; publicação prevista para junho de 2015.)) não há problemas para proteger dados pessoais. Se o caso BDS pertencer a um indivíduo particular, em particular se for sensível (por exemplo, do ponto de vista da proteção de dados) ou valioso (do ponto de vista comercial), a probabilidade poderá ser muito alta (5).

3.1.3 Influência


O impacto depende do BOSP e da maneira como você usa o BDS. Se o BDS estiver no centro, o impacto poderá ser muito alto (4 = não é possível produzir BOSP), enquanto pode ser menor se ainda for possível produzir BOSP (embora com qualidade inferior), contando com outro DRM, o que leva a à exposição na faixa de 2-3.

3.1.4 Prevenção


Para reduzir o risco de falta de acesso, você deve estabelecer contatos preliminares com o provedor de dados e firmar um contrato de acesso a dados de longo prazo. Além disso, uma revisão legal abrangente deve ser realizada em relação à combinação específica de BDS e BOSP. As possibilidades de acessar dados também devem ser avaliadas usando a legislação atual ou futura.

3.1.5 Amolecimento


Se houver BDS alternativo que possa ser usado para o BOSP, eles poderão ser explorados. Se não houver como produzir o BOSP sem o BDS e se for impossível superar a falta de acesso, os esforços deverão ser interrompidos e o novo BOSP não será lançado.

3.2 Perda de acesso aos dados
3.2.1. Descrição


Esse risco é que o escritório de estatística esteja perdendo o BDS subjacente ao BOSP.

3.2.2 Probabilidade


Se o BOSP já está sendo produzido, geralmente há alguma estabilidade e, em alguns casos, o risco pode ser muito baixo (1). Contudo, em particular, no caso de entidades privadas com as quais acordos insuficientemente firmes foram concluídos, nada interfere, por exemplo. novas orientações da alteração das políticas de comunicação de dados, o que leva a um risco moderado de lacuna (3). Além disso, se o BDS estiver associado a atividades instáveis, há sempre o risco de o fornecedor simplesmente falir, e o risco pode ser ainda maior (4).

3.2.3 Influência


Como o BOSP existente pode não ser possível de fabricar, ocorre frequentemente um impacto muito forte (5). Em outros casos, quando o BDS é auxiliar, o impacto pode ser uma perda de qualidade com um impacto na faixa de 2-3.

3.2.4 Prevenção


A estratégia de prevenção é semelhante à estratégia de falta de acesso aos dados, mas com uma ênfase crescente na vigilância constante também no ambiente de produção.

Não colocar todos os seus ovos em uma cesta (ou seja, ter vários BDS subjacentes a cada BSOP) também pode ser uma estratégia, mas pode ser impraticável ou muito caro.

3.2.5 Amolecimento


Se o BDS é o resultado de atividades insustentáveis, é possível que um novo BDS que reflita o mesmo fenômeno social se torne gradualmente disponível. No entanto, seria tarde demais para iniciar uma "análise de mercado" assim que o BSOP travar; será necessária vigilância constante - e isso pode ser difícil de alcançar.

4. Risco legal


4.1 Incumprimento da legislação pertinente
4.1.1. Descrição


Esse risco consiste em um projeto relacionado ao desenvolvimento do BOSP, que não leva em consideração a legislação relevante, o que torna o BOSP inconsistente com a legislação especificada. Isso pode se aplicar à legislação de proteção de dados, carga regulamentar de resposta, etc.

4.1.2 Probabilidade


Dada a ignorância da OSC em relação aos big data, é possível que ocorra (3) não conformidade acidental. A probabilidade é tipicamente associada ao BDS, pois quanto menos "sensível" a fonte, menor a probabilidade de criar uma incompatibilidade.

4.1.3 Influência


O impacto é geralmente crítico (4), no sentido de que, para produção inadequada, será necessário interromper o BOSP (ou, se ainda não atingiu o estágio de implementação, seu desenvolvimento deve ser interrompido). Pode até ser extremo (5), já que os riscos à reputação decorrentes de estatísticas oficiais inadequadas (“ilegais”) podem ter consequências

4.1.4 Prevenção


Para qualquer BOSP, é necessária uma análise legal completa - e isso acontece em vários estágios (o que é aceitável no estágio de desenvolvimento / exploração pode não estar certo no estágio de implementação / produção). Por sua vez, isso pode levar à reengenharia do BOSP para torná-lo compatível.

4.1.5 Amolecimento


Dependendo da gravidade da discrepância, o primeiro passo pode ser colocar o BOSP offline.

A reengenharia do BOSP para torná-lo compatível pode ser uma opção, mas se o BOSP é "salvo" dessa maneira depende muito da natureza da incompatibilidade.

4.2 Mudanças adversas no ambiente jurídico
4.2.1. Descrição


Pode ser introduzida nova legislação relativa ao desenvolvimento do BOSP, o que efetivamente o torna incompatível.

4.2.2 Probabilidade


É possível que os proponentes da proteção aprimorada de dados possam introduzir novos requisitos que afetam direta ou indiretamente a capacidade de criar BOSPs específicos. A probabilidade na faixa de 2-3 parece uma estimativa realista.

4.2.3 Influência


A exposição é geralmente crítica (4), no sentido de que a produção inadequada exigirá um desligamento do BOSP.

4.2.4 Prevenção


Certas informações comerciais devem ser conduzidas regularmente para monitorar o desenvolvimento da legislação - possivelmente também para influenciá-la, apresentando argumentos a favor de estatísticas oficiais em fóruns relevantes (por exemplo, consultivos).

4.2.5 Amolecimento


Desde que a monitoração proativa tenha sido realizada, pode haver tempo para a reengenharia do BOSP alinhá-la com a nova legislação desde o primeiro dia de sua entrada em vigor.

Se, por outro lado, o monitoramento não fosse realizado, para que a nova legislação "fosse uma surpresa", ou se a legislação fosse tão radical que não houvesse como tornar o BOSP incompatível, a única opção seria desabilitá-lo.

5. Riscos associados à privacidade e segurança dos dados


5.1 Violações da segurança dos dados
5.1.1. Descrição


Esse risco está relacionado ao acesso não autorizado a dados armazenados em escritórios de estatística. Terceiros podem receber dados que estão sob o embargo, por exemplo, devido à liberação do cronograma (9) Para qualquer BOSP inteiramente baseado em uma única BDS, é inevitável que os dados sejam implicitamente conhecidos pelo proprietário dos dados originais e, se a metodologia for transparente, as estatísticas derivadas também Essa situação não é abordada aqui, mas correndo o risco de abuso de autoridade por parte dos proprietários.) (10 Além disso, esses dados podem representar o risco de violação da confidencialidade. Esse risco será considerado separadamente.). Podem ser, por exemplo, os dados que os investidores esperam no mercado de ações.

5.1.2 Probabilidade


Em relação aos aspectos técnicos da proteção do ambiente de TI no escritório de estatística, o risco é tão provável para os BDSs quanto para as fontes tradicionais. No entanto, existem dois aspectos adicionais que devem ser considerados.

Em primeiro lugar, com alguns BDSs, o risco geral aumenta um pouco devido ao fato de que a segurança dos dados do proprietário original pode estar comprometida. Isso pode ser devido, por exemplo, a espionagem industrial ou hackers.

Em segundo lugar, assim que dados potencialmente valiosos forem armazenados no escritório, o risco de atrair intenções maliciosas aumentará. Se os dados armazenados tiverem um valor muito alto para os negócios, você deve estar preparado para uma probabilidade muito alta de ataques direcionados à infraestrutura de TI, para que a probabilidade de um hack possa ser potencialmente maior (4).

Se os dados armazenados não forem percebidos como tendo valor, a probabilidade geral não parecerá muito alta - de (1) a (3), dependendo da fonte de dados.

5.1.3 Influência


O dano potencial à sua reputação pode ser grande (5). O que é importante no caso da BDS é que, se a violação da segurança ocorrer com o proprietário original, o impacto na reputação do escritório de estatística deverá ser menor do que se a violação ocorresse com os dados nele armazenados.

Por outro lado, é possível que uma violação no escritório de estatística possa ter consequências negativas para o proprietário original. Nesse caso, um forte impacto negativo é novamente possível devido a danos em termos de confiança entre o fornecedor e o escritório de estatística (5).

5.1.4 Prevenção


O que é característico do caso BDS é que os procedimentos de segurança do proprietário original podem ser apropriados. É improvável que os escritórios de estatística tenham credenciais de auditoria para controlar isso. Os proprietários cujos dados são usados ​​para gravar registros com agendas de publicação confidenciais devem ser informados das implicações para estatísticas oficiais de possíveis violações de segurança em suas instalações e devem receber uma garantia oficial de que os procedimentos de segurança adequados estão sendo aplicados.

Uma maneira direta de evitar um sério impacto de uma violação de segurança nas instalações do proprietário no escritório de estatística é usar várias fontes para o mesmo produto, para que uma fonte comprometida não seja suficiente para obter o valor final. A vantagem dessa abordagem é que mais controle está nas mãos do escritório de estatística.

A maneira de evitar as consequências negativas de uma violação de segurança no escritório de estatística para o proprietário dos dados originais é encontrar uma maneira de trabalhar que não envolva a transferência de dados potencialmente sensíveis do ponto de vista do proprietário para o escritório de estatística. Em forma bruta. Uma possível abordagem preventiva é usar dados agregados. Deve-se lembrar, no entanto, que algumas formas de agregação, por exemplo, aquelas projetadas para impedir a identificação de membros individuais da população, podem não ser apropriadas nesse caso. Uma razão para isso pode ser o fato de que o risco para o proprietário está associado ao valor comercial dos dados, que pode ser significativo mesmo após o anonimato.

5.1.5 Amolecimento


Em caso de violação dos dados gerenciados pelo escritório de estatística, as medidas de mitigação serão as mesmas das fontes tradicionais, se não houver um impacto negativo no proprietário original.

No caso de consequências negativas para o proprietário original, o escritório de estatística deve revisar e fortalecer seus procedimentos de segurança, comunicar e demonstrar claramente seu compromisso com isso.

Se a violação ocorreu nas instalações do proprietário original, o escritório de estatística relevante deve relatar claramente a situação e insistir em melhorar os procedimentos de segurança do proprietário. Se necessário, você pode procurar um fornecedor alternativo.

5.2 Violações de privacidade de dados


5.2.1 Descrição


É um risco de que a confidencialidade de uma ou mais pessoas da população estatística seja violada. Isso pode ser devido a um ataque à infraestrutura de TI devido à pressão de outras agências governamentais ou devido a controles inadequados sobre a divulgação de estatísticas.

5.2.2 Probabilidade


Assim como o risco de violações da segurança dos dados, as especificações de armazenamento de microdados não mudam muito com a adição do BDS. No entanto, existem avisos aqui.

Os microdados de determinadas fontes de dados podem ter alto valor comercial, portanto, armazená-los aumentará a probabilidade de ataques.

Além disso, alguns microdados podem ser potencialmente muito úteis para outras agências governamentais, como órgãos policiais, tributação ou assistência médica. Em certas circunstâncias, a adesão ao princípio da confidencialidade estatística pode estar sob grande pressão.

Quanto às falhas no controle da divulgação de informações estatísticas, já existe uma prática estabelecida. O BDS pode permitir a produção de estatísticas para pequenos subgrupos da população ou fornecer a capacidade de vincular dados agregados de diferentes BDSs, o que pode aumentar a probabilidade de risco. Além disso, novas fontes, no entanto, exigirão novos desenvolvimentos metodológicos; portanto, o perigo real é que a metodologia para controlar a divulgação não seja atualizada adequadamente.

Em geral, com medidas preventivas razoáveis, a probabilidade pode ser mantida em níveis razoáveis, mas, como existem muitos fatores diferentes e diversos, a avaliação correspondente aqui parece ser a de que a probabilidade é alta (4).

5.2.3 Influência


O dano potencial à sua reputação pode ser grande (5). Assim como o risco de violação de dados, uma violação no escritório de estatística pode ter consequências negativas para o proprietário original. Aqui a influência de um evento como esse pode ser potencialmente ainda maior, especialmente desde que as tendências atuais da opinião pública continuem. Também é esperado que os danos entre o provedor de dados e o escritório de estatística sejam muito grandes.

5.2.4 Prevenção


Uma maneira inconfundível de evitar esse risco é não ter microdados do BDS (embora o armazenamento de outros microdados ainda acarrete um risco correspondente, embora com probabilidade e impacto diferentes). Dessa forma, como no caso de um risco de violação da segurança dos dados, será necessário desenvolver outras maneiras de usar os dados para fins estatísticos. Além disso, a natureza diferente das fontes aqui significa que será necessário desenvolver novas metodologias com objetivos concorrentes para extrair o máximo possível de informações úteis e proteger a privacidade do perigo.

No caso de armazenamento de microdados, os mecanismos de segurança e controle de acesso de TI devem estar no nível exigido e monitorados constantemente. Atenção especial deve ser dada para garantir a segurança de novos métodos de obtenção de dados. Ironicamente, essa nova maneira pode ser o transporte físico de dispositivos de armazenamento (como discos rígidos). Se esse método for usado, a entrega deverá ser fisicamente segura e a criptografia deve ser usada.

5.2.5 Amolecimento


As medidas atenuantes aqui são basicamente as mesmas que no caso de violações de segurança de dados. Se a causa da violação for a pressão de outra agência governamental, aproveite a oportunidade para fortalecer a independência da governança, para que essas violações se tornem ainda mais difíceis no futuro.

5.3 Manipulações com uma fonte de dados
5.3.1. Descrição


Provedores de dados de terceiros, como dados de mídia social ou dados fornecidos voluntariamente, correm risco de manipulação. Isso pode ser feito pelo próprio provedor de dados ou por terceiros. Por exemplo, muitas mensagens falsas nas redes sociais podem ser geradas para empurrar o índice estatístico obtido com base nesses dados de uma maneira ou de outra, se soubermos que o índice é calculado com base nesses dados.

Para dados fornecidos voluntariamente, pode haver momentos em que os voluntários representam um grupo de interesse específico com uma agenda específica.

5.3.2 Probabilidade


Para dados cuja manipulação pode ser de grande benefício, a probabilidade é maior. Podem ser dados para os quais as estatísticas são interessantes, por exemplo, o mercado de ações. À luz dos recentes escândalos relacionados à LIBOR e ao Forex, pode-se supor que, enquanto houver incentivo, é provável que tentativas de manipular dados.

Para estatísticas baseadas em dados fornecidos voluntariamente, você só precisa observar a prática recente de RP de contratar pessoas que fingem ter uma certa opinião e que são pagas pela expressão pública (por exemplo, em fóruns da Internet) para concluir que a probabilidade não é pequena . Em geral, um número de 3 a 4 parece adequado.

5.3.3 Influência


O grande problema com as manipulações é que elas podem durar muito tempo sem serem detectadas. Se a manipulação continuar por muito tempo, o impacto na qualidade pode se tornar significativo. Além disso, os danos à confiança do público nas estatísticas oficiais também podem ser grandes, especialmente se o papel dos escritórios de estatística como fornecedores de dados de qualidade for enfatizado publicamente. Por outro lado, se as manipulações forem detectadas no prazo e depois publicadas, isso poderá realmente melhorar a percepção do público. Exceto em casos extremamente ruins, pode-se imaginar o efeito máximo (3).

5.3.4 Prevenção


A realização regular de exercícios de controle com fontes alternativas é uma das possíveis abordagens preventivas. Essas fontes alternativas podem ser tradicionais ou diferentes. O uso de estatísticas baseadas em uma combinação de fontes pode interferir nos efeitos significativos da manipulação. Nos casos em que eles têm medo de manipulações iniciadas pelo provedor, os acordos legais também podem ser uma maneira de impedir essas práticas.

5.3.5 Amolecimento


Em termos de danos às relações públicas, as medidas atenuantes que devem ser adotadas aqui não são muito diferentes das medidas para combater qualquer crise.

Em termos de qualidade dos dados, seria útil que os dados passados ​​pudessem ser corrigidos para que, mesmo com um grande atraso, a série correta pudesse ser
produzida. Benchmarking regular pode ser útil para isso. Observe que o objetivo do benchmarking nesse caso é um pouco diferente do objetivo da prevenção. Para evitar isso, é importante identificar e investigar rapidamente uma incompatibilidade suspeita entre os dados de referência e o BDS. Atenuar os efeitos de dados úteis antigos é sempre útil.

Além disso, deve-se tomar cuidado para evitar manipulações semelhantes no futuro - em casos particularmente delicados, isso pode significar o recebimento de dados potencialmente redundantes de vários fornecedores para análise comparativa.

5.4 Percepção pública adversa do uso de big data pelas estatísticas oficiais
5.4.1. Descrição


A mídia e o público em geral são muito sensíveis a questões de confidencialidade e uso de dados pessoais de grandes fontes de dados, especialmente no contexto do uso secundário de dados por agências governamentais que tomam medidas administrativas ou legais contra os cidadãos. O uso percebido negativamente pode ser o posicionamento do controle de velocidade com base na análise dos dados de navegação (11 Consulte www.theguardian.com/technology/2011/apr/28/tomtom-satnav-data-police-speed-traps ).
Um caso específico da TomTom Netherlands causou uma queda significativa na demanda por dispositivos TomTom e levou à decisão da empresa de restringir o acesso aos dados. Nesse caso em particular, os dados estavam relacionados a indivíduos, mas a níveis de velocidade ao longo de seções da estrada.

No entanto, pode haver aplicativos com grande volume de dados que são bem recebidos pelo público. Um exemplo são os aplicativos que impedem crimes como roubo com base em métodos de big data.

A opinião pública positiva e negativa pode ter um forte impacto no uso de BDS no contexto da produção de estatísticas oficiais.

A consequência da percepção pública negativa pode ser que:

  • O BDS não estará mais disponível para escritórios de estatística, devido a decisões do provedor de dados ou decisões do governo de não usar dados, ou
  • o uso de dados será limitado, o que pode interferir na produção, se determinado BOSP.

5.4.2 Probabilidade


Fatores que podem afetar a probabilidade de um evento ou seu impacto na produção de estatísticas:

  • confidencialidade dos dados, ou seja, com que facilidade as pessoas podem ser identificadas;
  • a quantidade de informações divulgadas sobre indivíduos, por exemplo, é aumentada ao vincular dados de diferentes fontes;
  • tipo de dados, por exemplo, transações financeiras são percebidas como mais confidenciais do que outros dados;
  • o tipo de ação potencial que pode ser tomada contra os cidadãos, por exemplo, multar pessoas por excesso de velocidade;
  • ambiente jurídico confuso no qual os provedores e usuários de dados operam ou quando as condições legais conflitam com as opiniões / padrões éticos públicos;
  • ; . , , . , , .

Uma estimativa do tempo dos eventos adversos não é possível, uma vez que a mobilização pública é frequentemente desencadeada pela cobertura de eventos que afetam negativamente os cidadãos. No entanto, com o uso crescente de big data por governos e empresas privadas, e especialmente com o marketing ativo de dados para outros fins que não aquele que levou à sua coleta inicial, é mais provável que tais eventos ocorram.

Eventos que influenciam fortemente a percepção do público não são frequentes, mas aleatórios (3) e distantes (2). Com o aumento do uso de grandes fontes de dados, a probabilidade também aumentará.

5.4.3 Influência


O impacto do evento é muito dependente dos fatores discutidos acima. Em geral, o impacto é mais grave para a produção já estabelecida de dados estatísticos, pois, talvez, a ação deva ser encerrada. O impacto também depende da disponibilidade de fontes de dados alternativas, embora possa acontecer que a percepção do público não faça distinção entre diferentes fontes de dados em caso de materialização do evento. No estado atual de uso de big data, parece que essas fontes não podem substituir completamente as fontes de dados tradicionais, mas complementam as estatísticas existentes. Isso reduzirá o impacto dos eventos. Portanto, o impacto do evento é considerado na faixa de 2 (insignificante) a 3 (principal). Na fase de produção, a influência pode aumentar para 4 (valor crítico).

5.4.4 Prevenção


Medidas preventivas podem ser a definição de princípios éticos para big data nas estatísticas oficiais. As diretrizes éticas devem basear-se em princípios como um código de prática para estatísticas europeias ou nos princípios fundamentais das estatísticas oficiais (12 unstats.un.org/unsd/dnss/gp/fundprinciples.aspx ). O próximo passo será definir uma estratégia de comunicação que publique os resultados das diretrizes éticas para o público e possa ser usada para informar as partes interessadas sobre o uso ético do BDS para o BOSP.

Uma avaliação de risco separada para uma BDS específica pode ser realizada para identificar riscos e sugerir ações preventivas ou mitigadoras com base em princípios éticos. Uma avaliação de risco separada também pode incluir partes interessadas, como agências de proteção de dados, para garantir que todos os riscos sejam identificados e as ações sejam justificadas.

5.4.5 Amolecimento


Uma estratégia de comunicação também deve incluir medidas no caso de atitudes negativas crescentes do público. Uma avaliação de risco separada deve coletar exemplos positivos do uso de dados e medidas para evitar o uso indevido dos dados, que podem necessariamente ser adotados no nível político, e a comunidade estatística pode não ser capaz de influenciá-los efetivamente.

5.5 Perda de confiança - não obtida como resultado da observação
5.5.1. Descrição


Usuários de estatísticas oficiais geralmente confiam muito na precisão e confiabilidade das estatísticas. Isso se baseia no fato de que a produção de dados estatísticos é incorporada em uma base metodológica confiável e acessível, além de documentação sobre a qualidade do produto estatístico. Além disso, a maioria das estatísticas é baseada em observações, ou seja, obtidos a partir de pesquisas ou censos que estabelecem uma relação facilmente compreensível entre observação e estatística. O uso do BDS, que não é coletado para o principal objetivo das estatísticas, traz o risco de que esses relacionamentos sejam perdidos e que os usuários percam a confiança nas estatísticas oficiais. Um exemplo relacionado à última rodada (2010) do censo está relacionado aque em alguns países foram obtidas estatísticas usando várias fontes e modelos estatísticos. Em vários casos, as partes interessadas contestaram estatísticas.

5.5.2 Probabilidade


A probabilidade de um risco depende de fatores como a complexidade do modelo estatístico / metodológico, a confiabilidade do relacionamento entre BSD e BOSP ou se outras estatísticas são consistentes. A probabilidade deve estar no intervalo de 3 (aleatório) a 4 (provável), o que significa que isso pode acontecer várias vezes ou frequentemente.

5.5.3 Influência


O impacto da ocorrência de risco dependerá em grande parte se as NSOs podem provar com sucesso a precisão e a confiabilidade das estatísticas. Se isso não puder ser alcançado, o impacto do ponto de vista da perda de confiança também poderá afetar outras áreas estatísticas, ou seja, a confiabilidade não apenas de alguns dados estatísticos, mas também colocar em dúvida a própria organização. As NSOs perderiam vantagem competitiva sobre outras organizações privadas ativas nessa área.

5.5.4 Prevenção


As ações preventivas consistirão no desenvolvimento e publicação de uma metodologia cientificamente reconhecida pela comunidade científica, enriquecerá os dados com metadados em qualidade, garantirá a consistência do BOSP com o não-BOSP e executará um rigoroso controle de qualidade.

Antes de iniciar a produção estatística, o BOSP poderia ser publicado como experimental, e as partes interessadas seriam incentivadas a desafiá-lo, a fim de validar ou melhorar o BOSP.

5.5.5 Amolecimento


Existem dois casos para distinguir. Se as estatísticas forem contestadas, mas de qualidade alta / suficiente (correta / exata), seria suficiente explicar e levar as estatísticas ao público, fornecendo exemplos simples de entender.

6. Riscos de Habilidades


6.1.
6.1.1.


A análise dos traços digitais deixados pelas pessoas durante o curso de suas atividades requer certas ferramentas de análise de dados, que atualmente não são as mais comuns nas estatísticas oficiais. Primeiro, o uso de dados indiretos sobre as atividades das pessoas em vez de pesquisas diretas em pesquisas exige o uso de modelos estatísticos e, portanto, habilidades de inferência e aprendizado de máquina. Em segundo lugar, esses registros digitais consistem em dados que geralmente não possuem o formato de tabela usual para os resultados da pesquisa, com linhas correspondentes a uma unidade estatística e colunas com características específicas dessas unidades estatísticas. As faixas digitais também são apresentadas na forma de texto, som, imagem e vídeo.Extrair informações estatísticas relevantes desses tipos de dados requer habilidades em processamento de linguagem natural, processamento de áudio e processamento de imagens. Terceiro, essas fontes de dados tendem a fornecer conjuntos de dados massivos, cujo processamento requer uma boa compreensão das metodologias de computação distribuída.

O risco de falta de especialistas está na obtenção de dados de uma dessas novas fontes de dados grandes, já que o escritório de estatística não é capaz de processá-los e analisá-los adequadamente devido ao fato de sua equipe não possuir as habilidades necessárias.

6.1.2 Probabilidade


A probabilidade desse risco dependerá de três fatores: 1) os tipos específicos de habilidades necessárias para cada tipo de fonte de big data e a probabilidade de o escritório de estatística encontrar a oportunidade de estudar essa fonte; 2) a disponibilidade atual das habilidades necessárias em gestão estatística; e 3) a cultura organizacional do escritório de estatística.

Em relação aos tipos de habilidades que podem ser necessárias, deve-se notar que nem todas as fontes exigem todas as habilidades listadas acima. Alguns (por exemplo, dados como o Google Trends) não exigem computação distribuída, pois já são pré-processados ​​pelo detentor de dados ou possuem habilidades de processamento de sinais e, principalmente, exigem habilidades de modelagem estatística. No entanto, existe uma grande variedade de fontes de big data, a maioria das quais requer habilidades em computação distribuída, processamento de sinais e aprendizado de máquina. Ao mesmo tempo, a investigação adequada desses caminhos digitais exigirá o processamento de várias fontes. Portanto, existe uma grande probabilidade de que grandes fontes de dados disponíveis para o escritório de estatística exijam essas habilidades incomuns,e a probabilidade desse risco é muito alta (5).

Em relação à disponibilidade atual das habilidades necessárias, isso dependerá do escritório estatístico específico. Mesmo que a metodologia da pesquisa seja menos comum que a metodologia da pesquisa, ela também é usada nas estatísticas oficiais em áreas individuais. Portanto, mesmo que isso exija alguma redistribuição de recursos humanos, os escritórios de estatística podem encontrar uma solução por conta própria. Quanto às habilidades de computação distribuída, principalmente relacionadas à TI, elas dependerão de como a infraestrutura de TI é gerenciada na organização. Dependendo de como está o departamento de TI, é possível encontrar soluções no contexto de acordos existentes. No entanto, as habilidades de processamento de sinais e aprendizado de máquina geralmente não existem na maioria dos escritórios oficiais de estatística,e a aplicação dessas habilidades não pode ser terceirizada, pois devem ser aplicadas por especialistas no campo da estatística. Portanto, desse ponto de vista, a probabilidade desse risco também parece muito alta (5).

A cultura organizacional também influenciará a probabilidade desse risco. Ter a equipe pronta para adquirir as habilidades necessárias por meio do autoaprendizado pode permitir que uma organização responda a uma situação com uma nova fonte de dados que exija habilidades diferentes da normal. Isso dependerá da cultura organizacional do escritório de estatística, ou seja, se incentivará os funcionários a aprender novas habilidades e se isso permitirá que os funcionários tenham tempo para treinamento independente.

Assim, a probabilidade de o escritório de estatística não ser capaz de processar e analisar novas fontes de dados devido à falta de habilidades entre seus funcionários estará entre provável (4) e frequente (5), dependendo da cultura de auto-aprendizagem da organização.

6.1.3 Influência


Um escritório de estatística que é incapaz de processar e analisar grandes fontes de dados devido à falta de habilidades entre seus funcionários pode ter duas possíveis consequências negativas: 1) a fonte de dados não será estudada, pelo menos não totalmente; 2) a fonte será mal utilizada.

A falta de capacidade de explorar completamente o potencial de uma fonte valiosa de big data terá pouco impacto (2) no curto prazo, uma vez que os escritórios de estatística realmente têm ferramentas estatísticas para atender às necessidades atuais. No entanto, a longo prazo (e possivelmente até a médio prazo), as consequências de perder essa oportunidade serão cruciais (4), pois os escritórios de estatística estão cada vez mais confrontados com a concorrência de prestadores privados, que não possuem a mesma estrutura institucional que lhes permitirá garantir a sociedade. independência estatística.

No entanto, o uso inadequado da fonte terá conseqüências extremamente negativas para os escritórios de estatística, uma vez que as estatísticas oficiais dependem muito de sua reputação no cumprimento de sua missão. No entanto, podemos argumentar que a habilidade mais importante que, se perdida, pode levar a resultados incorretos é a conclusão estatística, em particular a conclusão baseada no modelo, que também é menos provável de estar ausente. Portanto, o impacto esperado será mais crítico (4) do que extremo.

6.1.4 Prevenção


Os serviços estatísticos podem impedir ativamente esse risco de duas maneiras: 1) treinamento; e 2) um conjunto.

Os escritórios de estatística podem fornecer à equipe as habilidades necessárias, identificando em detalhes as habilidades necessárias para usar grandes fontes de dados na produção estatística, compilando uma lista de habilidades existentes da equipe, identificando necessidades de treinamento e organizando cursos de treinamento.

Os escritórios de estatística também podem recrutar novos funcionários com as habilidades necessárias. Isso parece ter sérias limitações, uma vez que os escritórios de estatística não poderão recrutar uma massa crítica de funcionários para uma situação em que o uso de grandes fontes de dados seja generalizado no escritório e os novos funcionários ainda precisem de vários anos para atingir o nível de experiência dos funcionários existentes. No entanto, pelo menos parte da nova equipe recrutada como parte de uma atualização regular da equipe pode ter habilidades de big data.

6.1.5 Amolecimento


Diante de uma situação em que novas fontes de big data estão disponíveis sem funcionários com as habilidades necessárias, os escritórios de estatística podem atenuar os efeitos negativos de duas maneiras: 1) subcontratação; e 2) cooperação.

Os escritórios de estatística podem celebrar contratos para processamento de dados e análise de novas fontes de big data com outras organizações que fornecem esses tipos de serviços. Essa parece ser uma solução viável, pois aparece um novo setor de empresas especializadas no processamento desse tipo de dados. No entanto, esta é uma decisão que, por si só, acarreta certos riscos, já que o escritório de estatística terá menos controle sobre a produção de produtos estatísticos potencialmente sensíveis. Essa solução também tem a desvantagem de não permitir que os funcionários do escritório de estatística aprendam e adquiram as habilidades necessárias.

A colaboração com outras organizações que têm funcionários com as habilidades necessárias e que também estão interessados ​​em explorar a fonte de big data parece ser uma solução mais promissora. Essa cooperação pode assumir a forma de projetos conjuntos com funcionários do escritório de estatística e funcionários de outras organizações em pé de igualdade, que compartilham seus conhecimentos. Isso não apenas reduziria o risco de falta de habilidades, mas também permitiria ao escritório de estatística adquirir essas habilidades.

6.2 Vazamento de especialistas para outras organizações
6.2.1. Descrição


Esse risco é que as agências de estatística perdem sua equipe para outras organizações depois de adquirirem habilidades relacionadas ao big data.

6.2.2 Probabilidade


A probabilidade desse risco dependerá de dois fatores: 1) as oportunidades atraentes existentes em organizações fora das estatísticas oficiais; 2) condições de trabalho em escritórios de estatística.

Quanto às oportunidades em organizações fora das estatísticas oficiais, a probabilidade desse risco parece provável (4). Há uma alta demanda por pessoas com habilidades em big data no setor privado, bem como em outras organizações do setor público. Após adquirir habilidades no trabalho com big data, os estatísticos oficiais ganharão uma vantagem comparativa, sendo especialistas experientes no campo da estatística. Além das habilidades específicas de trabalhar com big data, outras organizações exigem especialistas em dados com habilidades mais tradicionais, como avaliar as necessidades do usuário e desenvolver indicadores-chave de desempenho (KPIs) comuns aos estatísticos oficiais. Além disso, também é esperado que os funcionários com maior probabilidade de aprender novas habilidades sejam aquelesque também estará mais aberto a mudanças de carreira e deixará o escritório de estatística.

Quanto às condições de trabalho nos escritórios de estatística, isso obviamente dependerá principalmente do escritório em particular. No entanto, os escritórios de estatística em geral ainda oferecem oportunidades profissionais atraentes para as pessoas do ponto de vista quantitativo. Os escritórios de estatística oferecem a maior variedade de domínios possíveis para o trabalho e a maior seleção de dados para o trabalho. De alguma forma, isso reduzirá a probabilidade de os escritórios de estatística perderem seus funcionários devido a circunstâncias imprevistas (3).

6.2.3 Influência


O impacto desse risco será o mesmo que o risco de falta de pessoal com habilidades relevantes em primeiro lugar. Portanto, o impacto será crítico (4), conforme indicado acima.

6.2.4 Prevenção


Aparentemente, a única maneira de os escritórios de estatística evitarem esse risco é proporcionar condições de trabalho atraentes para seus funcionários. Isso geralmente é verdade para todos os funcionários. No entanto, no caso específico, quando os funcionários estão abertos ao domínio de novas habilidades, a saber, as habilidades de trabalhar com big data, as condições de trabalho podem ser melhoradas, oferecendo-lhes oportunidades de treinamento onde possam desenvolver seus interesses profissionais. Os escritórios de estatística também podem prestar atenção especial à abertura a novos projetos e idéias inovadores relacionados a novas fontes de big data provenientes de estatísticos que trabalham em várias áreas da estatística. Finalmente,a prevenção de perda de pessoal para outras organizações na sequência de suas habilidades no trabalho com big data dependerá da boa identificação de pessoal capaz e disposto a trabalhar com esses dados e do fornecimento de boas oportunidades para seu desenvolvimento profissional.

6.2.5 Amolecimento


Será feita uma redução desse risco em relação ao risco de um funcionário ter as habilidades apropriadas: 1) subcontratação; e 2) cooperação.

7. Discussão


A partir dessa primeira revisão, é óbvio que é impossível estabelecer uma única probabilidade ou impacto para um determinado "risco de big data" - como regra, ambos os indicadores dependem amplamente da fonte do big data, bem como das "estatísticas oficiais baseadas no big data".
produtos. "

Assim, concluímos que o próximo passo lógico nessa direção é a adoção de vários projetos-piloto possíveis (cada um dos quais inclui uma combinação de um ou mais BDSs e um ou mais BDOSs) como ponto de partida e - para cada um desses pilotos - O desejo de avaliar a probabilidade e o impacto de cada risco.

Para esse fim, estamos prestes a lançar uma pesquisa com as partes interessadas, tentando avaliar a avaliação da OSC da probabilidade, impacto (e possíveis ações de mitigação / mitigação) de vários projetos-piloto possíveis - e buscar propostas da OSC para riscos que não incluímos neste documento .

8. REFERÊNCIAS
UNECE (2014), «A suggested Framework for the Quality of Big Data», Deliverables of the UNECE Big Data Quality Task Team, www1.unece.org/stat/platform/download/attachments/108102944/Big%20Dat
a%20Quality%20Framework%20-%20final-%20Jan08-2015.pdf?version=1&modificationDate=1420725063663&api=v2

UNECE (2014), «How big is Big Data? Exploring the role of Big Data in Official Statistics», www1.unece.org/stat/platform/download/attachments/99484307/Virtual%20Sprint%20Big%20Data%20paper.docx?version=1&modificationDate=1395217470975&api=v2

Daas, P., S. Ossen, R. Vis-Visschers, and J. Arends-Toth, (2009), Checklist for the Quality evaluation of Administrative Data Sources, Statistics Netherlands, The Hague/Heerlen

Dorfman, Mark S. (2007), Introduction to Risk Management (e ed.), Cambridge, UK, Woodhead-Faulkner, p. 18, ISBN 0-85941-332-22)

Eurostat (2014), «Accreditation procedure for statistical data from non-official sources» in Analysis of Methodologies for using the Internet for the collection of information society and other statistics, www.cros-portal.eu/content/analysismethodologies-using-internet-collection-information-society-and-other-statistics-1

Reimsbach-Kounatze, C. (2015), “The Proliferation of “Big Data” and Implications for Official Statistics and Statistical Agencies: A Preliminary Analysis”, OECD Digital Economy Papers, No. 245, OECD Publishing. dx.doi.org/10.1787/5js7t9wqzvg8-en

Reis, F., Ferreira, P., Perduca, V. (2014) «The use of web activity evidence to increase the timeliness of official statistics indicators», paper presented at IAOS 2014 conference, iaos2014.gso.gov.vn/document/reis1.p1.v1.docx

Even if not explicitly mentioning risks, this paper in fact approaches the many risks associated to the use of web activity data for official statistics. Eurostat (2007), Handbook on Data Quality Assessment Methods and Tools, ec.europa.eu/eurostat/documents/64157/4373903/05-Handbook-ondata-quality-assessment-methods-and-tools.pdf/c8bbb146-4d59-4a69-b7c4-218c43952214


All Articles