在使用BigData进行官方统计时构建风险和决策

译者的前言该

材料引起我的兴趣,主要是因为下表:



考虑到统计数据(以及在基因水平上的俄语),从某种程度上讲,他们不喜欢与线性相关性不同的所有内容,因此这些人设法使用了激活函数以抛物线形式确定在官方统计中使用BigData的风险程度。做得好。自然,统计学家在这项工作中添加了注释-“ 1任何错误和遗漏是作者的全部责任。本文中表达的观点是个人观点,不一定反映欧洲委员会的正式立场。”但是这项工作已经出版。我认为今天就足够了,他们(作者)没有禁止任何人在这些方面找到自己的标尺。

可以合理地构建工作,以区分统计方法与BigData研究方法在何处以及如何不同。我认为,这项工作的最大好处将是与客户交谈并驳斥其客户陈述,例如:

-我们自己收集统计数据,您还想研究什么?
-您将结果提交给我们,以便我们与我们的统计数据进行协调。在这个问题上,作者说读这篇文章会很高兴(3 大数据有多大?探讨大数据在官方统计中的作用)。

在本文中,作者对风险水平提出了自己的看法。此参数放在方括号中,请勿与源混淆。

第二个观察。作者使用术语BDS-这是BigData概念的类似物。(显然是对官方统计的礼貌)。

前言

越来越多的统计局正在探索使用大型数据源生成官方统计数据的可能性。当前,只有少数例子将这些资源完全整合到实际的统计数据中。因此,由于它们的整合而导致的后果的全部范围尚不清楚。同时,首次尝试分析大数据的条件和对统计生产各个方面(例如质量或方法学)的影响。最近,工作队在联合国欧洲经济委员会(UNECE)大数据项目的背景下,开发了一个用于生成大数据统计数据的质量框架。根据《欧洲统计业务守则》,提供高质量的统计信息是统计部门的主要任务。由于将风险定义为不确定性对目标的影响(例如,国际标准化组织ISO 31000),因此我们发现根据风险影响的质量度量对风险进行分类是合适的。
从大型数据源获得的统计数据的建议质量结构提供了与统计业务流程各个阶段相关的质量的结构化思想,因此可以作为全面评估和管理与这些新数据源相关的风险的基础。它引入了特定于K的新定性维度,或者(当机构/商业环境或复杂性使用)大数据用于官方统计时(在这些时候非常重要)。使用这些新的定性度量,可以更系统地识别与在官方统计中使用大数据源相关的风险。

在本文中,我们试图确定在官方统计数据中使用大数据所带来的风险。我们采用系统的方法在拟议的质量结构中识别风险。通过关注新提出的质量度量,我们可以描述当前不存在或不影响官方统计数据产生的风险。同时,我们可以确定当前的风险,在使用大数据获取统计信息时将以完全不同的方式对其进行评估。然后,我们进入风险管理周期,并对这些风险的可能性和影响进行评估。由于风险评估涉及主观性,风险的概率和对各种风险的影响,因此我们评估了数十个不同利益相关者之间的协议,独立提供。然后,我们提供了四个主要类别的缓解这些风险的选项:规避,减少,分担和保留。根据ISO,风险管理的原则之一应该是创造价值,也就是说,减少风险的资源应该比不采取行动的资源少。根据这一原则,我们将最终评估某些风险缓解措施可能对最终结果的质量产生的影响,以便对使用大数据进行官方统计进行更全面的评估。风险管理的原则之一应该是创造价值,也就是说,减少风险的资源应该比不采取行动的资源少。根据这一原则,我们将最终评估某些风险缓解措施对最终结果质量的可能影响,以便对使用大数据进行官方统计进行更全面的评估。风险管理的原则之一应该是创造价值,也就是说,减少风险的资源应该比不采取行动的资源少。根据这一原则,我们将最终评估某些风险缓解措施对最终结果质量的可能影响,以便对使用大数据进行官方统计进行更全面的评估。

1.简介


1.1。背景


Kenneth Neil Kukier和Victor Mayer-Schoenberger在他们的文章“成长大数据”中指出了“大数据”的发展(2. www.foreignaffairs.com/articles/139104/kenneth-neil-cukier-and-viktor-mayer-schoenberger/ therise-的,大数据)与术语数据传输。数据化被描述为“将生活的各个方面转化为数据的过程”。例如。Facebook提供个人网络,适用于所有类型环境条件的传感器,用于个人通信和活动的智能手机以及用于个人条件的可穿戴数据。这导致几乎通用的数据收集和可用性。

与其他许多部门一样,官方统计数据直到最近才开始在战略层面上讨论大数据问题。关于前进的方向,无论是挑战还是机遇,无论是小还是大,等等,仍然没有普遍共识。作为统计生产和服务现代化高级别小组的一部分(3大数据有多大?官方统计中的大数据列表:www1.unece.org/stat/platform/download/attachments/99484307/Virtual%20Sprint%20Big%20Data%20paper.docx?version=1&modificationDate=1395217470975&api=v2),先进行SWOT分析,然后进行粗略的风险/收益分析。有人指出,“全面的风险分析还将包括可能性和影响等方面,并且可能会扩展为确定减轻和管理风险的战略。”

尽管该文档尚不足以进行完整的风险分析,但其目的是通过创建第一个结构化审查来精确地改善情况。我们要强调,这一审查应被视为在官方统计界内进行一般性讨论的起点。

1.2。


本文专门讨论风险,不仅包括优点,也包括优点和缺点,机会和威胁。这意味着“不采取行动的风险”(例如,如果OSC不现代化,则OSC将与其他参与者竞争的风险)不在范围之内;这是一种威胁。相反,我们试图强调可能出现的风险(a)如果OSC充分利用大数据提供的机会并开始开发或改进特定的“基于大数据的官方统计产品”(BOSP); (b)新“常规业务”的风险,即基于“大数据”生产的官方统计数据的风险。 (由于所有官方统计数据的产生都与风险相关,因此我们仅限于(b)大数据所特有的风险,即对于收集官方统计数据的“传统”过程而言,是不存在或可忽略的风险。)

1.3。结构体


在第2节中,我们从风险管理和风险管理的明确必要框架(第2.1节)开始,介绍了与此任务相关的基本原理。我们还提出了基于大数据获得的统计数据的初步质量结构(第2.2节),因为将质量结构与风险联系起来可以实现两个目标:

  • 它为识别风险设置了环境。某些质量指标以及所考虑的特征表达了对象的价值,这些价值对于为客户和用户提供服务至关重要。
  • 这使您可以将特定的风险分配给定性度量,这些定性度量嵌入在公共超空间中,并与统计产品生产中的某些阶段相关。

在第3、4、5和6节中,我们介绍了迄今为止在各种情况下确定的风险(4 ESS的业务案例文档(https://www.europeansocialsurvey.org/about/structure_and_governance.html),以及大数据集上的ESSet包含与项目部分相关,部分与出于统计目的而使用大数据源有关的风险列表。文件“建议的大数据质量框架”中提到了一些与质量维度有关的风险。 ESS大数据项目业务案例文档以及ESS大数据网络包含部分与项目相关,部分出于统计目的而使用大数据源的风险列表,在“大数据质量的建议结构”文档中提到了一些建议的风险。带有质量指标。)。在这里,我们使用数据访问,法律环境,数据隐私和安全性以及技能的分类;一旦从大数据中获得的统计数据的质量结构(第2.2节)进行了重组,就应立即考虑对其进行重组。对于每个已识别的风险,我们(i)提供对可能性和影响的评估(根据2.1.3节),以及(ii)提出缓解和管理风险的策略(请参阅2.1.4节)。对于每个已识别的风险,我们(i)提供对可能性和影响的评估(根据2.1.3节),以及(ii)提出缓解和管理风险的策略(请参阅2.1.4节)。对于每个已识别的风险,我们(i)提供对可能性和影响的评估(根据2.1.3节),以及(ii)提出缓解和管理风险的策略(请参阅2.1.4节)。

最后,我们讨论我们的发现并在第7节中概述一些后续步骤。

2.基础


2.1。风险与风险管理


根据ISO 31000:20095,风险定义为“不确定性对目标的影响”。这意味着在确定风险之前必须定义或了解目标。这些目标通常由组织的机构环境决定。另一个重要的考虑因素是风险带有不确定性的特征,即不清楚所描述的事件是否会发生。因此,根据事件发生的可能性及其后果(即事件对实现其目标的影响)来衡量风险。风险评估应提供更多客观的信息,最终使您可以在实现利润机会与最大程度地减少不利影响之间找到适当的平衡。风险管理是管理实践的组成部分,也是良好公司实践的重要组成部分(6加拿大统计局:2014-2015年计划和优先级报告,www.statcan.gc.ca/aboutapercu/rpp/2014-2015/s01p06-eng.htm)。这是一个迭代过程,理想情况下可以不断改进决策过程,并有助于持续提高生产率。

风险也与质量有关。质量体系的使用应该使得有可能利用各种来源和方法所提供的机会,从某种意义上满足用户需求的意义上实现某种质量水平的结果。像风险一样,质量水平可以从制度环境和某些制度的目标中得出。在这种情况下,机构环境决定了组织为实现其目标而准备承担的总体风险水平。

风险评估和管理过程可以分为多个阶段,包括设置环境,识别风险,根据概率和影响分析风险,评估风险以及最终处理风险。

2.1.1。制度背景


第一步,必须建立战略,组织和风险管理环境,其余过程将在其中进行。这包括建立评估风险的标准,并确定分析的结构。

2.1.2。风险识别


在第二阶段,应确定可能影响目标实现的事件。识别应包括与风险类型,事件发生的时间,地点或事件如何预防,恶化,延迟或改善目标达成有关的问题。

2.1.3。风险评估


下一步是根据概率以及潜在后果确定现有的控制和风险分析。在本文的上下文中,风险发生的概率使用1(不太可能)至5(频繁)的等级。事件的影响以1(微不足道)至5(极端)的等级进行衡量。如表1所示,概率和影响的乘积的“风险级别”为1到25。可以将



估计的风险级别与预定义的标准进行比较,以在潜在收益和不利结果之间取得平衡。这使您可以判断管理优先级。



应当将重点放在关键风险上(见表2),即可能发生的风险和对组织目标造成严重或极端后果的风险。

2.1.4。风险应对


最后一步包括如何应对风险的决策。低于或低于预定风险水平的某些风险可以忽略或容忍。对于另一些人而言,降低风险的成本可能会很高,以至于它们超过了潜在的收益。在这种情况下,组织可以决定放弃相关活动。风险也可以转移给第三方,例如保险,以补偿产生的费用。最终选择是在定义平衡成本与潜在收益的策略和行动时考虑风险。因此,组织将决定策略的实施以最大化收益和最小化潜在成本。



2.2。质量体系


该工作队由国家和国际统计组织的代表组成,于2014年制定了大数据统计的初步质量框架。该工作队在欧洲经委会/ HLG项目“大数据在统计生产现代化中的作用”的主持下开展工作。他扩展了旨在评估行政数据源统计信息的现有质量体系,并使用了与大型数据源相关的质量指标。

在此系统中,在业务流程的三个阶段之间进行了区分:输入,生产力和输出。输入阶段对应于GSBP的“设计”和“收集”阶段,“过程”和“分析”阶段的性能,输出对应于“传播”阶段。

该结构使用分层结构,该结构取自荷兰统计局开发的行政数据结构(7 Daas,P.,S。Ossen,R。Vis-Visschers和J. Arends-Toth,(2009年),质量检查表)。对行政数据来源的评估(荷兰海牙统计局/海伦)。质量维度嵌入在称为超空间的层次结构中。定义的三个超维是“源”,“元数据”和“数据”。质量度量被嵌入这些超维度中,并分配给生产的每个阶段。对于输入阶段,提出了其他方面的建议:“机密性和机密性”,“复杂性”(根据数据结构),元数据的“完整性”和“连接性”(将数据与其他数据链接的能力),添加到标准质量模型中。对于每个质量指标,都提出了与其描述相关的因素以及可能的指标。

在本文的上下文中,可以将风险排除在这些因素之外。例如,衡量机构/商业环境质量需要考虑的因素是数据提供者的可持续性。相关的风险可能是将来无法从数据提供者那里获得数据。另一个示例涉及最近提出的质量,隐私和安全性方面。一个重要因素是“感知”,这意味着各种利益相关者可能会对特定数据源的预期用途产生负面看法。

3.与数据访问相关的风险


3.1。缺少数据访问
3.1.1。描述


此风险包括与BOSP开发相关的项目,该项目无法访问所需的大数据源(BDS)。

迄今为止,OSC学会了一种艰难的方法,即即使脱离起跑器并获得这种访问权有时也是无法克服的障碍。有时候,出于测试/研究目的,访问特定来源(例如呼叫数据记录(CDR))很容易,但是出于生产目的(出于法律或商业原因)则很难访问。

3.1.2。可能性


概率很大程度上取决于BDS的特性。当涉及到较大的管理数据时,它可以少至1,尤其是(如Daas等人研究的交通环路数据8。Daas,P.,M。Puts,B。Buelens和P. van den Hurk。 2015年,“大数据作为官方统计的来源。”《官方统计》第31卷第2期(即将出版;预计于2015年6月出版)。保护个人数据没有任何问题。如果BDS案件属于私人个人,特别是如果它是敏感的(例如,从数据保护的角度来看)或有价值的(从商业的角度来看),则概率可能很高(5)。

3.1.3。影响


影响取决于BOSP和您使用BDS的方式。如果BDS处于非常中心的位置,则影响可能会非常高(4 =根本无法生产BOSP),而如果仍然可能生产BOSP(尽管质量较低),则影响可能会较低,这取决于其他DRM,这导致曝光范围为2-3。

3.1.4。预防


为了减少缺乏访问的风险,您应该与数据提供者建立初步联系并签订长期数据访问协议。此外,应就BDS和BOSP的特定组合进行全面的法律审查。访问数据的可能性也应使用当前或将来的法规进行评估。

3.1.5。软化


如果有其他BDS可以用于BOSP,则可以探索它们。如果没有BDS无法生产BOSP,并且如果无法克服缺乏访问的问题,则必须停止努力,并且不会发布新的BOSP。

3.2。丢失数据访问
3.2.1。描述


这样做的风险是统计部门失去了BOSP底层的BDS。

3.2.2。可能性


如果已经生产了BOSP,通常会有一定的稳定性,在某些情况下,风险可能非常低(1)。但是,尤其是在私人公司之间签订的协议不够充分的情况下,例如,没有任何干扰。不断变化的数据报告政策带来了新的指导,从而带来了适度的差距风险(3)。而且,如果BDS与不稳定的活动相关联,则始终存在提供者将简单地破产的风险,并且该风险甚至可能更高(4)。

3.2.3。影响


由于现有的BOSP可能无法制造,因此经常会产生非常强烈的影响(5)。在其他情况下,当BDS辅助时,影响可能是质量损失,影响范围为2-3。

3.2.4。预防


预防策略类似于缺乏数据访问的策略,但是在生产环境中也越来越重视持续保持警惕。

不把所有的鸡蛋都放在一个篮子里(即每个BSOP都有多个BDS)也是一种策略,但是它可能不切实际或太昂贵。

3.2.5。软化


如果BDS是不可持续活动的结果,则可能会逐渐出现反映相同社会现象的新BDS。但是,一旦BSOP崩溃,立即启动“市场扫描”将为时已晚。需要持续保持警惕-这可能很难实现。

4.法律风险


4.1。不遵守相关法规
4.1.1。描述


此风险包括与BOSP开发相关的项目,该项目未考虑相关法律,这使BOSP与指定的法律不一致。这可能适用于数据保护法规,法规响应负担等。

4.1.2。可能性


考虑到OSC对大数据的无知,很可能会发生偶然的(3)不合规情况。概率通常与BDS相关联,因为源“越不敏感”,则产生不匹配的可能性就越小。

4.1.3。影响


影响通常是至关重要的(4),因为对于不适当的生产,有必要停止BOSP(或者,如果尚未达到实施阶段,则应停止其开发)。甚至可能是极端的(5),因为不适当的(“非法”)官方统计数据可能会带来声誉风险

4.1.4。预防


对于任何BOSP来说,都需要进行彻底的法律分析-这在多个阶段进行(在开发/探索阶段可以接受的东西在实施/生产阶段可能不正确)。反过来,这可能导致BOSP进行重新设计以使其兼容。

4.1.5。软化


根据差异的严重性,第一步可能是使BOSP脱机。

重新设计BOSP以使其兼容可能是一种选择,但是以这种方式“保存” BOSP在很大程度上取决于不匹配的性质。

4.2。法律环境的不利变化
4.2.1。描述


可能会引入有关BOSP发展的新法规,这实际上使BOSP不兼容。

4.2.2。可能性


支持增强数据保护的支持者可能会引入直接或间接影响创建特定BOSP的能力的新要求。2-3范围内的概率似乎是一个现实的估计。

4.2.3。影响


从不适当的生产将需要BOSP关闭的意义上讲,暴露通常是至关重要的(4)。

4.2.4。预防


应定期进行某些商业信息以监视立法的发展-可能也是为了影响法律,在相关(例如,咨询)论坛中主张官方统计数据。

4.2.5。软化


如果已经进行了主动监控,则BOSP可能有一定的时间重新设计,使其从新法规生效之日起就与新法规保持一致。

另一方面,如果没有进行监视,以致新法规“出乎意料”,或者该法规过于激进以至于无法使BOSP不兼容,则唯一的选择就是禁用BOSP。

5.与数据隐私和安全性相关的风险


5.1。违反数据安全性
5.1.1。描述


此风险与未经授权访问统计局中存储的数据有关。例如,由于时间表的发布,第三方可能会收到处于禁运状态的数据(9对于完全基于单个BDS的任何BOSP,不可避免的是原始数据所有者将隐式知道该数据,并且如果该方法是透明的,则派生统计这里没有解决这种情况,而是存在所有者滥用权限的风险。)(10此外,此数据可能会存在违反机密性的风险。将单独考虑此风险。)例如,这可能是投资者在股市中期望的数据。

5.1.2。可能性


关于保护统计局IT环境的技术方面,BDS的风险与传统来源的风险一样。但是,还必须考虑另外两个方面。

首先,对于某些BDS,由于可能损害原始所有者的数据安全性,因此总体风险略有增加。例如,这可能是由于工业间谍活动或黑客入侵造成的。

其次,一旦将潜在有价值的数据存储在办公室中,吸引恶意意图的风险就会增加。如果存储的数据对企业具有非常高的价值,那么您应该为针对IT基础架构的极高的攻击可能性做好准备,因此,被黑客攻击的可能性可能会更高(4)。

如果存储的数据没有价值,则总体概率似乎不会很高-从(1)到(3),具体取决于数据源。

5.1.3。影响


对您声誉的潜在损害可能很大(5)。对于BDS而言,重要的是,如果安全破坏发生在原始所有者身上,那么对统计部门声誉的影响预计将小于发生在其中存储有数据的泄露事件。

另一方面,统计部门的违规行为可能会对原始所有者造成负面影响。在这种情况下,由于供应商和统计局之间的信任受损,再次可能产生严重的负面影响(5)。

5.1.4。预防


BDS案件的特征在于原始所有者的安全程序可能是适当的。统计部门不太可能拥有审计凭证来控制这一点。应将其数据用于以保密发布时间表进行记录的所有者,应了解其房舍中潜在的安全漏洞对官方统计的影响,并应获得官方保证,正在采用适当的安全程序。

防止所有者所在地的安全漏洞严重影响统计办公室的一种直接方法是对同一产品使用多个来源,这样一个受到破坏的来源不足以得出最终数字。这种方法的优点是,统计部门可以掌握更多控制权。

防止统计办公室中的安全漏洞对原始数据所有者造成负面影响的方法是找到一种工作方法,该方法不涉及从所有者的角度将可能敏感的数据传输到统计办公室。以原始形式。一种可能的预防方法是使用汇总数据。但是,应记住,在某些情况下,某些聚合形式(例如旨在防止识别个体中的个体成员的聚合形式)可能不合适。造成这种情况的原因之一可能是所有者的风险与数据的商业价值相关联,即使在实现匿名之后,这也可能是巨大的。

5.1.5。软化


在违反统计局管理的数据的情况下,如果对原始所有者没有负面影响,缓解措施将与传统来源相同。

万一对原所有者造成不利影响,统计局应审查并加强其安全程序,并明确传达和表明其对此的承诺。

如果违规行为发生在原始所有者的房屋内,则有关统计部门应清楚地报告情况,并坚持改善所有者的安全程序。如有必要,您可以寻找替代供应商。

5.2。违反数据隐私


5.2.1。描述


这有可能会侵犯一个或多个统计人群的机密性。这可能是由于来自其他政府机构的压力或由于对统计信息披露的控制不足而对IT基础架构造成的攻击。

5.2.2。可能性


与数据安全漏洞有关,随着BDS的增加,微数据存储规范不会有太大变化。但是,这里有警告。

来自某些数据源的微数据可能具有很高的商业价值,因此存储它们将增加遭受攻击的可能性。

此外,某些微数据可能会对其他政府机构(例如执法,税收或医疗保健)非常有用。在某些情况下,遵守统计保密原则可能会面临巨大压力。

关于统计信息公开控制的失败,已经存在一种惯例。BDS可能允许针对人群的小亚组生成统计数据,或者提供链接来自不同BDS的汇总数据的能力,这可能会增加发生风险的可能性。然而,另外,新的来源将需要新的方法论发展,因此真正的危险在于控制披露的方法不正确地更新。

通常,通过采取合理的预防措施,可以将概率保持在合理的水平,但是由于存在许多不同的因素,因此此处的相应评估似乎是该概率很高(4)。

5.2.3。影响


对您声誉的潜在损害可能很大(5)。与数据泄露的风险一样,统计部门的数据泄露会对原始所有者造成负面影响。在这里,此类事件的影响可能更大,尤其是在当前舆论趋势持续的情况下。预计数据提供者与统计部门之间的损失也很大。

5.2.4。预防


防止此风险的明确方法是根本不使用来自BDS的微数据(尽管存储其他微数据仍会带来相应的风险,尽管可能性和影响有所不同)。这种方式(如存在数据安全风险的情况)将需要开发其他方式将数据用于统计目的。此外,这里来源的不同性质意味着有必要开发具有竞争目标的新方法,以提取尽可能多的有用信息并保护隐私免受危险。

在微数据存储的情况下,IT安全和访问控制机制必须处于所需的级别并受到持续监控。必须特别注意确保新的数据获取方法的安全性。具有讽刺意味的是,这种新方式可能是存储设备(例如硬盘驱动器)的物理运输。如果使用此方法,则交付必须在物理上安全并且必须使用加密。

5.2.5。软化


此处的缓解措施与数据安全违规情况基本相同。如果违规的原因是来自另一个政府机构的压力,那么您应该借此机会加强治理的独立性,以使此类违规行为在将来变得更加困难。

5.3。使用数据源进行操作
5.3.1。描述


第三方数据提供者(例如社交媒体数据或自愿提供的数据)有被操纵的风险。这可以由数据提供者本身或第三方来完成。例如,如果已知基于这些数据计算出索引,则可以生成社交网络上的许多错误消息,以便以一种或另一种方式推送基于这些数据获得的统计索引。

对于自愿提供的数据,有时可能会有志愿者代表具有特定议程的特定兴趣组。

5.3.2。可能性


对于可能带来巨大好处的数据,概率更高。这可以是统计数据很有趣的数据,例如股票市场。鉴于最近发生的与LIBOR和Forex有关的丑闻,可以假设只要有激励,就有可能尝试操纵数据。

对于基于自愿提供的数据的统计信息,您只需要查看最近的PR惯例,即聘用那些有一定见解并获得公开表达报酬的人(例如,在Internet论坛上),以得出可能性不小的结论。 。通常,数字3到4似乎足够。

5.3.3。影响


这些操作的最大问题是它们可以长时间持续被发现。如果长时间操作,对质量的影响可能会变得很大。此外,公众对官方统计数据信心的损害也可能很大,特别是如果公开强调了统计局作为高质量数据提供者的作用。另一方面,如果及时发现并发布了操作,则实际上可以改善公众的感知。除了极端恶劣的情况外,谁都能想象到最大的效果(3)。

5.3.4。预防


使用替代资源进行常规控制演习是可能的预防方法之一。这些替代来源可能是传统来源,也可能是不同来源。使用基于多种来源的统计信息可能会干扰操纵的重大影响。如果他们害怕提供者发起的操纵,则法律协议也可以成为防止此类行为的一种方法。

5.3.5。软化


在损害公共关系方面,应在此处采取的缓解措施与应对任何危机的措施并没有太大不同。

在数据质量方面,如果可以纠正过去的数据,那么即使延迟很大,也可以
产生正确的序列,这将很有帮助。定期进行基准测试可能对此有所帮助。请注意,在这种情况下基准测试的目标与预防目标略有不同。为防止这种情况,重要的是快速发现并调查基准与BDS之间的可疑不匹配。减轻旧有用数据的影响总是有用的。

此外,将来应注意防止类似的操作-在特别脆弱的情况下,这可能意味着从数个供应商那里接收了潜在的冗余数据以进行比较分析。

5.4。公众对官方数据
5.4.1 使用大数据的看法不良描述


媒体和公众对机密性问题和使用大数据源的个人数据非常敏感,尤其是在政府机构对公民采取行政或法律措施的情况下,二次使用数据的情况下。负面感觉的使用可能是基于导航数据分析的速度控制的定位(11参见www.theguardian.com/technology/2011/apr/28/tomtom-satnav-data-police-speed-traps)。
荷兰TomTom的一个特定案例导致对TomTom设备的需求大幅下降,并导致该公司决定限制对数据的访问。在这种特定情况下,数据与个人相关,但与沿路段的速度水平有关。

但是,有些大数据应用程序可能会受到公众的欢迎。一个示例是基于大数据方法的预防犯罪的应用程序,例如盗窃。

在编制官方统计数据的过程中,正面和负面的舆论都会对BDS的使用产生重大影响。

公众的负面看法可能是:

  • 由于数据提供者的决定或政府不使用数据的决定,BDS将不再对统计局可用,或者
  • 数据使用将受到限制,如果使用某些BOSP,则可能会干扰生产。

5.4.2。可能性


可能影响此类事件的可能性或其对统计数据产生的影响的因素:

  • 数据机密性,即如何轻松识别人员;
  • 例如,通过链接来自不同来源的数据,可以增加有关个人的数据披露的信息量;
  • 数据类型,例如,金融交易比其他数据更机密;
  • 可对公民采取的潜在行动类型,例如,超速驾驶的好人;
  • 数据提供者和用户在其中或法律条件与公共道德观念/标准冲突时所处的模糊法律环境;
  • ; . , , . , , .

无法估计不良事件发生的时间,因为公众动员通常是由报道负面影响公民的事件触发的。但是,随着政府和私营企业对大数据的使用日益增多,尤其是出于主动目的而进行的数据营销(而不是导致最初收集数据的目的),这种事件更有可能发生。

强烈影响公众认知的事件并不常见,而是随机的(3)和遥远的(2)。随着对大型数据源使用的增加,可能性也将增加。

5.4.3。影响


事件的影响非常取决于上面讨论的因素。通常,对于可能已经建立的统计数据产生的影响更为严重,因为也许应该终止该行动。影响还取决于备用数据源的可用性,尽管在事件实现的情况下,公众可能不会区分不同的数据源。在使用大数据的当前状态下,这些来源似乎无法完全替代传统数据来源,而是对现有统计数据的补充。这将减少事件的影响。因此,事件的影响范围从2(微不足道)到3(主要)。在生产阶段,影响可能会增加到4(临界值)。

5.4.4。预防


预防措施可以是官方统计中大数据的道德原则的定义。道德准则应基于诸如欧洲统计实务守则或官方统计基本原则之类的原则(12 unstats.un.org/unsd/dnss/gp/fundprinciples.aspx)。下一步将是定义一种沟通策略,该策略将为公众发布道德准则的结果,并可用于向利益相关者告知BDS在BOSP中的道德使用。

可以针对特定的BDS进行单独的风险评估,以识别风险并根据道德原则提出预防或缓解措施。单独的风险评估可能还包括利益相关者,例如数据保护机构,以确保识别出所有风险并采取合理措施。

5.4.5。软化


传播策略还应包括在公众态度日益消极的情况下采取的措施。单独的风险评估应收集使用数据的积极实例和防止数据滥用的措施,这些措施可能必须在政治层面采取,而统计界可能无法有效地影响数据。

5.5。信任丧失-由于观察
5.5.1 而未获得描述


官方统计的用户通常对统计的准确性和可靠性充满信心。这是基于这样一个事实,即统计数据的生成嵌入了可靠且可访问的方法学基础,以及有关统计产品质量的文档。此外,大多数统计数据都是基于观察结果,即从调查或人口普查中获得的,这些调查或普查在观察和统计之间建立了易于理解的关系。 BDS的使用不是出于统计的主要目的而收集的,因此存在以下风险:这些关系将丢失,并且用户将对官方统计失去信心。与上次人口普查(2010)有关的示例与在某些国家,统计数据是使用多种来源和统计模型获得的。在许多情况下,利益相关者对统计数据有争议。

5.5.2。可能性


风险的可能性取决于多种因素,例如统计/方法模型的复杂性,BSD与BOSP之间关系的可靠性或其他统计数据是否一致。概率应在3(随机)到4(可能)的范围内,这意味着这种情况可能发生多次或频繁发生。

5.5.3。影响


风险发生的影响在很大程度上取决于NSO是否可以成功证明统计数据的准确性和可靠性。如果无法实现这一点,那么从失去信任和信心的角度来看,其影响也可能会影响其他统计领域,即,不仅某些统计数据的可靠性,还会对组织本身产生怀疑。与活跃于此领域的其他私人组织相比,NSO将失去竞争优势。

5.5.4。预防


预防措施包括开发和发布科学界认可的基于科学的方法,用元数据质量充实数据,确保BOSP与非BOSP的一致性,并执行严格的质量控制。

在开始进行统计生产之前,可以将BOSP进行实验性发布,并鼓励有兴趣的各方对BOSP提出质疑,以验证或改进BOSP。

5.5.5。软化


有两种情况可以区分。如果统计数据有争议,但质量很高/足够(正确/准确),那么只需向公众提供简单的例子就可以解释并把统计数据公开。

6.技能风险


6.1.
6.1.1.


人们在活动过程中留下的数字痕迹的分析需要某些数据分析工具,这些工具目前在官方统计中并不常见。首先,在调查中使用人们活动的间接数据而不是直接调查需要使用统计模型,因此需要使用推理技能和机器学习。其次,这些数字记录包含的数据通常不具有调查结果常用的常用表格格式,其行对应于一个统计单位,而列则具有这些统计单位的特定特征。数字轨道也以文本,声音,图像和视频的形式呈现。从这些数据类型中提取相关的统计信息需要自然语言处理,音频处理和图像处理方面的技能。第三,这些数据源倾向于提供海量数据集,对其进行处理需要充分了解分布式计算方法。

缺乏专家的风险在于从这些新的大数据来源之一中获取数据,因为统计人员由于其工作人员没有必要的技能而无法正确处理和分析数据。

6.1.2。可能性


发生这种风险的可能性取决于三个因素:1)每种类型的大数据源所需的特定技能类型,以及统计部门将找到研究此类资源的机会的可能性;2)当前可获得的统计管理必要技能;(三)统计机构的组织文化。

关于可能需要的技能类型,应该指出的是,并非所有资源都需要上面列出的所有技能。有些数据(例如Google趋势等数据)不需要分布式计算,因为它们已经从数据持有者处进行了预处理或具有信号处理技能,并且它们将主要需要统计建模技能。但是,存在各种各样的大数据源,其中大多数都需要分布式计算,信号处理和机器学习方面的技能。同时,对这些数字路径的正确调查将需要处理多个源。因此,很有可能大数据源可供统计部门使用,这些技能需要这些异常技能,而且这种风险的可能性非常高(5)。

关于当前所需技能的可用性,这将取决于特定的统计部门。即使调查方法比调查方法不那么普遍,它也用于各个领域的官方统计中。因此,即使这可能需要重新分配人力资源,统计部门也可以自行找到解决方案。至于主要与IT相关的分布式计算技能,它们将取决于组织中IT基础架构的管理方式。根据IT部门的外部情况,可以在现有安排的背景下找到解决方案。但是,大多数官方统计机构通常不具备信号处理和机器学习技能,这些技能的应用不能外包,因为它们应该由统计领域的专家应用。因此,从这个角度来看,这种风险的可能性似乎也很高(5)。

组织文化也会影响这种风险的可能性。让员工准备通过自我学习来获得必要的技能,可以使组织使用需要非常规技能的新数据源来应对情况。这将取决于统计局的组织文化,即是否会鼓励员工学习新技能,以及这是否允许员工有时间进行独立培训。

因此,根据组织的自学文化,统计部门由于其员工缺乏技能而无法处理和分析新数据源的可能性介于(4)和频繁(5)之间。

6.1.3。影响


由于员工缺乏技能而无法处理和分析大型数据源的统计局可能会产生两个负面影响:1)将不会对数据源进行研究,至少不会进行充分研究; 2)来源将被滥用。

缺乏充分挖掘有价值的大数据源潜力的能力在短期内几乎不会产生影响(2),因为统计机构确实拥有满足当前需求的统计工具。但是,从长远来看(甚至可能在中期),失去这一机会的后果将至关重要(4),因为统计局正面临来自私营医疗服务提供者的竞争,而私营医疗服务提供者的体制结构不尽相同,无法保证社会发展。统计独立性。

但是,由于官方统计在很大程度上取决于其声誉,因此,不恰当地使用来源将给统计局带来极大的负面影响。但是,我们可以争辩说,如果错过了,可能导致错误结果的最重要技能是统计结论,尤其是基于模型的结论,这种可能性也不大。因此,预期影响将比极端影响更为严重(4)。

6.1.4。预防


统计服务可以通过两种方式积极预防这种风险:1)培训; 2)一套。

统计局可以通过详细确定在统计生产中使用大数据源所需的技能,汇编现有员工技能列表,确定培训需求并组织培训课程,为员工提供必要的技能。

统计部门还可以招聘具有必要技能的新员工。这似乎有严重的局限性,因为在办公室大量使用大型数据源并且新员工仍需要数年才能达到现有员工的经验水平的情况下,统计局将无法招募大量人员。但是,作为定期员工升级的一部分,至少招聘了一些新员工可能具有大数据技能。

6.1.5。软化


面对新的大数据来源而没有具备必要技能的员工的情况,统计局可以通过两种方式减轻负面影响:1)分包;2)合作。

统计局可以与提供此类服务的其他组织订立协议,以进行数据处理和新的大数据来源分析。这似乎是一个可行的解决方案,因为出现了专门处理此类数据的新的企业部门。但是,该决定本身具有一定的风险,因为统计部门对潜在敏感的统计产品的生产将缺乏控制。该解决方案还具有缺点,即它不允许统计部门的员工学习和掌握必要的技能。

与其他拥有员工必要技能并且也对探索大数据来源感兴趣的组织的合作似乎是一个更有希望的解决方案。这种合作可以采取与统计部门的雇员和其他组织的雇员在平等的基础上共同分享知识的联合项目的形式。这不仅可以减少缺乏技能的风险,而且可以使统计部门掌握这些技能。

6.2。专家向其他组织的泄漏
6.2.1。描述


这样做的风险是,统计机构在掌握了与大数据相关的技能后,就会将他们的人员流失给其他组织。

6.2.2。可能性


发生这种风险的可能性取决于两个因素:1)官方统计数据以外的组织中现有的有吸引力机会; 2)统计处的工作条件。

至于官方统计之外的组织中的机会,这种风险的可能性似乎很可能很大(4)。私营部门以及其他公共部门组织对具有大数据技能的人有很高的需求。在掌握了处理大数据的技能后,正式的统计人员将成为统计领域经验丰富的专家,从而获得比较优势。除了处理大数据的特定技能外,其他组织还需要具有更多传统技能的数据专家,例如评估用户需求和开发官方统计人员通用的关键绩效指标(KPI)。此外,希望学习新技能的员工也应该是那些他们也将更乐于接受职业变革并离开统计办公室。

至于统计局的工作条件,这显然将主要取决于具体的办事处。但是,从数量的角度来看,统计机构通常仍为人们提供有吸引力的专业机会。统计局提供最大范围的工作领域和最大的工作数据选择。这将以某种方式减少统计机构由于不可预见的情况而失去工作人员的可能性(3)。

6.2.3。影响


首先,这种风险的影响将与缺乏具有相关技能的人员的风险相同。因此,如上所述,影响至关重要(4)。

6.2.4。预防


显然,统计局防止这种风险的唯一方法是为其员工提供有吸引力的工作条件。所有员工通常都是如此。但是,在特定情况下,当员工愿意掌握新技能(即处理大数据的技能)时,可以通过为员工提供发展职业兴趣的培训机会来改善工作条件。统计局还应特别注意对来自在多个统计领域工作的统计学家的新创新项目和与新大数据源相关的想法开放。最后,防止其他组织在处理大数据方面的技能顺序上的人员流失,将取决于对有能力并愿意使用这些数据的人员的良好识别,并取决于为其专业发展提供良好机会。

6.2.5。软化


与具有适当技能的工作人员的风险有关,可以降低这种风险:1)分包;2)合作。

7.讨论


通过第一次审查,很明显不可能为给定的“大数据风险”确定单一的概率或影响-通常,这两个指标在很大程度上都取决于大数据的来源以及“基于大数据的官方统计数据”。
产品。”

因此,我们得出结论,朝着这个方向前进的下一步是将许多可能的试点项目(每个项目包括一个或多个BDS和一个或多个BDOS的组合)作为起点,并且-对于每个这样的试点-评估每种风险的可能性和影响的愿望。

为此,我们即将开展利益相关者调查,试图评估OSC对许多可能的试点项目的可能性,影响(以及可能的缓解/缓解行动)的评估-并针对我们未包含在本文档中的风险寻求OSC建议。

8.参考
UNECE (2014), «A suggested Framework for the Quality of Big Data», Deliverables of the UNECE Big Data Quality Task Team, www1.unece.org/stat/platform/download/attachments/108102944/Big%20Dat
a%20Quality%20Framework%20-%20final-%20Jan08-2015.pdf?version=1&modificationDate=1420725063663&api=v2

UNECE (2014), «How big is Big Data? Exploring the role of Big Data in Official Statistics», www1.unece.org/stat/platform/download/attachments/99484307/Virtual%20Sprint%20Big%20Data%20paper.docx?version=1&modificationDate=1395217470975&api=v2

Daas, P., S. Ossen, R. Vis-Visschers, and J. Arends-Toth, (2009), Checklist for the Quality evaluation of Administrative Data Sources, Statistics Netherlands, The Hague/Heerlen

Dorfman, Mark S. (2007), Introduction to Risk Management (e ed.), Cambridge, UK, Woodhead-Faulkner, p. 18, ISBN 0-85941-332-22)

Eurostat (2014), «Accreditation procedure for statistical data from non-official sources» in Analysis of Methodologies for using the Internet for the collection of information society and other statistics, www.cros-portal.eu/content/analysismethodologies-using-internet-collection-information-society-and-other-statistics-1

Reimsbach-Kounatze, C. (2015), “The Proliferation of “Big Data” and Implications for Official Statistics and Statistical Agencies: A Preliminary Analysis”, OECD Digital Economy Papers, No. 245, OECD Publishing. dx.doi.org/10.1787/5js7t9wqzvg8-en

Reis, F., Ferreira, P., Perduca, V. (2014) «The use of web activity evidence to increase the timeliness of official statistics indicators», paper presented at IAOS 2014 conference, iaos2014.gso.gov.vn/document/reis1.p1.v1.docx

Even if not explicitly mentioning risks, this paper in fact approaches the many risks associated to the use of web activity data for official statistics. Eurostat (2007), Handbook on Data Quality Assessment Methods and Tools, ec.europa.eu/eurostat/documents/64157/4373903/05-Handbook-ondata-quality-assessment-methods-and-tools.pdf/c8bbb146-4d59-4a69-b7c4-218c43952214


All Articles