清除数据,例如“石头,剪刀,纸”游戏。这是一款有或没有完成的游戏?第1部分。理论

1.源数据


数据清理是数据分析任务面临的挑战之一。该材料反映了解决地籍价值形成过程中分析数据库的实际问题所产生的发展和决策。此处的来源是“关于在汉蒂-曼西斯克自治区-乌格拉的所有房地产(土地除外)的州地籍估价结果的报告号01 /-2019”

在“附录B.确定COP 5的结果”中考虑了文件“比较模型total.ods”。关于确定地籍价值的方法的信息5.1比较方法。

表1.文件“比较模型total.ods”中数据集的统计指标
。字段总数,件。 -44
记录总数 -365,490
个字符,总数。-101,714,693
个记录中平均字符数,个。-278.297
个记录中字符的标准偏差,个。-15,510
个记录中的最少字符数,个。-198记录中的
最大字符数,个。-363

2.介绍部分。基本标准


在对指示的数据库进行分析之后,已经形成了一个任务来指定纯化程度的要求,因为众所周知,该数据库对用户构成了法律和经济后果。在此过程中,事实证明,对大数据的净化程度没有形成特别的要求。通过分析这方面的法律规范,我得出结论,它们都是由机会形成的。也就是说,某个任务已经出现,该任务的信息源已完成,然后形成了数据集,并基于创建的数据集提供了解决问题的工具。获得的解决方案是选择替代方案的参考点。如图1所示。



由于最好使用成熟的技术来确定标准,因此我选择分析标准作为MHRA GxP数据完整性定义和行业指南中提出的要求的基础,因为我认为该文档对于该问题而言是最全面的。特别是,本文档中的部分内容为“应注意,数据完整性要求同样适用于手册(纸)和电子数据。” (trans。“ ...数据完整性要求同样适用于手册(纸)和电子数据”)。根据《民事诉讼法》第71条的规定,该措词与“书面证据”的概念非常明确地相关。 70 CAS,第75 AIC条,“写作”条款。 84 GIC。

图2给出了法学中信息类型方法的形成图。


图。 2. 此处来源

图3显示了图1的机制,用于上述“指导”的任务。比较时,很容易看出,在信息系统的现代标准中,满足信息完整性要求时使用的方法与信息的法律概念相比受到很大限制。


图3

在所指示的文件(指导)中,至于技术部分的链接,数据的处理和存储功能,均已从第18.2章的引用中得到了很好的证实。关系数据库:“这种文件结构本质上更安全,因为数据以大文件格式保存,从而保留了数据和元数据之间的关系。”

实际上,采用这种方法-从现有的技术能力来看,没有什么正常的,它本身就是一个自然的过程,因为概念的扩展来自研究最多的活动-数据库设计。但是,另一方面,出现的法律规范并不能降低现有系统的技术能力,例如:GDPR-通用数据保护法规


图。 4.技术能力的渠道(来源)。

在这些方面,很明显,首先必须保留初始数据集(图1),其次,它是从中提取附加信息的基础。好吧,举个例子:SDA固定摄像头很普及,信息处理系统可以过滤掉违规者,但是其他信息也可以提供给其他消费者,例如,对客户流向购物中心的结构进行市场营销监控。这是使用Bigdat时附加价值的来源。完全可以想象,现在组装的数据集,在将来某个地方,将通过类似于目前1700年代珍本的价值的机制具有价值。实际上,事实上,临时数据集是唯一的,将来不太可能重复。

3.简介部分。评估标准


在处理期间,开发了以下错误分类。

1.错误类别(基于GOST R 8.736-2011):a)系统错误;b)随机错误;c)严重错误。

2.多重性:a)单失真;b)多重失真。

3.根据后果的严重性:a)严重;b)不重要。

4.根据发生的原因:

A)技术-设备运行期间发生的错误。对于物联网系统而言,这是一个相当当前的错误,对通信质量,设备(硬件)的影响程度很大。

B)操作员-错误的范围很广,从操作员输入期间的印刷错误到数据库设计技术规范中的错误。

C)自定义-这是用户在从“忘记切换布局”到仪表所花费的整个范围内的错误。

5.在单独的类别中选择:

a)“分隔任务”,即空格和复制时的“:”(在我们的情况下);
b)单词全部合为一体;
c)服务字符后没有空格
; d)对称复数字符:(),“”,“ ...”。

总体而言,对于图5所示的数据库错误,系统化地形成了一个足够有效的坐标系,用于搜索错误并开发一种清理数据的算法。


图。 5.与数据库结构单元相对应的典型错误(来源:Oreshkov VI,Paklin NB“数据整合的关键概念”)。

准确性,域完整性,数据类型,一致性,冗余,完整性,重复性,符合业务规则,结构确定性,数据异常,清晰,及时,遵守数据完整性规则。 (第334页。面向IT专业人员的数据仓库基础知识/ Paulraj Ponniah。—第2版。)

在方括号中介绍了英语用语和俄语机器翻译。

准确性在系统中为数据元素存储的值是该数据元素出现时的正确值。如果您有客户名称和记录中存储的地址,则该地址是具有该名称的客户的正确地址。如果在订单号12345678的记录中找到订购的数量为1000个单位,则该数量是该订单的准确数量。
[准确性。在系统中为数据项存储的值是此数据项出现的正确值。如果您有客户名和记录中存储的地址,则该地址是具有该名称的客户的正确地址。如果您在订单号12345678的条目中找到订购为1000个单位的数量,则此数量为该订单的确切数量。]

域完整性属性的数据值在允许的定义值范围内。常见的例子是性别数据元素的允许值为``男性''和``女性''。
[域完整性。属性数据的值落入有效的定义值范围内。一个常见的例子是性别数据项的有效男女值。]

数据类型。数据属性的值实际上存储为为该属性定义的数据类型。当商店名称字段的数据类型定义为“文本”时,该字段的所有实例都包含以文本格式而不是数字代码显示的商店名称。
[数据类型。 data属性的值实际上存储为为此属性定义的数据类型。如果商店名称字段的数据类型定义为“文本”,则此字段的所有实例都包含以文本格式而非数字代码显示的商店名称。]

一致性。跨多个源系统,数据字段的形式和内容是相同的。如果在一个系统中产品ABC的产品代码为1234,则在每个源系统中此产品的代码为1234。
[一致性。数据字段的形式和内容在不同的源系统中是相同的。如果在一个系统中某个ABC产品的产品代码为1234,则在每个源系统中此产品的代码为1234。]

冗余。同一数据不能存储在系统中的多个位置。如果出于效率的考虑,有意将数据元素存储在系统中的多个位置中,那么必须清楚地标识和验证冗余。
[冗余。同一数据不应存储在系统中的多个位置。如果出于效率的考虑,有意将数据元素存储在系统中的多个位置,则应明确定义和验证冗余。]

完整性。系统中给定属性没有缺失值。例如,在客户文件中,每个客户的“状态”字段必须有一个有效值。在订单明细文件中,必须完整填写订单的每个明细记录。
[完备性。系统中此属性没有缺失值。例如,客户端文件的每个客户端的“状态”字段必须具有有效值。在订单明细文件中,每个订单明细记录必须完全填充。]

复制。系统中的记录重复已完全解决。如果已知产品文件具有重复记录,则将识别每个产品的所有重复记录并创建交叉引用。
[复制。完全消除了系统中条目的重复。如果已知产品文件包含重复条目,则将标识并交叉引用每个产品的所有重复条目。]

符合业务规则。每个数据项的值均遵循规定的业务规则。在拍卖系统中,拍槌或拍卖价格不能低于底价。在银行贷款系统中,贷款余额必须始终为正或零。
[遵守业务规则。每个数据项的值均符合已建立的业务规则。在拍卖系统中,锤子或拍卖品的价格不得低于底价。在银行信贷系统中,信贷余额应始终为正或为零。]

结构确定性。只要数据项可以自然地构造成各个组件,该数据项就必须包含这种定义良好的结构。例如,一个人的名字自然分为名字,中间名缩写和姓氏。个人名称的值必须存储为名字,中间名首字母和姓氏。数据质量的这一特性简化了标准的实施并减少了缺失值。
[结构确定性。如果数据元素可以自然地构造为单独的组件,则该元素应包含此定义良好的结构。例如,一个人的名字自然分为名字,中间名和姓氏。个人名称的值必须存储为名字,中间名和姓氏。数据质量的这一特性简化了标准的应用,并减少了缺失值。]

数据异常。必须仅将字段用于定义目的。如果为长地址的任何可能的第三行地址定义了地址3字段,则该字段必须仅用于记录地址的第三行。不得用于为客户输入电话或传真号码。
[数据异常。该字段仅应用于定义它的目的。如果为长地址的任何可能的第三条地址线定义了Address-3字段,则该字段应仅用于记录第三条地址线。不应使用它为客户输入电话或传真号码

。数据元素可能具有质量数据的所有其他特征,但是如果用户不清楚其含义,则该数据元素对用户毫无价值。正确的命名约定有助于使用户很好地理解数据元素。
[明晰。数据元素可能具有质量数据的所有其他特征,但是如果用户不清楚其含义,则该数据元素对用户而言就毫无价值。正确的命名约定的助力下,数据元素深受用户的理解。]

及时。用户确定数据的及时性。如果用户期望客户维度数据不超过一天,则必须每天将源系统中客户数据的更改应用于数据仓库。
[及时。用户确定数据的及时性。如果用户希望客户的测量数据不超过一天,则应每天将源系统中客户数据的更改应用于数据仓库。]

有用性数据仓库中的每个数据元素都必须满足收集用户的某些要求。数据元素可能是准确且高质量的,但是如果它对用户没有任何价值,则完全不需要将该数据元素放在数据仓库中。
[效用。数据仓库中的每个数据项都必须满足用户集合的某些要求。数据项可以是准确且高质量的,但是如果它对用户没有价值,那么就不必将该数据项放在数据仓库中。]

遵守数据完整性规则。存储在源系统的关系数据库中的数据必须遵守实体完整性和引用完整性规则。任何允许将null作为主键的表都不具有实体完整性。参照完整性会强制正确建立父子关系。在客户对订单关系中,参照完整性可确保数据库中每个订单的客户都存在。
[遵守数据完整性规则。存储在源系统的关系数据库中的数据必须符合实体完整性和引用完整性的规则。任何将null用作主键的表都不具有实体完整性。参照完整性迫使父母与子女之间建立正确的关系。在客户-订单关系中,参照完整性可确保数据库中每个订单都有一个客户。]

4.数据清理的质量


在大数据中,数据清理的质量是一个相当成问题的问题。回答这个问题在执行任务时需要多少程度的数据清理,这对于每个数据分析人员都是基本的。在当前的大多数任务中,每个分析师都会自己确定这一点,并且外界不可能有人能够在他的决定中评估这一方面。但是对于这种情况下的这项任务,这个问题非常重要,因为法律数据的可靠性应该趋于统一。

考虑使用软件测试技术来确定工作的可靠性。如今,有200多个此类模型。许多模型使用应用程序服务模型:


图。 6

进行如下思考:“如果发现的错误是与该模型中的失败事件类似的事件,那么如何找到参数t的类似物?”我建立了以下模型:假设测试人员检查一条记录的时间为1分钟(对于相关数据库),然后发现所有错误,则将花费365494分钟,这大约需要3年零3个月的工作时间。据我们了解,这不是一个很小的工作,并且该数据库的编译器将无法承受检查数据库的成本。在这种反思中,出现了成本的经济概念,经过分析得出的结论是,这是一种相当有效的工具。根据经济学定律:“达到公司最大利润的产量(单位),是在将生产一个新的生产单位的边际成本与该公司可以为一个新单位获得的价格进行比较的时候。”依靠假设发现每个后续错误需要越来越多的记录验证,这是一个成本因素。也就是说,在测试模型中采用的假设在物理上是合理的,并且遵循以下规则:如果要找到第i个错误,则有必要检查n条记录,然后要找到下一个(i + 1)错误,则已经有必要检查m条记录并且n <m。在测试模型中,这种假设主要是由以下要求构成的:发现的错误应固定,但不能纠正,以便软件在其自然状态下进行测试,即故障流程是统一的。因此,对于我们来说,记录验证可以显示两种统一性:

  1. ;
  2. .

为了确定临界值,他转向了经济可行性的概念,在这种情况下,当使用社会成本的概念时,可以表述为:“纠正错误的成本应由能够以最低成本做到这一点的经济主体承担。”我们有一个代理商-这是一位测试人员,他花1分钟检查一张记录。以货币计算,如果收入为6000卢布/天,则相当于12.2卢布。 (大约是今天)。确定经济法中均衡的第二面还有待确定。他是这样推理的。现有的错误将要求它与某人(即财产的所有者)花费更多的精力来纠正它有关。假设您需要进行1天的操作(包括应用程序,获取更正的文档)。然后,从公众的角度来看,其成本将等于每天的平均工资。汉提-曼西自治州的平均应计工资“ 2019年1月至9月,汉特-曼西斯克自治区-乌格拉社会经济发展的结果” 73285卢布。或3053.542卢布/天。因此,我们获得的临界值等于:
3053.542:12.2 = 250.4单位。

这意味着,从公开的角度来看,如果测试人员检查了251个条目并发现了一个错误,则相当于用户自己修复此错误。因此,如果测试人员花费的时间等于检查252条记录以查找下一个错误,那么在这种情况下,最好将校正成本转移给用户。

这里提出一种简化的方法,因为从公众的角度来看,有必要考虑每个专家产生的所有额外费用,即包括税收和社会支付的费用,但是模型很明确。这种关系的结果是对专家有以下要求:IT专家的薪水应高于全国平均水平。如果他的薪水低于潜在数据库用户的平均薪水,那么他本人必须在战斗中检查整个数据库。

当使用所描述的标准时,形成对数据库质量的第一要求:
I(tr)。严重错误的份额不应超过1 / 250.4 = 0.39938%。略少于工业上的黄金提炼。实物上,有错误的条目不超过1,459。

经济退缩。

实际上,允许输入中出现此类错误,该公司同意蒙受的经济损失:

1,459 * 3,053.542 = 4,455,118卢布。

该金额取决于公司没有降低这些成本的工具。因此,如果有人开发出一种技术,可以将有错误的记录数量减少到例如259个,那么这可以使社会节省:
1200 * 3053.542 = 3,664,250卢布。

但同时,他可以要求才能和工作,好吧,比方说-100万卢布。
也就是说,社会成本减少了:

3 664 250-1 000 000 = 2 664 250卢布。

实际上,这种效果是使用Bigdat技术带来的附加价值。

但是在这里应该记住,这是一种社会影响,数据库的所有者是市政当局,他们从该数据库中以0.3%的比率记录的财产使用产生的收入为:27.78亿卢布/年。这些费用(4 455 118卢布)不会让他感到困扰,因为这些费用已转给财产所有人。而且,在这方面,Bigdata中更多提炼技术的开发人员必须表现出说服该数据库所有者的能力,而这些事情需要大量的人才。

在此示例中,在测试可靠性时,基于Schumann模型[2]软件验证选择了一种错误估计算法。由于其在网络中的普遍性以及获得必要的统计指标的能力。该方法取自于僧侣。“信息系统的功能稳定性”,参见图7中的扰流板下方。7-9。

图。7-9舒曼模型方法论






该材料的第二部分提供了数据清理的示例,其中获得了使用Schuman模型的结果。
我将介绍结果:
估计的错误数N = 3167 shN。
参数C,lambda和可靠性函数:


图17

实际上,lambda是在每个阶段检测到错误的强度的实际指标。如果您在第二部分中查看,则该指标的估计值为每小时42.4个错误,这与Schumann的数字相当。上面已确定,开发人员的错误检测率应不低于每250.4条记录1条错误,同时每分钟检查1条记录。因此,对于舒曼模型,λ的临界值:

60 / 250.4 = 0.239617。

也就是说,必须执行错误定位程序,直到从可用的38.964到的lambda降至0.239617。

或直到指标N(潜在的错误数量)减去n(修正的错误数量)不小于我们采用的阈值-1459件。

文献


  1. Yuakh M. Monakhov,信息系统的功能稳定性。3小时,第1部分。软件可靠性:教科书。津贴/ Yu。M. Monakhov;弗拉基姆 - -弗拉基米尔:伊兹沃·弗拉基姆。大学,2011.-60羽 -ISBN 978-5-9984-0189-3。
  2. Martin L. Shooman,“软件可靠性预测的概率模型”。
  3. IT专业人员的数据仓库基础知识/ Paulraj Ponniah —第2版。

第二部分。理论上的

All Articles