💪🏼 🥡 🥢 数据匿名化不能保证您完全匿名 👏🏽 💪🏿 📣

人们认为，如果数据突然泄漏到网络中或用于他人的利益，那么许多公司喜欢收集和使用的“非个人”信息并不能真正保护个人免于匿名化。Cloud4Y告诉您是否是如此。

去年秋天，Adblock Plus创始人弗拉基米尔·帕兰特（Vladimir Palant）分析了Avast Online Security，AVG Online Security，Avast SafePrice和AVG SafePrice产品，并得出结论，Avast使用其流行的防病毒软件收集并随后出售用户数据。炒作很快就消失了，因为Avast执行总监Ondrei Vlcek确信用户所收集的数据尽可能匿名，也就是说，与特定人的身份无关。

他说：“我们公司不允许广告商或第三方通过Avast或任何允许第三方针对特定人的数据进行访问。”

但是，哈佛大学学生进行的一项研究表明，对收集到的信息进行去个性化处理并不能防止“去匿名化”，即根据数据库中的数据公开一个人的身份。年轻的科学家创造了一种工具，可以对由于疏忽，黑客入侵或其他某种形式的泄漏而开放访问的大量消费者数据集进行梳理。

自2015年以来，该程序已接收到泄漏到网络的所有数据库。包括MyHeritage帐户的数据，Equifax，Experian等的用户数据。尽管许多数据库都包含“匿名”信息，但学生们说，识别真实用户并不那么困难。

操作原理非常简单。该程序将获取识别信息（电子邮件或个人姓名）列表，然后扫描所有泄漏的数据库以查找与指定参数匹配的信息。如果存在匹配项，则学生可以获得有关此人的更多信息。有时，这些信息足以清楚地识别它。

收集您的个性

个人泄漏就像一块拼图。就其本身而言，它并不是特别有用，但是当收集到大量泄漏并将其转变为一个数据库时，您会获得令人惊讶的清晰图像，了解我们的个性。人们可能会忘记这些泄漏，但是黑客有机会在很多时间后使用这些数据。只需要再收集一些拼图。

想象一个公司只能存储用户名，密码，电子邮件地址和其他基本帐户信息，而另一家公司可以存储有关您的浏览和搜索查询的信息或有关您的位置的数据。仅凭此信息就无法识别您的身份，但总的来说，它可能会透露许多个人信息，即使您最亲密的朋友和家人也可能不知道。

学生研究的目的是表明，无论数据收集多么不客观，仍然会对用户构成潜在威胁。来自一个来源的数据集可以通过两组中都存在的线轻松链接到另一个。也就是说，您不应该仅仅因为参与数据收集和存储的公司确保其完全去个性化就认为您的个人信息是安全的。

还有其他证据。例如，在一项英国研究中，机器学习科学家能够创建一个程序，仅使用15个特征就可以正确识别任何匿名数据集中99.98％的美国人。麻省理工学院代表的另一项研究，结果表明，仅使用四个基本参数，就可以在90％的情况下识别用户。

事实证明，单独地信息泄漏是相当痛苦的，但是它们一起成为一个真正的噩梦。

问题不仅限于公司

但不要只怪公司。尽管围绕机密数据泄漏的许多丑闻已成为几乎每周的现象，但公众还是大大低估了这些泄漏和黑客入侵对人身安全的影响。因此，它忽略了基本的安全措施。因此，在分析了该程序的输出数据集之一之后，哈佛大学的学生发现，数据库中包含的96,000个密码中，只有26,000个是唯一的。

也就是说，人们太懒了，无法使用模板密码来提出一些复杂的问题。例如，在这里，有关此主题的最近关于哈布雷的出版物。密码是“ 12345”和“ 123456”。有了这种保护，任何技术都不会从黑客中幸免。如果一个人自己不付出任何努力，就很难保护它的数据。

有一个细微差别：在俄罗斯生效的“ 2013年9月5日批准Roskomnadzor命令的方法论建议 ”（批准Roskomnadzor 12/13/2013批准的个人数据去个性化的要求和方法）。这些建议可以使您实现很高的去个性化水平。而且，如果您不执行此程序，请用ID替换您的全名（每个人都可能记得，俄罗斯前总检察长Artyom和Igor Chaika在Rosreestr的孩子们的名字多么神奇地变成了LSDU3和YFYaU9代码）。

我还能添加什么？关于使用唯一密码的重要性已经说了太多了，以至于无法重复自己。公司将继续收集数据，从而向我们保证将尽可能使所有内容个性化。但是，正如您所看到的，这些承诺不能总是被信任。

在Cloud4Y博客上阅读还有哪些有用的内容

→ 银行如何“打破”
→ 个人隐私？不，他们没有听到
→ Kaboom：一个不寻常的工兵
→ 在虚拟EDGE路由器上进行网络连接诊断
→ CRISPR抗药性病毒建立了“庇护所”，以保护基因组免受DNA穿透酶的侵害

订阅我们的电报频道，以免错过其他文章！我们每周写不超过两次，仅在商务上写。

数据匿名化不能保证您完全匿名

收集您的个性

问题不仅限于公司

More articles: