隐藏的威胁-使用新闻图进行漏洞分析

当您面临一个新漏洞时,首先想到的是什么?当然,请尽快做出回应。但是,速度只是有效对抗信息安全威胁的条件之一。在企业安全方面,准确确定您首先应该做出的响应同样重要。被低估的威胁可能会导致严重的信誉损失或商誉损失。但是,如果漏洞的数量不断增加,如何快速评估其重要性而不漏掉重要细节?


CVSS组的漏洞动态(来源-vulners.com)

为了通过各种标准对漏洞进行排名,传统上使用CVSS评分(通用漏洞评分系统)量表,通过各种标准对漏洞进行排名,从利用复杂性到造成的危害以及其他参数。

看来,为什么还要提出其他建议- 但CVSS评分有一个弱点-它基于专家的估计,而实际统计数据不支持该估计。将根据某些定量标准已经选择的专家案例提供给专家,并根据经过验证的数据做出决策,这样效率会高得多,但是从何处获得此数据以及下一步该怎么做?对于数据中心来说,这听起来像是一个不寻常且有趣的任务-正是这一挑战促使我和Vulners团队提出了一种基于相关信息图来评估和分类漏洞的新概念。

为什么是图?在社交网络和媒体的情况下,图形方法已长期成功地用于各种目的:从分析新闻流中内容的分布,到记录TOP作者对读者观点的影响以及兴趣引起的社交网络聚类。任何漏洞都可以表示为包含数据的图形-有关软件或硬件的更改以及由此引起的影响的新闻。

关于数据


我不必手动收集有关每个更新的新闻,所有必需的文本都在vulners.com开放漏洞数据库中找到。从视觉上看,数据如下:



每个漏洞除了其名称,发布日期和描述之外,还具有已分配的系列(NVD,扫描仪,漏洞利用等)(CVD等级(在下文中使用CVSS)) v2),以及相关新闻的链接。

如果您以图表的形式示意性地表示这些连接,则一个漏洞将看起来像这样:橙色圆圈表示源或父出版物,黑色圆圈表示您可以在父页面上单击的新闻,灰色圆圈表示相关的新闻,可通过以下方式访问您只能浏览黑色圆圈指示的所有出版物。圆圈的每种颜色都是相关信息图的新级别,从零(原始漏洞)到第一,第二等。



当然,在查看一个新闻项时,我们只知道零级和第一级,因此,为了获得所有数据,我们使用了深入遍历图的方法,这使我们能够解开新闻从头到最近连接的节点(以下称为图节点)的纠结。在此阶段,优化问题解决了-长时间的图形汇编需要很长时间,并且必须同时使用脚本和数据结构。顺便说一句,我决定将最终数据打包到镶木地板中,以便使用spark sql进行进一步的处理,这大大简化了初始分析。

图形数据是什么样的?可视化将帮助我们更好地了解它们的性质。图4显示了已知但不是很危险的Heartbleed漏洞(在cvss等级中,满分10分中只有5分)。



看到相关新闻和漏洞利用的宏伟“花束”(其中红点是原始漏洞),我们了解到Heartbleed被大大低估了。

使用此示例,我们可以得出结论,使用图形指标可以很好地估计系统性,持续时间和其他漏洞参数。以下是几个研究指标的示例,它们是替代分类的基础:

  • 图中节点的数量-导致漏洞的“宽度”,在各种系统中留下的痕迹的数量,
  • 子图(大量新闻)的数量-负责问题的粒度或漏洞内是否存在较大的问题区域,
  • 相关漏洞利用和补丁的数量-谈到新闻的爆炸性以及必须“处理”多少次,
  • 图中新闻的独特类型和新闻类别的数量是关于系统性的,即受漏洞影响的子系统的数量,
  • 从首次发布到第一次被利用的持续时间,从第一次发布到最后一条相关新闻的时间-有关漏洞的时间性质,无论该漏洞带有很大的“尾巴”后果还是迅速发展并逐渐消失。

当然,这些还不是全部指标;在研究的掩盖下,现在大约有30个指标可以补充CVSS基本标准集,包括新闻漏洞图级别之间的平均增加,图级别第一级的漏洞利用百分比等等。

打开灰色区域


现在有一点数据科学和统计数据了-毕竟,需要在数据上确认假设,对吗?

对于具有替代规模和新指标的实验,选择了2019年1月发布的新闻。这是2403个新闻通讯,新闻专栏中有约15万行。根据CVSS评分,所有源漏洞均分为三类:

  • 高-包括8点。
  • 中-从6点到8点。
  • 低-低于6分。

首先,让我们看一下CVSS得分与图中相关新闻的数量,新闻类型的数量和漏洞利用的数量之间的关系:







在理想情况下,我们应该已经清楚地将指标分为三类,但这并未发生,这表明可能存在灰色区域, CVSS得分未定义-这是我们的目标。

下一步的逻辑步骤是将漏洞聚类为同类组,并建立新的规模。

对于第一次迭代,选择了一个简单的指标分类器和k-均值,并获得了一个新的估计矩阵:沿着X的Y轴上找到了初始点(中,低,高),其中2是新漏洞指标中最大的点,1是新漏洞, 0是最小的。



标记为椭圆形的区域(漏洞级别2,初始等级为低和中),可能被低估了。分离到新的类中也看起来更加清晰,这正是我们的目标:







但是,仅信任模型是一个坏主意,尤其是在涉及无监督群集时,原则上不知道正确的答案,您只能依靠所获得类的分离度量。

这就是我们需要专家知识的地方-因为要对结果进行良好的测试和解释,必须知道主题领域。因此,希望逐点检查模型,例如,通过拉出几个漏洞进行详细分析。

以下是一些来自灰色区域的明亮示例,这些示例的CVSS得分低,但图形得分高-这意味着使用它们时可能需要不同的优先级。它们是图形表示形式的外观:

CVE-2019-0555(CVSS得分4.4,图形等级2高)





SMB_NT_MS19_JAN_DOTNET.NASL(CVSS得分5.0,图形等级2高)





CVE-2019-1653(CVSS得分5.0,图形等级)
RHSA-2019:2-高)




:0130(CVSS评分5.0,图表2级-高)





似乎该概念已通过统计和抽查得到证实,因此在不久的将来,我们希望改进和自动化图形指标以及(也许)分类器本身的集合。当然,还有很多工作要做-从研究中未涵盖的几个月中收集大量新图形开始,但这只会增加热情,就像任务的本质一样。作为一名数据科学家,我可以说,就主题和复杂性而言,这项研究的工作是令人难以置信的鼓舞人心的经历-甚至使用松散结构的数据进行的准备工程工作也非常有趣。

最后


如何从专家评估过渡到真实数字并评估无价资产?

在研究之后,很明显,首先,不仅对于任何度量标准或数据,而且对于整个过程,都需要一种关键方法,因为世界太动态了,其变化速度比方法论和文档还快。总是以一种方式进行评估-为什么不尝试改变视角?如我们的示例所示,即使最不寻常的假设也可以得到确认。

数据专家的数据可用性起着重要作用-它使您能够快速检查最大胆的假设,并更好地了解主题领域所有表现形式的本质。因此,如果您尚未收集或删除“不必要的”数据,请考虑一下,也许那里有很多发现。这种情况表明,数据驱动和信息安全是相辅相成的。

All Articles