Hidden Threat - Vulnerability Analysis mit News Graph

Was ist der erste Gedanke, wenn Sie mit einer neuen Sicherheitsanfälligkeit konfrontiert sind? Reagieren Sie natürlich so schnell wie möglich. Geschwindigkeit ist jedoch nur eine der Voraussetzungen für einen wirksamen Kampf gegen Bedrohungen der Informationssicherheit. Wenn es um Unternehmenssicherheit geht, ist es ebenso wichtig, genau zu bestimmen, worauf Sie zuerst reagieren sollten. Eine unterschätzte Bedrohung kann zu ernsthaften Verlusten oder zum Verlust des Goodwills führen. Aber wenn die Anzahl der Schwachstellen ständig zunimmt, wie kann man ihre Bedeutung schnell einschätzen und wichtige Details nicht übersehen?


Schwachstellendynamik nach CVSS-Gruppe (Quelle - vulners.com)

Für die Einstufung von Schwachstellen nach verschiedenen Kriterien wird traditionell die CVSS-Score-Skala (Common Vulnerability Scoring System) verwendet, mit der Schwachstellen nach verschiedenen Kriterien eingestuft werden, von der Komplexität der Ausnutzung bis zum verursachten Schaden und anderen Parametern.

Es scheint, warum sollte man sich etwas anderes einfallen lassen - aber der CVSS-Score hat eine Schwachstelle - er basiert auf Expertenschätzungen, die nicht durch echte Statistiken gestützt werden.. Es wäre viel effizienter, Expertenfälle anzubieten, die bereits nach bestimmten quantitativen Kriterien ausgewählt wurden, und Entscheidungen auf der Grundlage verifizierter Daten zu treffen - aber woher erhalten diese Daten und was ist als Nächstes zu tun? Es klingt nach einer ungewöhnlichen und interessanten Aufgabe für ein Rechenzentrum - und diese Herausforderung hat mich und das Vulners-Team zu einem neuen Konzept zur Bewertung und Klassifizierung von Schwachstellen anhand eines Diagramms verwandter Informationen inspiriert.

Warum Grafiken? Bei sozialen Netzwerken und Medien werden Grafikmethoden seit langem und erfolgreich für verschiedene Zwecke eingesetzt: von der Analyse der Verteilung von Inhalten im Nachrichtenstrom bis hin zu Hinweisen zum Einfluss von TOP-Autoren auf die Meinungen der Leser und die Gruppierung sozialer Netzwerke nach Interessen. Jede Sicherheitsanfälligkeit kann als Grafik mit Daten dargestellt werden - Nachrichten über Änderungen an Software oder Hardware und die von ihnen verursachten Auswirkungen.

Über Daten


Ich musste nicht manuell Nachrichten zu jedem Update sammeln, alle erforderlichen Texte wurden in der offenen Schwachstellendatenbank von vulners.com gefunden. Visuell lauten die Daten wie folgt:



Jeder Sicherheitsanfälligkeit ist zusätzlich zu Name, Veröffentlichungsdatum und Beschreibung eine Familie (NVD, Scanner, Exploit usw.) zugeordnet, die ihr bereits zugewiesen wurde (CVD-Bewertung (CVSS wird im Folgenden verwendet)). v2) sowie Links zu verwandten Nachrichten.

Wenn Sie diese Verbindungen schematisch in Form eines Diagramms darstellen, sieht eine Sicherheitsanfälligkeit folgendermaßen aus: Der orangefarbene Kreis zeigt die Quelle oder übergeordnete Veröffentlichung an, die schwarzen Kreise zeigen die Nachrichten an, auf die Sie auf der übergeordneten Seite klicken können, und die grauen Kreise stellen die zugehörigen Nachrichten dar, auf die zugegriffen wird Sie können nur alle Veröffentlichungen durchgehen, die durch schwarze Kreise gekennzeichnet sind. Jede Farbe der Kreise ist eine neue Ebene des Diagramms verwandter Informationen, von Null - der ursprünglichen Sicherheitsanfälligkeit - bis zur ersten, zweiten und so weiter.



Wenn wir eine Nachricht anzeigen, kennen wir natürlich nur die Null und die erste Ebene. Um alle Daten zu erhalten, haben wir daher die Methode zum Durchlaufen des Diagramms verwendet, mit der wir das Nachrichtengewirr vom Anfang bis zu den zuletzt verbundenen Knoten (im Folgenden als Diagrammknoten bezeichnet) entwirren konnten. Zu diesem Zeitpunkt traten Optimierungsprobleme auf - die Zusammenstellung von Graphen dauerte lange und musste sowohl mit einem Skript als auch mit einer Datenstruktur beschworen werden. Übrigens habe ich beschlossen, die endgültigen Daten für die weitere Arbeit mit spark sql in Parkett zu packen, was die anfängliche Analyse erheblich erleichterte.

Wie sehen Diagrammdaten aus? Die Visualisierung hilft uns, ihre Natur besser zu verstehen. Abbildung 4 zeigt eine grafische Darstellung der bekannten, aber nicht sehr gefährlichen Heartbleed-Sicherheitsanfälligkeit (nur 5 von 10 Punkten auf der Lebenslauf-Skala).



Wenn wir uns diesen großartigen „Strauß“ verwandter Nachrichten und Exploits ansehen, bei dem der rote Punkt die ursprüngliche Sicherheitslücke darstellt, verstehen wir, dass Heartbleed erheblich unterschätzt wurde.

Anhand dieses Beispiels können wir schließen, dass die Systemizität, Dauer und andere Schwachstellenparameter mithilfe von Diagrammmetriken ziemlich gut geschätzt werden. Im Folgenden finden Sie einige Beispiele für Forschungsmetriken, die als Grundlage für eine alternative Klassifizierung dienten:

  • Die Anzahl der Knoten im Diagramm - ist verantwortlich für die "Breite" der Sicherheitsanfälligkeit, wie groß die Spur ist, die sie in verschiedenen Systemen hinterlassen hat.
  • Die Anzahl der Untergraphen (große Gruppen von Nachrichten) - ist für die Granularität des Problems oder das Vorhandensein großer Problembereiche innerhalb der Sicherheitsanfälligkeit verantwortlich.
  • die Anzahl der damit verbundenen Exploits und Patches - spricht über die Explosivität der Nachrichten und wie oft sie "behandelt" werden mussten,
  • Bei der Anzahl der eindeutigen Arten und Familien von Nachrichten in der Grafik geht es um Systematik, dh um die Anzahl der Subsysteme, die von den Auswirkungen der Sicherheitsanfälligkeit betroffen sind.
  • die Dauer von der ersten Veröffentlichung bis zum ersten Exploit, die Zeit von der ersten Veröffentlichung bis zu den letzten verwandten Nachrichten - über die zeitliche Natur der Sicherheitsanfälligkeit, ob sie sich mit einem großen „Schwanz“ von Konsequenzen erstreckt oder sich schnell entwickelt und verblasst.

Natürlich sind dies nicht alle Metriken. Unter der Haube der Forschung gibt es jetzt etwa 30 Indikatoren, die den grundlegenden Satz von CVSS-Kriterien ergänzen, einschließlich des durchschnittlichen Anstiegs zwischen den Ebenen des Diagramms der Nachrichtenanfälligkeit, des Prozentsatzes der Exploits auf der ersten Ebene des Diagramms und vielem mehr.

Öffnen Sie die Grauzone


Und jetzt ein wenig Datenwissenschaft und Statistik - schließlich müssen Hypothesen zu Daten bestätigt werden, nicht wahr?

Für das Experiment mit einer alternativen Skala und neuen Metriken wurden die im Januar 2019 veröffentlichten Nachrichten ausgewählt. Dies sind 2403 Newsletter und ungefähr 150.000 Zeilen in der Nachrichtenspalte. Alle Quellschwachstellen wurden gemäß CVSS Score in drei Gruppen unterteilt:

  • Hoch - ab 8 Punkten inklusive.
  • Mittel - von 6 einschließlich bis 8 Punkten.
  • Niedrig - weniger als 6 Punkte.

Lassen Sie uns zunächst sehen, wie der CVSS-Score mit der Anzahl der zugehörigen Nachrichten in der Grafik, der Anzahl der Nachrichtentypen und der Anzahl der Exploits korreliert:







Im Idealfall hätten wir eine klare Trennung der Metriken in drei Cluster sehen müssen, aber dies ist nicht geschehen, was auf das mögliche Vorhandensein einer Grauzone hinweist. Welchen CVSS-Score nicht definiert - das ist unser Ziel.

Der nächste logische Schritt war die Bündelung von Schwachstellen in homogene Gruppen und der Aufbau einer neuen Skala.

Für die erste Iteration wurden ein einfacher Metrikklassifikator und k-Mittelwerte ausgewählt und eine neue Matrix von Schätzungen erhalten: Die Anfangspunkte (Mittel, Niedrig, Hoch) befinden sich auf der Y-Achse entlang des X, wobei 2 die größten in den neuen Schwachstellenmetriken sind, 1 die neuen Schwachstellen, 0 sind die kleinsten.



Eine mit einem Oval gekennzeichnete Zone (Schwachstellenklasse 2 mit einer anfänglichen niedrigen und mittleren Bewertung) - Möglicherweise unterschätzte Schwachstellen. Die Trennung in neue Klassen sieht auch klarer aus, was wir uns zum Ziel gesetzt haben: Es







ist jedoch eine schlechte Idee, Modellen einfach zu vertrauen, insbesondere wenn es um unbeaufsichtigtes Clustering geht, bei dem die richtige Antwort im Prinzip nicht bekannt ist und Sie sich nur auf die Trennungsmetriken der erhaltenen Klassen verlassen können .

Und hier brauchen wir Expertenwissen - denn für einen guten Test und eine gute Interpretation der Ergebnisse sind Kenntnisse des Fachgebiets erforderlich. Daher ist es ratsam, das Modell punktuell zu überprüfen, indem beispielsweise einige Schwachstellen für eine detaillierte Analyse herausgezogen werden.

Im Folgenden finden Sie einige helle Beispiele aus der Grauzone, die einen niedrigen CVSS-Wert, aber einen hohen Grafikwert aufweisen. Dies bedeutet, dass möglicherweise eine andere Priorität für die Arbeit mit ihnen erforderlich ist. So sehen sie in einer grafischen Darstellung aus:

CVE-2019-0555 (CVSS-Punktzahl 4,4,





Grafikklasse 2 hoch) SMB_NT_MS19_JAN_DOTNET.NASL (CVSS-Punktzahl 5,0,





Grafikklasse
2 hoch) CVE-2019-1653 (CVSS-Punktzahl 5,0, Grafikklasse 2 - hoch)




RHSA-2019: 0130 (CVSS-Punktzahl 5,0, Grafikklasse 2 - hoch)





Es scheint, dass das Konzept durch Statistik und Punktüberprüfung bestätigt wurde. Daher möchten wir in naher Zukunft die Erfassung von Diagrammmetriken und - möglicherweise - den Klassifizierer selbst abschließen und automatisieren. Natürlich gibt es noch viel zu tun - vom Sammeln einer großen Anzahl neuer Grafiken für Monate, die nicht in der Studie behandelt wurden, aber dies erhöht nur die Begeisterung, ebenso wie das Wesentliche der Aufgabe. Als Datenwissenschaftler kann ich sagen, dass die Arbeit an dieser Studie sowohl in Bezug auf das Thema als auch in Bezug auf die Komplexität eine unglaublich inspirierende Erfahrung war - selbst vorbereitende technische Arbeiten mit schlecht strukturierten Daten waren sehr interessant.

Abschließend


Wie kann man einen Schritt von Expertenbewertungen zu reellen Zahlen machen und das Unschätzbare bewerten?

Nach der Studie wurde klar, dass zunächst ein kritischer Ansatz nicht nur für Metriken oder Daten, sondern auch für den gesamten Prozess erforderlich ist, da die Welt zu dynamisch ist und sich schneller ändert als Methoden und Dokumentationen. Immer auf eine Weise bewertet - warum nicht versuchen, den Blickwinkel zu verschieben? Wie unser Beispiel zeigt, können auch die ungewöhnlichsten Hypothesen bestätigt werden.

Eine wichtige Rolle spielt die Verfügbarkeit von Daten für Datasaentisten. Sie ermöglicht es Ihnen, schnell die gewagtesten Hypothesen zu überprüfen und die Essenz Ihres Themenbereichs in all seinen Erscheinungsformen besser zu verstehen. Wenn Sie also noch keine „unnötigen“ Daten sammeln oder löschen, denken Sie darüber nach. Vielleicht lauern dort viele Entdeckungen. Dieser Fall legt nahe, dass sich datengesteuerte und Informationssicherheit perfekt ergänzen.

All Articles