Grafik Dummies: Eine Schritt-für-Schritt-Anleitung

Zuvor haben wir einen Beitrag veröffentlicht, in dem wir mithilfe von Grafiken Gemeinden an Siedepunkten aus verschiedenen Städten Russlands analysierten. Jetzt wollen wir erklären, wie solche Diagramme erstellt und analysiert werden.



Under the Cut - eine Schritt-für-Schritt-Anleitung für diejenigen, die sich schon lange mit der Visualisierung von Grafiken befassen wollten und auf den richtigen Anlass warteten.


1. Wahl der Hypothese


Wenn Sie versuchen, zumindest etwas zu visualisieren und dabei gedankenlos Daten in ein Grafikprogramm zu laden, wird Ihnen das Ergebnis nicht gefallen. Formulieren Sie daher zunächst mithilfe von Diagrammen selbst, was Sie wissen möchten, und stellen Sie eine tragfähige Hypothese auf.

Stellen Sie dazu fest, welche Daten Sie bereits haben, welche von ihnen durch „Objekte“ dargestellt werden können und welche durch „Verbindungen“ zwischen ihnen. Normalerweise gibt es viel weniger Objekte als Links - Sie können sich auf diese Weise selbst überprüfen.

Wir haben unseren Testfall zusammen mit dem Siedepunktteam aus Tomsk vorbereitet. Dementsprechend werden wir von dort aus alle Daten zur Analyse von Ereignissen und ihren Teilnehmern haben. Wir fragten uns, ob sich aus den Teilnehmern dieser Veranstaltungen eine Gemeinschaft gebildet hatte und wie dies aus Sicht der Teilnehmer aus Wirtschaft, Universitäten und Regierung aussah.

Wir haben vorgeschlagen, dass Personen, die an derselben Veranstaltung teilgenommen haben, miteinander verbunden sind. Je öfter sie gemeinsam an den Veranstaltungen teilnahmen, desto stärker war die Verbindung.
Im zweiten Fall haben wir uns entschlossen herauszufinden, wie die Zugehörigkeit der Teilnehmer zu einem der „Nos“ (unseren Schlüsselbereichen) mit den für sie interessanten Querschnittstechnologien zusammenhängt. Ist die Verteilung gleichmäßig? Gibt es heiße Themen? Für diese Analyse haben wir Daten zu Veranstaltungsteilnehmern von 200 Tomsker Technologieunternehmen herangezogen.

Im Prinzip reichen bereits solche anfänglichen Formulierungen von Hypothesen aus, um mit dem zweiten Schritt fortzufahren.

2. Datenaufbereitung


Nachdem Sie entschieden haben, was Sie herausfinden möchten, nehmen Sie das gesamte Datenfeld, sehen Sie, welche Informationen zu den "Objekten" gespeichert sind, werfen Sie den gesamten Überschuss weg und fügen Sie die fehlenden hinzu. Wenn die Daten auf mehrere Quellen verteilt sind, sammeln Sie zuerst alles auf einem Heap und entfernen Sie Duplikate.

Ich werde mit einem Beispiel erklären. Wir hatten Daten zu den Teilnehmern von 650 Veranstaltungen. Dies sind relativ gesehen 650 Excel-Tabellen mit ~ 23000 Einträgen, die die Felder "Leader ID", "Position", "Organisation" enthalten. Um ein Diagramm zu erstellen, reicht eine eindeutige Kennung (zum Glück gibt es hier eine - dies ist eine Leader-ID) und ein Zeichen, das jeden Teilnehmer an einen der drei betrachteten Bereiche bindet: Regierung, Unternehmen oder Universitäten. Und wir haben diese Informationen noch nicht.

Um es zu erhalten, können Sie fortfahren: Entfernen Sie in jeder der 650 Dateien die zusätzlichen Spalten und fügen Sie ein neues Feld hinzu. Füllen Sie es mit Werten für jede Zeile, z. B. "1" für Leistung, "2" für Unternehmen und "3" für Bildung und Wissenschaft. Und Sie können zuerst alle 650 Dateien in einer großen Liste zusammenfassen, Duplikate entfernen und erst dann neue Werte hinzufügen. Im ersten Fall dauert eine solche Arbeit 1-2 Monate. In der zweiten - 1-2 Wochen.

Versuchen Sie im Allgemeinen beim Hinzufügen neuer Attribute, die Daten zuerst zu gruppieren. Beispielsweise können Sie die Teilnehmer nach Unternehmen / Organisation sortieren und das Attribut in großen Mengen festlegen.

Wir bereiten die Daten weiter vor. Um sie in die meisten Visualisierungsprogramme zu laden, müssen Sie zwei Dateien erstellen: eine mit einer Liste von Scheitelpunkten und die zweite mit einer Liste von Kanten.



Die Scheitelpunktdatei enthielt in unserem Fall zwei Spalten: ID - Scheitelpunktnummer und Beschriftungstyp. Die Kantendatei enthielt auch zwei Spalten: Quell-ID des anfänglichen Scheitelpunkts, Ziel-ID des endgültigen Scheitelpunkts.

Wie kann man Daten, die Teilnehmer 1, 2, 5 und 23 an einer Veranstaltung teilgenommen haben, in Rippen verwandeln? Es ist notwendig, sechs Zeilen zu erstellen und die Verbindung jedes Teilnehmers mit jedem zu markieren: 1 und 2, 1 und 5, 1 und 23, 2 und 5, 2 und 23, 5 und 23.

In unserem zweiten Beispiel sahen die Tabellen folgendermaßen aus:



Die Eckpunkte werden als Märkte aufgeführt und End-to-End-Technologien. Wenn beispielsweise ein Vertreter eines zum Technet-Markt gehörenden Unternehmens (ID = 4) an einer Veranstaltung zum Thema „Big Data und AI“ (ID = 17) teilnahm, haben wir in die Kantentabelle eine Kante (Linie) eingefügt, die diese Eckpunkte verbindet (Quelle =) 4, Ziel = 17).

Die Datenaufbereitungsphase ist der zeitaufwändigste Teil des Prozesses, aber seien Sie geduldig.

3. Grafikvisualisierung


Wenn die Datentabellen vorbereitet sind, können Sie nach Mitteln suchen, um sie in Form eines Diagramms darzustellen. Zur Visualisierung verwendeten wir das Gephi-Programm - ein leistungsstarkes Open-Source-Tool, das Diagramme mit Hunderttausenden von Scheitelpunkten und Links verarbeiten kann. Sie können es von der offiziellen Website herunterladen .

Ich werde Screenshots aus dem zweiten Projekt machen, in dem es eine kleine Anzahl von Eckpunkten und Links gab, damit alles so klar wie möglich war.

Zunächst müssen wir Tabellen mit Eckpunkten und Kanten laden. Wählen Sie dazu im Menü des Abschnitts "Data Lab" den Eintrag "Aus CSV importieren".



Laden Sie zuerst die Datei mit den Eckpunkten. Geben Sie auf dem ersten Bildschirm des Formulars an, dass die Scheitelpunkte importiert werden, und überprüfen Sie, ob das Programm die Codierung der Signaturen korrekt ermittelt.



Im dritten Formular, "Bericht importieren", ist es wichtig, den Diagrammtyp anzugeben. Wir sind nicht orientiert.



Laden Sie in ähnlicher Weise die Rippen. Geben Sie im ersten Fenster an, dass es sich um eine Datei mit Kanten handelt, und überprüfen Sie auch die Codierung.



Ein wichtiger Moment erwartet uns im dritten Fenster „Bericht importieren“. Hier ist es wichtig, nicht nur anzuzeigen, dass das Diagramm nicht ausgerichtet ist, sondern auch die Kanten in denselben Arbeitsbereich wie die Scheitelpunkte zu laden. Wählen Sie daher den Punkt "An vorhandenen Arbeitsplatz anhängen".



Infolgedessen sehen wir das Diagramm in ungefähr dieser Form (Registerkarte „Verarbeitung“):



Die Kanten haben also je nach Anzahl der Verbindungen zwischen den Scheitelpunkten unterschiedliche Dicken. In den Eigenschaften der Kanten in der Spalte Gewicht können Sie auf der Registerkarte Data Lab sehen, wie viel Gewicht jede Kante hat.

Was hier schlecht ist: Alle Eckpunkte sind gleich groß und liegen absolut zufällig. Auf der Registerkarte "Verarbeitung" werden wir es beheben. Wählen Sie zunächst im oberen linken Fenster Knoten aus und klicken Sie auf das Symbol mit den Kreisen („Größe“). Wählen Sie als Nächstes das Ranking-Element aus. Hier können Sie die Größe des Scheitelpunkts abhängig von einigen Parametern festlegen. Wir haben die Möglichkeit, nur einen Parameter auszuwählen - Grad (Grad), der zeigt, wie viele Kanten aus dem Scheitelpunkt herauskommen. Wählen Sie die minimale und maximale Größe des Kreises und klicken Sie auf die Schaltfläche "Übernehmen". Wenn Sie hier andere Symbole auswählen, können Sie die Farbe der Scheitelpunktmarkierung und die Farbe der Kanten anpassen. Jetzt ist die Grafik bereits visueller.



Als nächstes müssen Sie das Diagramm entwirren. Dies kann manuell erfolgen, indem die Scheitelpunkte verschoben werden, oder Sie können die in Gephi implementierten Styling-Algorithmen verwenden.

Was erreichen wir mit dem richtigen Styling? Maximale Sichtbarkeit. Je weniger Scheitelpunkte und Kanten im Diagramm der Überlagerungen vorhanden sind, desto besser sind die Schnittpunkte der Kanten. Es wäre auch schön, wenn benachbarte Gipfel näher beieinander liegen und nicht benachbarte weiter voneinander entfernt sind. Nun, alles wurde über den sichtbaren Bereich verteilt und nicht zu einem Haufen komprimiert.

Wie geht das in Gephi? Das untere linke Fenster „Stapeln“ enthält die beliebtesten Stapelalgorithmen, die auf Leistungsanalogien basieren. Stellen Sie sich vor, die Eckpunkte sind geladene Kugeln, die sich gegenseitig abstoßen, aber einige werden durch etwas Ähnliches wie Federn zusammengehalten. Wenn Sie die entsprechenden Kräfte einstellen und den Graphen "freigeben", werden die Scheitelpunkte auf die von den Federn maximal zulässigen Abstände gestreut.

Das einheitlichste Bild liefert der Fruchterman- und Reingold-Algorithmus. Wählen Sie Fruchterman Reingold aus dem Dropdown-Menü und legen Sie die Größe des Plotbereichs fest. Klicken Sie auf die Schaltfläche Ausführen. Es wird sich



ungefähr so herausstellen: Sie können dem Algorithmus helfen und, ohne ihn anzuhalten, einige Scheitelpunkte ziehen und versuchen, das Diagramm zu entwirren. Denken Sie jedoch daran, dass es keine Schaltfläche "Abbrechen" gibt. Es ist nicht möglich, zur vorherigen Position der Scheitelpunkte zurückzukehren. Bewahren Sie daher vor jeder riskanten Änderung neue Versionen des Projekts auf.

Ein weiterer nützlicher Algorithmus ist Force Atlas 2. Er zeigt ein Diagramm in Form von Metallringen, die durch Federn verbunden sind. Die deformierten Federn setzen das System in Bewegung, es schwingt und nimmt schließlich eine stabile Position ein. Dieser Algorithmus eignet sich für Visualisierungen, die die Struktur einer Gruppe hervorheben und Teilmengen mit einem hohen Grad an Interaktion hervorheben.

Dieser Algorithmus hat eine große Anzahl von Einstellungen. Betrachten Sie das Wichtigste. "Überlappungsverbot" verhindert, dass sich Spitzen überlappen. Die Spärlichkeit vergrößert den Abstand zwischen den Scheitelpunkten und macht das Diagramm besser lesbar. Der Graph wird auch luftiger, indem der Einfluss der Gewichte der Rippen auf die relativen Positionen der Eckpunkte verringert wird.

Nach dem Spielen mit den Einstellungen erhalten wir die folgende Grafik:



Nachdem Sie das Diagramm in der für Sie geeigneten Form erhalten haben, fahren Sie mit der endgültigen Verarbeitung fort. Dies ist die Registerkarte "Ansicht". Hier können wir beispielsweise ein Diagramm mit gekrümmten Kanten zeichnen, wodurch die Überlappung von Scheitelpunkten an anderen Kanten minimiert wird. Wir können Scheitelpunktbeschriftungen aktivieren, indem wir die Schriftgröße und -farbe festlegen. Ändern Sie schließlich den Hintergrund des Substrats. Beispiel:



Um das resultierende Bild zu speichern, klicken Sie in der unteren linken Ecke des Fensters auf die Aufschrift „SVG / PDF / PNG exportieren“. Vergessen Sie auch nicht, das Projekt selbst über das Hauptmenü „Datei“ - „Projekt speichern“ zu speichern.

In unserem Fall war es entscheidend, die Beziehung zwischen End-to-End-Technologien und den NTI-Märkten hervorzuheben, für die wir alle Märkte manuell in einer Linie in der Mitte aufgebaut und alles andere oben und unten platziert haben. Das Ergebnis ist eine solche Grafik. Die Lösung spezifischer Probleme ohne manuelle Ausrichtung der Eckpunkte konnte jedoch nicht durchgeführt werden.



Sie denken wahrscheinlich, wie wir es geschafft haben, die Peaks in verschiedenen Farben zu färben? Es gibt einen Trick. Sie können zur Registerkarte "Data Lab" gehen und dort an den Scheitelpunkten eine neue Spalte mit dem Namen "Market" erstellen. Und füllen Sie für jeden Scheitelpunkt die Werte aus: 1, wenn es sich um den STI-Markt handelt, 0, wenn es sich um eine Querschnittstechnologie handelt. Gehen Sie dann einfach zu "Verarbeitung", wählen Sie das Symbol in Form einer Palette, Knoten - Partition und als Trennzeichen - unser neues Attribut Markt.



Für komplexere Konstruktionen verwendet Gephi ein umfangreiches Arsenal statistischer Berechnungen, deren Ergebnisse für die separate Färbung verwendet werden können, wenn Cluster ausgewählt und mit verschiedenen Farben bemalt werden müssen. Diese Berechnungen befinden sich in der rechten Spalte der Registerkarte Verarbeitung.



Wenn Sie beispielsweise auf die Schaltfläche "Ausführen" neben der Berechnung "Modularität" klicken, erhalten Sie eine Schätzung des Clustering-Grades Ihres Diagramms. Wenn Sie danach die Farbe der Scheitelpunkte abhängig von der Modularitätsklasse festlegen, wird ein schönes Bild wie



folgt angezeigt : Wenn Sie mehr über die Funktionen von Gephi erfahren möchten, lesen Sie das Handbuch zur Arbeit mit dem Programm von Martin Grangin unter http://www.martingrandjean.ch/gephi- Einführung / .

4. Analyse des Ergebnisses


Sie haben also die endgültige Visualisierung des Diagramms erhalten. Was gibt sie dir? Erstens ist es wunderschön, es kann in eine Präsentation eingefügt, Ihren Freunden gezeigt oder ein Bildschirmschoner auf Ihrem Desktop erstellt werden. Zweitens können Sie daraus verstehen, wie komplex und vielschichtig die Struktur des von Ihnen betrachteten Themenbereichs ist. Achten Sie drittens auf die größten Spitzen und die dicksten Verbindungen. Dies sind spezielle Elemente, auf denen alles beruht.
Nachdem wir ein Diagramm der Expertengemeinschaft erstellt hatten, die an Veranstaltungen am Siedepunkt teilnahm, fanden wir sofort Teilnehmer, die am wahrscheinlichsten als Superconnectors fungieren. Sie waren „Gipfel“, durch die Cluster zu einem Ganzen vereint wurden. Und im zweiten Fall haben wir gesehen, wie die Konzentration von Spezialisten aus Tomsker Unternehmen unter dem Gesichtspunkt ihrer Zugehörigkeit zum Markt und der durchgängigen digitalen Technologie aussieht, auf die sie sich verlassen. Dies zeigt indirekt das Niveau der technologischen Kompetenzen und des Fachwissens der Region.

Die Hilfe von Grafiken zum Verständnis der umgebenden Realität ist wirklich großartig. Seien Sie also nicht faul und versuchen Sie, Ihre eigene Datenvisualisierung zu erstellen. Es ist überhaupt nicht schwierig, aber manchmal arbeitsintensiv.

All Articles