Représentation graphique des mannequins: un guide étape par étape

Plus tôt, nous avons publié un article où, à l'aide de graphiques, nous avons analysé les communautés à des points d'ébullition de différentes villes de Russie. Maintenant, nous voulons dire comment construire de tels graphiques et les analyser.



Under the cut - une instruction étape par étape pour ceux qui ont longtemps voulu faire face à la visualisation de graphiques et attendaient la bonne occasion.


1. Choix de l'hypothèse


Si vous essayez de visualiser au moins quelque chose, en chargeant sans réfléchir des données dans un programme graphique, le résultat ne vous plaira pas. Par conséquent, commencez par formuler par vous-même ce que vous voulez savoir à l'aide de graphiques, et proposez une hypothèse viable.

Pour ce faire, déterminez quelles données vous possédez déjà, lesquelles peuvent être représentées par des «objets» et quelles sont les «connexions» entre elles. Habituellement, il y a beaucoup moins d'objets que de liens - vous pouvez vous vérifier de cette façon.

Nous avons préparé notre cas de test avec l'équipe du point d'ébullition de Tomsk. En conséquence, nous disposerons de toutes les données pour l'analyse des événements et de leurs participants. Nous nous sommes demandé si une communauté s'était formée à partir des participants à ces événements et à quoi elle ressemblait du point de vue des participants appartenant aux entreprises, aux universités et au gouvernement.

Nous avons suggéré que les personnes qui ont assisté au même événement soient connectées les unes aux autres. De plus, plus ils assistaient aux événements ensemble, plus la connexion était forte.
Dans le deuxième cas, nous avons décidé de découvrir comment l'appartenance des participants à l'un des «nos» (nos domaines clés) est liée aux technologies transversales qui les intéressent. La distribution est-elle uniforme? Y a-t-il des sujets d'actualité? Pour cette analyse, nous avons pris des données sur les participants à l'événement de 200 entreprises technologiques de Tomsk.

En principe, même de telles formulations initiales d'hypothèses suffisent pour passer à la deuxième étape.

2. Préparation des données


Maintenant que vous avez décidé ce que vous voulez découvrir, prenez la totalité du tableau de données, voyez quelles informations sur les "objets" sont stockées, jetez tous les excès et ajoutez les manquants. Si les données sont réparties sur plusieurs sources, collectez d'abord tout dans un même tas, en supprimant les doublons.

Je vais vous expliquer avec un exemple. Nous avions des données sur les participants de 650 événements. Il s'agit, relativement parlant, de 650 tableaux Excel contenant environ 23 000 entrées contenant les champs «ID leader», «Position», «Organisation». Pour construire un graphique, un identifiant unique suffit (heureusement, il y en a un - ID Leader) et un signe qui relie chaque participant à l'un des trois domaines considérés: gouvernement, entreprise ou université. Et nous n'avons pas encore cette information.

Pour l'obtenir, vous pouvez continuer: dans chacun des 650 fichiers, supprimez les colonnes supplémentaires et ajoutez un nouveau champ, remplissez-le avec des valeurs pour chaque ligne, par exemple: «1» pour l'alimentation, «2» pour les entreprises et «3» pour l'éducation et les sciences. Et vous pouvez d'abord combiner les 650 fichiers dans une grande liste, supprimer les doublons et ensuite seulement ajouter de nouvelles valeurs. Dans le premier cas, un tel travail prendra 1 à 2 mois. Dans la seconde - 1-2 semaines.

En général, lors de l'ajout de nouveaux attributs, essayez de regrouper les données en premier. Par exemple, vous pouvez trier les participants par société / organisation et définir l'attribut en bloc.

Nous préparons davantage les données. Pour les charger dans la plupart des programmes de visualisation, vous devrez créer deux fichiers: un avec une liste de sommets et le second avec une liste d'arêtes.



Le fichier de sommets dans notre cas contenait deux colonnes: Id - numéro de sommet et Type d'étiquette. Le fichier d'arêtes contenait également deux colonnes: Source - id du sommet initial, Target - id du sommet final.

Comment transformer les données selon lesquelles les participants 1, 2, 5 et 23 ont assisté à un événement en côtes? Il est nécessaire de créer six lignes et de marquer la connexion de chaque participant avec chacun: 1 et 2, 1 et 5, 1 et 23, 2 et 5, 2 et 23, 5 et 23.

Dans notre deuxième exemple, les tableaux ressemblaient à ceci:



Les sommets sont répertoriés comme des marchés et les technologies de bout en bout. Si, par exemple, un représentant d'une entreprise appartenant au marché Technet (ID = 4) assistait à un événement sur le thème «Big Data et IA» (ID = 17), nous mettons dans le tableau des bords un bord (ligne) reliant ces sommets (Source = 4, objectif = 17).

La phase de préparation des données est la partie la plus longue du processus, mais soyez patient.

3. Visualisation graphique


Ainsi, les tableaux de données sont préparés, vous pouvez chercher un moyen de les représenter sous la forme d'un graphique. Pour la visualisation, nous avons utilisé le programme Gephi - un puissant outil open source qui peut traiter des graphiques avec des centaines de milliers de sommets et de liens. Vous pouvez le télécharger sur le site officiel .

Je vais prendre des captures d'écran du deuxième projet, dans lequel il y avait un petit nombre de sommets et de liens, afin que tout soit aussi clair que possible.

Tout d'abord, nous devons charger des tables avec des sommets et des arêtes. Pour ce faire, sélectionnez l'élément "Importer depuis CSV" dans le menu de la section "Laboratoire de données".



Tout d'abord, chargez le fichier avec les sommets. Sur le premier écran du formulaire, indiquez que nous importons les sommets et vérifiez que le programme détermine correctement l'encodage des signatures.



Sur le troisième formulaire, «Importer un rapport», il est important d'indiquer le type de graphique. Nous ne sommes pas orientés.



De même, chargez les côtes. Dans la première fenêtre, indiquez qu'il s'agit d'un fichier avec des bords et vérifiez également l'encodage.



Un moment important nous attend dans la troisième fenêtre «Import Report». Ici, il est important d'indiquer non seulement que le graphique n'est pas orienté, mais également de charger les bords dans le même espace de travail que les sommets. Par conséquent, sélectionnez l'élément "Ajouter au lieu de travail existant".



En conséquence, nous allons voir le graphique approximativement sous cette forme (l'onglet «Traitement»):



Ainsi, les arêtes ont des épaisseurs différentes selon le nombre de connexions entre les sommets. Vous pouvez voir le poids de chaque bord dans l'onglet Data Lab dans les propriétés des bords de la colonne Poids.

Ce qui est mauvais ici: tous les sommets sont de la même taille et sont situés de manière absolument aléatoire. Dans l'onglet «Traitement», nous le corrigerons. Tout d'abord, sélectionnez Noeuds dans la fenêtre supérieure gauche et cliquez sur l'icône avec des cercles («Taille»). Ensuite, sélectionnez l'élément Classement - il vous permet de définir la taille du sommet, en fonction de certains paramètres. Nous avons la possibilité de choisir un seul paramètre - Degré (degré), qui montre combien d'arêtes sortent du sommet. Choisissez la taille minimale et maximale du cercle et cliquez sur le bouton "Appliquer". Ici, si vous sélectionnez d'autres icônes, vous pouvez ajuster la couleur du marqueur de sommet et la couleur des bords. Maintenant, le graphique est déjà plus visuel.



La prochaine chose à faire est de démêler le graphique. Cela peut être fait manuellement, en déplaçant les sommets, ou vous pouvez utiliser les algorithmes de style qui sont implémentés dans Gephi.

Que faisons-nous avec un style approprié? Visibilité maximale. Moins il y a de sommets et d'arêtes sur le graphique des superpositions, moins il y a d'intersections d'arêtes, mieux c'est. Il serait également intéressant que les pics adjacents soient situés plus près les uns des autres et que les pics non adjacents soient plus éloignés. Eh bien, tout était distribué dans la région visible et non compressé en un seul tas.

Comment faire à Gephi? La fenêtre en bas à gauche «Empilement» contient les algorithmes d'empilement les plus populaires basés sur des analogies de puissance. Imaginez que les sommets sont des boules chargées qui se repoussent, mais certaines sont maintenues ensemble par quelque chose de similaire à des ressorts. Si vous définissez les forces appropriées et "relâchez" le graphique, les sommets se disperseront aux distances maximales autorisées par les ressorts.

L'image la plus uniforme est fournie par l'algorithme de Fruchterman et Reingold. Sélectionnez Fruchterman Reingold dans le menu déroulant et définissez la taille de la zone de traçage. Cliquez sur le bouton Exécuter. Il en résultera quelque chose comme ceci:



vous pouvez aider l'algorithme et, sans l'arrêter, faire glisser quelques sommets, en essayant de démêler le graphique. Mais rappelez-vous qu'il n'y a pas de bouton «Annuler», il ne sera pas possible de revenir à l'emplacement précédent des sommets. Par conséquent, conservez les nouvelles versions du projet avant chaque modification risquée.

Un autre algorithme utile est Force Atlas 2. Il présente un graphique sous la forme d'anneaux métalliques reliés par des ressorts. Les ressorts déformés mettent le système en mouvement, il oscille et prend enfin une position stable. Cet algorithme est bon pour les visualisations qui mettent l'accent sur la structure d'un groupe et mettent en évidence des sous-ensembles avec un haut degré d'interaction.

Cet algorithme a un grand nombre de paramètres. Considérez le plus important. L '"interdiction de chevauchement" empêche les pics de se chevaucher. La rareté augmente la distance entre les sommets, ce qui rend le graphique plus lisible. Le graphique est également rendu plus aéré en réduisant l'influence des poids des nervures sur les positions relatives des sommets.

Après avoir joué avec les paramètres, nous obtenons le graphique suivant:



Après avoir reçu le graphique sous la forme qui vous convient, passez au traitement final. Il s'agit de l'onglet "Affichage". Ici, nous pouvons spécifier, par exemple, dessiner un graphique avec des bords incurvés, ce qui minimise le chevauchement des sommets sur d'autres bords. Nous pouvons activer les étiquettes de sommet en définissant la taille et la couleur de la police. Enfin, changez l'arrière-plan du substrat. Par exemple, comme ceci:



Pour enregistrer l'image résultante, cliquez sur l'inscription «Exporter SVG / PDF / PNG dans le coin inférieur gauche de la fenêtre. N'oubliez pas non plus d'enregistrer le projet lui-même via le menu supérieur "Fichier" - "Enregistrer le projet".

Dans notre cas, il était important de souligner la relation entre les technologies de bout en bout et les marchés NTI, pour lesquels nous avons construit manuellement tous les marchés sur une seule ligne au centre et placé tout le reste au-dessus et en dessous. Le résultat est un tel graphique. Pourtant, pour résoudre des problèmes spécifiques sans alignement manuel des sommets ne pouvait pas être fait.



Vous pensez probablement comment nous avons réussi à colorer les pics de différentes couleurs? Il y a une astuce. Vous pouvez aller dans l'onglet «Data Lab», créer une nouvelle colonne aux sommets, en la nommant «Market». Et remplissez pour chaque sommet avec les valeurs: 1 s'il s'agit du marché STI, 0 s'il s'agit d'une technologie transversale. Ensuite, allez dans le "Traitement", sélectionnez l'icône sous la forme d'une palette, Nœuds - Partition, et comme séparateur - notre nouvel attribut Marché.



Pour les constructions plus complexes, lorsqu'il est nécessaire de sélectionner des grappes et de les peindre avec différentes couleurs, Gephi utilise un riche arsenal de calculs statistiques, dont les résultats peuvent être utilisés pour une coloration séparée. Ces calculs sont situés dans la colonne de droite de l'onglet Traitement.



Par exemple, en cliquant sur le bouton "Exécuter" à côté du calcul "Modularité", vous découvrirez une estimation du niveau de clustering de votre graphe. Si après cela, vous définissez la couleur des sommets en fonction de la classe de modularité, une belle image apparaîtra comme ceci:



Si vous voulez en savoir plus sur les capacités de Gephi, vous devriez lire le manuel sur l'utilisation du programme de Martin Grangin http://www.martingrandjean.ch/gephi- introduction / .

4. Analyse du résultat


Ainsi, vous avez obtenu la visualisation finale du graphique. Qu'est-ce qu'elle te donne? Tout d'abord, il est beau, il peut être inséré dans une présentation, montré à vos amis ou créé un économiseur d'écran sur votre bureau. Deuxièmement, vous pouvez comprendre à quel point la structure du domaine que vous envisagez est complexe et multicluster. Troisièmement, faites attention aux pics les plus importants et aux connexions les plus grasses. Ce sont des éléments spéciaux sur lesquels tout repose.
Ainsi, après avoir construit un graphique de la communauté d'experts participant aux événements au Boiling Point, nous avons immédiatement trouvé des participants qui sont les plus susceptibles d'agir en tant que superconnecteurs. C'étaient des «pics» à travers lesquels les clusters étaient unis en un tout. Et dans le second cas, nous avons vu à quoi ressemble la concentration de spécialistes des entreprises de Tomsk du point de vue de leur appartenance au marché et de la technologie numérique de bout en bout sur laquelle ils s'appuient. Cela indique indirectement le niveau de compétences technologiques et d'expertise de la région.

L'aide des graphiques pour comprendre la réalité environnante est vraiment formidable, alors ne soyez pas paresseux et essayez de créer votre propre visualisation de données. Ce n'est pas du tout difficile, mais parfois laborieux.

All Articles