Graficando Dummies: una guía paso a paso

Anteriormente, publicamos una publicación donde, con la ayuda de gráficos, analizamos comunidades en puntos de ebullición de diferentes ciudades de Rusia. Ahora queremos decir cómo construir tales gráficos y analizarlos.



Bajo el corte: una instrucción paso a paso para aquellos que siempre han querido lidiar con la visualización de gráficos y estaban esperando la ocasión correcta.


1. Elección de hipótesis


Si intenta visualizar al menos algo, cargando datos sin pensar en un programa de gráficos, el resultado no lo complacerá. Por lo tanto, primero formule por sí mismo lo que quiere saber con la ayuda de gráficos, y proponga una hipótesis viable.

Para hacer esto, averigüe qué datos ya tiene, cuáles de ellos pueden ser representados por "objetos" y cuáles son las "conexiones" entre ellos. Por lo general, hay muchos menos objetos que enlaces: puede comprobarlo de esta manera.

Preparamos nuestro caso de prueba junto con el equipo de punto de ebullición de Tomsk. En consecuencia, tendremos todos los datos para el análisis de eventos y sus participantes a partir de ahí. Nos preguntamos si se había formado una comunidad a partir de los participantes en estos eventos y cómo se veía desde el punto de vista de los participantes pertenecientes a empresas, universidades y gobiernos.

Sugerimos que las personas que asistieron al mismo evento estén conectadas entre sí. Además, cuanto más a menudo asistían a los eventos juntos, más fuerte era la conexión.
En el segundo caso, decidimos averiguar cómo la membresía de los participantes en uno de los "nos" (nuestras áreas clave) se relaciona con las tecnologías transversales que les interesan. ¿La distribución es pareja? ¿Hay algún tema candente? Para este análisis, tomamos datos sobre los participantes del evento de 200 empresas de tecnología de Tomsk.

En principio, incluso tales formulaciones iniciales de hipótesis son suficientes para proceder al segundo paso.

2. Preparación de datos


Ahora que ha decidido lo que quiere averiguar, tome toda la matriz de datos, vea qué información sobre los "objetos" se almacena, deseche todo el exceso y agregue los que faltan. Si los datos se distribuyen entre varias fuentes, primero recopile todo en un montón y elimine los duplicados.

Lo explicaré con un ejemplo. Teníamos datos sobre los participantes de 650 eventos. Esto, relativamente hablando, son 650 tablas de Excel con ~ 23000 entradas en ellas que contienen los campos "ID de líder", "Posición", "Organización". Para construir un gráfico, un identificador único es suficiente (afortunadamente, hay uno: ID de líder) y un letrero que vincula a cada participante con una de las tres áreas bajo consideración: gobierno, negocios o universidades. Y aún no tenemos esta información.

Para obtenerlo, puede seguir adelante: en cada uno de los 650 archivos, elimine las columnas adicionales y agregue un nuevo campo, complételo con valores para cada fila, por ejemplo: "1" para poder, "2" para negocios y "3" para educación y ciencia. Y primero puede combinar los 650 archivos en una lista grande, eliminar duplicados y solo luego agregar nuevos valores. En el primer caso, dicho trabajo tomará 1-2 meses. En el segundo - 1-2 semanas.

En general, al agregar nuevos atributos, intente agrupar los datos primero. Por ejemplo, puede ordenar los participantes por empresa / organización y establecer el atributo en masa.

Estamos preparando más los datos. Para cargarlos en la mayoría de los programas de visualización, deberá crear dos archivos: uno con una lista de vértices y el segundo con una lista de bordes.



El archivo de vértice en nuestro caso contenía dos columnas: Id - número de vértice y Etiqueta - tipo. El archivo de bordes también contenía dos columnas: Fuente - id del vértice inicial, Destino - id del vértice final.

¿Cómo convertir los datos de que los participantes 1, 2, 5 y 23 asistieron a un evento en costillas? Es necesario crear seis líneas y marcar la conexión de cada participante con cada una: 1 y 2, 1 y 5, 1 y 23, 2 y 5, 2 y 23, 5 y 23.

En nuestro segundo ejemplo, las tablas se veían así:



los vértices se enumeran como mercados y tecnologías de punta a punta. Si, por ejemplo, un representante de una empresa que pertenece al mercado de Technet (ID = 4) asistió a un evento sobre el tema "Big Data e IA" (ID = 17), colocamos en la tabla de borde un borde (línea) que conecta estos vértices (Fuente = 4, objetivo = 17).

La fase de preparación de datos es la parte más lenta del proceso, pero sea paciente.

3. Visualización gráfica


Por lo tanto, las tablas de datos están preparadas, puede buscar un medio para representarlas en forma de gráfico. Para la visualización, utilizamos el programa Gephi, una poderosa herramienta de código abierto que puede procesar gráficos con cientos de miles de vértices y enlaces. Puedes descargarlo desde el sitio oficial .

Tomaré capturas de pantalla del segundo proyecto, en el que había una pequeña cantidad de vértices y enlaces, para que todo fuera lo más claro posible.

En primer lugar, necesitamos cargar tablas con vértices y aristas. Para hacer esto, seleccione el elemento "Importar desde CSV" del menú de la sección "Laboratorio de datos".



Primero, cargue el archivo con los vértices. En la primera pantalla del formulario, indique que estamos importando los vértices y verifique que el programa determine correctamente la codificación de las firmas.



En el tercer formulario, "Informe de importación", es importante indicar el tipo de gráfico. No estamos orientados



Del mismo modo, cargue las costillas. En la primera ventana, indique que este es un archivo con bordes, y también verifique la codificación.



Un momento importante nos espera en la tercera ventana "Informe de importación". Aquí es importante indicar no solo que el gráfico no está orientado, sino también cargar los bordes en el mismo espacio de trabajo que los vértices. Por lo tanto, seleccione el elemento "Agregar al lugar de trabajo existente".



Como resultado, veremos el gráfico en aproximadamente esta forma (la pestaña "Procesando"):



Entonces, los bordes tienen diferentes grosores dependiendo del número de conexiones entre los vértices. Puede ver cuánto peso se ha convertido cada borde en la pestaña Laboratorio de datos en las propiedades de los bordes en la columna Peso.

Lo que es malo aquí: todos los vértices son del mismo tamaño y están ubicados absolutamente al azar. En la pestaña "Procesando" lo arreglaremos. Primero, en la ventana superior izquierda, seleccione Nodos y haga clic en el icono con círculos ("Tamaño"). Luego, seleccione el elemento Clasificación: le permite establecer el tamaño del vértice, dependiendo de algún parámetro. Tenemos la oportunidad de elegir solo un parámetro: Grado (grado), que muestra cuántos bordes salen del vértice. Elija el tamaño mínimo y máximo del círculo y haga clic en el botón "Aplicar". Aquí, si selecciona otros íconos, puede ajustar el color del marcador de vértice y el color de los bordes. Ahora el gráfico ya es más visual.



Lo siguiente que debe hacer es desentrañar el gráfico. Esto se puede hacer manualmente, moviendo los vértices, o puede usar los algoritmos de diseño que se implementan en Gephi.

¿Qué logramos con un estilo adecuado? Máxima visibilidad. Cuantos menos vértices y aristas en el gráfico de superposiciones, menos intersecciones de aristas, mejor. También sería bueno si los picos adyacentes estuvieran ubicados más cerca uno del otro, y los no adyacentes estuvieran más separados. Bueno, todo se distribuyó sobre la región visible, y no se comprimió en un montón.

¿Cómo hacerlo en Gephi? La ventana inferior izquierda "Apilamiento" contiene los algoritmos de apilamiento más populares basados ​​en analogías de potencia. Imagine que los vértices son bolas cargadas que se repelen entre sí, pero algunas se mantienen unidas por algo similar a los resortes. Si establece las fuerzas apropiadas y "libera" el gráfico, los vértices se dispersarán a las distancias máximas permitidas por los resortes.

La imagen más uniforme la proporciona el algoritmo Fruchterman y Reingold. Seleccione Fruchterman Reingold en el menú desplegable y establezca el tamaño del área de trazado. Haz clic en el botón Ejecutar. Resultará algo así:



puede ayudar al algoritmo y, sin detenerlo, arrastrar algunos vértices, tratando de desentrañar el gráfico. Pero recuerde que no hay un botón "Cancelar", no será posible volver a la ubicación anterior de los vértices. Por lo tanto, mantenga nuevas versiones del proyecto antes de cada cambio arriesgado.

Otro algoritmo útil es Force Atlas 2. Presenta un gráfico en forma de anillos metálicos conectados por resortes. Los resortes deformados ponen el sistema en movimiento, oscila y finalmente toma una posición estable. Este algoritmo es bueno para visualizaciones que enfatizan la estructura de un grupo y resaltan subconjuntos con un alto grado de interacción.

Este algoritmo tiene una gran cantidad de configuraciones. Considera lo más importante. La "Prohibición de superposición" evita que los picos se superpongan entre sí. La escasez aumenta la distancia entre los vértices, haciendo que el gráfico sea más legible. El gráfico también se hace más aireado al reducir la influencia de los pesos de las costillas en las posiciones relativas de los vértices.

Después de jugar con la configuración, obtenemos el siguiente gráfico:



Después de recibir el gráfico en la forma que más le convenga, proceda al procesamiento final. Esta es la pestaña "Ver". Aquí podemos especificar, por ejemplo, dibujar un gráfico con bordes curvos, lo que minimiza la superposición de vértices en otros bordes. Podemos habilitar las etiquetas de vértice configurando el tamaño y el color de la fuente. Finalmente, cambie el fondo del sustrato. Por ejemplo, así:



para guardar la imagen resultante, haga clic en la inscripción "Exportar SVG / PDF / PNG en la esquina inferior izquierda de la ventana. Además, no olvide guardar el proyecto en sí a través del menú superior "Archivo" - "Guardar proyecto".

En nuestro caso, era importante resaltar la relación entre las tecnologías de extremo a extremo y los mercados de NTI, para lo cual construimos manualmente todos los mercados en una línea en el centro y colocamos todo lo demás arriba y abajo. El resultado es un gráfico así. Aún así, para resolver problemas específicos sin la alineación manual de vértices no se pudo hacer.



¿Probablemente piensas cómo pudimos colorear los picos en diferentes colores? Hay un truco Puede ir a la pestaña "Laboratorio de datos", crear una nueva columna en los vértices allí, nombrándolo "Mercado". Y complete para cada vértice con los valores: 1 si es el mercado de ITS, 0 si es una tecnología transversal. Luego, vaya al "Procesamiento", seleccione el icono en forma de paleta, Nodos - Partición, y como separador - nuestro nuevo atributo Mercado.



Para construcciones más complejas, cuando se requiere seleccionar grupos y pintarlos con diferentes colores, Gephi usa un rico arsenal de cálculos estadísticos, cuyos resultados se pueden usar para colorear por separado. Estos cálculos se encuentran en la columna derecha de la pestaña Procesamiento.



Por ejemplo, al hacer clic en el botón "Ejecutar" junto al cálculo de "Modularidad", encontrará una estimación del nivel de agrupamiento de su gráfico. Si después de eso establece el color de los vértices dependiendo de la clase de modularidad, aparecerá una buena imagen como esta:



si desea obtener más información sobre las capacidades de Gephi, debe leer el manual sobre cómo trabajar con el programa de Martin Grangin http://www.martingrandjean.ch/gephi- introducción / .

4. Análisis del resultado.


Entonces, obtuviste la visualización final del gráfico. ¿Qué te da ella? En primer lugar, es hermoso, puede insertarse en una presentación, mostrarse a sus amigos o crear un protector de pantalla en su escritorio. En segundo lugar, puede comprender cuán compleja y multiclúster es la estructura del área temática que está considerando. En tercer lugar, preste atención a los picos más grandes y las conexiones más gordas. Estos son elementos especiales sobre los que descansa todo.
Entonces, después de haber construido un gráfico de la comunidad de expertos que asistieron a eventos en el Punto de Ebullición, de inmediato encontramos participantes que tienen más probabilidades de actuar como superconectores. Eran "picos" a través de los cuales los grupos se unían en un solo todo. Y en el segundo caso, vimos cómo se ve la concentración de especialistas de las empresas de Tomsk desde el punto de vista de su pertenencia al mercado y la tecnología digital de extremo a extremo en la que confían. Esto indica indirectamente el nivel de competencias tecnológicas y experiencia de la región.

La ayuda de los gráficos para comprender la realidad circundante es realmente genial, así que no seas perezoso e intenta crear tu propia visualización de datos. No es del todo difícil, pero a veces es laborioso.

All Articles