Manequins gráficos: um guia passo a passo

Publicamos anteriormente um post em que, com a ajuda de gráficos, analisamos comunidades em pontos de ebulição de diferentes cidades da Rússia. Agora queremos dizer como construir esses gráficos e analisá-los.



Sob o corte - uma instrução passo a passo para aqueles que há muito desejam lidar com a visualização de gráficos e aguardam a ocasião certa.


1. Escolha da hipótese


Se você tentar visualizar pelo menos alguma coisa, carregando dados sem pensar em um programa gráfico, o resultado não o agradará. Portanto, primeiro formule para si mesmo o que deseja saber com a ajuda de gráficos e elabore uma hipótese viável.

Para fazer isso, descubra quais dados você já possui, quais deles podem ser representados por "objetos" e quais são as "conexões" entre eles. Geralmente, há muito menos objetos que links - você pode verificar-se dessa maneira.

Preparamos nosso caso de teste em conjunto com a equipe do ponto de ebulição de Tomsk. Dessa forma, teremos todos os dados para análise dos eventos e de seus participantes a partir daí. Nós nos perguntamos se havia uma comunidade formada pelos participantes desses eventos e como ela era do ponto de vista dos participantes de empresas, universidades e governo.

Sugerimos que as pessoas que participaram do mesmo evento estejam conectadas umas às outras. Além disso, quanto mais freqüentavam os eventos juntos, mais forte a conexão.
No segundo caso, decidimos descobrir como a participação dos participantes em um dos "nãos" (nossas principais áreas) se relaciona às tecnologias transversais de interesse para eles. A distribuição é uniforme? Existem tópicos quentes? Para esta análise, coletamos dados de participantes de 200 empresas de tecnologia Tomsk.

Em princípio, mesmo essas formulações iniciais de hipóteses são suficientes para avançar para o segundo passo.

2. Preparação de dados


Agora que você decidiu o que deseja descobrir, pegue toda a matriz de dados, veja quais informações sobre os "objetos" são armazenadas, jogue fora todo o excesso e adicione o que está faltando. Se os dados forem distribuídos por várias fontes, primeiro colete tudo em um heap, removendo duplicatas.

Vou explicar com um exemplo. Tivemos dados sobre os participantes de 650 eventos. Em termos gerais, são 650 tabelas do Excel com ~ 23.000 entradas, contendo os campos "ID do Líder", "Posição", "Organização". Para criar um gráfico, basta um identificador exclusivo (felizmente, existe um aqui - este é um ID do Líder) e um sinal que liga cada participante a uma das três áreas em consideração: governo, empresas ou universidades. E ainda não temos essa informação.

Para obtê-lo, você pode prosseguir: em cada um dos 650 arquivos, remova as colunas extras e adicione um novo campo, preencha-o com valores para cada linha, por exemplo: "1" para energia, "2" para negócios e "3" para educação e ciência. E você pode primeiro combinar todos os 650 arquivos em uma lista grande, remover duplicatas e somente adicionar novos valores. No primeiro caso, esse trabalho levará 1-2 meses. No segundo - 1-2 semanas.

Em geral, ao adicionar novos atributos, tente agrupar os dados primeiro. Por exemplo, você pode classificar os participantes por empresa / organização e definir o atributo em massa.

Estamos preparando os dados ainda mais. Para carregá-los na maioria dos programas de visualização, você precisará criar dois arquivos: um com uma lista de vértices e o segundo com uma lista de arestas.



O arquivo de vértice no nosso caso continha duas colunas: Id - número do vértice e Label - type. O arquivo de arestas também continha duas colunas: ID de origem do vértice inicial, ID de destino do vértice final.

Como transformar dados de participantes 1, 2, 5 e 23 em um evento em costelas? É necessário criar seis linhas e marcar a conexão de cada participante com cada um: 1 e 2, 1 e 5, 1 e 23, 2 e 5, 2 e 23, 5 e 23.

No nosso segundo exemplo, as tabelas eram assim:



Os vértices são listados como mercados e tecnologias de ponta a ponta. Se, digamos, um representante de uma empresa pertencente ao mercado Technet (ID = 4) participou de um evento no tópico “Big Data e AI” (ID = 17), colocamos na tabela de arestas uma aresta (linha) conectando esses vértices (Fonte = 4, alvo = 17).

A fase de preparação dos dados é a parte que consome mais tempo do processo, mas seja paciente.

3. Visualização gráfica


Assim, as tabelas de dados são preparadas, você pode procurar um meio para representá-las na forma de um gráfico. Para visualização, usamos o programa Gephi - uma poderosa ferramenta de código aberto que pode processar gráficos com centenas de milhares de vértices e links. Você pode baixá-lo no site oficial .

Vou tirar screenshots do segundo projeto, no qual havia um pequeno número de vértices e links, para que tudo estivesse o mais claro possível.

Primeiro de tudo, precisamos carregar tabelas com vértices e arestas. Para fazer isso, selecione o item "Importar de CSV" no menu da seção "Laboratório de dados".



Primeiro, carregue o arquivo com os vértices. Na primeira tela do formulário, indique que estamos importando os vértices e verifique se o programa determina corretamente a codificação das assinaturas.



No terceiro formulário, "Relatório de importação", é importante indicar o tipo de gráfico. Nós não somos orientados.



Da mesma forma, carregue as costelas. Na primeira janela, indique que este é um arquivo com bordas e verifique também a codificação.



Um momento importante nos espera na terceira janela "Relatório de importação". Aqui é importante indicar não apenas que o gráfico não está orientado, mas também carregar as arestas no mesmo espaço de trabalho que os vértices. Portanto, selecione o item "Anexar ao local de trabalho existente".



Como resultado, veremos o gráfico aproximadamente desta forma (a guia "Processamento"):



Portanto, as arestas têm espessuras diferentes, dependendo do número de conexões entre os vértices. Você pode ver quanto peso cada aresta se tornou na guia Laboratório de Dados nas propriedades das arestas na coluna Peso.

O que é ruim aqui: todos os vértices são do mesmo tamanho e estão localizados absolutamente aleatoriamente. Na guia "Processamento", vamos corrigi-lo. Primeiro, selecione Nós na janela superior esquerda e clique no ícone com círculos ("Tamanho"). Em seguida, selecione o item Ranking - ele permite definir o tamanho do vértice, dependendo de algum parâmetro. Temos a oportunidade de escolher apenas um parâmetro - Grau (grau), que mostra quantas arestas saem do vértice. Escolha o tamanho mínimo e máximo do círculo e clique no botão "Aplicar". Aqui, se você selecionar outros ícones, poderá ajustar a cor do marcador de vértice e a cor das arestas. Agora o gráfico já é mais visual.



A próxima coisa a fazer é desvendar o gráfico. Isso pode ser feito manualmente, movendo os vértices ou você pode usar os algoritmos de estilo implementados no Gephi.

O que conseguimos com um estilo adequado? Visibilidade máxima. Quanto menos vértices e arestas no gráfico de sobreposições, menor a interseção das arestas, melhor. Também seria bom se os picos adjacentes estivessem localizados mais próximos um do outro e os não adjacentes estivessem mais afastados. Bem, tudo foi distribuído pela região visível e não compactado em uma pilha.

Como fazer isso em Gephi? A janela inferior esquerda "Empilhamento" contém os algoritmos de empilhamento mais populares criados com analogias de energia. Imagine que os vértices são bolas carregadas que se repelem, mas algumas são mantidas juntas por algo semelhante às molas. Se você definir as forças apropriadas e "liberar" o gráfico, os vértices se espalharão para as distâncias máximas permitidas pelas molas.

A imagem mais uniforme é fornecida pelo algoritmo de Fruchterman e Reingold. Selecione Fruchterman Reingold no menu suspenso e defina o tamanho da área de plotagem. Clique no botão Executar. O resultado será algo assim:



você pode ajudar o algoritmo e, sem parar, arrastar alguns vértices, tentando desvendar o gráfico. Mas lembre-se de que não existe o botão "Cancelar", não será possível retornar ao local anterior dos vértices. Portanto, mantenha novas versões do projeto antes de cada mudança arriscada.

Outro algoritmo útil é o Force Atlas 2. Ele apresenta um gráfico na forma de anéis de metal conectados por molas. As molas deformadas colocam o sistema em movimento, oscilam e finalmente toma uma posição estável. Esse algoritmo é bom para visualizações que enfatizam a estrutura de um grupo e destacam subconjuntos com um alto grau de interação.

Este algoritmo possui um grande número de configurações. Considere o mais importante. "Proibição de sobreposição" impede que os picos se sobreponham. A dispersão aumenta a distância entre os vértices, tornando o gráfico mais legível. O gráfico também é mais arejado ao reduzir a influência dos pesos das nervuras nas posições relativas dos vértices.

Depois de jogar com as configurações, obtemos o seguinte gráfico:



Depois de receber o gráfico da forma que mais lhe convém, continue com o processamento final. Essa é a guia "Visualizar". Aqui podemos especificar, por exemplo, o desenho de um gráfico com arestas curvas, o que minimiza a sobreposição de vértices em outras arestas. Podemos ativar rótulos de vértices, definindo o tamanho e a cor da fonte. Por fim, altere o fundo do substrato. Por exemplo, assim:



Para salvar a imagem resultante, clique na inscrição “Exportar SVG / PDF / PNG no canto inferior esquerdo da janela. Além disso, não se esqueça de salvar o projeto em si através do menu superior "Arquivo" - "Salvar projeto".

No nosso caso, era importante destacar a relação entre as tecnologias ponta a ponta e os mercados NTI, para os quais construímos manualmente todos os mercados em uma linha no centro e colocamos todo o resto acima e abaixo. O resultado é esse gráfico. Ainda assim, não foi possível resolver problemas específicos sem o alinhamento manual dos vértices.



Você provavelmente pensa como conseguimos colorir os picos em cores diferentes? Há um truque. Você pode ir para a aba “Data Lab”, criar uma nova coluna nos vértices de lá, nomeando-a “Market”. E preencha para cada vértice os valores: 1 se for o mercado de IST, 0 se for uma tecnologia transversal. Em seguida, basta ir ao "Processamento", selecione o ícone na forma de uma paleta, Nós - Partição e, como separador - nosso novo atributo Mercado.



Para construções mais complexas, quando é necessário selecionar grupos e pintá-los com cores diferentes, o Gephi usa um rico arsenal de cálculos estatísticos, cujos resultados podem ser usados ​​para cores separadas. Esses cálculos estão localizados na coluna direita da guia Processamento.



Por exemplo, clicando no botão "Executar" ao lado do cálculo "Modularidade", você descobrirá uma estimativa do nível de agrupamento do seu gráfico. Se depois disso você definir a cor dos vértices, dependendo da Classe de Modularidade, uma boa imagem aparecerá assim:



Se você quiser aprender mais sobre as possibilidades do Gephi, leia o manual sobre como trabalhar com o programa de Martin Grangin http://www.martingrandjean.ch/gephi- introdução / .

4. Análise do resultado


Então, você obteve a visualização final do gráfico. O que ela te deu? Em primeiro lugar, é lindo, pode ser inserido em uma apresentação, mostrada aos seus amigos ou criado um protetor de tela na área de trabalho. Em segundo lugar, você pode entender como é complexa e multicluster a estrutura da área de assunto que você está considerando. Em terceiro lugar, preste atenção aos maiores picos e às conexões mais gordas. Estes são elementos especiais sobre os quais tudo repousa.
Assim, tendo construído um gráfico da comunidade de especialistas que participava de eventos no ponto de ebulição, descobrimos imediatamente participantes com maior probabilidade de atuarem como superconectores. Eles eram "picos" através dos quais os agrupamentos eram unidos em um único todo. E no segundo caso, vimos como a concentração de especialistas das empresas de Tomsk se parece do ponto de vista de pertencer ao mercado e da tecnologia digital de ponta a ponta na qual eles confiam. Indica indiretamente o nível de competências tecnológicas e conhecimentos da região.

A ajuda dos gráficos para entender a realidade circundante é realmente excelente; portanto, não seja preguiçoso e tente criar sua própria visualização de dados. Não é nada difícil, mas às vezes exige muito trabalho.

All Articles