绘制假人:循序渐进指南

之前,我们发布了一篇文章,其中借助图表对来自俄罗斯不同城市的沸点所在的社区进行了分析。现在,我们要告诉您如何构建此类图并进行分析。



切入点-针对长期想要处理图形可视化并等待适当时机的用户的分步说明。


1.假设的选择


如果您试图可视化至少某些内容,不加考虑地将数据加载到制图程序中,结果将不会令您满意。因此,首先要借助图形自己确定要知道的内容,然后提出可行的假设。

为此,请找出您已经拥有的数据,哪些可以用“对象”表示,以及它们之间的“连接”是什么。通常,对象比链接少得多-您可以通过这种方式检查自己。

我们与Tomsk的沸点团队一起准备了测试用例。相应地,我们将从那里获得所有数据用于事件及其参与者的分析。我们想知道是否由这些活动的参与者组成了一个社区,以及从企业,大学和政府的参与者的角度看它是如何看待的。

我们建议参加同一活动的人们相互联系。而且,他们在一起参加活动的频率越高,联系就越牢固。
在第二种情况下,我们决定找出参与者中“否”(我们的关键领域)之一的成员资格与他们感兴趣的跨领域技术之间的关系。分布均匀吗?有热门话题吗?为了进行此分析,我们获取了来自200个Tomsk技术公司的活动参与者的数据。

原则上,即使是这种假设的初始表述也足以进行第二步。

2.数据准备


现在,您已经决定要查找的内容,获取整个数据数组,查看存储了有关“对象”的哪些信息,排除所有多余的信息并添加缺失的信息。如果数据分布在多个源中,则首先将所有内容收集在一个堆中,然后删除重复项。

我将举例说明。我们有关于650个事件的参与者的数据。相对而言,这是650个Excel表,其中有〜23000个条目,其中包含“领导者ID”,“位置”,“组织”字段。要构建图表,一个唯一的标识符就足够了(幸运的是,这里有一个-领导者ID)和一个将每个参与者与所考虑的三个领域之一相关的符号:政府,企业或大学。并且我们没有此信息。

要获得它,您可以继续:在650个文件中的每个文件中,删除多余的列并添加一个新字段,为每行填充值,例如:``1''代表权力,``2''代表商业,``3''代表教育和科学。您可以先将所有650个文件合并为一个大列表,删除重复项,然后再添加新值。在第一种情况下,此类工作将需要1-2个月。在第二-1-2周。

通常,在添加新属性时,请尝试首先将数据分组。例如,您可以按公司/组织对参与者进行排序,然后批量设置属性。

我们正在进一步准备数据。要将它们加载到大多数可视化程序中,您将需要创建两个文件:一个包含顶点列表,另一个包含边列表。



在我们的案例中,顶点文件包含两列:Id-顶点编号和Label-类型。边缘文件还包含两列:源-初始顶点的ID,目标-最终顶点的ID。

如何将参与者1、2、5和23参加一个事件的数据变成肋骨?必须创建六行并标记每个参与者的连接:1和2、1和5、1和23、2和5、2和23、5和23。

在我们的第二个示例中,表格如下所示:



顶点被列为市场和端到端技术。举例来说,如果某位属于Technet市场(ID = 4)的公司的代表参加了主题为“大数据和AI”(ID = 17)的活动,则我们在边表中放入一条连接这些顶点的边(线)(来源= 4,目标= 17)。

数据准备阶段是该过程中最耗时的部分,但要耐心等待。

3.图形可视化


因此,已准备好数据表,您可以寻找一种以图形形式表示它们的方法。为了进行可视化,我们使用了Gephi程序-一个功能强大的开源工具,可以处理具有成千上万个顶点和链接的图形。您可以从官方网站下载它

我将截取第二个项目的屏幕快照,其中的顶点和链接数量很少,因此所有内容都尽可能清晰。

首先,我们需要加载具有顶点和边的表。为此,请从“数据实验室”部分的菜单中选择“从CSV导入”项。



首先,用顶点加载文件。在表单的第一个屏幕上,指示我们正在导入顶点,并检查程序是否正确确定签名的编码。



在第三种形式“导入报告”上,重要的是指出图的类型。我们没有方向。



同样,加载肋骨。在第一个窗口中,指示这是一个有边的文件,并检查编码。



在第三个窗口“导入报告”中等待着我们的重要时刻。在这里,重要的是不仅要指示图形未定向,而且还要将边线加载到与顶点相同的工作空间中。因此,选择项目“附加到现有工作场所”。



结果,我们将以这种形式大致看到图形(“处理”选项卡):



因此,根据顶点之间的连接数,边的厚度不同。您可以在“权重”列中边缘的属性中的“数据实验室”选项卡上查看每个边缘的权重。

不好的是:所有顶点的大小相同,并且绝对随机地放置。在选项卡“正在处理”中,我们将对其进行修复。首先,在左上方窗口中选择“节点”,然后单击带有圆圈的图标(“大小”)。接下来,选择“排名”项-它使您可以根据某些参数设置顶点的大小。我们有机会仅选择一个参数-度(度),该参数显示从顶点出来的边数。选择圆的最小和最大尺寸,然后单击“应用”按钮。在这里,如果选择其他图标,则可以调整顶点标记的颜色和边缘的颜色。现在该图已经更加直观了。



接下来要做的是解开图形。可以手动完成,移动顶点,也可以使用Gephi中实现的样式算法。

通过适当的样式,我们能实现什么?最大的可见度。叠加图形上的顶点和边缘越少,边缘的交点越少,效果越好。如果相邻峰的位置彼此靠近,而非相邻峰的距离更远,则也很不错。好吧,所有内容都分布在可见区域中,而不是压缩到一个堆中。

在Gephi中如何做?左下方的“堆栈”窗口包含基于功耗类比的最受欢迎的堆栈算法。想象一下,顶点是相互排斥的带电球,但其中一些通过类似于弹簧的东西固定在一起。如果设置适当的力并“释放”图形,则顶点将分散到弹簧允许的最大距离。

Fruchterman和Reingold算法提供了最统一的图像。从下拉菜单中选择Fruchterman Reingold,然后设置绘图区域的大小。单击执行按钮。结果将是这样的:



您可以提供帮助,并且可以在不停止算法的情况下拖动一些顶点,以尝试解开图形。但是请记住,没有“取消”按钮,将不可能返回到顶点的先前位置。因此,在进行每次风险更改之前,请保留项目的新版本。

另一个有用的算法是Force Atlas2。它以弹簧连接的金属环的形式显示一个图形。变形的弹簧使系统运动,它振荡并最终处于稳定位置。该算法适用于强调组结构并以高度交互性突出显示子集的可视化。

此算法具有大量设置。考虑最重要。 “重叠禁止”可防止峰彼此重叠。稀疏度增加了顶点之间的距离,从而使图形更具可读性。通过减少肋的权重对顶点的相对位置的影响,还可以使图形更加通风。

玩完设置后,我们得到下图:



在收到适合您的表格的图形后,进行最后的处理。这是“查看”标签。例如,在这里我们可以指定绘制带有弯曲边缘的图形,以最大程度减少顶点在其他边缘上的重叠。我们可以通过设置字体大小和颜色来启用顶点标签。最后,更改底材的背景。例如,如下所示:



为了保存生成的图像,请单击窗口左下角的题词“导出SVG / PDF / PNG”。另外,不要忘记通过顶部菜单“文件”-“保存项目”来保存项目本身。

在我们的案例中,重要的是要强调端到端技术与NTI市场之间的关系,为此,我们手动将所有市场集中在中心的一条线上,并将其他所有东西放在上面和下面。结果就是这样的图。但是,如果不手动对齐顶点就无法解决特定问题。



您可能会认为我们如何设法用不同的颜色为峰着色?有一个窍门。您可以转到“数据实验室”选项卡,在此处的顶点处创建一个新列,将其命名为“市场”。并为每个顶点填写以下值:如果是STI市场,则为1;如果是端对端技术,则为0。然后只需转到“处理”,以调色板的形式选择图标,即“节点-分区”,并作为分隔符-我们的新属性“市场”。



对于更复杂的结构,当需要选择聚类并用不同的颜色对其进行绘制时,Gephi使用了大量的统计计算工具,其结果可用于单独着色。这些计算位于“处理”选项卡的右列中。



例如,通过单击“模块化”计算旁边的“运行”按钮,您将找到图形聚类程度的估计值。如果之后根据Modularity Class设置顶点的颜色,则会显示如下图:



如果您想了解有关Gephi功能的更多信息,则应阅读Martin Grangin的有关使用该程序的手册http://www.martingrandjean.ch/gephi-介绍/

4.结果分析


这样,您就得到了图形的最终可视化。她给你什么?首先,它很漂亮,可以插入演示文稿,显示给您的朋友或在桌面上制作屏幕保护程序。其次,您可以从中了解正在考虑的主题领域的结构有多复杂和多集群。第三,注意最大的山峰和最胖的联系。这些是一切赖以生存的特殊元素。
因此,在绘制了沸点上的专家社区参加活动的图表之后,我们立即发现最有可能充当超级连接者的参与者。它们是集群聚集成一个整体的“高峰”。在第二种情况下,我们从托木斯克公司的专家对市场的归属以及他们所依赖的端到端数字技术的角度看,他们的专业程度如何。这间接表明了该地区的技术能力和专业水平。

图形对理解周围现实的帮助非常棒,因此不要懒惰,而是尝试创建自己的数据可视化。这一点都不困难,但有时劳动强度大。

All Articles