Graphing Dummies: Panduan Selangkah demi Selangkah

Sebelumnya, kami menerbitkan sebuah pos di mana, dengan bantuan grafik, kami menganalisis komunitas di titik didih dari berbagai kota di Rusia. Sekarang kami ingin memberi tahu cara membuat grafik seperti itu dan menganalisisnya.



Di bawah cut - instruksi langkah demi langkah untuk mereka yang telah lama ingin berurusan dengan visualisasi grafik dan sedang menunggu kesempatan yang tepat.


1. Pilihan hipotesis


Jika Anda mencoba memvisualisasikan setidaknya sesuatu, tanpa berpikir memuat data ke dalam program grafik, hasilnya tidak akan menyenangkan Anda. Oleh karena itu, rumuskan terlebih dahulu untuk diri sendiri apa yang ingin Anda ketahui dengan bantuan grafik, dan buatlah hipotesis yang masuk akal.

Untuk melakukan ini, cari tahu data apa yang sudah Anda miliki, apa yang bisa diwakili oleh "objek", dan apa "koneksi" di antara mereka. Biasanya ada jauh lebih sedikit objek daripada tautan - Anda dapat memeriksa diri Anda dengan cara ini.

Kami menyiapkan test case bersama-sama dengan tim titik didih dari Tomsk. Oleh karena itu, kami akan memiliki semua data untuk dianalisis tentang peristiwa dan pesertanya dari sana. Kami bertanya-tanya apakah sebuah komunitas telah dibentuk dari para peserta dalam acara-acara ini dan bagaimana kelihatannya dari sudut pandang para peserta milik bisnis, universitas dan pemerintah.

Kami menyarankan agar orang yang menghadiri acara yang sama terhubung satu sama lain. Selain itu, semakin sering mereka menghadiri acara bersama, semakin kuat koneksinya.
Dalam kasus kedua, kami memutuskan untuk mencari tahu bagaimana keanggotaan para peserta di salah satu β€œno” (bidang utama kami) terkait dengan teknologi lintas sektoral yang menarik bagi mereka. Apakah distribusinya merata? Apakah ada topik hangat? Untuk analisis ini, kami mengambil data tentang peserta acara dari 200 perusahaan teknologi Tomsk.

Pada prinsipnya, bahkan formulasi awal hipotesis seperti itu sudah cukup untuk melanjutkan ke langkah kedua.

2. Persiapan data


Sekarang Anda telah memutuskan apa yang ingin Anda ketahui, ambil seluruh array data, lihat informasi apa tentang "objek" yang disimpan, buang semua kelebihan dan tambahkan yang hilang. Jika data didistribusikan di beberapa sumber, pertama kumpulkan semuanya dalam satu tumpukan, hapus duplikat.

Saya akan jelaskan dengan sebuah contoh. Kami memiliki data pada peserta 650 acara. Ini, relatif berbicara, adalah 650 tabel Excel dengan ~ 23000 entri di dalamnya yang berisi bidang "ID Pemimpin", "Posisi", "Organisasi". Untuk membuat grafik, satu pengidentifikasi unik sudah cukup (untungnya, ada satu - ID Pemimpin) dan tanda yang mengikat setiap peserta dengan salah satu dari tiga bidang yang dipertimbangkan: pemerintah, bisnis atau universitas. Dan kami belum memiliki informasi ini.

Untuk mendapatkannya, Anda dapat melanjutkan: di masing-masing 650 file, hapus kolom tambahan dan tambahkan bidang baru, isi dengan nilai untuk setiap baris, misalnya: "1" untuk kekuasaan, "2" untuk bisnis dan "3" untuk pendidikan dan sains. Dan pertama-tama Anda dapat menggabungkan semua 650 file menjadi satu daftar besar, menghapus duplikat, dan hanya kemudian menambahkan nilai-nilai baru. Dalam kasus pertama, pekerjaan seperti itu akan memakan waktu 1-2 bulan. Dalam kedua - 1-2 minggu.

Secara umum, saat menambahkan atribut baru, cobalah untuk mengelompokkan data terlebih dahulu. Misalnya, Anda dapat mengurutkan peserta berdasarkan perusahaan / organisasi dan mengatur atribut secara massal.

Kami sedang mempersiapkan data lebih lanjut. Untuk memuatnya ke dalam sebagian besar program visualisasi, Anda harus membuat dua file: satu dengan daftar simpul, dan yang kedua dengan daftar tepi.



File vertex dalam kasus kami berisi dua kolom: Id-vertex number dan Label-type. File tepi juga mengandung dua kolom: Sumber - id dari titik awal, Target - id dari titik akhir.

Bagaimana mengubah data bahwa peserta 1, 2, 5 dan 23 menghadiri satu acara menjadi iga? Penting untuk membuat enam garis dan menandai hubungan masing-masing peserta dengan masing-masing: 1 dan 2, 1 dan 5, 1 dan 23, 2 dan 5, 2 dan 23, 5 dan 23.

Dalam contoh kedua kami, tabel tampak seperti ini:



Simpul terdaftar sebagai pasar dan teknologi end-to-end. Jika, katakanlah, seorang perwakilan dari sebuah perusahaan yang tergabung dalam pasar Technet (ID = 4) menghadiri acara dengan topik "Big Data dan AI" (ID = 17), kami menempatkan di tabel tepi sebuah tepi (garis) yang menghubungkan simpul-simpul ini (Sumber = 4, Target = 17).

Fase persiapan data adalah bagian proses yang paling memakan waktu, tetapi bersabarlah.

3. Visualisasi grafik


Jadi, tabel data disiapkan, Anda dapat mencari cara untuk mewakili mereka dalam bentuk grafik. Untuk visualisasi, kami menggunakan program Gephi - alat open source yang kuat yang dapat memproses grafik dengan ratusan ribu simpul dan tautan. Anda dapat mengunduhnya dari situs resmi .

Saya akan mengambil tangkapan layar dari proyek kedua, di mana ada sejumlah kecil simpul dan tautan, sehingga semuanya sejelas mungkin.

Pertama-tama, kita perlu memuat tabel dengan simpul dan tepi. Untuk melakukan ini, pilih item "Impor dari CSV" dari menu bagian "Lab Data".



Pertama, muat file dengan simpul. Pada layar pertama formulir, tunjukkan bahwa kami mengimpor simpul, dan periksa apakah program dengan benar menentukan pengkodean tanda tangan.



Pada formulir ketiga, "Impor Laporan", penting untuk menunjukkan jenis grafik. Kami tidak berorientasi.



Demikian pula, memuat tulang rusuk. Di jendela pertama, tunjukkan bahwa ini adalah file dengan tepian, dan periksa juga penyandian.



Sebuah momen penting menanti kita di jendela ketiga "Impor Laporan". Di sini penting untuk menunjukkan tidak hanya bahwa grafik tidak berorientasi, tetapi juga memuat tepi ke ruang kerja yang sama dengan simpul. Oleh karena itu, pilih item "Tambahkan ke tempat kerja yang ada".



Sebagai hasilnya, kita akan melihat grafik dalam kira-kira bentuk ini (tab "Memproses"):



Jadi, tepi memiliki ketebalan yang berbeda tergantung pada jumlah koneksi antara simpul. Anda bisa melihat berapa berat masing-masing sisi pada tab Lab Data di properti tepi di kolom Bobot.

Apa yang buruk di sini: semua simpul memiliki ukuran yang sama dan terletak secara acak. Pada tab "Memproses" kami akan memperbaikinya. Pertama, pilih Nodes di jendela kiri atas dan klik ikon dengan lingkaran ("Ukuran"). Selanjutnya, pilih item Peringkat - ini memungkinkan Anda untuk mengatur ukuran titik, tergantung pada beberapa parameter. Kami memiliki kesempatan untuk memilih hanya satu parameter - Derajat (degree), yang menunjukkan berapa banyak tepi yang keluar dari simpul. Pilih ukuran lingkaran minimum dan maksimum dan klik tombol "Terapkan". Di sini, jika Anda memilih ikon lain, Anda dapat menyesuaikan warna penanda titik dan warna tepi. Sekarang grafiknya sudah lebih visual.



Hal selanjutnya yang harus dilakukan adalah mengurai grafik. Ini dapat dilakukan secara manual, memindahkan simpul, atau Anda dapat menggunakan algoritme gaya yang diterapkan di Gephi.

Apa yang kita capai dengan gaya yang tepat? Visibilitas maksimum. Semakin sedikit simpul dan tepi pada grafik overlay, semakin sedikit perpotongan tepi, semakin baik. Akan lebih baik jika puncak yang berdekatan terletak lebih dekat satu sama lain, dan yang tidak berdekatan berjarak lebih jauh. Nah, semuanya didistribusikan di wilayah yang terlihat, dan tidak dikompresi menjadi satu tumpukan.

Bagaimana cara melakukannya di Gephi? Jendela kiri bawah "Stacking" berisi algoritma susun paling populer yang dibangun di atas analogi daya. Bayangkan bahwa simpul diisi bola yang saling tolak, tetapi beberapa disatukan oleh sesuatu yang mirip dengan pegas. Jika Anda mengatur kekuatan yang sesuai dan "melepaskan" grafik, simpul akan tersebar ke jarak maksimum yang diizinkan oleh pegas.

Gambar yang paling seragam disediakan oleh algoritma Fruchterman dan Reingold. Pilih Fruchterman Reingold dari menu drop-down dan atur ukuran area plot. Klik tombol Jalankan. Ini akan menghasilkan sesuatu seperti ini:



Anda dapat membantu algoritme dan, tanpa menghentikannya, seret beberapa simpul, mencoba mengurai grafik. Tetapi ingat bahwa tidak ada tombol "Batal", tidak akan mungkin untuk kembali ke lokasi simpul sebelumnya. Karena itu, pertahankan versi baru proyek sebelum setiap perubahan berisiko.

Algoritma lain yang berguna adalah Force Atlas 2. Ini menyajikan grafik dalam bentuk cincin logam yang dihubungkan oleh pegas. Mata air yang cacat membuat sistem bergerak, berosilasi dan akhirnya mengambil posisi stabil. Algoritma ini baik untuk visualisasi yang menekankan struktur grup dan menyoroti subset dengan interaksi tingkat tinggi.

Algoritma ini memiliki sejumlah besar pengaturan. Pertimbangkan yang paling penting. "Larangan Tumpang tindih" mencegah puncak saling tumpang tindih. Sparseness meningkatkan jarak antar simpul, membuat grafik lebih mudah dibaca. Grafik juga dibuat lebih lapang dengan mengurangi pengaruh bobot tulang rusuk pada posisi relatif dari simpul.

Setelah bermain dengan pengaturan, kita mendapatkan grafik berikut:



Setelah menerima grafik dalam bentuk yang sesuai dengan Anda, lanjutkan ke pemrosesan akhir. Ini adalah tab "Lihat". Di sini kita dapat menentukan, misalnya, menggambar grafik dengan tepi melengkung, yang meminimalkan tumpang tindih simpul di tepi lainnya. Kita dapat mengaktifkan label titik dengan mengatur ukuran dan warna font. Terakhir, ubah latar belakang media. Misalnya, seperti ini:



Untuk menyimpan gambar yang dihasilkan, klik tulisan β€œEkspor SVG / PDF / PNG di sudut kiri bawah jendela. Juga, jangan lupa untuk menyimpan proyek itu sendiri melalui menu "File" - "Save Project".

Dalam kasus kami, penting untuk menyoroti hubungan antara teknologi end-to-end dan pasar NTI, di mana kami secara manual membangun semua pasar dalam satu garis di tengah dan menempatkan semua yang lain di atas dan di bawah. Hasilnya adalah grafik seperti itu. Namun, untuk memecahkan masalah tertentu tanpa penyelarasan simpul secara manual tidak dapat dilakukan.



Anda mungkin berpikir bagaimana kami berhasil mewarnai puncak dalam berbagai warna? Ada satu trik. Anda dapat pergi ke tab "Lab Data", membuat kolom baru di simpul di sana, menamakannya "Pasar". Dan isi untuk setiap simpul dengan nilai-nilai: 1 jika itu adalah pasar IMS, 0 jika itu adalah teknologi lintas sektoral. Kemudian pergi saja ke "Pemrosesan", pilih ikon dalam bentuk palet, Nodes - Partition, dan sebagai pemisah - Pasar atribut baru kami.



Untuk konstruksi yang lebih kompleks, ketika diperlukan untuk memilih cluster dan mengecatnya dengan warna yang berbeda, Gephi menggunakan gudang kaya perhitungan statistik, yang hasilnya dapat digunakan untuk pewarnaan terpisah. Perhitungan ini terletak di kolom kanan tab Pemrosesan.



Misalnya, dengan mengklik tombol "Jalankan" di sebelah perhitungan "Modularitas", Anda akan menemukan perkiraan tingkat pengelompokan grafik Anda. Jika setelah itu Anda mengatur warna simpul tergantung pada Modularity Class, gambar yang bagus akan muncul seperti ini:



Jika Anda ingin mempelajari lebih lanjut tentang kemampuan Gephi, Anda harus membaca manual tentang bekerja dengan program dari Martin Grangin http://www.martingrandjean.ch/gephi- pengantar / .

4. Analisis hasilnya


Jadi, Anda mendapatkan visualisasi terakhir dari grafik. Apa yang dia berikan padamu? Pertama, itu indah, dapat dimasukkan ke dalam presentasi, ditunjukkan ke teman Anda atau dibuat screensaver di desktop Anda. Kedua, dari situ Anda bisa memahami betapa rumit dan multikluster struktur area subjek yang Anda pertimbangkan. Ketiga, perhatikan puncak terbesar dan koneksi paling gemuk. Ini adalah elemen khusus yang menjadi sandaran segalanya.
Jadi, setelah membuat grafik komunitas ahli yang menghadiri acara di Boiling Point, kami segera menemukan peserta yang paling mungkin bertindak sebagai superkonektor. Mereka adalah "puncak" di mana cluster disatukan menjadi satu kesatuan. Dan dalam kasus kedua, kami melihat bagaimana konsentrasi spesialis dari perusahaan Tomsk terlihat dari sudut pandang kepemilikan mereka terhadap pasar dan teknologi digital ujung-ke-ujung di mana mereka bergantung. Ini secara tidak langsung menunjukkan tingkat kompetensi teknologi dan keahlian di wilayah tersebut.

Bantuan grafik dalam memahami realitas di sekitarnya benar-benar hebat, jadi jangan malas dan coba buat visualisasi data Anda sendiri. Sama sekali tidak sulit, tetapi terkadang padat karya.

All Articles