Perbandingan adegan rap Rusia menggunakan teknik R dan Text Mining. Noize Mc dan Kasta vs Firaun dan Morgenshtern

R. Penambangan Teks. Rap


Popularitas banyak artis rap kontemporer tetap menjadi misteri bagi saya dan pengikut lain dari "sekolah lama". Perdebatan konstan tentang siapa yang lebih baik, yang liriknya lebih menarik, yang musiknya lebih beragam menempati pikiran banyak pengguna Internet. Untuk mengkonfirmasi perselisihan ini, tidak hanya dengan kata-kata, tetapi dengan fakta, saya menganalisis teks-teks dari empat artis rap Rusia, menggunakan bahasa pemrograman R.

Beberapa dari mereka sangat populer di awal tahun 2000-an. Sekarang mereka semua juga menarik pendengar mereka, tetapi, sayangnya, mereka menjadi semakin kurang. Dan dua sekarang berada di puncak popularitas mereka dan menarik khalayak luas dan kebanyakan muda. Dan analisis saya selanjutnya akan menunjukkan bahwa mengingat kosakata yang mereka gunakan, fakta ini tidak menimbulkan kegembiraan. Untuk mengetahui siapa yang akan cukup sederhana, karena artis yang lagu-lagunya saya gunakan adalah: Caste, Noize-Mc, Firaun dan Morgenstern. Saya pikir semua orang mengerti bahwa saya akan merujuk Kasta dan Kebisingan ke "sekolah lama", dan Firaun dan Morgenstern ke "baru".

Album Analisis


Untuk analisis, saya memilih semua album resmi studio yang dirilis oleh para artis (informasi tentang album diambil dari situs www.wikipedia.com , semua literatur ada di akhir):

  1. Kasta: « , »; « »; « »; « » — 74 .
  2. Noize Mc: «The Greatest Hits Vol. 1»; « »; « »; «Protivo Gunz»; «»; «Hard Reboot 3.0»; « »; «: & » — 160 .
  3. Pharaoh: «»; «Phlora»; «Dolor»; «Phosphor»; «Pink Phloyd»; «Phuneral»; «» — 95 .
  4. Morgenshtern: « »; «, !»; « » — 30 .

Saya secara khusus memilih seniman yang disebutkan di atas sebagai bahkan mereka yang bahkan sedikit akrab dengan karya mereka akan setuju bahwa teksnya sangat berbeda (Casta + Noise vs Firaun + Morgenstern) dan akan menarik untuk membandingkan mereka satu sama lain. Sebuah pertanyaan logis muncul: bagaimana bisa secara obyektif dan benar membandingkan empat album Kasta dan delapan album Firaun? Semuanya sangat sederhana - setelah beberapa manipulasi, yang akan saya bahas nanti, volume kata akan menjadi lebih atau kurang sebanding. Lagi pula, seperti yang diketahui semua orang, kuantitas tidak sama dengan kualitas.
Untuk mengumpulkan kata-kata sendiri, saya menggunakan situs web genius.com dan API mereka. Untungnya, pengembang layanan menyediakan antarmuka pemrograman aplikasi terbuka (API) yang membuatnya cukup mudah untuk mengekstrak lirik (berdasarkan artis, album) dari database untuk analisis selanjutnya.

Semua analisis dilakukan menggunakan bahasa pemrograman R, ditambah untuk stemming (proses menemukan basis kata untuk kata sumber yang diberikan) python digunakan, karena tidak dapat mengatasi pengkodean dalam R dan program sistem (Windows 10 tidak suka berteman dengan UTF-8 dan R, mereka mengatakan menggunakan OS apel atau Linux masalah seperti itu tidak muncul).

Sebelum diproses. Jelajahi Teks. Jumlah kata


Untuk mengunduh lirik digunakan perpustakaan "genius". Fungsi dari paket ini "genius_album" sangat mudah memungkinkan Anda untuk mengunduh semua teks di album sekaligus. Hati-hati dan periksa, karena tidak semua lirik selalu tersedia untuk semua artis, beberapa di antaranya harus ditambahkan secara manual. Setelah mengunduh, menjadi menarik berapa banyak kata yang digunakan dalam lagu secara keseluruhan (bersama dengan kata ganti, preposisi, partikel, dll.). Kemudian kami membandingkan angka-angka ini dengan hasil kata batang yang sudah diproses dan dihentikan. Untuk membuatnya lebih mudah untuk memahami rasio jumlah album dan trek dengan jumlah kata yang digunakan, saya akan menggandakan informasi ini sekali lagi:

  1. Album Noize Mc - 8, 160 trek.
  2. Casta - 4 album, 74 trek.
  3. Firaun - 7 album, 95 trek.
  4. Morgenstern - 3 album, 30 trek.

gambar

Menariknya, Firaun dan Noise memiliki jumlah album yang hampir sama (masing-masing tujuh dan delapan), tetapi, seperti dapat dilihat dari grafik, kualitas album sangat berbeda baik dalam jumlah lagu maupun dalam kekayaan kosa kata (57962 vs 24184).

Untuk meminimalkan perbedaan ini dan membuat perbandingan lebih benar dan benar, dihitung berapa banyak kata yang digunakan oleh seorang artis biasa dalam salah satu lagunya:

  1. Noize Mc - 362 kata.
  2. Kasta - 388 kata.
  3. Firaun - 254 kata.
  4. Morgenstern - 273 kata

Jelas bahwa perbandingan semacam itu bersifat kondisional dan agak mendekati, tetapi angka-angka berbicara sendiri.

Dan ini adalah bagaimana 10 kata teratas dari masing-masing artis terlihat dan jumlah referensi untuk kata-kata ini:

gambar

gambar

Seperti yang diharapkan, tanpa memproses "kata-kata teratas" adalah preposisi, kata ganti dan kata sambung yang tidak mencerminkan hasil apa pun dan tidak membawa beban semantik khusus. Karena itu, pada tahap ini, tidak ada hal yang menarik atau tidak terduga terjadi.

Langkah selanjutnya adalah pemrosesan dan persiapan teks untuk analisis. Proses stemming dilakukan menggunakan program sistem dari Yandex di Python, yang tersedia untuk semua orang. Langkah ini diambil untuk memahami berapa banyak kata unik yang digunakan seniman dan seberapa luas mereka menggunakan bahasa Rusia dalam teks mereka. Lagi pula, akan menjadi kesalahan untuk menghitung kata yang sama dalam beberapa kasus yang berbeda beberapa kali. Ini menunjukkan variabilitas dan kemampuan penyanyi untuk membujuk, alih-alih luasnya kosa katanya.

Juga, untuk mendapatkan hasil yang lebih representatif, perlu untuk menyingkirkan kata-kata berhenti yang tidak membawa muatan emosional dan semantik (preposisi, kata ganti, partikel, dll.). Sayangnya, tidak ada perpustakaan yang baik dalam paket R yang berisi kata-kata berhenti untuk bahasa Rusia. Saya ingin menarik perhatian Anda pada fakta bahwa penulis sendiri harus menentukan apakah kata ini atau itu adalah kata berhenti dan apakah kata itu harus dihapus. Selalu teliti kamus jenis ini agar tidak menghilangkan kata yang tepat dan berguna bagi Anda. Paket stopwords mendukung beberapa bahasa, tetapi saya lebih suka menggunakan kata-kata dari sumber eksternal dengan penyempurnaan saya sendiri.

Setelah diproses


Seperti yang dapat Anda lihat dari grafik, jumlah kata telah berkurang secara signifikan setelah mencap dan menghapus kata-kata berhenti. Ini tidak mengherankan mengingat bahwa hampir semua kata-kata asli paling populer telah berhenti.

gambar

Secara umum, jumlah kata yang tersisa setelah dicap dan dihapus kata berhenti, sebagai persentase dari angka awal, praktis sama untuk semua orang. Perlu dicatat bahwa mereka setara dalam kelompok. Di "sekolah lama" itu adalah 55-58%, di "baru" 46-50%.
Informasi yang sangat penting dan menarik adalah jumlah kata unik yang dimiliki masing-masing artis. Bagi Noise, ini adalah 8891 kata, untuk Kasta 5307, untuk Firaun 3899 dan untuk Morgenstern 1242. Siapa pun yang ingin memperluas kosa katanya sedikit tetapi tidak ingin membaca buku dapat mendengarkan Noize Mc dan Caste.

Tentu saja, banyak yang tertarik pada kata-kata apa yang memimpin sekarang, setelah diproses. Saya menyajikan grafik dengan 10 kata teratas untuk setiap artis:

gambar

gambar

Tentunya, banyak pembaca yang dikejutkan oleh kata-kata dengan tanda bintang. Firaun dan Morgenstern benar-benar memiliki banyak kata-kata kotor dalam teks, yang, menurut pendapat pribadi saya, memiliki efek yang agak negatif pada struktur penuh teks dan persepsinya. Dua pemain ini memiliki kata yang sama di posisi kedua. Sebuah kata yang dengan sempurna menunjukkan semangat dan budaya musik mereka. Beberapa saat kemudian, saya akan menunjukkan dengan jelas nada emosi apa yang memimpin dalam lirik para pemain.

Kata-kata umum Perbandingan kata


Untuk membuat informasi lebih visual, saya menempatkan semua kata-kata para pemain di satu bagan menggunakan fungsi "compar.cloud" dari paket "wordcloud" untuk ini, lebih mudah untuk membandingkan dan merasakannya (dan sekali lagi kita bisa melihat bagaimana tikar menonjol). Menunjukkan kata-kata dengan plot bar bisa sangat bermasalah, karena dengan lebih banyak dari mereka, banyak ruang diperlukan. Juga fungsi yang baik dari paket dengan nama yang sama adalah "wordcloud2": ketika Anda mengarahkan kursor ke sebuah kata, sebuah jendela muncul yang menunjukkan frekuensi penggunaannya.

gambar

Karena artis menggunakan bahasa yang sama untuk menulis lagu mereka, akan menarik untuk dilihat, tanpa membaginya menjadi artis, kata mana yang paling sering mereka gunakan. Fungsi commonality.cloud dari paket wordcloud digunakan untuk grafik ini. Ukuran font sesuai dengan frekuensi menyebutkan kata dalam teks.

gambar

Analisis teks sentimental


Setiap film, buku, atau lagu memiliki suasana hati masing-masing, yang ditransmisikan kepada penonton atau pendengar dan memengaruhi mereka. Sangat menarik untuk melihat bagaimana suasana yang disiarkan oleh para pemain sekolah lama dan baru kepada siswa mereka. Anda dapat mengetahuinya dengan menganalisis kata-kata dari kategori mana: "Negatif", "Positif", "Netral" berlaku dalam lagu-lagu musisi. Seperti yang diharapkan, untuk bahasa Rusia tidak ada kamus berkualitas tinggi dengan analisis kata sentimental untuk R (jika seseorang mengetahui hal ini, silakan bagikan). Karena itu, saya harus menggunakan yang eksternal dengan upgrade saya (tautan ke kamus di akhir teks).

Tidak semua kata memiliki korespondensi dalam kamus, yang tentu saja sedikit sedih, dengan bahasa Inggris masalah seperti itu praktis tidak muncul. Karena itu, saya memutuskan untuk menunjukkan pewarnaan emosional dari kata-kata yang paling sering diulang. Kata-kata inilah yang paling sering didengar pendengar, dan mereka yang memiliki efek paling kuat terhadapnya dan menentukan persepsi seluruh lagu. Secara umum, jika pembaca bahkan sedikit akrab dengan karya semua penulis, maka dia tidak akan terkejut. Nah, jika untuk seseorang nama yang dianalisis adalah baru, maka silakan sambut, berkenalan dengan pekerjaan mereka. Di bawah ini Anda dapat melihat grafik. Untuk semua artis, kata-kata yang paling sering digunakan ditampilkan.

Morgenstern. Tingkat pengulangan kata lebih dari 10 kali. Banyaknya kolom merah menonjol cukup kuat, dan jika Anda memilah-milah apa kata-kata ini, menjadi dua kali lipat sedih dari pesan apa yang dibawakan seniman ini kepada audiensnya.

gambar

Firaun . Kamus juga meninggalkan banyak hal yang diinginkan. Frekuensi lebih dari 20 kali.

gambar

Berikutnya adalah waktu bagi orang-orang tua di dunia musik rap Rusia. Mereka yang benar-benar tidak memalukan, dan dapat direkomendasikan untuk mendengarkan.

Kasta . Dominasi kata yang cerah dengan konotasi positif. Dan kata-kata negatif tidak mengejutkan dengan amoralitas mereka. Frekuensi> = 25

gambar

Dan akhirnya, master sajak dan kata-kata Noize Mc (frekuensi> = 30).

gambar

Banyaknya kosakata berwarna negatif, yang digunakan Morgenstern dan Firaun dalam lagu-lagu mereka, memengaruhi persepsi lagu-lagu mereka dan suasana hati yang mereka siarkan. Sulit untuk mendapatkan emosi yang menyenangkan dari musik ketika melakukan yang terbaik untuk memaksa Anda melakukan yang sebaliknya.
Karena kamus yang digunakan dengan analisis sentimental tidak mengandung semua kata, sulit untuk menarik kesimpulan 100% dan pasti tentang suasana lagu oleh para seniman, karena banyak juga tergantung pada konteksnya. Namun, saya akan menunjukkan kepada Anda berapa banyak dan apa kata-kata yang digunakan para seniman (dari apa yang mereka lampirkan).

gambar

Jelas, sebagian besar kata-kata dari semua seniman memiliki warna netral, yang secara praktis tidak mempengaruhi pendengar. Tetapi, yang menarik, Firaun dan Morgenstern menggunakan lebih banyak kata dengan konotasi negatif daripada dengan yang positif. Dan ini, meskipun inferioritas kamus dan kurangnya banyak kata-kata cabul dan variasinya (kamus berisi 28.248 kata dan saya harus menambahkan beberapa dari mereka secara manual).

gambar

Caste dan Noise Ms juga dipimpin oleh kata-kata netral, tetapi di tempat kedua adalah yang positif yang tidak menyebabkan kita emosi negatif.

Ya, tentu saja, saya tidak dapat mengevaluasi pengaruh konteks dalam jenis analisis ini dan, misalnya, kata "cinta" dapat digunakan dengan partikel "tidak" dan memiliki konotasi negatif. Tetapi Anda harus mengakui, frasa "Aku tidak mencintaimu" lebih menyenangkan daripada frasa "Aku benci kamu." Dan negatif dari frasa ini tidak akan dikoreksi bahkan oleh partikel “tidak”. Semua sama, kita hanya akan mendengar kata "Benci."

Selera musik adalah masalah individu dan semua orang memutuskan apa yang harus didengarkan. Tetapi perhatikan grafik dan pikirkan bagaimana Anda ingin mengisi kehidupan sehari-hari Anda. Musik menyertai kita di mana-mana dan seringkali sangat memengaruhi suasana hati kita, jadi mengapa secara sadar membuatnya semakin buruk setiap hari?

Secara umum, artikel ini juga tentang fakta bahwa pemrograman dapat menarik dan dapat diterapkan di berbagai bidang. Ini dapat menunjukkan informasi yang sudah akrab dari sudut pandang baru, membuat Anda berpikir tentang apa yang tampak jelas atau tidak penting. Itu hanya tergantung pada Anda apa yang akan disembunyikan di balik baris kode dan apa yang menarik mereka akan katakan.

Pelajari bahasa pemrograman, kembangkan dan dengarkan musik berkualitas untuk menulis yang membutuhkan lebih dari tujuh hari waktu online di YouTube. Bagi mereka yang tidak tahu, album Morgenstern "Legendary Dust" direkam 6 hari selama siaran online di YouTube dan, sebagai hasilnya, menjadi yang paling sukses dalam karier Morgenstern, mendapatkan VKontakte satu juta drama dalam setengah jam pertama rilis dan lima juta drama dalam sebelas jam. Dalam dua hari pertama setelah rilis, album ini didengarkan oleh VKontakte lebih dari 21 juta kali, yang merupakan rekor untuk jejaring sosial.

Daftar literatur yang digunakan:

1. ru.wikipedia.org/wiki/Noize_MC
2. ru.wikipedia.org/wiki/Pharaoh
3. ru.wikipedia.org/wiki/Casta_ (grup)
4.ru.wikipedia.org/wiki/Morgenstern_ (musisi)
5. github.com/stopwords-iso/stopwords-ru/blob/master/stopwords-ru.txt (kata berhenti)
6. github.com/dkulagin/kartaslov/ tree / master / dataset / emo_dict (kamus sentimen).
Lisensi: creativecommons.org/licenses/by-nc-sa/4.0
7. ru.wikipedia.org/wiki/Legendary_Dust

All Articles