Perbandingan adegan rap Rusia menggunakan teknik R dan Text Mining. Noize Mc, Oxxxymiron, Paman Zhenya. Episode 2

R. Penambangan Teks. Rap. Episode 2


Artikel ini merupakan kelanjutan dari materi “Perbandingan adegan rap Rusia menggunakan teknik R dan Text Mining. "Noize Mc dan Kasta vs Firaun dan Morgenshtern" dan sekarang saya akan mencoba menganalisis secara rinci karya Noise Ms dan Oksimiron. Namun, saya ingin mencatat bahwa ini tidak akan menjadi perbandingan antara keduanya. Tujuan artikel ini bukan untuk menunjukkan yang mana dari mereka yang lebih keren, tetapi untuk menyampaikan kedalaman dan keragaman musik mereka, yang kami memiliki kesempatan untuk menikmati secara real time. Kami sangat beruntung bahwa kami dapat mengikuti kesuksesan mereka dan pergi ke konser mereka. Dalam materi ini tidak akan ada perbandingan seperti pada bagian pertama, tidak akan ada perbedaan yang kuat.

Kali ini, analisis juga dilakukan dengan menggunakan R, Python, dan Genius.com API. Anda dapat membaca lebih lanjut di bagian pertama , karena saya tidak ingin mengulanginya.

Mereka yang bahkan sedikit akrab dengan karya Noise Ms dan Oksimiron akan setuju bahwa pasti, kata-kata yang digunakan oleh para seniman ini akan sangat berbeda karena tema lagu yang berbeda. Misalnya, banyak lagu lulusan Oxford dan diploma Oksimiron dalam sastra Inggris abad pertengahan memiliki banyak referensi tentang agama dan sejarah. Misalnya, trek yang disebut "Menara Gading". Hanya sedikit orang yang tahu bahwa metafora ini pertama kali digunakan dalam Kidung Alkitab “oleh nyanyian Salomo”: “Lehermu seperti tiang gading” dan secara kiasan berarti area aspirasi tinggi, jauh dari hiruk pikuk dunia dan kekhawatirannya. Oleh karena itu, tidak mengherankan bahwa banyak dari teks-teksnya yang tampak sulit untuk persepsi dan pemahaman, begitu banyak sehingga untuk bantuan dalam memecahkan kode mereka beralih keAnatoly Wasserman .

Di sisi lain, Noise Ms memfokuskan karyanya pada khalayak yang lebih luas, sehingga bahasa musiknya dapat dimengerti dan dekat dengan sejumlah besar orang. Juga, banyak lirik Ivan (nama asli Noise Ms) ditulis "di sini dan sekarang" dan menceritakan tentang peristiwa terkini pada saat penulisan. Misalnya, trek "Mercedes S-666" ditulis setelah kecelakaan yang terjadi pada Leninsky Prospekt pada 2010, ketika wakil presiden Lukoil Anatoly Barkov dan dua wanita, Olga Alexandrina dan Vera Sedelnikova, menjadi peserta kecelakaan lalu lintas. meninggal dalam kecelakaan itu. Polisi lalu lintas Moskow menyatakan bahwa Aleksandrina dan Sedelnikova yang harus disalahkan. Saksi mata mengklaim bahwa ini bukan masalahnya.

Sebagai permulaan, dengan analogi dengan artikel sebelumnya, saya menghitung jumlah total kata untuk Noise Ms - 56 473 (157 lagu) dan Oxymiron - 16 540 (39 lagu). Oksimiron diambil untuk analisis 2 dari album resminya + Mikstape nomor 2, yang pertama memutuskan untuk mengecualikan, karena, di hampir semua karya, Oksimiron hanya melakukan satu bait.

Ini adalah bagaimana jumlah kata unik terlihat setelah menghapus kata berhenti.

gambar

Seperti yang Anda lihat, Noise Ms dan Oksimiron hanya menggunakan 2209 kata-kata umum dalam teks mereka. Lebih dari 50% kosakata masing-masing seniman adalah unik, yang tidak diragukan lagi menunjukkan perbedaan dalam gaya penulisan mereka. Saya berani menyarankan bahwa jumlah kata unik di Oksimiron akan lebih tinggi jika jumlah album dan lagu bahkan sedikit lebih dekat dengan Noise. Sebagai perbandingan, Leo Nikolayevich Tolstoy dalam karyanya "Anna Karenina" memiliki 12.752 kata-kata unik dari 253.311.

Agar saya dapat dengan mudah dan jelas melihat kata-kata paling populer dari Noise Ms dan Oxymiron, saya mengumpulkannya ke dalam awan kata.

gambar

Serta kata-kata yang umum bagi mereka.

gambar

Lalu saya punya beberapa pertanyaan logis. Kata mana yang dianggap lebih populer dan mudah diingat oleh artis ini atau itu? Kata-kata apa yang menjadi ciri karyanya lebih kuat? Mereka yang sering dia katakan dalam satu lagu, tetapi dalam jumlah yang lebih sedikit, atau yang dia sebutkan, anggap sekali, tetapi dalam lebih banyak lagu.

Sangat sulit untuk membuat kesimpulan yang jelas. Memang, berdasarkan artikel pertama, kata "tyr" adalah yang paling populer di kalangan Kasta, tetapi mereka yang akrab dengan pekerjaan mereka segera menunjukkan bahwa sulit untuk menyebut kata ini salah satu yang mendefinisikan untuk band ini, karena hampir selalu diucapkan satu lagu "Tyrim". Oleh karena itu, seseorang mungkin tidak pernah menyalakan trek dengan kata yang paling sering disebutkan, tetapi seseorang sebaliknya akan mengetahui dan mengaitkan artis secara eksklusif dengan lagu ini. Misalnya, bagi saya, Caste akan selalu dikaitkan dengan kata-kata dari lagu "Around the Noise" ("Jangan merebus semuanya nishtyak").

Jika kita mengambil kata yang digunakan di lebih banyak lagu, maka kemungkinan kata ini akan didengar dan dihubungkan dengan karya seniman tertentu jauh lebih tinggi.

Seperti yang sudah saya katakan, kedua pendekatan memiliki hak untuk eksis dan memiliki kekuatan dan kelemahan, oleh karena itu, untuk memberikan gambaran lengkap kepada pembaca, saya menganalisis teks Noise Ms dan Oxymiron dalam dua cara.

Ini adalah bagaimana penjajaran kata-kata yang paling umum digunakan terlihat seperti di Noise Ms dan Oksimiron. Arti pertama adalah kata-kata yang paling populer di kalangan artis, yang kedua adalah kata-kata yang disebutkan dalam lebih banyak lagu. Tanpa kata-kata berhenti.

gambar

gambar

Jika Anda mempelajari data dengan hati-hati dalam tabel, menjadi jelas bahwa sebagian besar kata adalah umum dan tidak mempengaruhi gaya teks. Namun, ada kata-kata yang menonjol dengan latar belakang umum, dan mereka menciptakan keunikan gaya penulis.

Untuk memahami bagaimana teks Noise Ms dan Oksimiron berbeda dari karya lain dan teks yang ditulis dalam bahasa Rusia, saya membandingkan data untuk kata-kata yang paling sering digunakan (sebelum menghapus kata-kata henti) dengan statistik yang sama yang diambil dari kumpulan nasional bahasa Rusia . Sistem informasi dan referensi ini, berdasarkan pada kumpulan teks-teks Rusia dalam bentuk elektronik, berisi lebih dari 50.000 dokumen. Untuk mengkompilasi peringkat, 192 689 044 formulir kata digunakan.

gambar

Diharapkan bahwa kata-kata yang paling populer ternyata adalah preposisi, konjungsi, partikel, kata ganti, dll. Dibandingkan dengan puluhan ribu karya lain, Noise Ms dan Oksimiron bahkan memiliki persentase yang hampir sama dari penggunaan kata-kata ini.

Untuk menganalisis lebih akurat kesamaan / perbedaan teks, tidak cukup hanya mempertimbangkan kata-kata individual dan frekuensi penggunaannya, juga penting untuk mempertimbangkan penghubung mana yang dibuat oleh kata-kata ini, yang disebut bigrams, 3-frame, dll. Lagi pula, dengan menggunakan kosakata yang sama, Anda dapat menyusun kalimat dan frasa yang berbeda artinya. Setelah menganalisis koneksi mana yang membentuk kata-kata tertentu, orang dapat menarik kesimpulan yang lebih percaya diri tentang kesamaan atau perbedaan.

Ini adalah bagaimana bigramas paling populer terlihat di Noise dan Oxymyron. Saya kembali membandingkan mereka dengan informasi dari korpus bahasa Rusia.

gambar

Dan lagi, seperti halnya dengan perbandingan bentuk kata yang biasa, hubungan kata-kata antara seniman dan korpus bahasa Rusia sangat mirip, tetapi ada unsur-unsur terkemuka yang membedakan tema dan gaya para seniman.

Poin yang sangat penting, kontroversial dan kontroversial bagi saya adalah penentuan luasnya dan keragaman kosa kata penulis. Bagaimana melakukan ini tanpa beralih ke kamus untuk interpretasi makna kata-kata dan definisi subjek mereka? Apakah fleksibilitas kreativitas menentukan jumlah total kata dalam karya? Atau kunci jumlah kata-kata unik? Dalam kasus pertama, Anda cukup menggunakan kata-kata yang sama di semua lagu, dan hanya mengambil nomornya. Pada yang kedua, banyak kata unik dapat digunakan dalam n-number lagu, dan kemudian memanipulasi kata yang sama. Seperti yang Anda lihat, kedua pendekatan memiliki banyak syarat.

Oleh karena itu, saya membuat asumsi bahwa frekuensi artis menggunakan kata-kata unik dalam lagu mereka dapat memberi tahu kita tentang luasnya. Semakin banyak kata unik yang digunakan dalam lagu yang lebih sedikit, semakin percaya diri seseorang dapat mengatakan bahwa topiknya berbeda. Entah pemainnya adalah ahli sinonim, dan kemudian temanya sama, tetapi kata-katanya berbeda, yang juga tidak diragukan lagi bagus, karena menunjukkan luasnya pengetahuan bahasa Rusia.
Di bawah ini adalah tabel yang menunjukkan berapa banyak kata yang digunakan dalam berapa banyak lagu. Misalnya, kata "punk" hanya digunakan dalam 1 lagu, tetapi mungkin beberapa kali. Dan semakin banyak kata yang digunakan hanya dalam satu karya - semakin tinggi keunikannya. Demi kenyamanan, ukuran ini saya panggil - "Indeks Keunikan Kata-kata". Semakin tinggi nilainya, semakin unik dan beragam teks.

Untuk kejelasan pemahaman, saya akan memberikan contoh dari tabel: Noise Ms menggunakan 5.451 kata-kata unik hanya dalam satu lagu (mungkin beberapa kali), 1467 kata-kata unik digunakan olehnya dalam dua karya, dll. Dia menggunakan 12 kata unik di lebih dari 40 lagu.

gambar

Seperti yang Anda lihat, persentase keunikan dalam grup kira-kira sama untuk dua seniman. Hanya lebih dari 60% Noise Ms dan sebanyak 75% dari kata-kata unik Oxymiron digunakan hanya dalam satu lagu.

Akan menarik untuk membandingkan indikator-indikator ini, misalnya, dengan musik pop, di mana temanya tidak begitu luas, karena awalnya musik rap adalah musik protes. Pelaku mengangkat topik sulit untuk diri mereka sendiri dan masyarakat, mencoba memahaminya, atau membagikan alasan mereka. Musik pop lebih dirancang untuk menghibur dan menenangkan pendengar, lebih mudah.

Tapi, saya ingin menekankan bahwa saya sama sekali tidak membandingkan rap dengan pop dalam contoh ini. Saya menunjukkan hasil analisis karya dua seniman berbakat - Noise Ms dan Oksimiron.
Tentang kata-kata, jumlah dan keunikan mereka telah dikatakan, jika tidak hampir semuanya, maka banyak. Tapi apa lagi yang bisa memengaruhi persepsi teks yang bisa didengar? Dalam kasus artis rap, ini, tentu saja, adalah kecepatan kata-kata yang diucapkan. Kecepatan dan kualitas pengucapan kata-kata, tentu saja, mempengaruhi persepsi dan pemahaman teks.

Di bawah ini adalah kecepatan pengucapan kata per unit waktu (satu detik). Anda juga dapat berkenalan dengan statistik lagu-lagu dengan jumlah kata terbanyak, serta dengan karya-karya dengan kecepatan tertinggi "membaca".

gambar

Noise Ms memiliki tingkat pengucapan kata rata-rata 1,77 kata per detik. Ini sudah diduga, karena banyak lagu Noise yang memiliki unsur nyanyian “tradisional” yang memperpanjang waktu pengucapan kata tersebut. Dan gaya lagu-lagunya bukan rap murni atau hip-hop, tetapi lebih sering campuran rock dan rap.

gambar

Oxymiron memiliki rata-rata jumlah kata yang diucapkan per detik lebih tinggi daripada rekannya - 2,55 kata per detik.

Lagu XXX Shop, kemungkinan besar, harus dikeluarkan dari statistik ini, karena mengandung 2 ayat dalam bahasa Inggris dan mereka ditampilkan oleh artis lain. Namun, kami mendengarkan lagu secara keseluruhan, tanpa membaginya menjadi artis. Noise Ms juga memiliki banyak kolaborasi.

Berdasarkan analisis, kita dapat mengatakan beberapa hal dengan aman. Pertama, kedua penulis dalam karya mereka dengan percaya diri menggunakan semua kekayaan yang disediakan oleh bahasa Rusia. Kedua, sebagian besar kata-kata yang membentuk lagu-lagu mereka umumnya digunakan dan populer di kalangan penulis lain, namun, beberapa bentuk kata dan bigrams yang merupakan ciri khas hanya dari mereka yang dapat dibedakan. Dan ketiga, musik Noise MS dan Oxymiron berbeda, baik dalam gaya, subjek, dan kosa kata, yang mereka gunakan. Dan pastinya, musik ini yang patut mendapat perhatian.

Juga, saya berharap metode yang disajikan untuk menganalisis teks para pemain akan tampak bermanfaat dan dapat diakses oleh Anda. Memang, analisis musik, termasuk rap, harus berbeda dari analisis karya sastra yang biasa. Dalam kasus kedua, penekanannya adalah pada panjang kalimat, jumlah suku kata dalam kata-kata, jumlah kata dalam kalimat, jumlah kata benda / kata sifat / belokan, dll. Menurut pendapat saya, dalam musik rap ini tidak masuk akal, karena kalimat-kalimat digabungkan menjadi satu keseluruhan selama membaca. Kata-kata diucapkan dengan sangat cepat, dan di sini penting untuk setidaknya melacak apa yang dibaca oleh pelaku.

Beri komentar, kritik. Lagi pula, semakin banyak ulasan, semakin cepat dan efisien kita akan dapat meningkatkan metode terkenal dalam menganalisis karya musik.

Bonus Paman Jenya


Paman Zhenya . Hanya sedikit orang yang akrab dengan karyanya, tetapi orang ini unik dan keunikan ini diungkapkan dalam teks. Mereka kompleks dalam struktur dan sangat penuh dengan makna dan konten yang mendalam. Sebutkan Nietzsche, Castaneda, gambar-gambar dari mitologi, permainan kata dan refrain komposisi. Saya menyarankan semua orang untuk berkenalan dengan pekerjaannya.

Tinjauan atas teksnya akan singkat, karena dibuat bonus atas permintaanpukat. Dari kata-kata hingga perbuatan.

Saya berhasil menemukan 14 lagu Paman Zhenya dengan lirik. Di dalamnya ia menggunakan 10.064 kata, dan 5.756 setelah menghapus kata berhenti. Jumlah kata-kata unik adalah 2750. Ini adalah kata cloud yang terdiri dari daftar yang paling populer.

gambar

Tentu saja, hip-hop adalah satu kata, tetapi saat memproses teks, semua bentuk kata dibagi menjadi token.

Beginilah tampilan kata-kata paling populer dan paling sering digunakan dalam teks.

gambar

Menariknya, pinggul digunakan sekali lagi daripada hop.

Maka, Paman Zhenya mengendalikan kosakata dalam teks. Dia menggunakan 72% dari 2.750 kata unik hanya dalam satu karya (mungkin beberapa kali). Yang lagi dapat berbicara tentang berbagai topik dalam karyanya. Secara umum, indikatornya sangat mirip dengan Oxymiron.

gambar

Dan akhirnya, saya ingin menunjukkan lagu dengan kata-kata terbanyak dan kecepatan membaca tertinggi.

gambar

Kecepatan Paman Zhenya bahkan lebih tinggi dari Oxymiron.

tamat


All Articles