Comparaison de scènes de rap russe en utilisant les techniques de R et de Text Mining. Noize Mc, Oxxxymiron, oncle Zhenya. Épisode 2

R. Text Mining. Rap. Épisode 2


Cet article est une continuation de la matière «Comparaison des scènes de rap russes en utilisant les techniques R et Text Mining. "Noize Mc et Kasta vs Pharaoh and Morgenshtern" et maintenant je vais essayer d'analyser en détail le travail de Noise Ms et Oksimiron. Cependant, je tiens à noter que ce ne sera pas une comparaison entre les deux. Le but de cet article n'est pas de montrer lequel d'entre eux est le plus cool, mais de transmettre la profondeur et la diversité de leur musique, dont nous avons la possibilité de profiter en temps réel. Nous avons la chance de pouvoir suivre leurs succès et aller à leurs concerts. Dans ce matériau, il n'y aura pas de comparaison comme dans la première partie, il n'y aura pas un contraste aussi fort.

Cette fois, l'analyse a également été effectuée à l'aide de R, Python et de l'API Genius.com. Vous pouvez en lire plus dans la première partie , car je ne veux pas la répéter.

Ceux qui sont même un peu familiers avec le travail de Noise Ms et Oksimiron conviendront que pour sûr, les mots utilisés par ces artistes seront très différents en raison des différents thèmes des chansons. Par exemple, de nombreuses chansons des diplômés d'Oxford et le diplôme d'Oksimiron en littérature médiévale anglaise ont de nombreuses références à la religion et à l'histoire. Par exemple, une piste intitulée «Ivory Tower». Peu de gens savent que cette métaphore a été utilisée pour la première fois dans la chanson biblique «par la chanson de Salomon»: «Votre cou est comme un pilier d'ivoire» et signifie allégoriquement une zone de hautes aspirations, loin de l'agitation du monde et de ses inquiétudes. Par conséquent, il n'est pas surprenant que beaucoup de ses textes semblent difficiles à percevoir et à comprendre, à tel point que pour l'aide au décodage, ils se tournent versAnatoly Wasserman .

D'un autre côté, Noise Ms concentre son travail sur un public plus large, donc le langage de sa musique est compréhensible et proche d'un très grand nombre de personnes. De plus, de nombreuses paroles d’Ivan (de son vrai nom Noise Ms) sont écrites «ici et maintenant» et parlent des événements actuels au moment de la rédaction. Par exemple, la piste «Mercedes S-666» a été écrite à la suite d'un accident survenu sur Leninsky Prospekt en 2010, lorsque la vice-présidente de Lukoil Anatoly Barkov et deux femmes, Olga Alexandrina et Vera Sedelnikova, sont devenues des participantes à l'accident de la circulation. est mort dans cet accident. La police de la circulation de Moscou déclare que Aleksandrina et Sedelnikova sont à blâmer. Des témoins oculaires affirment que ce n'est pas le cas.

Pour commencer, par analogie avec l'article précédent, j'ai calculé le nombre total de mots pour Noise Ms - 56 473 (157 chansons) et pour Oxymiron - 16 540 (39 chansons). Oksimiron a été pris pour l'analyse 2 de son album officiel + Mixtape numéro 2, le premier qu'il a décidé d'exclure, car, dans presque toutes les œuvres, Oksimiron ne joue qu'un seul couplet.

Voici à quoi ressemble le nombre de mots uniques après la suppression des mots vides.

image

Comme vous pouvez le voir, Noise Ms et Oksimiron n'utilisent que 2209 mots communs dans leurs textes. Plus de 50% du vocabulaire de chaque artiste est unique, ce qui indique sans aucun doute la différence dans leurs styles d'auteur. Je me risquerais à suggérer que le nombre de mots uniques dans Oksimiron serait encore plus élevé si le nombre d'albums et de pistes était encore un peu plus proche de Noise. À titre de comparaison, Leo Nikolaïevitch Tolstoï dans son œuvre "Anna Karenina" a 12 752 mots uniques sur 253 311.

Pour que je puisse facilement et clairement voir les mots les plus populaires de Noise Ms et Oxymiron, je les ai rassemblés dans des nuages ​​de mots.

image

Ainsi que des mots qui leur sont communs.

image

Ensuite, j'ai eu quelques questions logiques. Quel mot est considéré comme le plus populaire et le plus mémorable par tel ou tel artiste? Quels mots caractérisent plus fortement son travail? Ceux qu'il a souvent dit dans une chanson, mais en moins grand nombre, ou ceux qu'il a mentionnés, supposent, une fois, mais sur plus de pistes.

Il est très difficile de tirer une conclusion sans ambiguïté. En effet, basé sur le premier article, le mot "tyr" était le plus populaire parmi les castes, mais ceux qui connaissent leur travail ont immédiatement indiqué qu'il était difficile d'appeler ce mot l'un des plus marquants pour ce groupe, car il était dit presque tout le temps une piste "Tyrim". Par conséquent, quelqu'un ne peut jamais tourner sur une piste avec le mot le plus souvent mentionné, mais quelqu'un au contraire connaîtra et associera l'artiste exclusivement à cette chanson. Par exemple, pour moi, Caste sera toujours associée aux paroles de la chanson «Around the Noise» («Ne faites pas bouillir tout nishtyak»).

Si nous prenons un mot qui a été utilisé dans plus de pistes, alors la probabilité que ce mot soit entendu et lié au travail d'un certain artiste est beaucoup plus élevée.

Comme je l'ai déjà dit, les deux approches ont le droit d'exister et ont des forces et des faiblesses.Par conséquent, afin de fournir aux lecteurs une image complète, j'ai analysé les textes de Noise Ms et d'Oxymiron de deux manières.

Voici à quoi ressemble la juxtaposition des mots les plus couramment utilisés dans Noise Ms et Oksimiron. La première signification est les mots les plus populaires parmi les artistes, la seconde est les mots qui sont mentionnés dans plus de chansons. Pas de mots vides.

image

image

Si vous étudiez attentivement les données des tableaux, il devient clair que la plupart des mots sont courants et n'affectent pas le style du texte. Cependant, il y a des mots qui se détachent sur le fond général, et ils créent l'unicité du style de l'auteur.

Pour comprendre en quoi les textes de Noise Ms et Oksimiron diffèrent des autres ouvrages et textes écrits en russe, j'ai comparé les données des mots les plus fréquemment utilisés (avant de supprimer les mots vides) avec les mêmes statistiques tirées du corpus national de la langue russe . Ce système d'information et de référence, basé sur une collection de textes russes sous forme électronique, contient plus de 50 000 documents. Pour compiler la note, 192 689 044 formes de mots ont été utilisées.

image

On s'attend à ce que les mots les plus populaires se révèlent être des prépositions, des conjonctions, des particules, des pronoms, etc. En comparaison avec des dizaines de milliers d'autres œuvres, Noise Ms et Oksimiron ont même eu presque le même pourcentage d'utilisation de ces mots.

Afin d'analyser plus précisément la similitude / différence des textes, il ne suffit pas de considérer uniquement les mots individuels et la fréquence de leur utilisation, il est également important de considérer quels connecteurs ces mots composent, les soi-disant bigrammes, 3 cadres, etc. Après tout, en utilisant le même vocabulaire, vous pouvez composer des phrases et des phrases de sens différent. Après avoir analysé les connecteurs qui composent certains mots, on peut tirer une conclusion plus confiante sur la similitude ou la différence.

Voici à quoi ressemblent les bigramas les plus populaires dans Noise et Oxymyron. Je les ai à nouveau comparés avec des informations du corpus de la langue russe.

image

Et encore une fois, comme dans le cas de la comparaison habituelle des formes de mots, les connecteurs des mots entre les artistes et le corpus de la langue russe sont très similaires, mais il existe des éléments importants qui distinguent les thèmes et le style des artistes.

Un point très important, controversé et controversé pour moi a été la détermination de l'étendue et de la diversité du vocabulaire des auteurs. Comment faire cela sans recourir aux dictionnaires pour l'interprétation du sens des mots et la définition de leur sujet? La polyvalence de la créativité détermine-t-elle le nombre total de mots dans les œuvres? Ou est la clé du nombre de mots uniques? Dans le premier cas, vous pouvez simplement utiliser les mêmes mots dans toutes les chansons et ne prendre que le nombre. Dans le second, de nombreux mots uniques peuvent être utilisés dans le nombre n de chansons, puis manipuler à nouveau les mêmes mots. Comme vous pouvez le voir, les deux approches ont de nombreuses réserves.

Par conséquent, j'ai fait l'hypothèse que la fréquence à laquelle les artistes utilisent des mots uniques dans leurs chansons peut nous en dire l'ampleur. Les mots les plus uniques utilisés dans moins de chansons, plus on peut dire avec confiance que les sujets sont différents. Soit l'interprète est un maître des synonymes, puis les thèmes sont les mêmes, mais les mots sont différents, ce qui est aussi sans aucun doute bon, car il montre l'étendue des connaissances de la langue russe.
Vous trouverez ci-dessous un tableau indiquant le nombre de mots utilisés dans le nombre de chansons. Par exemple, le mot "punks" n'a été utilisé que dans 1 chanson, mais peut-être plusieurs fois. Et plus les mots étaient utilisés dans une seule œuvre - plus l'unicité était élevée. Pour plus de commodité, cette mesure a été appelée par moi - «L'index de l'unicité des mots». Plus la valeur est élevée, plus le texte est unique et diversifié.

Pour plus de clarté, je vais donner un exemple du tableau: Noise Ms a utilisé 5 451 mots uniques dans une seule piste (éventuellement plusieurs fois), 1 467 mots uniques ont été utilisés par lui dans deux œuvres, etc. Il a utilisé 12 mots uniques dans plus de 40 pistes.

image

Comme vous pouvez le voir, le pourcentage d'unicité dans les groupes est approximativement le même pour deux artistes. Un peu plus de 60% des Noise Ms et jusqu'à 75% des mots uniques d'Oxymiron ont été utilisés dans une seule piste.

Il serait intéressant de comparer ces indicateurs, par exemple, avec la musique pop, où le thème n'est pas si large, car au départ le rap est une musique de protestation. Les interprètes soulèvent des sujets difficiles pour eux-mêmes et la société, tentent de les comprendre ou partagent leur raisonnement. La musique pop est plus conçue pour divertir et détendre les auditeurs, c'est plus facile.

Mais, je tiens à souligner que je ne compare en aucun cas le rap avec la pop dans cet exemple. Je montre les résultats d'une analyse du travail de deux artistes talentueux - Noise Ms et Oksimiron.
A propos des mots, leur nombre et leur unicité ont déjà été dit, sinon presque tout, puis beaucoup. Mais quoi d'autre peut affecter la perception du texte audible? Dans le cas des artistes rap, c'est bien sûr la vitesse des mots prononcés. La vitesse et la qualité de la prononciation des mots, bien sûr, affectent la perception et la compréhension du texte.

Voici la vitesse de prononciation des mots par unité de temps (une seconde). Vous pouvez également vous familiariser avec les statistiques des chansons avec le plus grand nombre de mots, ainsi qu'avec les œuvres avec la plus grande vitesse de «lecture».

image

Noise Ms a un taux moyen de prononciation des mots de 1,77 mots par seconde. C'était à prévoir, car de nombreuses chansons de Noise ont un élément de chant «traditionnel» qui allonge le temps de prononciation du mot. Et le style de ses chansons n'est pas du pur rap ou du hip-hop, mais le plus souvent un mélange de rock et de rap.

image

Oxymiron a un nombre moyen de mots prononcés par seconde supérieur à celui de son collègue - 2,55 mots par seconde.

Le morceau XXX Shop, très probablement, devrait être exclu de ces statistiques, car il contient 2 vers en anglais et ils sont interprétés par d'autres artistes. Cependant, nous écoutons les morceaux dans leur ensemble, sans les diviser en artistes. Noise Ms a également beaucoup de collaborations.

Sur la base de l'analyse, nous pouvons dire en toute sécurité quelques choses. Premièrement, les deux auteurs utilisent avec confiance toutes les richesses que leur offre la langue russe. Deuxièmement, la plupart des mots qui composent leurs chansons sont communs et populaires parmi d'autres auteurs, cependant, plusieurs formes de mots et bigrammes qui ne sont caractéristiques que d'eux peuvent être distingués. Et troisièmement, la musique de Noise MS et d'Oxymiron est différente, à la fois dans le style, le sujet et le vocabulaire qu'ils utilisent. Et définitivement, cette musique qui mérite attention.

Aussi, j'espère que les méthodes d'analyse des textes présentés par les interprètes vous sembleront utiles et accessibles. En effet, l'analyse de la musique, y compris le rap, devrait être différente de l'analyse habituelle des œuvres littéraires. Dans le second cas, l'accent est mis sur la longueur des phrases, le nombre de syllabes dans les mots, le nombre de mots dans les phrases, le nombre de noms / adjectifs / tours, etc. À mon avis, dans le rap, cela n'a pas de sens, car les phrases sont combinées en un tout pendant la lecture. Les mots sont prononcés à grande vitesse, et ici, il est important au moins de garder une trace de ce que l'interprète lit.

Commentez, critiquez. Après tout, plus il y aura de critiques, plus vite et plus efficacement nous pourrons améliorer les méthodes bien connues d'analyse des œuvres musicales.

Prime Oncle jenya


Oncle Zhenya . Peu de gens connaissent son travail, mais cette personne est unique et cette unicité est exprimée dans les textes. Ils sont de structure complexe et incroyablement remplis de sens et de contenu profond. Mention de Nietzsche, Castaneda, images de mythologie, jeu de mots et refrain compositionnel. Je conseille à chacun de se familiariser un peu avec son travail.

Une révision de ses textes sera brève, car il a été fait une prime à la demande dechalut. Des paroles aux actes.

J'ai réussi à trouver 14 titres de Uncle Zhenya avec des paroles. Il y a utilisé 10 064 mots et 5 756 après avoir supprimé les mots vides. Le nombre de mots uniques est de 2750. Voici un nuage de mots composé d'une liste des plus populaires.

image

Bien sûr, le hip-hop est un mot, mais lors du traitement des textes, toutes les formes de mots sont divisées en jetons.

Voilà à quoi ressemblent les mots les plus populaires et les plus utilisés dans les textes.

image

Fait intéressant, la hanche a été utilisée une fois de plus que le houblon.

Et donc, l'oncle Zhenya contrôlait le vocabulaire dans les textes. Il a utilisé 72% des 2750 mots uniques dans une seule œuvre (éventuellement plusieurs fois). Ce qui peut encore parler de différents sujets dans son travail. En général, ses indicateurs sont très similaires à ceux d'Oxymiron.

image

Et enfin, je veux montrer les chansons avec le plus de mots et la vitesse de lecture la plus élevée.

image

La vitesse de l'oncle Zhenya est encore plus élevée que celle d'Oxymiron.

la fin


All Articles