Comparaison de scènes de rap russe en utilisant les techniques de R et de Text Mining. Noize Mc et Kasta contre Pharaon et Morgenshtern

R. Text Mining. Rap


La popularité de nombreux artistes rap contemporains reste un mystère pour moi et pour les autres adeptes de la «vieille école». Débat constant sur qui est meilleur, dont les paroles sont plus intéressantes, dont la musique plus diversifiée occupe l'esprit de nombreux internautes. Pour confirmer ces disputes, non seulement avec des mots, mais avec des faits, j'ai analysé les textes de quatre artistes de rap russes, en utilisant le langage de programmation R.

Certains d'entre eux étaient incroyablement populaires au début des années 2000. Maintenant, ils attirent également tous leurs auditeurs, mais, malheureusement, ils deviennent de moins en moins. Et deux sont maintenant au sommet de leur popularité et attirent un public étendu et surtout jeune. Et mon analyse approfondie montrera qu'étant donné le vocabulaire qu'ils utilisent, ce fait ne cause pas de joie. Pour savoir qui est qui sera assez simple, car les artistes dont j'ai utilisé les chansons sont: Caste, Noize-Mc, Pharaoh et Morgenstern. Je pense que tout le monde comprend que je référerai Caste et Noise à la "vieille école", et Pharaon et Morgenstern à la "nouvelle".

Albums d'analyse


Pour l'analyse, j'ai sélectionné tous les albums officiels du studio sortis par les artistes (les informations sur les albums ont été tirées du site www.wikipedia.com , toute la littérature est à la fin):

  1. Kasta: « , »; « »; « »; « » — 74 .
  2. Noize Mc: «The Greatest Hits Vol. 1»; « »; « »; «Protivo Gunz»; «»; «Hard Reboot 3.0»; « »; «: & » — 160 .
  3. Pharaoh: «»; «Phlora»; «Dolor»; «Phosphor»; «Pink Phloyd»; «Phuneral»; «» — 95 .
  4. Morgenshtern: « »; «, !»; « » — 30 .

J'ai spécialement sélectionné les artistes susmentionnés car même ceux qui connaissent même un peu leur travail conviendront que les textes sont très différents (Casta + Noise vs Pharaoh + Morgenstern) et il sera intéressant de les comparer entre eux. Une question logique se pose: comment comparer objectivement et correctement les quatre albums de Caste et les huit albums de Pharaon? Tout est très simple - après quelques manipulations, dont je parlerai plus tard, le volume des mots deviendra plus ou moins comparable. Après tout, comme chacun le sait, la quantité n'est pas égale à la qualité.
Pour recueillir les mots eux-mêmes, j'ai utilisé le site Web genius.com et leur API. Heureusement, les développeurs du service fournissent une interface de programmation d'application (API) ouverte qui facilite l'extraction des paroles (par artiste, album) de la base de données pour une analyse ultérieure.

Toutes les analyses ont été effectuées à l'aide du langage de programmation R, plus pour la racine (le processus de recherche de la base de mots pour un mot source donné), le python a été utilisé, car il ne pouvait pas gérer l'encodage dans R et le programme mystique (Windows 10 n'aime pas être ami avec UTF-8 et R, ils disent qu'en utilisant un système d'exploitation Apple ou Linux, de tels problèmes ne se posent pas).

Avant le traitement. Parcourir les textes. Nombre de mots


Pour télécharger les paroles, utilisez la bibliothèque "genius". La fonction de ce package «genius_album» vous permet de télécharger très facilement tous les textes des albums en une seule fois. Soyez prudent et revérifiez, car toutes les paroles ne sont pas toujours disponibles pour tous les artistes, certaines d'entre elles ont dû être ajoutées manuellement. Après le téléchargement, il est devenu intéressant de savoir combien de mots sont utilisés dans les chansons dans leur ensemble (avec les pronoms, les prépositions, les particules, etc.). Ensuite, nous comparons ces chiffres avec les résultats de racine et de mots vides déjà traités. Pour faciliter la compréhension du rapport entre le nombre d'albums et de pistes par rapport au nombre de mots utilisés, je vais à nouveau dupliquer ces informations:

  1. Noize Mc - 8 albums, 160 titres.
  2. Casta - 4 albums, 74 titres.
  3. Pharaon - 7 albums, 95 titres.
  4. Morgenstern - 3 albums, 30 titres.

image

Fait intéressant, Pharaoh et Noise ont presque le même nombre d'albums (sept et huit, respectivement), mais, comme le montre le graphique, la qualité des albums est très différente à la fois dans le nombre de chansons et dans la richesse du vocabulaire (57962 contre 24184).

Afin de minimiser cette différence et de rendre la comparaison plus correcte et correcte, il a été calculé combien de mots un artiste moyen utilise dans l'une de ses chansons:

  1. Noize Mc - 362 mots.
  2. Caste - 388 mots.
  3. Pharaon - 254 mots.
  4. Morgenstern - 273 mots

Il est clair qu'une telle comparaison est conditionnelle et plutôt approximative, mais les chiffres parlent d'eux-mêmes.

Et voici à quoi ressemblent les 10 premiers mots de chaque artiste et le nombre de références à ces mots:

image

image

Comme on pourrait s'y attendre, sans traiter les «premiers mots», ce sont des prépositions, des pronoms et des conjonctions qui ne reflètent aucun résultat et ne portent aucune charge sémantique particulière. Par conséquent, à ce stade, rien d'intéressant ou d'inattendu ne s'est produit.

L'étape suivante a été le traitement et la préparation des textes à analyser. Le processus de stemming a été effectué à l'aide du programme mystère de Yandex en Python, qui est accessible à tous. Cette étape a été franchie afin de comprendre combien de mots uniques les artistes utilisent et dans quelle mesure ils utilisent la langue russe dans leurs textes. Après tout, ce serait une erreur de compter plusieurs fois le même mot dans différents cas. Cela montre la variabilité et la capacité de persuasion du chanteur plutôt que l’ampleur de son vocabulaire.

Aussi, pour obtenir un résultat plus représentatif, il est nécessaire de se débarrasser des mots vides qui ne portent pas de charge émotionnelle et sémantique (prépositions, pronoms, particules, etc.). Malheureusement, il n'y a pas de bonnes bibliothèques dans les packages R qui contiennent des mots vides pour la langue russe. Je voudrais attirer votre attention sur le fait que l'auteur lui-même doit déterminer si tel ou tel mot est un mot d'arrêt et s'il doit être supprimé. Examinez toujours attentivement ce type de dictionnaires afin de ne pas éliminer le mot juste et utile pour vous. Le package stopwords prend en charge plusieurs langues, mais j'ai préféré utiliser les mots d'une ressource externe avec mon propre raffinement.

Après le traitement


Comme vous pouvez le voir sur le graphique, le nombre de mots a considérablement diminué après l’estampage et la suppression des mots vides. Cela n'est pas surprenant étant donné que presque tous les mots originaux les plus populaires se sont arrêtés.

image

En général, le nombre de mots restants après estampage et suppression des mots vides, en pourcentage du nombre initial, est pratiquement égal pour tout le monde. Il convient de noter qu'ils sont égaux en groupes. Dans la «vieille école», c'est 55-58%, dans la «nouvelle» 46-50%.
Une information très importante et intéressante est le nombre de mots uniques que chaque artiste a. Pour Noise, ce sont 8891 mots, pour Caste 5307, pour Pharaoh 3899 et pour Morgenstern 1242. Qui veut étendre un peu son vocabulaire, mais ne veut pas lire de livres, peut écouter Noize Mc et Caste.

Bien sûr, beaucoup sont intéressés par ce que les mots mènent maintenant, après le traitement. Je présente des graphiques avec les 10 premiers mots pour chaque artiste:

image

image

Assurément, beaucoup de lecteurs ont été frappés par des mots avec des astérisques. Pharaon et Morgenstern ont vraiment beaucoup de grossièretés dans les textes, ce qui, à mon avis personnel, a un effet plutôt négatif sur la structure complète du texte et sa perception. Ces deux interprètes ont le même mot en deuxième position. Un mot qui démontre parfaitement l'esprit et la culture de leur musique. Un peu plus tard, je montrerai clairement quel genre de ton émotionnel mène dans les paroles des interprètes.

Mots communs. Comparaison de mots


Pour rendre les informations plus visuelles, j'ai placé tous les mots des interprètes sur un graphique en utilisant la fonction "comparaison.cloud" du package "wordcloud" pour cela, il est plus facile de les comparer et de les percevoir (et encore une fois, nous pouvons voir comment les tapis se distinguent). L'affichage de mots avec des graphiques à barres peut être assez problématique, car avec plus d'entre eux, beaucoup d'espace est requis. Une bonne fonction du paquet du même nom est également "wordcloud2": lorsque vous survolez un mot, une fenêtre apparaît qui montre la fréquence de son utilisation.

image

Puisque les artistes utilisent le même langage pour écrire leurs chansons, il sera intéressant de voir, sans se diviser en artistes, les mots qu'ils utilisent le plus souvent. La fonction commonality.cloud du package wordcloud a été utilisée pour ce graphique. La taille de police correspond à la fréquence de mention du mot dans les textes.

image

Analyse de texte sentimentale


Chaque film, livre ou chanson a sa propre humeur, qui est transmise au public ou aux auditeurs et les affecte. Il est intéressant de voir quelle humeur les artistes des anciennes et nouvelles écoles diffusent à leurs élèves. Vous pouvez le découvrir en analysant les mots de quelle catégorie: "Négatif", "Positif", "Neutre" prévalent dans les chansons des musiciens. Comme prévu, pour la langue russe, il n'y a pas de dictionnaire de haute qualité avec une analyse sentimentale des mots pour R (si quelqu'un le sait, veuillez le partager). Par conséquent, j'ai dû utiliser celui externe avec ma mise à niveau (lien vers le dictionnaire à la fin du texte).

Tous les mots n'avaient pas de correspondance dans le dictionnaire, ce qui est bien sûr un peu triste, avec la langue anglaise, de tels problèmes ne se posent pratiquement pas. J'ai donc décidé de montrer la coloration émotionnelle des mots les plus répétés. Ce sont ces paroles que l'auditeur entend le plus souvent, et ce sont elles qui ont l'effet le plus puissant sur lui et déterminent la perception de la chanson entière. En général, si le lecteur connaît même un peu le travail de tous les auteurs, il est peu probable qu'il soit surpris. Eh bien, si pour quelqu'un les noms analysés sont nouveaux, alors s'il vous plaît, bienvenue, familiarisez-vous avec leur travail. Ci-dessous, vous pouvez voir les graphiques. Pour tous les artistes, les mots les plus fréquemment utilisés sont affichés.

Morgenstern. Le taux de répétition d'un mot est plus de 10 fois. Le nombre abondant de colonnes rouges se démarque assez fortement, et si vous triez ce que sont ces mots, cela devient doublement triste du message que cet artiste porte à son public.

image

Pharaon . Le lexique laisse également à désirer. Fréquence plus de 20 fois.

image

Vient ensuite le temps des anciens de la scène rap russe. Ceux pour qui ce n'est vraiment pas une honte, et peuvent être recommandés pour l'écoute.

Caste . Prédominance lumineuse des mots à connotation positive. Et les mots négatifs ne choquent pas de leur immoralité. Fréquence> = 25

image

Et enfin, le maître de la rime et les mots Noize Mc (fréquence> = 30).

image

L'abondance de vocabulaire de couleur négative, que Morgenstern et Pharaon utilisent dans leurs chansons, affecte la perception de leurs chansons et l'ambiance qu'ils diffusent. Il est difficile d'obtenir des émotions agréables de la musique quand elle fait de son mieux pour vous forcer à faire le contraire.
Étant donné que le dictionnaire utilisé avec analyse sentimentale ne contient pas tous les mots, il est difficile de tirer une conclusion sûre à 100% sur l'humeur des chansons des artistes, car beaucoup dépend également du contexte. Cependant, je vais vous montrer combien et quels mots les artistes utilisent (d'après ce qu'ils ont réussi à attacher).

image

Évidemment, la plupart des mots de tous les artistes ont une teinte neutre, ce qui n'affecte pratiquement pas l'auditeur. Mais, fait intéressant, Pharaon et Morgenstern utilisent plus de mots avec une connotation négative qu'avec une connotation positive. Et ce, malgré l'infériorité du dictionnaire et l'absence de nombreux mots obscènes et leurs variantes (le dictionnaire contient 28 248 mots et j'ai dû en ajouter manuellement).

image

Caste et Noise Ms sont également dirigées par des mots neutres, mais en second lieu sont des mots positifs qui ne nous causent pas d'émotions négatives.

Oui, bien sûr, je ne peux pas évaluer l’influence du contexte dans ce type d’analyse et, par exemple, le mot «amour» peut être utilisé avec la particule «non» et avoir une connotation négative. Mais vous devez admettre que l'expression «je ne t'aime pas» est plus agréable que l'expression «je te déteste». Et le négatif de cette phrase ne sera pas corrigé même par la particule «non». Tout de même, nous n'entendrons que le mot «haine».

Le goût musical est une affaire individuelle et chacun décide quoi écouter. Mais jetez un coup d'œil aux graphiques et réfléchissez à la façon dont vous voulez remplir votre vie quotidienne. La musique nous accompagne partout et affecte souvent beaucoup notre humeur, alors pourquoi l'aggraver consciemment tous les jours?

En général, cet article traite également du fait que la programmation peut être intéressante et peut être appliquée dans divers domaines. Il peut montrer des informations déjà familières sous un nouvel angle, vous faire penser à ce qui semblait évident ou insignifiant. Cela ne dépend que de vous de ce qui sera caché derrière les lignes de code et de ce qui sera intéressant à dire.

Apprenez les langages de programmation, développez et écoutez de la musique de qualité pour l'écriture, ce qui nécessite plus de sept jours de temps en ligne sur YouTube. Pour ceux qui ne connaissent pas, l'album de Morgenstern "Legendary Dust" a été enregistré 6 jours lors de diffusions en ligne sur YouTube et est ainsi devenu le plus grand succès de la carrière de Morgenstern, gagnant VKontakte million d'écoutes dans la première demi-heure de sortie et cinq millions de pièces en onze heures. Dans les deux premiers jours après sa sortie, l'album a été écouté par VKontakte plus de 21 millions de fois, ce qui est un record pour un réseau social.

Liste de la littérature utilisée:

1. ru.wikipedia.org/wiki/Noize_MC
2. ru.wikipedia.org/wiki/Pharaoh
3. ru.wikipedia.org/wiki/Casta_ (groupe)
4.ru.wikipedia.org/wiki/Morgenstern_ (musicien)
5. github.com/stopwords-iso/stopwords-ru/blob/master/stopwords-ru.txt (mots vides )
6. github.com/dkulagin/kartaslov/ tree / master / dataset / emo_dict (dictionnaire des sentiments).
Licence: creativecommons.org/licenses/by-nc-sa/4.0
7. ru.wikipedia.org/wiki/Legendary_Dust

All Articles