Vergleich russischer Rap-Szenen mit R- und Text Mining-Techniken. Noize Mc und Kasta gegen Pharao und Morgenshtern

R. Text Mining. Rap


Die Popularität vieler zeitgenössischer Rap-Künstler bleibt mir und anderen Anhängern der „alten Schule“ ein Rätsel. Ständige Debatten darüber, wer besser ist, wessen Texte interessanter sind, wessen Musik vielfältiger ist, beschäftigen viele Internetnutzer. Um diese Streitigkeiten nicht nur mit Worten, sondern auch mit Fakten zu bestätigen, analysierte ich die Texte von vier russischen Rap-Künstlern mit der Programmiersprache R.

Einige von ihnen waren in den frühen 2000er Jahren wahnsinnig beliebt. Jetzt ziehen sie alle auch ihre Zuhörer an, aber leider werden sie immer weniger. Und zwei sind jetzt auf dem Höhepunkt ihrer Popularität und ziehen ein umfangreiches und größtenteils junges Publikum an. Und meine weitere Analyse wird zeigen, dass diese Tatsache angesichts des von ihnen verwendeten Vokabulars keine Freude macht. Um herauszufinden, wer wer ist, wird es ganz einfach sein, denn die Künstler, deren Songs ich verwendet habe, sind: Caste, Noize-Mc, Pharaoh und Morgenstern. Ich denke, jeder versteht, dass ich Kaste und Lärm auf die "alte Schule" und Pharao und Morgenstern auf die "neue" verweisen werde.

Analyse-Alben


Zur Analyse habe ich alle offiziellen Studioalben ausgewählt, die von den Künstlern veröffentlicht wurden (Informationen zu den Alben stammen von der Website www.wikipedia.com , die gesamte Literatur befindet sich am Ende):

  1. Kasta: « , »; « »; « »; « » — 74 .
  2. Noize Mc: «The Greatest Hits Vol. 1»; « »; « »; «Protivo Gunz»; «»; «Hard Reboot 3.0»; « »; «: & » — 160 .
  3. Pharaoh: «»; «Phlora»; «Dolor»; «Phosphor»; «Pink Phloyd»; «Phuneral»; «» — 95 .
  4. Morgenshtern: « »; «, !»; « » — 30 .

Ich habe die oben genannten Künstler speziell ausgewählt, da selbst diejenigen, die mit ihrer Arbeit ein wenig vertraut sind, der Meinung sind, dass die Texte sehr unterschiedlich sind (Casta + Noise vs Pharaoh + Morgenstern) und es interessant sein wird, sie miteinander zu vergleichen. Es stellt sich eine logische Frage: Wie können die vier Alben von Caste und die acht Alben von Pharao objektiv und korrekt verglichen werden? Alles ist sehr einfach - nach einigen Manipulationen, auf die ich später noch eingehen werde, wird das Volumen der Wörter mehr oder weniger vergleichbar. Denn wie jeder weiß, ist Quantität nicht gleich Qualität.
Um die Wörter selbst zu sammeln, habe ich die Genius.com-Website und deren API verwendet. Glücklicherweise stellen die Entwickler des Dienstes eine offene Anwendungsprogrammierschnittstelle (API) zur Verfügung, mit der es einfach genug ist, Texte (nach Künstler, Album) für die nachfolgende Analyse aus der Datenbank zu extrahieren.

Alle Analysen wurden mit der Programmiersprache R durchgeführt, und für das Stemming (das Finden der Wortbasis für ein bestimmtes Quellwort) wurde Python verwendet, da es die Codierung in R und das Mystem-Programm nicht bewältigen konnte (Windows 10 mag es nicht, mit UTF-8 befreundet zu sein und R, sie sagen, unter Verwendung eines Apple-Betriebssystems oder Linux treten solche Probleme nicht auf).

Vor der Verarbeitung. Texte durchsuchen. Wortzahl


Zum Herunterladen der Texte wurde die Bibliothek "Genie" verwendet. Mit der Funktion dieses Pakets „genet_album“ können Sie ganz einfach alle Texte auf Alben gleichzeitig herunterladen. Seien Sie vorsichtig und überprüfen Sie es noch einmal, da nicht immer alle Texte für alle Künstler verfügbar sind. Einige von ihnen mussten manuell hinzugefügt werden. Nach dem Download wurde es interessant, wie viele Wörter in den Songs insgesamt verwendet werden (zusammen mit Pronomen, Präpositionen, Partikeln usw.). Dann vergleichen wir diese Zahlen mit den bereits verarbeiteten Stemming- und Stop-Word-Ergebnissen. Um das Verhältnis der Anzahl der Alben und Titel zur Anzahl der verwendeten Wörter besser zu verstehen, werde ich diese Informationen noch einmal duplizieren:

  1. Noize Mc - 8 Alben, 160 Titel.
  2. Casta - 4 Alben, 74 Titel.
  3. Pharao - 7 Alben, 95 Titel.
  4. Morgenstern - 3 Alben, 30 Titel.

Bild

Interessanterweise haben Pharao und Noise fast die gleiche Anzahl von Alben (sieben bzw. acht), aber wie aus der Grafik hervorgeht, ist die Qualität der Alben sowohl in der Anzahl der Songs als auch im Wortschatz sehr unterschiedlich (57962 gegenüber 24184).

Um diesen Unterschied zu minimieren und den Vergleich korrekter und korrekter zu gestalten, wurde berechnet, wie viele Wörter ein durchschnittlicher Künstler in einem seiner Songs verwendet:

  1. Noize Mc - 362 Wörter.
  2. Kaste - 388 Wörter.
  3. Pharao - 254 Wörter.
  4. Morgenstern - 273 Wörter

Es ist klar, dass ein solcher Vergleich bedingt und eher ungefähr ist, aber die Zahlen sprechen für sich.

Und so sehen die Top-10-Wörter jedes Künstlers und die Anzahl der Verweise auf diese Wörter aus:

Bild

Bild

Wie zu erwarten ist, sind die „Top-Wörter“ ohne Verarbeitung Präpositionen, Pronomen und Konjunktionen, die keine Ergebnisse widerspiegeln und keine besondere semantische Last tragen. Daher ist zu diesem Zeitpunkt nichts Interessantes oder Unerwartetes passiert.

Der nächste Schritt war die Verarbeitung und Vorbereitung von Texten für die Analyse. Der Stemming-Prozess wurde mit dem Mystem-Programm von Yandex in Python durchgeführt, das allen zur Verfügung steht. Dieser Schritt wurde unternommen, um zu verstehen, wie viele einzigartige Wörter Künstler verwenden und wie häufig sie die russische Sprache in ihren Texten verwenden. Schließlich wäre es ein Fehler, dasselbe Wort in verschiedenen Fällen mehrmals zu zählen. Dies zeigt die Variabilität und Überzeugungskraft des Sängers und nicht die Breite seines Wortschatzes.

Um ein repräsentativeres Ergebnis zu erzielen, müssen Stoppwörter entfernt werden, die keine emotionale und semantische Last tragen (Präpositionen, Pronomen, Partikel usw.). Leider gibt es in R-Paketen keine guten Bibliotheken, die Stoppwörter für die russische Sprache enthalten. Ich möchte Ihre Aufmerksamkeit auf die Tatsache lenken, dass der Autor selbst bestimmen muss, ob dieses oder jenes Wort ein Stoppwort ist und ob es gelöscht werden sollte. Überprüfen Sie diese Art von Wörterbüchern immer sorgfältig, um nicht das richtige und nützliche Wort für Sie auszusortieren. Das Stoppwortpaket unterstützt einige Sprachen, aber ich habe es vorgezogen, Wörter aus einer externen Ressource mit meiner eigenen Verfeinerung zu verwenden.

Nach der Verarbeitung


Wie Sie in der Grafik sehen können, hat sich die Anzahl der Wörter nach dem Stempeln und Entfernen von Stoppwörtern erheblich verringert. Dies ist nicht verwunderlich, da fast alle der beliebtesten Wörter des Originals zum Stillstand gekommen sind.

Bild

Im Allgemeinen ist die Anzahl der Wörter, die nach dem Stempeln und Löschen von Stoppwörtern als Prozentsatz der ursprünglichen Anzahl verbleiben, praktisch für alle gleich. Es ist erwähnenswert, dass sie in Gruppen gleich sind. In der "alten Schule" sind es 55-58%, in der "neuen" 46-50%.
Sehr wichtige und interessante Informationen sind die Anzahl der eindeutigen Wörter, die jeder Künstler hat. Für Noise sind dies 8891 Wörter, für Caste 5307, für Pharao 3899 und für Morgenstern 1242. Wer sein Vokabular etwas erweitern möchte, aber keine Bücher lesen möchte, kann Noize Mc und Caste anhören.

Natürlich interessieren sich viele dafür, welche Wörter nach der Verarbeitung jetzt führen. Ich präsentiere Grafiken mit den Top 10 Wörtern für jeden Künstler:

Bild

Bild

Sicherlich waren viele der Leser von Wörtern mit Sternchen beeindruckt. Pharao und Morgenstern haben wirklich viel Obszönität in den Texten, was sich meiner persönlichen Meinung nach eher negativ auf die Gesamtstruktur des Textes und seine Wahrnehmung auswirkt. Diese beiden Darsteller haben an zweiter Stelle das gleiche Wort. Ein Wort, das den Geist und die Kultur ihrer Musik perfekt demonstriert. Wenig später werde ich deutlich zeigen, welche Art von emotionalem Ton in den Texten der Darsteller vorkommt.

Gebräuchliche Worte. Wortvergleich


Um die Informationen visueller zu gestalten, habe ich alle Wörter der Darsteller mithilfe der Funktion "compare.cloud" aus dem Paket "wordcloud" in einem Diagramm platziert. Dies ist einfacher zu vergleichen und wahrzunehmen (und wir können wieder sehen, wie die Matten hervorstechen). Das Anzeigen von Wörtern mit Balkendiagrammen kann sehr problematisch sein, da bei mehr von ihnen viel Platz benötigt wird. Eine gute Funktion aus dem gleichnamigen Paket ist auch "wordcloud2": Wenn Sie mit der Maus über ein Wort fahren, wird ein Fenster angezeigt, in dem die Häufigkeit seiner Verwendung angezeigt wird.

Bild

Da Künstler dieselbe Sprache verwenden, um ihre Songs zu schreiben, wird es interessant sein zu sehen, welche Wörter sie am häufigsten verwenden, ohne in Künstler zu unterteilen. Für dieses Diagramm wurde die Funktion commonality.cloud aus dem wordcloud-Paket verwendet. Die Schriftgröße entspricht der Häufigkeit, mit der das Wort in den Texten erwähnt wird.

Bild

Sentimentale Textanalyse


Jeder Film, jedes Buch oder jeder Song hat seine eigene Stimmung, die an das Publikum oder die Hörer weitergegeben wird und diese beeinflusst. Es ist interessant zu sehen, welche Stimmung die Darsteller der alten und neuen Schule ihren Schülern vermitteln. Sie können dies herausfinden, indem Sie die Wörter analysieren, aus welcher Kategorie: "Negativ", "Positiv", "Neutral" in den Liedern von Musikern vorherrschen. Wie erwartet gibt es für die russische Sprache kein qualitativ hochwertiges Wörterbuch mit sentimentaler Analyse von Wörtern für R (wenn jemand dies weiß, teilen Sie es bitte mit). Daher musste ich bei meinem Upgrade das externe verwenden (Link zum Wörterbuch am Ende des Textes).

Nicht alle Wörter hatten Entsprechungen im Wörterbuch, was natürlich ein wenig traurig ist, mit der englischen Sprache treten solche Probleme praktisch nicht auf. Deshalb habe ich mich entschlossen, die emotionale Färbung der am häufigsten wiederholten Wörter zu zeigen. Es sind diese Worte, die der Hörer am häufigsten hört, und sie haben die stärkste Wirkung auf ihn und bestimmen die Wahrnehmung des gesamten Liedes. Wenn der Leser mit der Arbeit aller Autoren überhaupt ein wenig vertraut ist, ist es im Allgemeinen unwahrscheinlich, dass er überrascht wird. Wenn für jemanden die analysierten Namen neu sind, dann begrüßen Sie bitte, machen Sie sich mit ihrer Arbeit vertraut. Unten sehen Sie die Grafiken. Für alle Künstler werden die am häufigsten verwendeten Wörter angezeigt.

Morgenstern. Die Wiederholungsrate eines Wortes beträgt mehr als das Zehnfache. Die reichlich vorhandene Anzahl roter Säulen fällt ziemlich stark auf, und wenn man sich diese Worte ansieht, wird es doppelt traurig, welche Botschaft dieser Künstler seinem Publikum überbringt.

Bild

Pharao . Das Lexikon lässt auch zu wünschen übrig. Frequenz mehr als 20 mal.

Bild

Als nächstes ist die Zeit für die Oldtimer der russischen Rap-Szene. Diejenigen, für die es wirklich keine Schande ist und die zum Zuhören empfohlen werden können.

Kaste . Helle Vorherrschaft von Wörtern mit positiver Konnotation. Und negative Worte schockieren nicht mit ihrer Unmoral. Frequenz> = 25

Bild

Und schließlich der Reimmeister und die Wörter Noize Mc (Frequenz> = 30).

Bild

Die Fülle an negativ gefärbten Vokabeln, die Morgenstern und Pharao in ihren Liedern verwenden, beeinflusst die Wahrnehmung ihrer Lieder und die Stimmung, die sie senden. Es ist schwer, angenehme Emotionen aus der Musik zu bekommen, wenn es sein Bestes tut, um Sie zu zwingen, das Gegenteil zu tun.
Da das verwendete Wörterbuch mit sentimentaler Analyse nicht alle Wörter enthält, ist es schwierig, eine 100% ige und sichere Schlussfolgerung über die Stimmung der Songs der Künstler zu ziehen, da vieles auch vom Kontext abhängt. Ich werde Ihnen jedoch zeigen, wie viele und welche Wörter die Künstler verwenden (von dem, was sie anhängen konnten).

Bild

Offensichtlich haben die meisten Wörter aller Künstler einen neutralen Farbton, der den Hörer praktisch nicht beeinflusst. Interessanterweise verwenden Pharao und Morgenstern jedoch mehr Wörter mit einer negativen Konnotation als mit einer positiven. Und dies trotz der Minderwertigkeit des Wörterbuchs und des Fehlens vieler obszöner Wörter und ihrer Variationen (das Wörterbuch enthält 28.248 Wörter und ich musste einige davon manuell hinzufügen).

Bild

Kaste und Lärm Ms werden ebenfalls von neutralen Worten geleitet, aber an zweiter Stelle stehen positive, die uns keine negativen Emotionen verursachen.

Ja, natürlich kann ich den Einfluss des Kontexts bei dieser Art der Analyse nicht bewerten, und zum Beispiel kann das Wort „Liebe“ mit dem „Nicht“ -Partikel verwendet werden und eine negative Konnotation haben. Aber Sie müssen zugeben, der Satz "Ich liebe dich nicht" ist angenehmer als der Satz "Ich hasse dich". Und das Negative dieses Satzes wird auch durch das Teilchen „nicht“ nicht korrigiert. Trotzdem werden wir nur das Wort "Hass" hören.

Musikgeschmack ist eine individuelle Angelegenheit und jeder entscheidet, was er hört. Aber schauen Sie sich die Diagramme noch einmal an und überlegen Sie, wie Sie Ihren Alltag füllen möchten. Musik begleitet uns überall hin und beeinflusst oft sehr unsere Stimmung. Warum also jeden Tag bewusst verschlimmern?

Im Allgemeinen geht es in diesem Artikel auch um die Tatsache, dass Programmierung interessant sein und in verschiedenen Bereichen angewendet werden kann. Es kann bereits vertraute Informationen aus einem neuen Blickwinkel anzeigen und Sie dazu bringen, über das nachzudenken, was offensichtlich oder unbedeutend schien. Es hängt nur von Ihnen ab, was sich hinter den Codezeilen verbirgt und welche interessanten sie erzählen.

Lerne Programmiersprachen, entwickle und höre hochwertige Musik zum Schreiben, was mehr als sieben Tage Online-Zeit auf YouTube dauert. Für diejenigen, die es nicht wissen, wurde Morgensterns Album "Legendary Dust" 6 Tage lang während Online-Sendungen auf YouTube aufgenommen und war damit das erfolgreichste in Morgensterns Karriere. In der ersten halben Stunde der Veröffentlichung erhielt VKontakte eine Million Stücke und in elf Stunden fünf Millionen Stücke. In den ersten zwei Tagen nach der Veröffentlichung wurde das Album mehr als 21 Millionen Mal von VKontakte angehört, was ein Rekord für ein soziales Netzwerk ist.

Liste der verwendeten Literatur:

1. ru.wikipedia.org/wiki/Noize_MC
2. ru.wikipedia.org/wiki/Pharaoh
3. ru.wikipedia.org/wiki/Casta_ (Gruppe)
4.ru.wikipedia.org/wiki/Morgenstern_ (Musiker)
5. github.com/stopwords-iso/stopwords-ru/blob/master/stopwords-ru.txt ( Stoppwörter )
6. github.com/dkulagin/kartaslov/ tree / master / dataset / emo_dict (Stimmungswörterbuch).
Lizenz: creativecommons.org/licenses/by-nc-sa/4.0
7. ru.wikipedia.org/wiki/Legendary_Dust

All Articles