Vergleich russischer Rap-Szenen mit R- und Text Mining-Techniken. Noize Mc, Oxxxymiron, Onkel Zhenya. Episode 2

R. Text Mining. Rap. Episode 2


Dieser Artikel ist eine Fortsetzung des Materials „Vergleich russischer Rap-Szenen mit R- und Text Mining-Techniken. "Noize Mc und Kasta gegen Pharao und Morgenshtern" und jetzt werde ich versuchen, die Arbeit von Noise Ms und Oksimiron im Detail zu analysieren. Ich möchte jedoch darauf hinweisen, dass dies kein Vergleich zwischen den beiden sein wird. Der Zweck dieses Artikels ist nicht zu zeigen, welcher von ihnen cooler ist, sondern die Tiefe und Vielfalt ihrer Musik zu vermitteln, die wir in Echtzeit genießen können. Wir sind sehr glücklich, dass wir ihre Erfolge verfolgen und zu ihren Konzerten gehen können. In diesem Material wird es keinen Vergleich geben wie im ersten Teil, es wird keinen so starken Kontrast geben.

Dieses Mal wurde die Analyse auch mit R, Python und der Genius.com-API durchgeführt. Sie können im ersten Teil mehr lesen , da ich es nicht wiederholen möchte.

Diejenigen, die mit der Arbeit von Noise Ms und Oksimiron noch ein wenig vertraut sind, werden zustimmen, dass die von diesen Künstlern verwendeten Wörter aufgrund der unterschiedlichen Themen der Songs mit Sicherheit sehr unterschiedlich sein werden. Zum Beispiel haben viele der Lieder eines Absolventen von Oxford und eines Inhabers eines Diploms in mittelalterlicher englischer Literatur, Oximiron, viele Hinweise auf Religion und Geschichte. Zum Beispiel eine Spur namens "Elfenbeinturm". Nur wenige Menschen wissen, dass diese Metapher zum ersten Mal im biblischen Lied „vom Lied Salomos“ verwendet wurde: „Ihr Hals ist wie eine Elfenbeinsäule“ und bedeutet allegorisch ein Gebiet mit hohen Ansprüchen, weit weg vom Trubel der Welt und ihren Sorgen. Daher ist es nicht verwunderlich, dass viele seiner Texte für die Wahrnehmung und das Verständnis so schwierig erscheinen, dass sie sich zur Hilfe bei der Dekodierung an sie wendenAnatoly Wasserman .

Auf der anderen Seite konzentriert Noise Ms seine Arbeit auf ein breiteres Publikum, sodass die Sprache seiner Musik verständlich ist und einer sehr großen Anzahl von Menschen nahe steht. Außerdem sind viele von Iwans Texten (richtiger Name Noise Ms) „hier und jetzt“ geschrieben und erzählen von aktuellen Ereignissen zum Zeitpunkt des Schreibens. Zum Beispiel wurde der Track „Mercedes S-666“ geschrieben in der Folge eines Unfalls, der 2010 auf Leninsky Prospekt aufgetreten ist , wenn der Vizepräsident von Lukoil Anatoli Barkow und zwei Frauen, Olga Alexandrina und Vera Sedelnikova Teilnehmer des Verkehrsunfall wurden. starb bei diesem Unfall. Die Moskauer Verkehrspolizei erklärt, dass Aleksandrina und Sedelnikova schuld sind. Augenzeugen behaupten, dass dies nicht der Fall ist.

In Analogie zum vorherigen Artikel habe ich zunächst die Gesamtzahl der Wörter für Noise Ms - 56 473 (157 Songs) und für Oxymiron - 16 540 (39 Songs) berechnet. Oksimiron wurde für die Analyse 2 seines offiziellen Albums + Mixtape Nummer 2 herangezogen, das erste, das er ausschließen wollte, da Oksimiron in fast allen Werken nur einen Vers aufführt.

So sieht die Anzahl der eindeutigen Wörter nach dem Löschen von Stoppwörtern aus.

Bild

Wie Sie sehen können, verwenden Noise Ms und Oksimiron in ihren Texten nur 2209 gebräuchliche Wörter. Mehr als 50% des Wortschatzes jedes Künstlers sind einzigartig, was zweifellos auf den Unterschied in ihren Autorenstilen hinweist. Ich würde es wagen vorzuschlagen, dass die Anzahl der eindeutigen Wörter in Oksimiron noch höher wäre, wenn die Anzahl der Alben und Titel noch etwas näher an Noise wäre. Zum Vergleich, Leo Nikolajewitsch Tolstoi in seinem Werk „Anna Karenina“ hat 12.752 einzigartige Worte aus 253.311.

Damit ich könnte leicht und eindeutig die beliebtestenen Worte von Lärm Frau und Oxymiron sehen, ich sammelte sie in Wort Wolken.

Bild

Sowie ihnen gemeinsame Wörter.

Bild

Dann hatte ich einige logische Fragen. Welches Wort wird von diesem oder jenem Künstler als populärer und einprägsamer angesehen? Welche Worte kennzeichnen seine Arbeit stärker? Diejenigen, die er oft in einem Lied sagte, aber in weniger Zahlen, oder die, die er erwähnte, nehmen an, einmal, aber in mehr Spuren.

Es ist sehr schwierig, eine eindeutige Schlussfolgerung zu ziehen. Basierend auf dem ersten Artikel war das Wort "Tyr" in der Tat das beliebteste unter Caste, aber diejenigen, die mit ihrer Arbeit vertraut sind, gaben sofort an, dass es schwierig ist, dieses Wort als eines der bestimmenden für diese Band zu bezeichnen, da es fast immer ausgesprochen wurde ein Track "Tyrim". Daher kann es sein, dass jemand niemals einen Track mit dem am häufigsten genannten Wort einschaltet, aber jemand im Gegenteil kennt und assoziiert den Künstler ausschließlich mit diesem Song. Zum Beispiel wird Caste für mich immer mit den Worten des Songs „Around the Noise“ („Nicht alles Nishtyak kochen“) assoziiert.

Wenn wir ein Wort nehmen, das in mehr Tracks verwendet wurde, ist die Wahrscheinlichkeit, dass dieses Wort gehört und mit der Arbeit eines bestimmten Künstlers verbunden wird, viel höher.

Wie ich bereits sagte, haben beide Ansätze ein Existenzrecht und Stärken und Schwächen. Um den Lesern ein vollständiges Bild zu vermitteln, habe ich die Texte von Noise Ms und Oxymiron auf zwei Arten analysiert.

So sieht das Nebeneinander der am häufigsten verwendeten Wörter in Noise Ms und Oksimiron aus. Die erste Bedeutung sind die beliebtesten Wörter unter den Künstlern, die zweite sind die Wörter, die in mehr Liedern erwähnt werden. Keine Stoppwörter.

Bild

Bild

Wenn Sie die Daten in den Tabellen sorgfältig studieren, wird deutlich, dass die meisten Wörter häufig vorkommen und den Stil des Textes nicht beeinflussen. Es gibt jedoch Wörter, die sich vom allgemeinen Hintergrund abheben und die Einzigartigkeit des Stils des Autors schaffen.

Um zu verstehen, wie sich die Texte von Noise Ms und Oksimiron von anderen Werken und Texten in russischer Sprache unterscheiden, habe ich die Daten für die am häufigsten verwendeten Wörter (vor dem Löschen von Stoppwörtern) mit denselben Statistiken aus dem nationalen Korpus der russischen Sprache verglichen . Dieses Informations- und Referenzsystem, das auf einer Sammlung russischer Texte in elektronischer Form basiert, enthält mehr als 50.000 Dokumente. Zur Erstellung der Bewertung wurden 192 689 044 Wortformen verwendet.

Bild

Es wird erwartet, dass die beliebtesten Wörter Präpositionen, Konjunktionen, Partikel, Pronomen usw. waren. Im Vergleich zu Zehntausenden anderer Werke hatten Noise Ms und Oksimiron sogar fast den gleichen Prozentsatz der Verwendung dieser Wörter.

Um die Ähnlichkeit / Differenz von Texten genauer zu analysieren, reicht es nicht aus, nur einzelne Wörter und die Häufigkeit ihrer Verwendung zu berücksichtigen, sondern es ist auch wichtig zu berücksichtigen, aus welchen Konnektiven diese Wörter bestehen, die sogenannten Bigrams, 3-Frames usw. Schließlich können Sie mit demselben Wortschatz Sätze und Phrasen mit unterschiedlicher Bedeutung verfassen. Nach der Analyse, aus welchen Konnektiven bestimmte Wörter bestehen, kann man eine sicherere Schlussfolgerung über Ähnlichkeit oder Unterschied ziehen.

So sehen die beliebtesten Bigramas in Noise und Oxymyron aus. Ich habe sie erneut mit Informationen aus dem Korpus der russischen Sprache verglichen.

Bild

Und wieder, wie im Fall des üblichen Vergleichs von Wortformen, sind die Wortverbindungen zwischen den Künstlern und dem Korpus der russischen Sprache sehr ähnlich, aber es gibt herausragende Elemente, die die Themen und den Stil der Künstler unterscheiden.

Ein sehr wichtiger, kontroverser und kontroverser Punkt für mich war die Bestimmung der Breite und Vielfalt des Vokabulars der Autoren. Wie kann man das tun, ohne sich für die Interpretation der Bedeutung von Wörtern und die Definition ihres Themas an Wörterbücher zu wenden? Bestimmt die Vielseitigkeit der Kreativität die Gesamtzahl der Wörter in den Werken? Oder ist der Schlüssel zur Anzahl der eindeutigen Wörter? Im ersten Fall können Sie einfach in allen Songs dieselben Wörter verwenden und nur die Nummer verwenden. Im zweiten Fall können viele der eindeutigen Wörter in der n-Anzahl von Songs verwendet werden und dann wieder dieselben Wörter manipulieren. Wie Sie sehen können, haben beide Ansätze viele Vorbehalte.

Daher ging ich davon aus, dass die Häufigkeit, mit der Künstler in ihren Liedern einzigartige Wörter verwenden, Aufschluss über die Breite geben kann. Je mehr eindeutige Wörter in weniger Songs verwendet werden, desto sicherer kann man sagen, dass die Themen unterschiedlich sind. Entweder ist der Darsteller ein Meister der Synonyme, und dann sind die Themen gleich, aber die Wörter sind unterschiedlich, was zweifellos auch gut ist, weil es die Breite der Kenntnisse der russischen Sprache zeigt.
Unten finden Sie eine Tabelle, die angibt, wie viele Wörter in wie vielen Songs verwendet wurden. Zum Beispiel wurde das Wort "Punks" nur in einem Song verwendet, aber vielleicht mehrmals. Und je mehr Wörter in nur einem Werk verwendet wurden - desto höher ist die Einzigartigkeit. Der Einfachheit halber wurde diese Maßnahme von mir "Der Index der Einzigartigkeit von Wörtern" genannt. Je höher der Wert, desto einzigartiger und vielfältiger der Text.

Zum besseren Verständnis werde ich ein Beispiel aus der Tabelle geben: Noise Ms verwendete 5.451 eindeutige Wörter in nur einer Spur (möglicherweise mehrmals), 1.467 eindeutige Wörter wurden von ihm in zwei Werken verwendet usw. Er verwendete 12 einzigartige Wörter in mehr als 40 Tracks.

Bild

Wie Sie sehen können, ist der Prozentsatz der Eindeutigkeit in Gruppen für zwei Künstler ungefähr gleich. Etwas mehr als 60% der Noise Ms und bis zu 75% der einzigartigen Wörter von Oxymiron wurden in nur einer Spur verwendet.

Es wäre interessant, diese Indikatoren beispielsweise mit Popmusik zu vergleichen, bei der das Thema nicht so weit gefasst ist, weil Rap-Musik anfangs Protestmusik ist. Darsteller sprechen schwierige Themen für sich und die Gesellschaft an, versuchen sie zu verstehen oder teilen ihre Argumentation. Popmusik ist eher dazu gedacht, die Zuhörer zu unterhalten und zu entspannen, es ist einfacher.

Aber ich möchte betonen, dass ich Rap in diesem Beispiel in keiner Weise mit Pop vergleiche. Ich zeige die Ergebnisse einer Analyse der Arbeit zweier talentierter Künstler - Noise Ms und Oksimiron.
Über Wörter, ihre Anzahl und Einzigartigkeit wurde bereits gesagt, wenn nicht fast alles, dann viel. Aber was kann die Wahrnehmung des hörbaren Textes noch beeinflussen? Bei Rap-Künstlern ist dies natürlich die Geschwindigkeit der gesprochenen Wörter. Die Geschwindigkeit und Qualität der Aussprache von Wörtern beeinflusst natürlich die Wahrnehmung und das Verständnis des Textes.

Unten ist die Geschwindigkeit der Aussprache von Wörtern pro Zeiteinheit (eine Sekunde) angegeben. Sie können sich auch mit den Statistiken von Songs mit der größten Anzahl von Wörtern sowie mit Werken mit der höchsten Lesegeschwindigkeit vertraut machen.

Bild

Noise Ms hat eine durchschnittliche Wortaussprechrate von 1,77 Wörtern pro Sekunde. Dies war zu erwarten, da viele von Noises Liedern ein Element des „traditionellen“ Gesangs aufweisen, das die Aussprachezeit des Wortes verlängert. Und der Stil seiner Songs ist kein reiner Rap oder Hip-Hop, sondern häufiger eine Mischung aus Rock und Rap.

Bild

Oxymiron hat eine durchschnittliche Anzahl von Wörtern pro Sekunde, die höher ist als die seines Kollegen - 2,55 Wörter pro Sekunde.

Der Titel XXX Shop sollte höchstwahrscheinlich von diesen Statistiken ausgeschlossen werden, da er 2 Verse in englischer Sprache enthält und von anderen Künstlern aufgeführt wird. Wir hören uns jedoch die Tracks als Ganzes an, ohne sie in Künstler zu unterteilen. Noise Ms hat auch viele Kooperationen.

Basierend auf der Analyse können wir sicher ein paar Dinge sagen. Erstens nutzen beide Autoren in ihrer Arbeit zuversichtlich alle Reichtümer, die ihnen die russische Sprache bietet. Zweitens werden die meisten Wörter, aus denen ihre Lieder bestehen, häufig verwendet und sind bei anderen Autoren beliebt. Es können jedoch mehrere Wortformen und Bigramme unterschieden werden, die nur für sie charakteristisch sind. Und drittens unterscheidet sich die Musik von Noise MS und Oxymiron sowohl im Stil als auch im Thema und im Wortschatz, den sie verwenden. Und definitiv diese Musik, die Aufmerksamkeit verdient.

Ich hoffe auch, dass die vorgestellten Methoden zur Analyse der Texte der Darsteller für Sie nützlich und zugänglich erscheinen. In der Tat sollte sich die Analyse von Musik, einschließlich Rap, von der üblichen Analyse literarischer Werke unterscheiden. Im zweiten Fall liegt der Schwerpunkt auf der Länge der Sätze, der Anzahl der Silben in Wörtern, der Anzahl der Wörter in Sätzen, der Anzahl der Substantive / Adjektive / Wendungen usw. Meiner Meinung nach macht dies in der Rap-Musik keinen Sinn, da die Sätze beim Lesen zu einem Ganzen zusammengefasst werden. Wörter werden mit großer Geschwindigkeit ausgesprochen, und hier ist es wichtig, zumindest nur den Überblick darüber zu behalten, was der Darsteller liest.

Kommentieren, kritisieren. Denn je mehr Rezensionen, desto schneller und effizienter können wir die bekannten Methoden zur Analyse von Musikwerken verbessern.

Bonus Onkel Jenya


Onkel Zhenya . Nur wenige Menschen sind mit seiner Arbeit vertraut, aber diese Person ist einzigartig und diese Einzigartigkeit kommt in den Texten zum Ausdruck. Sie sind komplex aufgebaut und unglaublich voller Bedeutung und tiefem Inhalt. Erwähnung von Nietzsche, Castaneda, Bildern aus Mythologie, Wortspiel und kompositorischem Refrain. Ich rate jedem, sich ein wenig mit seiner Arbeit vertraut zu machen.

Eine Überprüfung seiner Texte wird kurz sein, da es auf Anfrage von ein Bonus gemacht wurdeSchleppnetz. Von Worten zu Taten.

Ich habe es geschafft, 14 Tracks von Onkel Zhenya mit Texten zu finden. In ihnen verwendete er 10.064 Wörter und 5.756, nachdem er die Stoppwörter entfernt hatte. Die Anzahl der eindeutigen Wörter beträgt 2750. Hier ist eine Wortwolke, die aus einer Liste der beliebtesten besteht.

Bild

Natürlich ist Hip-Hop ein Wort, aber bei der Verarbeitung von Texten werden alle Wortformen in Token unterteilt.

So sehen die beliebtesten und in Texten am häufigsten verwendeten Wörter aus.

Bild

Interessanterweise wurde Hüfte einmal mehr als Hopfen verwendet.

Und so kontrollierte Onkel Zhenya den Wortschatz in den Texten. Er verwendete 72% der 2750 eindeutigen Wörter in nur einem Werk (möglicherweise mehrmals). Was wiederum über verschiedene Themen in seiner Arbeit sprechen kann. Im Allgemeinen sind seine Indikatoren denen von Oxymiron sehr ähnlich.

Bild

Und schließlich möchte ich die Songs mit den meisten Wörtern und der höchsten Lesegeschwindigkeit zeigen.

Bild

Onkel Zhenyas Geschwindigkeit ist sogar höher als die von Oxymiron.

das Ende


All Articles