Comparación de escenas de rap ruso utilizando técnicas de R y minería de texto. Noize Mc, Oxxxymiron, tío Zhenya. Episodio 2

R. Minería de texto. Rap. Episodio 2


Este artículo es una continuación del material "Comparación de escenas de rap ruso usando técnicas de R y minería de texto. "Noize Mc and Kasta vs Pharaoh and Morgenshtern" y ahora intentaré analizar en detalle el trabajo de Noise Ms y Oksimiron. Sin embargo, quiero señalar que esto no será una comparación entre los dos. El propósito de este artículo no es mostrar cuál de ellos es más genial, sino transmitir la profundidad y diversidad de su música, que tenemos la oportunidad de disfrutar en tiempo real. Tenemos mucha suerte de poder seguir sus éxitos e ir a sus conciertos. En este material no habrá comparación, ya que en la primera parte, no habrá un contraste tan fuerte.

Esta vez, el análisis también se realizó utilizando R, Python y la API Genius.com. Puede leer más en la primera parte , porque no quiero repetirlo.

Aquellos que estén un poco familiarizados con el trabajo de Noise Ms y Oksimiron estarán de acuerdo en que, con seguridad, las palabras utilizadas por estos artistas serán muy diferentes debido a los diferentes temas de las canciones. Por ejemplo, muchas de las canciones de los graduados de Oxford y el diploma de Oksimiron en literatura medieval inglesa tienen muchas referencias a la religión y la historia. Por ejemplo, una canción llamada "Ivory Tower". Pocas personas saben que esta metáfora se utilizó por primera vez en la canción bíblica "por la canción de Salomón": "Tu cuello es como un pilar de marfil" y alegóricamente significa un área de altas aspiraciones, lejos del bullicio del mundo y sus preocupaciones. Por lo tanto, no es sorprendente que muchos de sus textos parezcan difíciles de percibir y comprender, tanto que para obtener ayuda en la decodificación recurren aAnatoly Wasserman .

Por otro lado, Noise Ms enfoca su trabajo en un público más amplio, por lo que el lenguaje de su música es comprensible y cercano a un gran número de personas. Además, muchas de las letras de Ivan (nombre real Noise Ms) están escritas "aquí y ahora" y cuentan sobre los acontecimientos actuales en el momento de la escritura. Por ejemplo, la canción "Mercedes S-666" se escribió a raíz de un accidente ocurrido en Leninsky Prospekt en 2010, cuando el vicepresidente de Lukoil Anatoly Barkov y dos mujeres, Olga Alexandrina y Vera Sedelnikova, se convirtieron en participantes del accidente de tráfico. Murió en ese accidente. La policía de tránsito de Moscú declara que Aleksandrina y Sedelnikova tienen la culpa. Testigos presenciales afirman que este no es el caso.

Para comenzar, por analogía con el artículo anterior, calculé el número total de palabras para Noise Ms - 56 473 (157 canciones) y para Oxymiron - 16 540 (39 canciones). Oksimiron fue tomado para el análisis 2 de su álbum oficial + Mixtape número 2, el primero que decidió excluir, ya que, en casi todas las obras, Oksimiron interpreta solo un verso.

Así es como se ve el número de palabras únicas después de eliminar palabras de detención.

imagen

Como puede ver, Noise Ms y Oksimiron usan solo 2209 palabras comunes en sus textos. Más del 50% del vocabulario de cada artista es único, lo que sin duda indica la diferencia en sus estilos de autor. Me atrevería a sugerir que la cantidad de palabras únicas en Oksimiron sería aún mayor si la cantidad de álbumes y pistas estuviera un poco más cerca del ruido. A modo de comparación, Leo Nikolayevich Tolstoi en su obra "Anna Karenina" tiene 12.752 palabras únicas de 253.311.

Para poder ver fácil y claramente las palabras más populares de Noise Ms y Oxymiron, las reuní en nubes de palabras.

imagen

Así como las palabras comunes a ellos.

imagen

Entonces tuve algunas preguntas lógicas. ¿Qué palabra es considerada más popular y memorable por este o aquel artista? ¿Qué palabras caracterizan su trabajo más fuertemente? Los que a menudo decía en una canción, pero en menos números, o los que mencionó, supongan, una vez, pero en más pistas.

Es muy difícil llegar a una conclusión inequívoca. De hecho, según el primer artículo, la palabra "tyr" fue la más popular entre las castas, pero aquellos que están familiarizados con su trabajo indicaron de inmediato que es difícil llamar a esta palabra una de las que definen esta banda, ya que se pronunció casi todo el tiempo. una pista "Tyrim". Por lo tanto, es posible que alguien nunca encienda una pista con la palabra mencionada con más frecuencia, mientras que, por el contrario, alguien conocerá y asociará al artista exclusivamente con esta canción. Por ejemplo, para mí, Caste siempre estará asociado con las palabras de la canción "Around the Noise" ("No hiervas todo nishtyak").

Si tomamos una palabra que se usó en más pistas, entonces la probabilidad de que esta palabra se escuche y se conecte con el trabajo de cierto artista es mucho mayor.

Como ya dije, ambos enfoques tienen derecho a existir y tienen fortalezas y debilidades, por lo tanto, para proporcionar a los lectores una imagen completa, analicé los textos de Noise Ms y Oxymiron de dos maneras.

Así es como se ve la yuxtaposición de las palabras más utilizadas en Noise Ms y Oksimiron. El primer significado son las palabras más populares entre los artistas, el segundo es las palabras que se mencionan en más canciones. Sin parar las palabras.

imagen

imagen

Si estudia cuidadosamente los datos en las tablas, queda claro que la mayoría de las palabras son comunes y no afectan el estilo del texto. Sin embargo, hay palabras que se destacan en el contexto general y crean la singularidad del estilo del autor.

Para comprender cómo los textos de Noise Ms y Oksimiron difieren de otros trabajos y textos escritos en ruso, comparé los datos de las palabras más utilizadas (antes de eliminar palabras de parada) con las mismas estadísticas tomadas del corpus nacional del idioma ruso . Este sistema de información y referencia, basado en una colección de textos rusos en formato electrónico, contiene más de 50,000 documentos. Para compilar la calificación, se utilizaron 192 689 044 formas de palabras.

imagen

Se espera que las palabras más populares resulten ser preposiciones, conjunciones, partículas, pronombres, etc. En comparación con decenas de miles de otras obras, Noise Ms y Oksimiron incluso tenían casi el mismo porcentaje del uso de estas palabras.

Para analizar con mayor precisión la similitud / diferencia de los textos, no es suficiente considerar solo palabras individuales y la frecuencia de su uso, también es importante considerar qué conectivos forman estas palabras, los llamados bigrams, 3 cuadros, etc. Después de todo, usando el mismo vocabulario, puedes componer oraciones y frases que tengan un significado diferente. Después de analizar qué conectivos forman ciertas palabras, se puede llegar a una conclusión más segura sobre similitud o diferencia.

Así es como se ven los bigramas más populares en Noise y en Oxymyron. Nuevamente los comparé con información del corpus del idioma ruso.

imagen

Y de nuevo, como en el caso de la comparación habitual de formas de palabras, las conexiones de palabras entre los artistas y el corpus del idioma ruso son muy similares, pero hay elementos prominentes que distinguen los temas y el estilo de los artistas.

Un punto muy importante, controvertido y controvertido para mí fue la determinación de la amplitud y diversidad del vocabulario de los autores. ¿Cómo hacer esto sin recurrir a los diccionarios para la interpretación del significado de las palabras y la definición de su tema? ¿La versatilidad de la creatividad determina el número total de palabras en las obras? ¿O es la clave para la cantidad de palabras únicas? En el primer caso, simplemente puede usar las mismas palabras en todas las canciones y tomar solo el número. En el segundo, muchas de las palabras únicas pueden usarse en el número n de canciones, y luego manipular nuevamente las mismas palabras. Como puede ver, ambos enfoques tienen muchas reservas.

Por lo tanto, asumí que la frecuencia con la que los artistas usan palabras únicas en sus canciones nos puede decir acerca de la amplitud. Cuantas más palabras únicas se usen en menos canciones, con mayor confianza se puede decir que los temas son diferentes. O el intérprete es un maestro de los sinónimos, y luego los temas son los mismos, pero las palabras son diferentes, lo que también es indudablemente bueno, porque muestra la amplitud del conocimiento del idioma ruso.
A continuación hay una tabla que indica cuántas palabras se usaron en cuántas canciones. Por ejemplo, la palabra "punks" se usó solo en 1 canción, pero quizás varias veces. Y mientras más palabras se usaban en una sola obra, mayor era la unicidad. Por conveniencia, llamé a esta medida: "El índice de singularidad de las palabras". Cuanto mayor sea el valor, más único y diverso será el texto.

Para mayor claridad, daré un ejemplo de la tabla: Noise Ms usó 5,451 palabras únicas en una sola pista (quizás varias veces), 1467 palabras únicas fueron usadas por él en dos trabajos, etc. Usó 12 palabras únicas en más de 40 pistas.

imagen

Como puede ver, el porcentaje de unicidad en grupos es aproximadamente el mismo para dos artistas. Poco más del 60% de las Noise Ms y hasta el 75% de las palabras únicas de Oxymiron se usaron en una sola pista.

Sería interesante comparar estos indicadores, por ejemplo, con la música pop, donde el tema no es tan amplio, porque inicialmente la música rap es música de protesta. Los artistas intérpretes o ejecutantes plantean temas difíciles para ellos y para la sociedad, tratan de comprenderlos o comparten su razonamiento. La música pop está más diseñada para entretener y relajar a los oyentes, es más fácil.

Pero, quiero enfatizar que de ninguna manera comparo rap con pop en este ejemplo. Muestro los resultados de un análisis del trabajo de dos artistas talentosos: Noise Ms y Oksimiron.
Sobre las palabras, ya se ha dicho su número y singularidad, si no casi todo, entonces mucho. Pero, ¿qué más puede afectar la percepción del texto audible? En el caso de los artistas de rap, esto, por supuesto, es la velocidad de las palabras habladas. La velocidad y la calidad de la pronunciación de las palabras, por supuesto, afecta la percepción y la comprensión del texto.

A continuación se muestra la velocidad de pronunciación de las palabras por unidad de tiempo (un segundo). También puede familiarizarse con las estadísticas de canciones con la mayor cantidad de palabras, así como con obras con la mayor velocidad de "lectura".

imagen

Noise Ms tiene una tasa promedio de pronunciación de palabras de 1.77 palabras por segundo. Esto era de esperarse, ya que muchas de las canciones de Noise tienen un elemento de canto "tradicional" que alarga el tiempo de pronunciación de la palabra. Y el estilo de sus canciones no es puro rap o hip-hop, sino más a menudo una mezcla de rock y rap.

imagen

Oxymiron tiene un número promedio de palabras pronunciadas por segundo más alto que el de su colega: 2.55 palabras por segundo.

La pista XXX Shop, muy probablemente, debería excluirse de estas estadísticas, ya que contiene 2 versos en inglés y son interpretados por otros artistas. Sin embargo, escuchamos las pistas en su conjunto, sin dividirlas en artistas. Noise Ms también tiene muchas colaboraciones.

Según el análisis, podemos decir con seguridad algunas cosas. Primero, ambos autores en su trabajo usan con confianza todas las riquezas que les proporciona el idioma ruso. En segundo lugar, la mayoría de las palabras que componen sus canciones son de uso común y popular entre otros autores, sin embargo, se pueden distinguir varias formas de palabras y bigramas que solo son características de ellos. Y en tercer lugar, la música de Noise MS y Oxymiron es diferente, tanto en estilo, en materia y vocabulario, que utilizan. Y definitivamente, esta música que merece atención.

Además, espero que los métodos presentados para analizar los textos de los artistas le sean útiles y accesibles. De hecho, el análisis de la música, incluido el rap, debe ser diferente del análisis habitual de las obras literarias. En el segundo caso, el énfasis está en la longitud de las oraciones, el número de sílabas en palabras, el número de palabras en oraciones, el número de sustantivos / adjetivos / turnos, etc. En mi opinión, en la música rap esto no tiene sentido, ya que las oraciones se combinan en un todo durante la lectura. Las palabras se pronuncian con gran velocidad, y aquí es importante al menos hacer un seguimiento de lo que el artista está leyendo.

Comenta, critica. Después de todo, cuantas más reseñas, más rápido y más eficiente podremos mejorar los conocidos métodos de análisis de obras musicales.

Prima Tio jenya


Tío Zhenya . Pocas personas están familiarizadas con su trabajo, pero esta persona es única y esta singularidad se expresa en los textos. Son complejas en estructura e increíblemente llenas de significado y contenido profundo. Mención de Nietzsche, Castaneda, imágenes de la mitología, juegos de palabras y estribillo compositivo. Aconsejo a todos que se familiaricen un poco con su trabajo.

La revisión de sus textos será breve, ya que se hizo una bonificación a petición dered barredera. De las palabras a los hechos.

Logré encontrar 14 pistas del tío Zhenya con letras. En ellos utilizó 10,064 palabras y 5,756 después de eliminar las palabras de detención. El número de palabras únicas es 2750. Aquí hay una nube de palabras compuesta por una lista de las más populares.

imagen

Por supuesto, hip-hop es una palabra, pero al procesar textos, todas las formas de palabras se dividen en tokens.

Así es como se ven las palabras más populares y las más utilizadas en los textos.

imagen

Curiosamente, la cadera se usó una vez más que el salto.

Y así, el tío Zhenya controló el vocabulario en los textos. Usó el 72% de las 2750 palabras únicas en una sola obra (posiblemente varias veces). Que nuevamente puede hablar sobre diferentes temas en su trabajo. En general, sus indicadores son muy similares a los de Oxymiron.

imagen

Y finalmente, quiero mostrar las canciones con más palabras y la mayor velocidad de lectura.

imagen

La velocidad del tío Zhenya es incluso mayor que la de Oxymiron.

el fin


All Articles