Comparação de cenas de rap russas usando técnicas de mineração de texto e texto. Noize Mc, Oxxxymiron, tio Zhenya. Episódio 2

R. Text Mining. Rap. Episódio 2


Este artigo é uma continuação do material “Comparação de cenas de rap russas usando técnicas de R e Text Mining. "Noize Mc e Kasta vs Faraó e Morgenshtern" e agora tentarei analisar em detalhes o trabalho de Noise Ms e Oksimiron. No entanto, quero observar que isso não será uma comparação entre os dois. O objetivo deste artigo não é mostrar qual deles é mais legal, mas transmitir a profundidade e a diversidade de suas músicas, das quais temos a oportunidade de desfrutar em tempo real. Temos muita sorte de poder acompanhar seus sucessos e ir a seus shows. Neste material não haverá comparação, como na primeira parte, não haverá um contraste tão forte.

Desta vez, a análise também foi feita usando R, Python e a API Genius.com. Você pode ler mais na primeira parte , porque não quero repeti-la.

Aqueles que estão um pouco familiarizados com o trabalho de Noise Ms e Oksimiron concordam que, com certeza, as palavras usadas por esses artistas serão muito diferentes devido aos diferentes temas das músicas. Por exemplo, muitas das músicas de pós-graduação de Oxford e o diploma de Oksimiron na literatura inglesa medieval têm muitas referências à religião e à história. Por exemplo, uma faixa chamada "Ivory Tower". Poucas pessoas sabem que essa metáfora foi usada pela primeira vez no Cântico Bíblico “pelo cântico de Salomão”: “Seu pescoço é como um pilar de marfim” e alegoricamente significa uma área de grandes aspirações, longe da agitação do mundo e de suas preocupações. Portanto, não surpreende que muitos de seus textos pareçam difíceis de percepção e compreensão, tanto que, para obter ajuda na decodificação, eles se voltam paraAnatoly Wasserman .

Por outro lado, Noise Ms concentra seu trabalho em um público mais amplo, de modo que o idioma de sua música é compreensível e próximo a um número muito grande de pessoas. Além disso, muitas das letras de Ivan (nome real Noise Ms) são escritas "aqui e agora" e contam sobre os eventos atuais no momento da redação. Por exemplo, a faixa "Mercedes S-666" foi escrita na sequência de um acidente ocorrido na Leninsky Prospekt em 2010, quando a vice-presidente da Lukoil Anatoly Barkov e duas mulheres, Olga Alexandrina e Vera Sedelnikova, se tornaram participantes do acidente de trânsito. morreu naquele acidente. A polícia de trânsito de Moscou declara que Aleksandrina e Sedelnikova são os culpados. Testemunhas oculares afirmam que este não é o caso.

Para começar, por analogia com o artigo anterior, calculei o número total de palavras para Noise Ms - 56 473 (157 músicas) e para Oxymiron - 16 540 (39 músicas). Oksimiron foi levado para a análise 2 de seu álbum oficial + Mixtape número 2, o primeiro que ele decidiu excluir, pois, em quase todas as obras, Oksimiron executa apenas um verso.

É assim que o número de palavras exclusivas cuida da exclusão de palavras de parada.

imagem

Como você pode ver, Noise Ms e Oksimiron usam apenas 2209 palavras comuns em seus textos. Mais de 50% do vocabulário de cada artista é único, o que indubitavelmente indica a diferença em seus estilos de autor. Atrevo-me a sugerir que o número de palavras únicas em Oksimiron seria ainda maior se o número de álbuns e faixas estivesse um pouco mais próximo do Noise. Para comparação, Leo Nikolayevich Tolstoy em seu trabalho “Anna Karenina” possui 12.752 palavras únicas em 253.311.

Para que eu pudesse ver com facilidade e clareza as palavras mais populares de Noise Ms e Oxymiron, eu as reuni em nuvens de palavras.

imagem

Bem como palavras comuns a eles.

imagem

Então eu tive algumas perguntas lógicas. Qual palavra é considerada mais popular e memorável por este ou aquele artista? Que palavras caracterizam seu trabalho com mais força? Aqueles que ele costumava dizer em uma música, mas em menos números, ou aqueles que ele mencionou, supõem, uma vez, mas em mais faixas.

É muito difícil fazer uma conclusão inequívoca. De fato, com base no primeiro artigo, a palavra "tyr" foi a mais popular entre as castas, mas aqueles que estão familiarizados com seu trabalho imediatamente indicaram que é difícil chamar essa palavra de uma das definidoras para essa banda, uma vez que foi pronunciada quase sempre. uma faixa "Tyrim". Portanto, alguém nunca pode ativar uma faixa com a palavra mencionada com mais frequência, mas alguém ao contrário conhecerá e associará o artista exclusivamente a essa música. Por exemplo, para mim, Caste sempre será associado às palavras da música "Around the Noise" ("Não ferva tudo, nishtyak").

Se usarmos uma palavra que foi usada em mais faixas, a probabilidade de que essa palavra seja ouvida e conectada ao trabalho de um determinado artista é muito maior.

Como eu já disse, ambas as abordagens têm o direito de existir e têm pontos fortes e fracos, portanto, para fornecer aos leitores uma imagem completa, analisei os textos de Noise Ms e Oxymiron de duas maneiras.

É assim que a justaposição das palavras mais usadas se parece em Noise Ms e Oksimiron. O primeiro significado são as palavras mais populares entre os artistas, o segundo são as palavras mencionadas em mais músicas. Sem palavras de parada.

imagem

imagem

Se você estudar cuidadosamente os dados nas tabelas, fica claro que a maioria das palavras é comum e não afeta o estilo do texto. No entanto, há palavras que se destacam no contexto geral e criam a singularidade do estilo do autor.

Para entender como os textos de Noise Ms e Oksimiron diferem de outros trabalhos e textos escritos em russo, comparei os dados das palavras mais usadas (antes de excluir as palavras de parada) com as mesmas estatísticas obtidas no corpus nacional do idioma russo . Este sistema de informação e referência, baseado em uma coleção de textos russos em formato eletrônico, contém mais de 50.000 documentos. Para compilar a classificação, foram utilizadas 192 formas de 68 68 044 palavras.

imagem

Espera-se que as palavras mais populares sejam preposições, conjunções, partículas, pronomes, etc. Em comparação com dezenas de milhares de outros trabalhos, Noise Ms e Oksimiron chegaram a ter quase a mesma porcentagem de uso dessas palavras.

Para analisar com mais precisão a semelhança / diferença dos textos, não basta considerar apenas palavras individuais e a frequência de seu uso, também é importante considerar quais conectivos essas palavras compõem, os chamados bigrams, 3 quadros, etc. Afinal, usando o mesmo vocabulário, você pode compor frases e frases com significado diferente. Depois de analisar quais conectivos compõem certas palavras, pode-se tirar uma conclusão mais confiante sobre similaridade ou diferença.

É assim que os bigramas mais populares ficam no Noise e no Oxymyron. Eu os comparei novamente com informações do corpo de línguas russas.

imagem

E, novamente, como no caso da comparação usual de formas de palavras, os conectivos de palavras entre os artistas e o corpus da língua russa são muito semelhantes, mas existem elementos importantes que distinguem os temas e o estilo dos artistas.

Um ponto muito importante, controverso e controverso para mim, foi a determinação da amplitude e diversidade do vocabulário dos autores. Como fazer isso sem recorrer a dicionários para a interpretação do significado das palavras e definição de seu assunto? A versatilidade da criatividade determina o número total de palavras nas obras? Ou é a chave para o número de palavras únicas? No primeiro caso, você pode simplesmente usar as mesmas palavras em todas as músicas e pegar apenas o número. No segundo, muitas das palavras únicas podem ser usadas no número n de músicas e, em seguida, novamente manipulam as mesmas palavras. Como você pode ver, ambas as abordagens têm muitas reservas.

Portanto, assumi que a frequência com que os artistas usam palavras únicas em suas músicas pode nos dizer sobre a amplitude. Quanto mais palavras únicas forem usadas em menos músicas, mais confiante se pode dizer que os tópicos são diferentes. O artista é mestre em sinônimos e os temas são os mesmos, mas as palavras são diferentes, o que também é indubitavelmente bom, porque mostra a amplitude do conhecimento do idioma russo.
Abaixo está uma tabela que indica quantas palavras foram usadas em quantas músicas. Por exemplo, a palavra "punks" foi usada apenas em uma música, mas talvez várias vezes. E quanto mais palavras foram usadas em apenas um trabalho - maior a singularidade. Por conveniência, essa medida foi chamada por mim - "O Índice de Exclusividade de Palavras". Quanto maior o valor, mais exclusivo e diversificado o texto.

Para maior clareza, darei um exemplo da tabela: Noise Ms usou 5.451 palavras únicas em apenas uma faixa (possivelmente várias vezes), 1.467 palavras únicas foram usadas por ele em dois trabalhos, etc. Ele usou 12 palavras únicas em mais de 40 faixas.

imagem

Como você pode ver, a porcentagem de exclusividade em grupos é aproximadamente a mesma para dois artistas. Pouco mais de 60% da Noise Ms e até 75% das palavras únicas do Oxymiron foram usadas em apenas uma faixa.

Seria interessante comparar esses indicadores, por exemplo, com a música pop, onde o tema não é tão amplo, porque inicialmente o rap é uma música de protesto. Os artistas levantam tópicos difíceis para si e para a sociedade, tentam entendê-los ou compartilham seu raciocínio. A música pop é mais projetada para entreter e relaxar os ouvintes, é mais fácil.

Mas, quero enfatizar que não comparo o rap com o pop neste exemplo. Mostro os resultados de uma análise do trabalho de dois artistas talentosos - Noise Ms e Oksimiron.
Sobre as palavras, seu número e singularidade já foram ditos, se não quase tudo, então muito. Mas o que mais pode afetar a percepção do texto audível? No caso dos artistas de rap, essa é, obviamente, a velocidade das palavras faladas. A velocidade e a qualidade da pronúncia das palavras, é claro, afeta a percepção e a compreensão do texto.

Abaixo está a velocidade da pronúncia das palavras por unidade de tempo (um segundo). Você também pode se familiarizar com as estatísticas de músicas com o maior número de palavras, bem como com trabalhos com a maior velocidade de "leitura".

imagem

Noise Ms tem uma taxa de pronúncia média de palavras de 1,77 palavras por segundo. Isso era de se esperar, pois muitas das músicas do Noise têm um elemento de canto “tradicional” que prolonga o tempo de pronúncia da palavra. E o estilo de suas músicas não é puro rap ou hip-hop, mas mais frequentemente uma mistura de rock e rap.

imagem

Oximiron tem um número médio de palavras faladas por segundo mais alto que o de seu colega - 2,55 palavras por segundo.

A faixa XXX Shop, provavelmente, deve ser excluída dessas estatísticas, pois contém 2 versos em inglês e é executada por outros artistas. No entanto, ouvimos as faixas como um todo, sem as dividir em artistas. Noise Ms também tem muitas colaborações.

Com base na análise, podemos dizer com segurança algumas coisas. Primeiro, os dois autores em seu trabalho usam com confiança todas as riquezas que a língua russa lhes proporciona. Em segundo lugar, a maioria das palavras que compõem suas músicas é comumente usada e popular entre outros autores, no entanto, várias formas de palavras e bigrams que são característicos apenas deles podem ser distinguidos. E terceiro, a música de Noise MS e Oxymiron é diferente, tanto no estilo, no assunto e no vocabulário, que eles usam. E definitivamente, essa música que merece atenção.

Além disso, espero que os métodos apresentados para analisar os textos dos artistas pareçam úteis e acessíveis para você. De fato, a análise da música, incluindo o rap, deve ser diferente da análise usual das obras literárias. No segundo caso, a ênfase está no comprimento das frases, no número de sílabas nas palavras, no número de palavras nas frases, no número de substantivos / adjetivos / turnos, etc. Na minha opinião, no rap, isso não faz sentido, pois as frases são combinadas em um todo durante a leitura. As palavras são pronunciadas com grande velocidade, e aqui é importante pelo menos apenas acompanhar o que o artista está lendo.

Comente, critique. Afinal, quanto mais revisões, mais rápido e eficientemente seremos capazes de melhorar os métodos conhecidos de análise de obras musicais.

Bônus Tio Jenya


Tio Zhenya . Poucas pessoas estão familiarizadas com o trabalho dele, mas essa pessoa é única e essa singularidade é expressa nos textos. Eles são complexos na estrutura e incrivelmente cheios de significado e conteúdo profundo. Menção de Nietzsche, Castaneda, imagens da mitologia, jogo de palavras e refrão composicional. Aconselho a todos que se familiarizem um pouco com o trabalho dele.

A revisão de seus textos será breve, pois foi feita um bônus a pedido derede de arrasto. Das palavras às ações.

Consegui encontrar 14 faixas do tio Zhenya com letras. Neles, ele usou 10.064 palavras e 5.756 depois de remover as palavras de parada. O número de palavras exclusivas é 2750. Aqui está uma nuvem de palavras composta de uma lista das mais populares.

imagem

Obviamente, hip-hop é uma palavra, mas ao processar textos, todas as formas de palavras são divididas em tokens.

É assim que as palavras mais populares e as mais usadas nos textos são exibidas.

imagem

Curiosamente, o quadril foi usado mais uma vez que o hop.

E assim, tio Zhenya controlava o vocabulário nos textos. Ele usou 72% das 2750 palavras únicas em apenas um trabalho (possivelmente várias vezes). O que novamente pode falar sobre diferentes tópicos em seu trabalho. Em geral, seus indicadores são muito semelhantes aos do Oxymiron.

imagem

E, finalmente, quero mostrar as músicas com mais palavras e a maior velocidade de leitura.

imagem

A velocidade do tio Zhenya é ainda maior que a do oximiron.

o fim


All Articles