Comparação de cenas de rap russas usando técnicas de mineração de texto e texto. Noize Mc e Kasta vs Pharaoh and Morgenshtern

R. Text Mining. Rap


A popularidade de muitos artistas de rap contemporâneos continua sendo um mistério para mim e para outros seguidores da "velha escola". Debate constante sobre quem é melhor, cujas letras são mais interessantes, cuja música mais diversa ocupa a mente de muitos usuários da Internet. Para confirmar essas disputas, não apenas com palavras, mas com fatos, analisei os textos de quatro artistas de rap russos, usando a linguagem de programação R.

Alguns deles eram incrivelmente populares no início dos anos 2000. Agora todos eles também atraem seus ouvintes, mas, infelizmente, estão se tornando cada vez menos. E dois estão agora no auge de sua popularidade e atraem um público extenso e principalmente jovem. E minha análise posterior mostrará que, dado o vocabulário que eles usam, esse fato não causa alegria. Para descobrir quem é quem será bem simples, porque os artistas cujas músicas eu usei são: Caste, Noize-Mc, Pharaoh e Morgenstern. Acho que todo mundo entende que vou referir Caste and Noise à "velha escola", e Faraó e Morgenstern ao "novo".

Álbuns de análise


Para análise, selecionei todos os álbuns oficiais do estúdio lançados pelos artistas (as informações sobre os álbuns foram retiradas do site www.wikipedia.com , toda a literatura está no final):

  1. Kasta: “Mais alto que a água, mais alto que a grama”; "Um flash nos olhos"; "Gritar com quatro cabeças"; "É claro sobre a falha" - 74 faixas.
  2. Noize Mc: “Os Maiores Sucessos Vol. 1 "; "Último álbum"; "Novo álbum"; "Protivo Gunz"; "Confusão"; "Hard Reboot 3.0"; "Rei da colina"; "Hiphopera: Orfeu e Eurídice" - 160 faixas.
  3. Faraó: "The Wadget"; Phlora "Dolor"; Fósforo "Pink Phloyd"; Phuneral "Rule" - 95 faixas.
  4. Morgenshtern: “Antes que se torne conhecido”; "Sorria, seu tolo!"; "Legendary Dust" - 30 faixas.

Eu selecionei especialmente os artistas mencionados, pois mesmo aqueles que estão um pouco familiarizados com o trabalho deles concordam que os textos são muito diferentes (Casta + Noise vs Faraó + Morgenstern) e será interessante compará-los. Uma questão lógica surge: como comparar objetiva e corretamente os quatro álbuns de Caste e os oito álbuns de Faraó? Tudo é muito simples - depois de algumas manipulações, que discutirei mais adiante, o volume de palavras se tornará mais ou menos comparável. Afinal, como todos sabem, quantidade não é igual a qualidade.
Para coletar as palavras, usei o site genius.com e sua API. Felizmente, os desenvolvedores do serviço fornecem uma API (Interface de Programação de Aplicativo) aberta, que facilita a extração de letras (por artista, álbum) do banco de dados para análises subsequentes.

Todas as análises foram realizadas usando a linguagem de programação R, além do python stemming (o processo de encontrar a base de palavras para uma determinada palavra-fonte), porque não era possível lidar com a codificação no R e no programa mystem (o Windows 10 não gosta de ser amigo do UTF-8 e R, eles dizem que usando um Apple OS ou Linux, tais problemas não surgem).

Antes do processamento. Procure Textos. Contagem de palavras


Para baixar a letra usou a biblioteca "genius". A função deste pacote "genius_album" permite que você baixe todos os textos dos álbuns de uma só vez. Tenha cuidado e verifique duas vezes, pois nem todas as letras estão sempre disponíveis para todos os artistas; algumas delas tiveram que ser adicionadas manualmente. Após o download, ficou interessante quantas palavras são usadas nas músicas como um todo (junto com pronomes, preposições, partículas, etc.). Em seguida, comparamos esses números com os resultados de palavras de parada e parada já processadas. Para facilitar a compreensão da proporção entre o número de álbuns e faixas e o número de palavras usadas, duplicarei essas informações mais uma vez:

  1. Noize Mc - 8 álbuns, 160 faixas.
  2. Casta - 4 álbuns, 74 faixas.
  3. Pharaoh - 7 álbuns, 95 faixas.
  4. Morgenstern - 3 álbuns, 30 faixas.

imagem

Curiosamente, Pharaoh e Noise têm quase o mesmo número de álbuns (sete e oito, respectivamente), mas, como pode ser visto no gráfico, a qualidade dos álbuns é muito diferente tanto no número de músicas quanto na riqueza de vocabulário (57962 vs 24184).

Para minimizar essa diferença e tornar a comparação mais correta e correta, foram calculadas quantas palavras um artista comum usa em uma de suas músicas:

  1. Noize Mc - 362 palavras.
  2. Casta - 388 palavras.
  3. Faraó - 254 palavras.
  4. Morgenstern - 273 palavras

É claro que essa comparação é condicional e bastante aproximada, mas os números falam por si.

E é assim que as 10 principais palavras de cada artista se parecem e o número de referências a essas palavras:

imagem

imagem

Como seria de esperar, sem processar as “palavras principais” são preposições, pronomes e conjunções que não refletem nenhum resultado e não carregam uma carga semântica especial. Portanto, nesta fase, nada de interessante ou inesperado aconteceu.

O próximo passo foi o processamento e preparação de textos para análise. O processo de stemming foi realizado usando o programa mystem da Yandex em Python, disponível para todos. Esta etapa foi realizada para entender quantas palavras únicas os artistas usam e quão amplamente eles usam o idioma russo em seus textos. Afinal, seria um erro contar a mesma palavra em diferentes casos várias vezes. Isso mostra a variabilidade e a capacidade de persuasão do cantor, em vez da amplitude de seu vocabulário.

Além disso, para obter um resultado mais representativo, é necessário livrar-se das palavras de parada que não carregam carga emocional e semântica (preposições, pronomes, partículas, etc.). Infelizmente, não existem boas bibliotecas nos pacotes R que contenham palavras de parada para o idioma russo. Quero chamar sua atenção para o fato de que o próprio autor deve determinar se essa ou aquela palavra é uma palavra de parada e se deve ser excluída. Sempre analise cuidadosamente esse tipo de dicionário para não eliminar a palavra certa e útil para você. O pacote stopwords suporta vários idiomas, mas eu preferi usar palavras de um recurso externo com meu próprio refinamento.

Após o processamento


Como você pode ver no gráfico, o número de palavras diminuiu significativamente após carimbar e remover as palavras de parada. Isso não é surpreendente, uma vez que quase todas as palavras mais populares originais foram interrompidas.

imagem

Em geral, o número de palavras que permaneceram após carimbar e excluir as palavras de parada, como uma porcentagem do número inicial, é praticamente igual para todos. Vale a pena notar que eles são iguais em grupos. Na "velha escola" é de 55 a 58%, na "nova" de 46 a 50%.
Informações muito importantes e interessantes são o número de palavras únicas que cada artista possui. Para Noise, são 8891 palavras, para Casta 5307, para Faraó 3899 e Morgenstern 1242. Quem quiser expandir um pouco seu vocabulário, mas não quiser ler livros, pode ouvir Noize Mc e Caste.

Obviamente, muitos estão interessados ​​no que as palavras estão levando agora, após o processamento. Apresento gráficos com as 10 principais palavras de cada artista:

imagem

imagem

Certamente, muitos dos leitores ficaram impressionados com asteriscos. Faraó e Morgenstern realmente têm muita profanação nos textos, o que, na minha opinião pessoal, tem um efeito bastante negativo sobre toda a estrutura do texto e sua percepção. Esses dois artistas têm a mesma palavra na segunda posição. Uma palavra que demonstra perfeitamente o espírito e a cultura de sua música. Um pouco mais tarde, demonstrarei claramente que tipo de tom emocional está levando nas letras dos artistas.

Palavras comuns. Comparação de palavras


Para tornar as informações mais visuais, coloquei todas as palavras dos artistas em um gráfico usando a função "compare.cloud" do pacote "wordcloud" para isso, é mais fácil compará-las e percebê-las (e novamente podemos ver como as esteiras se destacam). Mostrar palavras com gráficos de barras pode ser bastante problemático, pois com mais delas, é necessário muito espaço. Uma boa função do pacote com o mesmo nome é "wordcloud2": quando você passa o mouse sobre uma palavra, aparece uma janela que mostra a frequência de seu uso.

imagem

Como os artistas usam o mesmo idioma para escrever suas músicas, será interessante ver, sem dividir em artistas, quais palavras eles costumam usar. A função commonality.cloud do pacote wordcloud foi usada para este gráfico. O tamanho da fonte corresponde à frequência de menção da palavra nos textos.

imagem

Análise de texto sentimental


Cada filme, livro ou música tem seu próprio humor, que é transmitido ao público ou ouvintes e os afeta. É interessante ver que humor os artistas das novas e antigas escolas transmitem aos seus alunos. Você pode descobrir analisando as palavras de cada categoria: "Negativo", "Positivo", "Neutro" prevalecem nas músicas dos músicos. Como esperado, para o idioma russo, não há um dicionário de alta qualidade com análise sentimental de palavras para R (se alguém souber disso, compartilhe). Portanto, tive que usar o externo na minha atualização (link para o dicionário no final do texto).

Nem todas as palavras tinham correspondências no dicionário, o que é um pouco triste, é claro, com o idioma inglês esses problemas praticamente não surgem. Decidi, portanto, mostrar a coloração emocional das palavras repetidas com mais frequência. São essas palavras que o ouvinte mais ouve, e são elas que têm o efeito mais poderoso sobre ele e determinam a percepção de toda a música. Em geral, se o leitor estiver um pouco familiarizado com o trabalho de todos os autores, é improvável que ele se surpreenda. Bem, se para alguém os nomes analisados ​​são novos, por favor, seja bem-vindo, familiarize-se com o trabalho deles. Abaixo você pode ver os gráficos. Para todos os artistas, as palavras mais usadas são exibidas.

Morgenstern. A taxa de repetição de uma palavra é mais de 10 vezes. O número abundante de colunas vermelhas se destaca bastante e, se você observar quais são essas palavras, fica duplamente triste com a mensagem que esse artista transmite para o público.

imagem

Faraó . O léxico também deixa muito a desejar. Frequência mais de 20 vezes.

imagem

A seguir, é a hora dos veteranos da cena do rap russo. Aqueles para quem realmente não é uma vergonha, e podem ser recomendados para ouvir.

Casta . Predominância brilhante de palavras com conotação positiva. E palavras negativas não são chocantes com sua imoralidade. Frequência> = 25

imagem

E, finalmente, o mestre da rima e as palavras Noize Mc (frequência> = 30).

imagem

A abundância de vocabulário de cores negativas, que Morgenstern e Faraó usam em suas músicas, afeta a percepção de suas músicas e o humor que elas transmitem. É difícil obter emoções agradáveis ​​com a música quando se esforça para forçá-lo a fazer o oposto.
Como o dicionário usado com análise sentimental não contém todas as palavras, é difícil chegar a uma conclusão 100% e certa sobre o humor das músicas pelos artistas, pois muito também depende do contexto. No entanto, mostrarei quantas e quais palavras os artistas usam (pelo que conseguiram anexar).

imagem

Obviamente, a maioria das palavras de todos os artistas tem um tom neutro, o que praticamente não afeta o ouvinte. Curiosamente, Faraó e Morgenstern usam mais palavras com conotação negativa do que positiva. E isso, apesar da inferioridade do dicionário e da ausência de muitas palavras obscenas e suas variações (o dicionário contém 28.248 palavras e eu tive que adicionar algumas manualmente).

imagem

Casta e Ruído Ms também são lideradas por palavras neutras, mas em segundo lugar são positivas que não nos causam emoções negativas.

Sim, é claro, não posso avaliar a influência do contexto nesse tipo de análise e, por exemplo, a palavra “amor” pode ser usada com a partícula “não” e tem uma conotação negativa. Mas você deve admitir que a frase "eu não te amo" é mais agradável do que a frase "eu te odeio". E o negativo desta frase não será corrigido nem mesmo pela partícula "não". Mesmo assim, apenas ouviremos a palavra "Ódio".

O gosto musical é uma questão individual e todos decidem o que ouvir. Mas dê uma outra olhada nas paradas e pense em como você deseja preencher sua vida cotidiana. A música nos acompanha em todos os lugares e muitas vezes afeta muito o nosso humor, então por que conscientemente piora todos os dias?

Em geral, este artigo também trata do fato de que a programação pode ser interessante e pode ser aplicada em vários campos. Ele pode mostrar informações já familiares sob um novo ângulo, fazer você pensar no que parecia óbvio ou insignificante. Depende apenas de você o que ficará oculto por trás das linhas de código e o que elas dirão interessantes.

Aprenda linguagens de programação, desenvolva e ouça músicas de qualidade para escrever, o que leva mais de sete dias de tempo on-line no YouTube. Para quem não sabe, o álbum Morgenstern "Legendary Dust" foi gravado 6 dias durante transmissões on-line no YouTube e, como resultado, se tornou o mais bem-sucedido na carreira de Morgenstern, ganhando VKontakte milhões de ouvintes na primeira meia hora de lançamento e cinco milhões de peças em onze horas. Nos dois primeiros dias após o lançamento, o álbum foi escutado por VKontakte mais de 21 milhões de vezes, o que é um recorde para uma rede social.

Lista de literatura usada:

1. ru.wikipedia.org/wiki/Noize_MC
2. ru.wikipedia.org/wiki/Pharaoh
3. ru.wikipedia.org/wiki/Kasta_ (grupo)
4.ru.wikipedia.org/wiki/Morgenstern_ (músico)
5. github.com/stopwords-iso/stopwords-ru/blob/master/stopwords-ru.txt (palavras finais )
6. github.com/dkulagin/kartaslov/ tree / master / dataset / emo_dict (dicionário de sentimentos).
Licença: creativecommons.org/licenses/by-nc-sa/4.0
7. ru.wikipedia.org/wiki/Legendary_Dust

All Articles