使用R和文本挖掘技术比较俄罗斯说唱场景。诺伊兹·麦卡斯塔(Noize Mc and Kasta)与法老(Pharaoh)和摩根施特恩(Morgenshtern)

R.文本挖掘。说唱


对于我和“老派”的其他追随者而言,许多当代说唱艺术家的受欢迎程度仍然是个谜。关于谁更好,谁的歌词更有趣,谁的音乐更多样化的争论不断,这引起了许多互联网用户的关注。为了确认这些争议,我不仅使用文字,而且通过事实,我使用编程语言R分析了四位俄罗斯说唱艺术家的文字。

其中一些在2000年代初期大受欢迎。现在他们都吸引了听众,但不幸的是,他们越来越少了。现在,有两个品牌正处于其知名度的顶峰,吸引了大批年轻观众。而且我的进一步分析将表明,鉴于他们使用的词汇表,这一事实并不会带来欢乐。找出谁是谁会很简单,因为我使用过的歌曲的歌手是:种姓,Noize-Mc,法老和摩根斯坦。我想每个人都知道,我将把Caste and Noise称为“旧派”,将法老和Morgenstern称为“新派”。

分析相册


为了进行分析,我选择了艺术家发行的所有工作室官方专辑(有关专辑的信息均来自www.wikipedia.com网站,所有文献都位于末尾):

  1. 卡斯塔:“比水还高,比草还高”;“眨眼之间”;“四头大喊”;“缺陷很明显”-74首曲目。
  2. 诺伊斯·麦克(Noize Mc):1“; “上一张专辑”;“新唱片”; “ Protivo Gunz”;“混乱”; “硬重启3.0”;“山丘之王”; “ Hiphopera:Orpheus&Eurydice”-160首单曲。
  3. 法老王:《小工具》;菲洛拉 “ Dolor”;“粉红弗洛伊德”;hun “规则”-95首曲目。
  4. Morgenshtern:“在被人们知道之前”;“微笑,你这个傻瓜!” “传奇尘埃”-30首曲目。

我特别选择了上述艺术家,因为即使是对他们的作品有些熟悉的人也会同意它们的文字是完全不同的(Casta + Noise vs Pharaoh + Morgenstern),并且将它们彼此进行比较将很有趣。出现一个逻辑问题:如何客观,正确地比较Caste的四张专辑和Pharaoh的八张专辑?一切都非常简单-经过一些操作(稍后将讨论),单词的数量将或多或少具有可比性。毕竟,众所周知,数量不等于质量。
为了收集单词本身,我使用了genius.com网站及其API。幸运的是,该服务的开发人员提供了一个开放的应用程序编程接口(API),使从数据库提取歌词(按艺术家,专辑)足够容易,以进行后续分析。

所有分析都是使用R编程语言进行的,另外还使用了词干分析(查找给定源单词的词库的过程)python,因为它无法应对R和mystem程序中的编码(Windows 10不喜欢与UTF-8成为朋友)和R,他们说使用Apple OS或Linux不会出现此类问题。

处理之前。浏览文本。字数


要下载歌词,请使用“ genius”库。此软件包“ genius_album”中的函数非常容易使您可以一次下载专辑中的所有文本。请注意并仔细检查,因为并非所有艺术家都总是可以使用所有歌词,其中一些必须手动添加。下载之后,整个歌曲中使用了多少个单词(以及代词,介词,助词等)变得很有趣。然后,我们将这些数字与已处理的词干和停用词结果进行比较。为了使您更容易理解专辑和曲目数量与所用单词数量的比率,我将再次复制此信息:

  1. Noize Mc-8张专辑,160首单曲。
  2. Casta-4张专辑,74首曲目。
  3. 法老王-7张专辑,95首单曲。
  4. Morgenstern-3张专辑,30首曲目。

图片

有趣的是,Pharaoh和Noise的专辑数量几乎相同(分别为七张和八张),但是从图中可以看出,专辑的质量在歌曲数量和词汇丰富度方面都大不相同(57962 vs 24184)。

为了使这种差异最小化并使比较更加正确和正确,我们计算了一个普通艺术家在他的一首歌曲中使用了多少个单词:

  1. Noize Mc-362个单词。
  2. 种姓-388个单词。
  3. 法老王-254个字。
  4. 摩根斯坦-273个单词

显然,这种比较是有条件的,而是近似的,但是这些数字不言而喻。

这就是每个艺术家的前10个单词的外观以及对这些单词的引用次数:

图片

图片

正如人们所期望的那样,如果不处理“最重要的单词”,这些介词,代词和连词不会反映任何结果,也不会承受特殊的语义负荷。因此,在此阶段,没有任何有趣或意外的事情发生。

下一步是处理和准备分析文本。使用Python中Yandex的mystem程序执行茎的处理过程,该程序对每个人都可用。采取此步骤是为了了解艺术家使用了多少个独特的单词,以及他们在文本中使用俄语的广泛程度。毕竟,在不同情况下多次对同一个单词进行计数将是一个错误。这表明了歌手的可变性和说服能力,而不是词汇的广度。

同样,为了获得更具代表性的结果,有必要摆脱不承载情感和语义负荷的介词(介词,代词,助词等)。不幸的是,R包中没有好的库包含俄语停用词。我想提请您注意以下事实:作者本人必须确定该词还是该停用词,以及是否应删除该词。始终仔细阅读此类词典,以免为您删除正确和有用的词。停用词包支持多种语言,但是我更喜欢使用来自外部资源的词。

处理后


从图中可以看出,在标记和删除停用词后,词数已大大减少。鉴于几乎所有最初最流行的词都已停止,这不足为奇。

图片

通常,在标记和删除停用词之后剩余的词数(以初始数的百分比)实际上对于每个人都是相等的。值得注意的是,它们在群体中是平等的。在“旧学校”中为55-58%,在“新学校”中为46-50%。
非常重要和有趣的信息是每位艺术家拥有的独特单词的数量。对于噪声,这是8891个单词,对于Caste 5307,对于Pharaoh 3899,对于Morgenstern1242。想要稍微扩大词汇量,但又不想读书的人,可以听Noize Mc和Caste。

当然,许多人对处理后的现在的单词感兴趣。我为每个艺术家展示了前10个字词的图形:

图片

图片

当然,许多读者都对带有星号的字词感到震惊。法老和摩根斯坦确实在文本中有很多亵渎,以我个人的观点,这对文本的整体结构和感知有负面影响。这两位表演者在第二位置的单词相同。一个能完美展示其音乐精神和文化的词。再过一会儿,我将清楚地演示表演者歌词中的情感基调。

常用的词。单词比较


为了使信息更直观,我使用“ wordcloud”包中的“ comparison.cloud”功能将表演者的所有单词放在一张图表上,为此,它们之间的比较和感知更加容易(并且我们可以再次看到席子的特色)。用条形图显示单词可能会很成问题,因为使用更多的单词,需要大量空间。同名软件包中的一个好功能是“ wordcloud2”:将鼠标悬停在一个单词上时,将出现一个窗口,显示使用该单词的频率。

图片

由于艺术家使用相同的语言来编写歌曲,因此不用划分艺术家就能看到他们最常使用的单词,这将很有趣。此图使用了来自wordcloud包的commonality.cloud函数。字体大小对应于在文本中提及该单词的频率。

图片

情感文本分析


每部电影,书或歌曲都有自己的情绪,这种情绪会传递给观众或听众并影响他们。有趣的是,新旧学校的表演者对他们的学生播出了什么样的心情。您可以通过分析单词来确定音乐家歌曲中的哪个类别:“否定”,“积极”,“中立”。不出所料,对于俄语来说,还没有一个高质量的字典,对R的单词进行了情感分析(如果有人知道,请分享)。因此,我必须在升级时使用外部版本(在文本末尾链接到词典)。

并非所有单词在词典中都有对应关系,这当然有点令人遗憾,但是对于英语来说,这种问题实际上不会出现。因此,我决定展示最频繁重复出现的单词的情感色彩。聆听者最常听到的是这些词,而这些词对他的影响最大,并决定了整首歌的感受。通常,如果读者甚至对所有作者的作品都有些熟悉,那么他不太可能会感到惊讶。好吧,如果对于某些人而言,分析出来的名字是新的,那么欢迎您,结识他们的工作。您可以在下面看到图表。对于所有艺术家,将显示最常用的单词。

摩根斯特恩。一个单词的重复率是10倍以上。大量的红色柱子非常突出,如果您看一下这些词是什么,那么从这位艺术家传达给他的观众的信息中,我很难过。

图片

法老王。词典也有很多不足之处。频率超过20倍。

图片

接下来是俄罗斯说唱时代的老朋友们的时间。对于那些真的不感到羞耻的人,可以建议他们收听。

种姓。具有积极含义的单词明亮占主导地位。负面的言论并不会因其不道德行为而令人震惊。频率> = 25

图片

最后,韵母和单词“ Noize Mc”(频率> = 30)。

图片

Morgenstern和Pharaoh在他们的歌曲中使用的大量负色词汇会影响他们对歌曲的感知和播放的情绪。当音乐尽其所能迫使您反其道而行之时,很难从音乐中获得愉悦的情绪。
由于使用过的带有情感分析的词典未包含所有单词,因此很难得出艺术家关于歌曲情绪的100%肯定的结论,因为很多情况还取决于上下文。但是,我将向您展示艺术家使用了多少个单词以及使用了哪些单词(根据他们设法附加的内容)。

图片

显然,所有艺术家的大多数话语都具有中性色彩,实际上不影响听者。但是,有趣的是,法老和摩根斯坦使用带有负含义的词多于带有正含义的词。而且,尽管字典不那么出色,并且缺少很多淫秽单词及其变化形式(字典中包含28,248个单词,我不得不手动添加其中一些单词)。

图片

种姓和噪音女士也由中性的话语引导,但排在第二位的是积极的,不会引起我们负面的情绪。

是的,我当然不能在这种类型的分析中评估上下文的影响,例如,“爱”一词可以与“非”粒子一起使用并具有否定含义。但是您必须承认,“我不爱你”这个短语比“我恨你”更令人愉快。并且即使是“ not”这个词的否定词也不会被纠正。一样,我们只会听到“仇恨”一词。

音乐品味是个人的事,每个人都决定听什么。但是,再看看图表,思考一下如何充实自己的日常生活。音乐无处不在,常常会影响我们的情绪,那么为什么每天有意识地使音乐变得更糟呢?

通常,本文还涉及以下事实:编程可能很有趣,并且可以应用于各个领域。它可以从一个新的角度显示已经熟悉的信息,让您考虑哪些是显而易见的或无关紧要的。仅取决于您,什么将隐藏在代码行之后以及它们将告诉您什么有趣。

学习编程语言,开发和聆听高质量的音乐以进行写作,这在YouTube上花费了超过7天的在线时间。对于那些不知道的人,Morgenstern专辑“ Legendary Dust”在YouTube在线广播中录制了6天,因此成为Morgenstern生涯中最成功的人,在发行的前半小时内获得了VKontakte百万听众,在11个小时内获得了500万次播放。发行后的前两天,VKontakte收听了这张专辑超过2100万次,这是一个社交网络的唱片。

二手文献列表:

1. ru.wikipedia.org/wiki/Noize_MC
2. ru.wikipedia.org/wiki/法老王
3. ru.wikipedia.org/wiki/Kasta_(组)
4。ru.wikipedia.org/wiki/Morgenstern_(音乐家)
5. github.com/stopwords-iso/stopwords-ru/blob/master/stopwords-ru.txt(停用词)
6. github.com/dkulagin/kartaslov/树/主/数据集/ emo_dict(情感词典)。
许可:creativecommons.org/licenses/by-nc-sa/4.0
7. ru.wikipedia.org/wiki/Legendary_Dust

All Articles