使用R和文本挖掘技术比较俄罗斯说唱场景。Noize Mc,Oxxxymiron,Zhenya叔叔。第2集

R.文本挖掘。说唱 第2集


本文是“使用R和文本挖掘技术对俄罗斯说唱场景进行比较 ”材料的延续。 “ Noize Mc and Kasta vs Pharaoh and Morgenshtern”,现在我将尝试详细分析Noise Ms和Oksimiron的工作。但是,我要指出的是,这不会是两者之间的比较。本文的目的不是要展示其中的哪个更酷,而是传达他们的音乐的深度和多样性,我们有机会实时欣赏它们。我们很幸运能够跟随他们的成功并参加他们的音乐会。在这种材料中,不会像在第一部分中那样进行比较,不会有如此强烈的对比。

这次也使用R,Python和Genius.com API进行了分析,您可以在第一部分中阅读更多内容,因为我不想重复。

那些甚至对Noise Ms和Oksimiron的作品有些熟悉的人都会同意,可以肯定的是,由于歌曲的主题不同,这些艺术家所使用的词语也会有很大的不同。例如,牛津大学许多毕业生的歌曲和奥克西蒙(Oksimiron)的中世纪英语文学文凭都涉及宗教和历史。例如,一条名为“象牙塔”的轨道。很少有人知道这个比喻最早是在圣经的歌曲中被所罗门之歌使用的:``你的脖子就像是象牙的支柱'',寓言地意味着一个渴望很高的领域,远离了世界的喧嚣及其后顾之忧。因此,不足为奇的是,他的许多文本似乎难以理解和理解,以至于在帮助解码时,他们转向安纳托利·瓦瑟曼(Anatoly Wasserman)

另一方面,Noise Ms的工作集中在更广泛的听众上,因此他的音乐语言是可以理解的,并且与很多人接近。此外,伊凡(Ivan)的许多歌词(实名Noise Ms)都是“现在和现在”写的,并在撰写本文时讲述了时事。例如,曲目“ Mercedes S-666”是在2010年Leninsky Prospekt发生事故的,当时Lukoil Anatoly Barkov的副总裁和两名妇女Olga Alexandrina和Vera Sedelnikova成为交通事故的参与者。在那次事故中死亡。莫斯科交警宣布,亚历山大·亚历山大和塞德尼科娃应受谴责。目击者声称情况并非如此。

首先,与上一篇文章类似,我计算了Noise Ms的总单词数-56 473(157首歌曲)和Oxymiron-16 540(39歌曲)。 Oksimiron被带去分析他的官方专辑2 + Mixtape 2,这是他决定排除的第一张专辑,因为Oksimiron在几乎所有作品中只表演了一部诗歌。

这是删除停用词后唯一词的数量的样子。

图片

如您所见,Noise Ms和Oksimiron的文本中仅使用了2209个常用词。每位艺术家的词汇量中有50%以上是独特的,这无疑表明了他们创作风格的差异。我敢建议,如果专辑和曲目的数量更接近Noise,那么Oksimiron中独特单词的数量会更高。为了进行比较,列奥·尼古拉耶维奇·托尔斯泰(Leo Nikolayevich Tolstoy)在其253,311个单词中 12,752个独特的单词,

因此我可以轻松清晰地看到Noise Ms和Oxymiron中最受欢迎的单词,将它们收集到单词云中。

图片

以及他们共同的话。

图片

然后我有一些合乎逻辑的问题。这个或那个艺术家认为哪个单词更受欢迎和值得纪念?用什么词更能体现他的作品?他经常用一首歌说过的歌,但数量较少,或者他提到的那些,想一次,但听更多歌。

很难得出一个明确的结论。确实,根据第一篇文章,“ tyr”一词在Caste中最为流行,但是熟悉其工作的人立即表示,很难将此词称为该乐队的定义词之一,因为它几乎所有时候都被发音。一首《 Tyrim》。因此,可能永远不会有人用最常提及的单词打开曲目,而恰恰相反,有人会认识该歌手并将其与这首歌曲专门联系在一起。例如,对我而言,种姓将始终与歌曲“ Around the Noise”(“不要把一切都沸腾”)相关联。

如果我们使用一个词在更多曲目中使用,那么该词会被听到并与某个艺术家的作品联系起来的可能性就更高。

正如我已经说过的,这两种方法都有权存在,并且各有千秋,因此,为了向读者提供完整的图片,我以两种方式分析了Noise Ms和Oksimiron的文章。

这就是Noise Ms和Oksimiron中最常用的单词并置的样子。第一个含义是艺术家中最受欢迎的词,第二个含义是更多歌曲中提到的词。没有停止的话。

图片

图片

如果仔细研究表中的数据,很明显,大多数单词是通用的,不会影响文本的样式。但是,有些词在一般背景下脱颖而出,它们创造了作者风格的独特性。

为了了解《 Noise Ms》和《 Oksimiron》的文字与其他用俄语编写的作品和文字之间的区别,我将最常用的单词(删除停用词之前)的数据与来自俄语国家语料库的统计数据进行了比较。该信息和参考系统以电子形式的俄语文本为基础,包含50,000多个文档。为了编制等级,使用了192,689,044个词表。

图片

可以预期,最受欢迎的单词是介词,连词,助词,代词等。与成千上万的其他作品相比,Noise Ms和Oksimiron的使用率甚至几乎相同。

为了更准确地分析文本的相似性/差异性,仅考虑单个单词及其使用频率是不够的,重要的是要考虑这些单词由哪些连接词组成,即所谓的双字,3帧等。毕竟,使用相同的词汇,您可以组成含义不同的句子和短语。在分析了哪些连接词组成某些单词之后,可以得出关于相似性或差异性的更自信的结论。

这就是“噪音”和“奥昔米隆”中最受欢迎的双眼神。我再次将它们与俄语语料库中的信息进行了比较。

图片

再者,与通常的单词形式比较一样,艺术家和俄语语料库之间的单词连接词非常相似,但是有突出的元素可以区分艺术家的主题和风格。

对我来说,一个非常重要,有争议和有争议的观点是确定作者词汇的广度和多样性。如何做到这一点而无需借助词典来解释单词的含义和对其主题的定义?创造力的多样性决定作品中单词的总数吗?还是唯一单词数量的关键?在第一种情况下,您可以简单地在所有歌曲中使用相同的单词,而只取数字。在第二个中,可以在n个歌曲中使用许多独特的单词,然后再次操纵相同的单词。如您所见,这两种方法都有很多保留。

因此,我假设艺术家在歌曲中使用独特词的频率可以告诉我们广度。更少的歌曲中使用的唯一词越多,您就越有信心说出主题不同。要么表演者是同义词的主人,然后主题是相同的,但是词是不同的,这无疑也很好,因为它显示了俄语知识的广度。
下表显示了在多少首歌曲中使用了多少个单词。例如,单词“ punks”仅用在一首歌中,但可能使用了几次。而且仅在一部作品中使用的单词越多-唯一性越高。为方便起见,我将此措施称为“单词唯一性索引”。价值越高,文本越独特和多样化。

为了便于理解,我将在表格中举一个例子:Noise Ms仅在一条轨道上(可能是几次)使用了5,451个唯一词,他在两幅作品中使用了1,467个唯一词,依此类推。他在40多个曲目中使用了12个独特的单词。

图片

如您所见,两位艺术家在组中的唯一性百分比大致相同。仅一条轨道使用了超过60%的噪声Ms和多达75%的Oxymiron独特词。

例如,将这些指标与主题不那么广泛的流行音乐进行比较会很有趣,因为说唱音乐最初是抗议音乐。表演者为自己和社会提出困难的话题,尝试理解它们或分享其推理。流行音乐的设计旨在使听众娱乐和放松,它更容易。

但是,我想强调的是,在此示例中,我绝不将说唱与流行音乐进行比较。我展示了对两位天才艺术家-Noise Ms和Oksimiron作品的分析结果。
关于单词,它们的数量和唯一性已经被说过,如果不是几乎所有的话,那么很多。但是还有什么会影响对可听文本的感知?对于说唱艺术家来说,这当然是口语的速度。单词发音的速度和质量当然会影响文本的感知和理解。

以下是单位时间内(一秒)的单词发音速度。您也可以了解单词数量最多的歌曲的统计信息以及“阅读”速度最快的作品。

图片

Noise Ms的平均单词发音率为每秒1.77个单词。这是可以预料的,因为Noise的许多歌曲都带有“传统”唱歌元素,从而延长了单词的发音时间。而且他的歌曲风格不是纯粹的说唱或嘻哈,而是更多的是摇滚和说唱的混合。

图片

Oxymiron的平均每秒说出的单词数比他的同事高-每秒2.55个单词。

XXX Shop曲目很可能应从这些统计数据中排除,因为它包含2篇英语经文,并且由其他艺术家表演。但是,我们会整体上聆听曲目,而不会将其划分为艺术家。噪音女士也有很多合作。

根据分析,我们可以放心地说几句话。首先,两位作者在工作中都自信地使用了俄语为他们提供的所有财富。其次,构成他们歌曲的大多数单词在其他作者中是普遍使用和流行的,但是,可以区分出几种仅代表它们的单词形式和双字母组。第三,Noise MS和Oxymiron的音乐在风格,主题和词汇上都不同。当然,这种音乐值得关注。

另外,我希望所介绍的分析表演者文字的方法对您来说似乎有用并且可以使用。的确,对音乐(包括说唱)的分析应不同于通常对文学作品的分析。在第二种情况下,重点是句子的长度,单词中的音节数目,句子中的单词数目,名词/形容词/转折数等。我认为,在说唱音乐中这是没有意义的,因为在阅读过程中句子被合并为一个整体。单词的发音速度很快,在这里重要的是至少要跟踪表演者正在阅读的内容。

评论,批评。毕竟,评论越多,我们就能更快,更有效地改进众所周知的分析音乐作品的方法。

奖金 詹雅叔叔


真雅叔叔很少有人熟悉他的作品,但是这个人是独特的,这种独特性在文字中表达出来。它们结构复杂,令人难以置信地充满了意义和深刻的内容。提到尼采,卡斯塔内达(Nianezsche),卡斯塔内达(Castaneda),来自神话,文字游戏和作文的图像。我建议大家对他的工作有所了解。

对他的文章的评论将很短,因为在拖网。从言语到行动。

我设法用歌词找到了14条甄雅大叔的曲目。在其中,他使用了10,064个单词,在删除了停用词后使用了5,756个单词。唯一单词的数量为2750。这是由最受欢迎列表组成的单词云。

图片

当然,嘻哈是一个单词,但是在处理文本时,所有单词形式都被分为记号。

这就是最流行的单词和文本中最常用的外观。

图片

有趣的是,髋关节被多次使用。

因此,甄雅大叔控制了课本中的词汇。他仅在一部作品(可能是几次)中使用了2750个独特单词中的72%。再一次可以谈论他工作中的不同主题。通常,其指标与Oxymiron的指标非常相似。

图片

最后,我想展示出单词最多,阅读速度最快的歌曲。

图片

真雅大叔的速度甚至比Oxymiron还要高。

结束


All Articles