مقارنة بين مشاهد الراب الروسية باستخدام تقنيات التعدين R والنص. Noize Mc and Kasta vs Pharaoh and Morgenshtern

R. تعدين النص. موسيقى الراب


تظل شعبية العديد من فناني الراب المعاصرين لغزا بالنسبة لي ولمتابعي "المدرسة القديمة". جدل مستمر حول من هو أفضل ، وكلماته أكثر إثارة للاهتمام ، والتي تشغل موسيقاها الأكثر تنوعًا عقول العديد من مستخدمي الإنترنت. لتأكيد هذه الخلافات ، ليس فقط بالكلمات ، ولكن بالوقائع ، قمت بتحليل نصوص أربعة من فناني الراب الروس ، باستخدام لغة البرمجة R.

كان بعضهم مشهورًا بجنون في أوائل العقد الأول من القرن الحادي والعشرين. الآن يجذبون جميعًا مستمعيهم أيضًا ، ولكن للأسف ، أصبحوا أقل فأقل. وهما الآن في ذروة شعبيتهما وجذب جمهور واسع النطاق ومعظمهم من الشباب. وسيظهر تحليلي الإضافي أنه بالنظر إلى المفردات التي يستخدمونها ، فإن هذه الحقيقة لا تسبب الفرح. لمعرفة من سيكون بسيطًا جدًا ، لأن الفنانين الذين استخدمت أغانيهم هم: Caste و Noize-Mc و Pharaoh و Morgenstern. أعتقد أن الجميع يفهم أنني سأحيل Caste و Noise إلى "المدرسة القديمة" ، و فرعون و Morgenstern إلى "الجديدة".

ألبومات التحليل


للتحليل ، اخترت جميع ألبومات الاستوديو الرسمية الصادرة عن الفنانين (تم أخذ معلومات حول الألبومات من موقع www.wikipedia.com ، جميع الأدبيات في النهاية):

  1. كاستا: "أعلى من الماء ، أعلى من العشب" ؛ "وميض في العين" ؛ "صراخ بأربعة رؤوس" ؛ "من الواضح حول الخلل" - 74 مسارًا.
  2. Noize Mc: “The Greatest Hits Vol. 1 "؛ "الألبوم الأخير" ؛ "البوم جديد"؛ "Protivo Gunz" ؛ "الالتباس"؛ "Hard Reboot 3.0" ؛ "ملك التل"؛ "Hiphopera: Orpheus & Eurydice" - 160 مسارًا.
  3. فرعون: "الأداة" ؛ فلورا "دولور" ؛ الفوسفور "Pink Phloyd" ؛ فونرال "القاعدة" - 95 المسارات.
  4. مورجينشترن: "قبل أن تصبح معروفة" ؛ "ابتسم ، أيها الأحمق!" ؛ "الغبار الأسطوري" - 30 مسارًا.

لقد اخترت خصيصًا الفنانين المذكورين أعلاه حتى أن أولئك الذين هم على دراية بعملهم سيوافقون على أن النصوص مختلفة تمامًا (Casta + Noise vs Pharaoh + Morgenstern) وسيكون من المثير للاهتمام مقارنتها مع بعضها البعض. ينشأ سؤال منطقي: كيف يمكن مقارنة ألبومات Caste الأربعة وألبومات فرعون الثمانية بشكل موضوعي وصحيح؟ كل شيء بسيط للغاية - بعد بعض التلاعبات ، التي سأناقشها لاحقًا ، سيصبح حجم الكلمات قابلة للمقارنة إلى حد ما. بعد كل شيء ، كما يعلم الجميع ، الكمية ليست مساوية للجودة.
لجمع الكلمات بأنفسهم ، استخدمت موقع genius.com وواجهة برمجة التطبيقات الخاصة بهم. لحسن الحظ ، يوفر مطورو الخدمة واجهة برمجة تطبيقات مفتوحة (API) تجعل من السهل استخراج كلمات (حسب الفنان والألبوم) من قاعدة البيانات لتحليلها لاحقًا.

تم إجراء جميع التحليلات باستخدام لغة البرمجة R ، بالإضافة إلى الجذع (عملية العثور على قاعدة الكلمة لكلمة مصدر معينة) تم استخدام الثعبان ، لأنه لا يستطيع التعامل مع الترميز في R وبرنامج النظام (لا يحب Windows 10 أن يكون صديقًا مع UTF-8 و R ، يقولون باستخدام نظام التشغيل Apple أو Linux لا تنشأ مثل هذه المشاكل).

قبل المعالجة. تصفح النصوص. عدد الكلمات


لتحميل كلمات الأغاني المستخدمة في مكتبة "عبقرية". وظيفة من هذه الحزمة "genius_album" تتيح لك بسهولة تنزيل جميع النصوص في الألبومات في وقت واحد. كن حذرًا وتحقق مرة أخرى ، حيث لا تتوفر جميع كلمات الأغاني دائمًا لجميع الفنانين ، حيث كان يجب إضافة بعضها يدويًا. بعد التنزيل ، أصبح من المثير للاهتمام عدد الكلمات المستخدمة في الأغاني ككل (إلى جانب الضمائر ، وحروف الجر ، والجسيمات ، وما إلى ذلك). ثم نقارن هذه الأرقام بنتائج الكلمات التي تم معالجتها بالفعل وإيقافها. لتسهيل فهم نسبة عدد الألبومات والمسارات إلى عدد الكلمات المستخدمة ، سأكرر هذه المعلومات مرة أخرى:

  1. نويز ماك - 8 ألبومات ، 160 مقطوعة.
  2. كاستا - 4 ألبومات ، 74 مقطوعة.
  3. فرعون - 7 ألبومات ، 95 مقطوعة.
  4. Morgenstern - 3 ألبومات ، 30 مقطوعة.

صورة

ومن المثير للاهتمام أن فرعون وضوضاء لديهما تقريبًا نفس عدد الألبومات (سبعة وثمانية على التوالي) ، ولكن كما يمكن رؤيته من الرسم البياني ، فإن جودة الألبومات مختلفة جدًا في عدد الأغاني وفي ثراء المفردات (57962 مقابل 24184).

لتقليل هذا الاختلاف وجعل المقارنة أكثر دقة وصحة ، تم حساب عدد الكلمات التي يستخدمها الفنان العادي في إحدى أغانيه:

  1. Noize Mc - 362 كلمة.
  2. Caste - 388 كلمة.
  3. فرعون - 254 كلمة.
  4. مورجينسترن - 273 كلمة

من الواضح أن هذه المقارنة مشروطة وتقريبية إلى حد ما ، لكن الأرقام تتحدث عن نفسها.

وهذه هي الطريقة التي تبدو بها الكلمات العشر الأولى لكل فنان وعدد الإشارات إلى هذه الكلمات:

صورة

صورة

كما يتوقع المرء ، دون معالجة "الكلمات العليا" هي حروف الجر والضمائر والعطف التي لا تعكس أي نتائج ولا تحمل أي حمل دلالة خاصة. لذلك ، في هذه المرحلة ، لم يحدث شيء مثير للاهتمام أو غير متوقع.

كانت الخطوة التالية معالجة النصوص وإعدادها للتحليل. تم تنفيذ عملية الحد باستخدام برنامج النظام من Yandex في Python ، وهو متاح للجميع. تم اتخاذ هذه الخطوة من أجل فهم عدد الكلمات الفريدة التي يستخدمها الفنانون ومدى استخدامهم للغة الروسية في نصوصهم. بعد كل شيء ، سيكون من الخطأ عد نفس الكلمة في حالات مختلفة عدة مرات. يوضح هذا تنوع المغني وقدرته على الإقناع ، بدلاً من اتساع مفرداته.

أيضًا ، من أجل الحصول على نتيجة أكثر تمثيلًا ، من الضروري التخلص من كلمات التوقف التي لا تحمل عبئًا عاطفيًا ودلالات (حروف الجر ، الضمائر ، الجسيمات ، إلخ). لسوء الحظ ، لا توجد مكتبات جيدة في حزم R تحتوي على كلمات توقف للغة الروسية. أود أن أوجه انتباهكم إلى حقيقة أن المؤلف نفسه يجب أن يحدد ما إذا كانت هذه الكلمة أو تلك هي كلمة توقف وما إذا كان ينبغي حذفها. قم دائمًا بمراجعة هذا النوع من القواميس بعناية حتى لا تتخلص من الكلمة الصحيحة والمفيدة لك. تدعم حزمة Stopwords عددًا قليلاً جدًا من اللغات ، لكنني فضلت استخدام الكلمات من مورد خارجي مع التحسين الخاص بي.

بعد المعالجة


كما ترى من الرسم البياني ، انخفض عدد الكلمات بشكل ملحوظ بعد ختم وإزالة كلمات التوقف. هذا ليس مفاجئًا نظرًا لأن معظم الكلمات الأصلية الأكثر شيوعًا قد توقفت.

صورة

بشكل عام ، فإن عدد الكلمات التي بقيت بعد ختم وحذف الكلمات المتوقفة ، كنسبة مئوية من العدد الأولي ، متساوية عمليًا للجميع. تجدر الإشارة إلى أنهم متساوون في المجموعات. في "المدرسة القديمة" 55-58٪ ، في "الجديدة" 46-50٪.
معلومات مهمة ومثيرة للاهتمام هي عدد الكلمات الفريدة لكل فنان. بالنسبة للضوضاء ، هذه هي 8891 كلمة لكل من Caste 5307 و Pharaoh 3899 و Morgenstern 1242. من يريد توسيع مفرداته قليلاً ، لكنه لا يريد قراءة الكتب ، يمكنه الاستماع إلى Noize Mc and Caste.

بالطبع ، كثيرون مهتمون بما تقود الكلمات الآن ، بعد المعالجة. أقدم رسومات تحتوي على أهم 10 كلمات لكل فنان: من

صورة

صورة

المؤكد أن العديد من القراء أصيبوا بالكلمات بعلامات النجمة. لدى فرعون ومورجنسترن بالفعل الكثير من الألفاظ النابية في النصوص ، والتي ، في رأيي الشخصي ، لها تأثير سلبي إلى حد ما على البنية الكاملة للنص وتصوره. لهذين المؤدين نفس الكلمة في الموضع الثاني. كلمة توضح تمامًا روح وثقافة موسيقاهم. بعد ذلك بقليل ، سأوضح بوضوح نوع النبرة العاطفية التي تقودها كلمات فناني الأداء.

كلمات شائعة. مقارنة الكلمات


لجعل المعلومات أكثر وضوحًا ، قمت بوضع جميع كلمات المؤدين على مخطط واحد باستخدام وظيفة "المقارنة.كلود" من حزمة "كلودكلود" لذلك ، من السهل مقارنتها وإدراكها (ومرة أخرى يمكننا أن نرى كيف تبرز الحصير). يمكن أن يمثل عرض الكلمات بمخططات الشريط مشكلة كبيرة ، نظرًا لأن المزيد منها يتطلب مساحة كبيرة. كما أن إحدى الوظائف الجيدة من الحزمة التي تحمل الاسم نفسه هي "wordcloud2": عند التمرير فوق كلمة ، تظهر نافذة توضح تكرار استخدامها.

صورة

نظرًا لأن الفنانين يستخدمون نفس اللغة لكتابة أغانيهم ، سيكون من المثير للاهتمام أن نرى ، دون تقسيم إلى فنانين ، الكلمات التي يستخدمونها في أغلب الأحيان. تم استخدام دالة commonality.cloud من حزمة wordcloud لهذا الرسم البياني. يتوافق حجم الخط مع تكرار ذكر الكلمة في النصوص.

صورة

تحليل النص العاطفي


كل فيلم أو كتاب أو أغنية لها مزاجها الخاص ، والتي تنتقل إلى الجمهور أو المستمعين وتؤثر عليهم. من المثير للاهتمام معرفة الحالة المزاجية التي يبثها فناني المدارس القديمة والجديدة لطلابهم. يمكنك معرفة ذلك من خلال تحليل الكلمات التي تنتمي إليها أغنيات الموسيقيين "السلبية" و "الإيجابية" و "المحايدة". كما هو متوقع ، بالنسبة للغة الروسية لا يوجد قاموس عالي الجودة مع تحليل عاطفي للكلمات لـ R (إذا كان شخص يعرف ذلك ، يرجى مشاركته). لذلك ، كان عليّ استخدام الأداة الخارجية مع الترقية الخاصة بي (رابط للقاموس في نهاية النص).

لم يكن لكل الكلمات مراسلات في القاموس ، وهو أمر محزن بالطبع ، مع عدم ظهور مثل هذه المشاكل عمليًا للغة الإنجليزية. لذلك ، قررت أن أظهر التلوين العاطفي للكلمات الأكثر تكرارًا. هذه هي الكلمات التي يسمعها المستمع في أغلب الأحيان ، وهي التي لها التأثير الأقوى عليه وتحدد تصور الأغنية بأكملها. بشكل عام ، إذا كان القارئ على دراية بعمل جميع المؤلفين ، فمن غير المحتمل أن يفاجأ. حسنًا ، إذا كانت الأسماء التي تم تحليلها جديدة بالنسبة لشخص ما ، فيرجى الترحيب ، والتعرف على عملهم. أدناه يمكنك رؤية الرسوم البيانية. لجميع الفنانين ، يتم عرض الكلمات الأكثر استخدامًا.

مورجينسترن. معدل تكرار الكلمة أكثر من 10 مرات. يبرز عدد كبير من الأعمدة الحمراء بقوة ، وإذا نظرت إلى ماهية هذه الكلمات ، يصبح حزينًا بشكل مضاعف من الرسالة التي يحملها هذا الفنان إلى جمهوره.

صورة

فرعون . المعجم يترك أيضًا الكثير مما هو مرغوب فيه. تردد أكثر من 20 مرة.

صورة

التالي هو الوقت المناسب للساعة القديمة لمشهد الراب الروسي. أولئك الذين لا يشعرون بالعار حقًا ، ويمكن التوصية بهم للاستماع.

Caste . الغلبة الساطعة للكلمات ذات دلالة إيجابية. والكلمات السلبية لا تصدم بأخلاقهم. التردد> = 25

صورة

وأخيرًا سيد القافية وكلمات Noize Mc (التكرار> = 30).

صورة

تؤثر وفرة المفردات الملونة السلبية التي يستخدمها مورجينسترن وفرعون في أغانيهم على إدراك أغانيهم والمزاج الذي يبثونه. من الصعب الحصول على عواطف ممتعة من الموسيقى عندما تبذل قصارى جهدها لإجبارك على فعل العكس.
نظرًا لأن القاموس المستخدم مع التحليل العاطفي لا يحتوي على جميع الكلمات ، فمن الصعب رسم 100 ٪ واستنتاج أكيد حول مزاج الأغاني من قبل الفنانين ، حيث يعتمد الكثير أيضًا على السياق. ومع ذلك ، سأريكم عدد الكلمات التي يستخدمها الفنانون وما هي الكلمات التي تمكنوا من إرفاقها.

صورة

من الواضح أن معظم كلمات جميع الفنانين لها لون محايد ، مما لا يؤثر عمليا على المستمع. ولكن من المثير للاهتمام أن فرعون ومورجنسترن يستخدمان كلمات ذات دلالة سلبية أكثر من استخدامهما إيجابي. وهذا ، على الرغم من دونية القاموس وعدم وجود عدد وافر من الكلمات الفاحشة وتنوعها (يحتوي القاموس على 28248 كلمة واضطررت إلى إضافة بعضها يدويًا).

صورة

كما تقود كلمات Caste and Noise السيدة كلمات محايدة ، ولكن في المرتبة الثانية كلمات إيجابية لا تسبب لنا مشاعر سلبية.

نعم ، بالطبع ، لا يمكنني تقييم تأثير السياق في هذا النوع من التحليل ، على سبيل المثال ، يمكن استخدام كلمة "حب" مع جسيم "لا" ولها دلالة سلبية. ولكن يجب أن تعترف بأن عبارة "أنا لا أحبك" هي أكثر متعة من عبارة "أنا أكرهك". ولن يتم تصحيح سلبية هذه العبارة حتى بواسطة الجسيم "لا". على الرغم من كل ذلك ، سوف نسمع فقط كلمة "كراهية".

الذوق الموسيقي هو أمر فردي ويقرر الجميع ما يجب الاستماع إليه. ولكن ألق نظرة أخرى على الرسوم البيانية وفكر في الطريقة التي تريد بها ملء حياتك اليومية. ترافقنا الموسيقى في كل مكان ، وغالبًا ما تؤثر بشكل كبير على مزاجنا ، فلماذا تجعلها أسوأ بوعي كل يوم؟

بشكل عام ، تتناول هذه المقالة أيضًا حقيقة أن البرمجة يمكن أن تكون مثيرة للاهتمام ويمكن تطبيقها في مختلف المجالات. يمكن أن تظهر معلومات مألوفة بالفعل من زاوية جديدة ، وتجعلك تفكر في ما بدا واضحًا أو غير مهم. يعتمد الأمر عليك فقط على ما سيتم إخفاؤه خلف أسطر التعليمات البرمجية وما الذي سيخبرونه.

تعلّم لغات البرمجة وطوِّر واستمع إلى موسيقى عالية الجودة للكتابة والتي تستغرق أكثر من سبعة أيام من الوقت عبر الإنترنت على YouTube. بالنسبة لأولئك الذين لا يعرفون ، تم تسجيل ألبوم Morgenstern "Legendary Dust" لمدة 6 أيام أثناء البث عبر الإنترنت على YouTube ونتيجة لذلك أصبح الأكثر نجاحًا في مسيرة Morgenstern ، حيث حصل على VKontakte مليون استماع في نصف الساعة الأولى من الإصدار وخمسة ملايين مسرحية في أحد عشر ساعة. في اليومين الأولين بعد الإصدار ، تم الاستماع إلى الألبوم من قبل فكونتاكتي أكثر من 21 مليون مرة ، وهو رقم قياسي لشبكة اجتماعية.

قائمة الأدب المستخدم:

1. ru.wikipedia.org/wiki/Noize_MC
2. ru.wikipedia.org/wiki/Pharaoh
3. ru.wikipedia.org/wiki/Casta_ (مجموعة)
4.ru.wikipedia.org/wiki/Morgenstern_ (موسيقي)
5. github.com/stopwords-iso/stopwords-ru/blob/master/stopwords-ru.txt (كلمات توقف)
6. github.com/dkulagin/kartaslov/ شجرة / سيد / مجموعة بيانات / emo_dict (قاموس المشاعر).
الترخيص: creativecommons.org/licenses/by-nc-sa/4.0
7. ru.wikipedia.org/wiki/Legendary_Dust

All Articles