قال الأمير أو أين كانت الحرب. تجربتي في دراسة "الحرب والسلام"

ما زلت لم أقرأ ملحمة رواية ليو تولستوي "الحرب والسلام" - في المدرسة لم تكن مثيرة للاهتمام بسبب "كلام" المؤلف ، وبطريقة ما لم يكن هناك وقت لبدء مثل هذا العمل الضخم.

ومع ذلك ، قررت أنه يستحق الدراسة ...

صورة

تدريب


لم أقم بتنظيف كلمات وإشارات الطرف الثالث (أرقام الأجزاء اللاتينية وأرقام الحواشي السفلية وجزء من التعليقات) التي على خلفية ما يقرب من 400 ألف كلمة من نص الرواية ، فإن خطأ حتى ألف كلمة لن يعطي بيانات غير صحيحة ، لكنني قررت إجراء الحد الأدنى من إعداد النص .

جزء من برنامج إعداد الملف
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np

#filename = input(« : „)

filename = #
file = open(filename, 'r')
text = file.read()
text = text.replace(“\n», " ")
text =text.replace(']','').replace('[','').replace('\"','').replace(",", "").replace(".", "").replace("?", "").replace("!", "").replace(")", "").replace("(", "")
text =text.lower()
words_untill = text.split() #



كشخص يعمل باستمرار مع الأرقام ، أصبحت مهتمًا بالأسئلة التالية:

1. أطول كلمة في الرواية


بعد أن علم من زوجته أن ليف نيكولايفيتش كان لا يزال الرسم البياني ، قرر معرفة الكلمات الطويلة التي اخترعها لرواية تولستوي.

لذا ، TOP 3 كلمات طويلة.

وكان المقام الأول (27 رسالة واصلة) مقسوما على كلمات جميلة بشكل خارق ، المكرر خارق و ساحرة لا يقاوم :

... مثل رئيس جيدة النادل يعطي كشيء جميل خارق أن قطعة من لحوم البقر التي لا تريد إذا كنت ترى في مطبخ القذرة، وذلك في الليلة آنا بافلوفنا خدمت ضيوفها أولاً ، ثم رئيس الدير ، كشيء مصقول بشكل خارق ...

... الفرنسي واثق من نفسه لأنه يقدس نفسه شخصياً ، سواء العقل أو الجسد ،ساحر بشكل لا يقاوم لكل من الرجال والنساء. إن الرجل الإنجليزي واثق من نفسه على أساس أنه مواطن من أكثر الدول راحة في العالم ، وبالتالي ، بصفته إنكليزيًا ، يعرف دائمًا ما يحتاج إلى القيام به ويعرف أن كل ما يفعله كرجل إنجليزي جيد بلا شك. الإيطالي واثق من نفسه لأنه متحمس وينسى بسهولة نفسه والآخرين ...

المركز الثاني (25 حرفًا وواصلة) أخذ الكلمة تنوعًا رتيبًا :

... لم ينظر الفرسان إلى الوراء ، ولكن مع كل صوت نواة عابرة ، كما لو كان الأمر ، فإن السرب بأكمله مع مع وجوهه المتنوعة الرتيبة ، يحبس أنفاسه بينما طار النواة ، قام على ركاب السقوط وسقط مرة أخرى ...

المركز الثالث (24 حرفًا) تم أخذه بالكلمةصاحب السعادة ، هذه الكلمة ، على عكس الكلمات السابقة ، تحدث ثماني مرات ، كجذب إلى المشير ميخائيل إيليريونوفيتش كوتوزوف.

جزء من برنامج العثور على أطول كلمة
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np

words = text.split() # , ,
words = sorted(words, key = len, reverse=True) #

for i in range(3): #
print(words[i].ljust(30), len(words[i])) # -3


2. الكلمة الأكثر استخدامًا


في السابق ، تم مسح القائمة من كلمات من حرف واحد وحرفين من أجل إزالة حروف الجر والضمائر القصيرة من دورات المقارنات. بعد التكرار الأول ، اتضح أنه لم يتم تضمين أي من الأحرف الثلاثة (سيف ، شرير ، خلفي ، إلخ) في TOP-10 ، وقمت بمسح قائمة الكلمات المكونة من ثلاثة أحرف بالتسلسل ، وحتى بعد المزيد من التجارب ، من أربعة أحرف كلمات.

جزء من برنامج تنظيف الكلمات القصيرة

words2 =[]# c,
for i in range(len(words)):#
if len(words[i])>4:
words2.append(words[i])
else: break # , , ,


لم يكن هناك الكثير من الأسماء في قائمة الكلمات الأكثر استخدامًا ، لذلك اضطررت إلى إزالة الكلمات "فقط" و "متى" و
"هكذا" و "الآن" و "هذا" و "التي" و " من قائمة كلمات الرواية التي "،" لأن "،" مرة أخرى "،" فجأة "،" جدا "،" لا شيء "،" له ".

جزء من برنامج البحث عن الكلمات الأكثر شعبية

words_counts = Counter(words2)
n = []
pop_word = []
for word, count in words_counts.most_common(10):# -10
n.append(count)
pop_word.append(word)
print(word.ljust(20), count)


ونتيجة لذلك ، فإن أفضل 10 كلمات شائعة:

1. قال - 1411
2. الأمير - 952
3. الوقت - 544
4. أندري - 500
5. تكلم - 464
6. الأميرة - 435
7. قال - 424
8. الناس - 391
9. ناتاشا - 376
10. أشخاص - 372

منذ أن تم البحث دون مراعاة أشكال الكلمات ، كان على "الأمير" أن أجد جميع أشكال الكلمة. بعد توضيح البيانات ، احتل PRINCE المركز الأول في TOP مع 1435 مرجعًا في الرواية ، مقابل الفعل TOLD.

البحث في جميع أشكال كلمة PRINCE

n4 = []
form_n4 = []
for i in range(len(words_untill)):
if «» in words_untill[i]:
n4.append(1)
form_n4.append(words_untill[i])
else: n4.append(0)
print(« — » + str(len(form_n4)))


كما ترون من القائمة ، الأفعال SAID (1411) و SPEAKED (464) أكثر شيوعًا في الرواية من الأفعال SAID (424) ، مما يشير إلى أن الرجال يتحدثون 4.5 مرة أكثر في الرواية من النساء (تُسمع الاتهامات هنا التحيز الجنسي الموجه إلى ليو نيكولايفيتش) ، والأميرة (435) تظهر أقل كثيرًا من الأمير.

كما أصبح من المثير للاهتمام ما هو الموقف الذي اتخذه المجتمع تجاه ناتاليا إيلينيتشنا روستوفا الملقبة بـ ناتاشا روستوفا . طوال الرواية ، بقيت ناتاشا ، على الرغم من حقيقة أنه في نهاية الرواية أصبحت ناتاليا روستوفا زوجة بيير بيزوخوف. في جميع الأشكال ، تحدث ناتاشا في النص 591 مرة ، في حين أن أشكال اسم ناتاليا وناتالي تحدث 9 مرات فقط.

3. أين كانت الحرب في الرواية؟


على الرغم من الاسم ، فإن "الحرب" في الرواية تحدث بجميع أشكالها 278 مرة فقط.

البحث في جميع أشكال كلمة الحرب

n3 = []
form_n3 = []
for i in range(len(words_untill)):
if «» in words_untill[i] and «» not in words_untill[i]:# «»
n3.append(1)
form_n3.append(words_untill[i])
else: n3.append(0)
print(form_n3)
print(« — » + str(len(form_n3)))


لقد قسمت الرواية بأكملها إلى أقسام مكونة من 10 آلاف كلمة وقررت تتبع ذكر كلمات "الأمير" و "ناتاشا" و "الحرب" أثناء الرواية.

كسر رواية 10 آلاف كلمة

: «0» — , «1» — .

m1=[]
m2=[]
m3 =[]
m4 = []
while i <= len(n1):
m1.append(sum(n1[i: i+10000]))# «»
m2.append(sum(n4[i: i+10000]))# «»
m3.append(sum(n3[i: i+10000]))# «»
m4.append(sum(nata1[i: i+10000]))# «»
i=i+10000


صورة

يظهر الرسم البياني أن أقل عن الأمراء بعد زيادة في وصف الحرب قرب نهاية الرواية ، وأكثر وأكثر يتذكرون عن ناتاشا.

يظهر الارتباط العكسي بوضوح في توزيع الاعتماد على كلمتي "الحرب" و "ناتاشا" - كلما كانت الحرب أقل ، زادت ناتاشا.

صورة

إن الارتباط العكسي في توزيع الإشارة إلى كلمتي "الأمير" و "ناتاشا" واضح أيضًا.

صورة

في توزيع الاعتماد على ذكر كلمتي "الأمير" و "الحرب" ، لا يوجد ارتباط واضح ، على الرغم من أنه من الواضح أنه عندما يقال القليل عن الحرب ، فإنهم لا يتذكرون الأمراء ، لكن هذا لا يفسر العدد الكبير من الإشارات إلى "الأمراء" في غياب "الحرب".

صورة

من الضروري تتبع الارتباط أثناء تطور السرد.

صورة

كما يتبين من الرسم البياني ، لا يوجد ارتباط عالٍ إلا في منتصف الرواية ، عندما تكون هناك حرب في الرواية ، في أماكن أخرى من الرواية ، يكون الارتباط منخفضًا ، والذي يمكن على أساسه استنتاج أن استخدام "الأمير" و "الحرب" ليس له ارتباط ثابت في سياق الرواية.

الموجودات


  1. تحتاج إلى قراءة الكلاسيكية !!!
  2. إذا كنت تريد القراءة عن الحرب ، وليس عن الحب ، فقم بقراءة الجزء الأول من المجلد الأول والمجلد الثالث.
  3. إذا كنت تريد أن تقرأ كيف عاش الأمراء في وقت السلم ، فإن المجلد الثاني مثالي.
  4. إذا كنت مهتمًا بالحب في غياب الحرب ، فعليك قراءة المجلد الرابع.

All Articles