Der Prinz sagte oder wo der Krieg war. Meine Erfahrung in der Studie "Krieg und Frieden"

Ich habe das Roman-Epos von Leo Tolstoi "Krieg und Frieden" immer noch nicht gelesen - in der Schule war es wegen der "Redewendung" des Autors nicht interessant, aber irgendwie bleibt keine Zeit, um ein so umfangreiches Werk zu beginnen.

Ich entschied jedoch, dass es sich lohnt zu studieren ...

Bild

Ausbildung


Ich habe Wörter und Zeichen von Drittanbietern (lateinische Teilenummern, Fußnotennummern und Teile von Kommentaren) nicht entfernt, sodass vor dem Hintergrund von fast 400.000 Wörtern des Textes des Romans ein Fehler von sogar tausend Wörtern keine falschen Daten ergeben würde, aber ich habe beschlossen, die minimale Textvorbereitung vorzunehmen .

Teil des Dateivorbereitungsprogramms
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np

#filename = input(« : „)

filename = #
file = open(filename, 'r')
text = file.read()
text = text.replace(“\n», " ")
text =text.replace(']','').replace('[','').replace('\"','').replace(",", "").replace(".", "").replace("?", "").replace("!", "").replace(")", "").replace("(", "")
text =text.lower()
words_untill = text.split() #



Als Person, die ständig mit Zahlen arbeitet, interessierte ich mich für folgende Fragen:

1. Das längste Wort im Roman


Nachdem er von seiner Frau erfahren hatte, dass Lev Nikolayevich immer noch so graphomanisch war, beschloss er herauszufinden, welche langen Wörter er für den Roman von Tolstoi erfunden hatte.

Also, TOP 3 lange Wörter.

Der erste Platz (27 Buchstaben und ein Bindestrich) wurde durch die Wörter übernatürlich schön , übernatürlich raffiniert und unwiderstehlich charmant geteilt :

... Wie ein guter Oberkellner als etwas übernatürlich Schönes das Stück Rindfleisch dient, das Sie nicht wollen, wenn Sie es in einer schmutzigen Küche sehen, also in heute Abend diente Anna Pawlowna ihren Gästen zuerst Viscount, dann Abt als etwas übernatürlich Raffiniertes ...

... Der Franzose ist selbstbewusst, weil er sich persönlich verehrt, sowohl Geist als auch Körper,unwiderstehlich charmant für Männer und Frauen. Der Engländer ist selbstbewusst, weil er Bürger des bequemsten Staates der Welt ist, und deshalb weiß er als Engländer immer, was er tun muss, und weiß, dass alles, was er als Engländer tut, zweifellos gut ist. Der Italiener ist selbstbewusst, weil er aufgeregt ist und sowohl sich selbst als auch andere leicht vergisst ... Der

zweite Platz (25 Buchstaben und ein Bindestrich) nahm das Wort monoton vielfältig auf :

... Die Husaren blickten nicht zurück, sondern mit jedem Geräusch eines vorbeiziehenden Kerns, als ob auf Befehl, das gesamte Geschwader mit Mit seinen monoton vielfältigen Gesichtern, die den Atem anhielten, während der Kern flog, erhob er sich auf Steigbügeln und fiel wieder ... Der

dritte Platz (24 Buchstaben) nahm das WortExzellenz , dieses Wort kommt im Gegensatz zu den vorherigen achtmal vor, als Appell an Feldmarschall Michail Illarionovich Kutuzov.

Teil des Programms zum Finden des längsten Wortes
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np

words = text.split() # , ,
words = sorted(words, key = len, reverse=True) #

for i in range(3): #
print(words[i].ljust(30), len(words[i])) # -3


2. Das am häufigsten verwendete Wort


Zuvor wurde die Liste von Wörtern mit einem oder zwei Buchstaben befreit, um Präpositionen und Kurzpronomen aus Vergleichszyklen zu entfernen. Nach der ersten Iteration stellte sich heraus, dass keiner der drei Buchstaben (Schwert, böse, hinten usw.) in der TOP-10 enthalten war, und ich löschte nacheinander die Liste der Wörter mit drei Buchstaben und nach weiteren Experimenten sogar der Wörter mit vier Buchstaben Wörter.

Teil eines kurzen Wortreinigungsprogramms

words2 =[]# c,
for i in range(len(words)):#
if len(words[i])>4:
words2.append(words[i])
else: break # , , ,


Die Liste der am häufigsten verwendeten Wörter enthielt nicht so viele Substantive, daher musste ich die Wörter "nur", "wann",
"so", "jetzt", "dies", "welches", " aus der Liste der Wörter des Romans entfernen was "," weil "," wieder "," plötzlich "," sehr "," nichts "," sein ".

Teil des Programms zum Finden der beliebtesten Wörter

words_counts = Counter(words2)
n = []
pop_word = []
for word, count in words_counts.most_common(10):# -10
n.append(count)
pop_word.append(word)
print(word.ljust(20), count)


Infolgedessen die TOP-10 populären Wörter:

1. sagte - 1411
2. Prinz - 952
3. Zeit - 544
4. Andrey - 500
5. sprach - 464
6. Prinzessin - 435
7. sagte - 424
8. Menschen - 391
9. Natasha - 376
10. people - 372

Da die Suche ohne Berücksichtigung der Wortformen durchgeführt wurde, musste ich für den „Prinzen“ alle Formen des Wortes finden. Nach Klärung der Daten belegte der PRINZ mit 1435 Referenzen im Roman gegen das Verb TOLD den ersten Platz in der TOP.

Suchen Sie alle Formen des Wortes PRINCE

n4 = []
form_n4 = []
for i in range(len(words_untill)):
if «» in words_untill[i]:
n4.append(1)
form_n4.append(words_untill[i])
else: n4.append(0)
print(« — » + str(len(form_n4)))


Wie Sie der Liste entnehmen können, sind die Verben SAID (1411) und SPEAKED (464) im Roman häufiger als die Verben SAID (424), was darauf hindeutet, dass Männer im Roman 4,5-mal mehr sprechen als Frauen (Anschuldigungen sind hier zu hören Sexismus an Leo Nikolaevich gerichtet), und die Prinzessin (435) erscheint viel seltener als der Prinz.

Es wurde auch interessant, welche Haltung die Gesellschaft gegenüber Natalya Ilyinichna Rostova alias Natasha Rostova hatte . Während des gesamten Romans blieb sie Natasha, obwohl Natalia Rostova am Ende des Romans die Frau von Pierre Bezukhov wurde. In allen Formen kommt Natasha im Text 591 Mal vor, während Formen des Namens Natalya und Natalie nur 9 Mal vorkommen.

3. Wo war der Krieg im Roman?


Trotz des Namens kommt "Krieg" im Roman in allen Formen nur 278 Mal vor.

Durchsuche alle Formen des Wortes WAR

n3 = []
form_n3 = []
for i in range(len(words_untill)):
if «» in words_untill[i] and «» not in words_untill[i]:# «»
n3.append(1)
form_n3.append(words_untill[i])
else: n3.append(0)
print(form_n3)
print(« — » + str(len(form_n3)))


Ich teilte den gesamten Roman in Abschnitte mit zehntausend Wörtern ein und beschloss, die Erwähnung der Wörter „Prinz“, „Natascha“ und „Krieg“ im Verlauf des Romans nachzuvollziehen.

Einen Roman mit zehntausend Wörtern brechen

: «0» — , «1» — .

m1=[]
m2=[]
m3 =[]
m4 = []
while i <= len(n1):
m1.append(sum(n1[i: i+10000]))# «»
m2.append(sum(n4[i: i+10000]))# «»
m3.append(sum(n3[i: i+10000]))# «»
m4.append(sum(nata1[i: i+10000]))# «»
i=i+10000


Bild

Das Histogramm zeigt, dass weniger über die Fürsten nach einem Anstieg der Beschreibung des Krieges gegen Ende des Romans und mehr und mehr über Natascha.

Die umgekehrte Korrelation zeigt sich deutlich in der Verteilung der Abhängigkeit von den Wörtern „Krieg“ und „Natascha“ - je weniger Krieg, desto mehr Natascha.

Bild

Die umgekehrte Korrelation in der Verteilung des Verweises auf die Wörter "Prinz" und "Natasha" ist ebenfalls deutlich sichtbar.

Bild

Es gibt keine klare Korrelation in der Verteilung des Verweises auf die Wörter "Prinz" und "Krieg", obwohl es klar ist, dass sie sich, wenn sie wenig über Krieg sagen, nicht an Fürsten erinnern, aber dies erklärt nicht die große Anzahl von Verweisen auf "Fürsten" ohne "Krieg".

Bild

Es ist notwendig, die Korrelation während der Entwicklung der Erzählung zu verfolgen.

Bild

Wie aus der Grafik ersichtlich ist, liegt eine hohe Korrelation nur in der Mitte des Romans vor, wenn im Roman Krieg herrscht, an anderen Stellen des Romans ist die Korrelation gering, woraus geschlossen werden kann, dass die Verwendung von „Prinz“ und „Krieg“ im Verlauf des Romans keine konstante Korrelation aufweist.

Ergebnisse


  1. Sie müssen die Klassiker lesen !!!
  2. Wenn Sie über den Krieg und nicht über die Liebe lesen möchten, lesen Sie den ersten Teil des ersten und den dritten Band.
  3. Wenn Sie lesen möchten, wie Fürsten in Friedenszeiten lebten, ist der zweite Band perfekt.
  4. Wenn Sie sich für Liebe ohne Krieg interessieren, sollten Sie den vierten Band lesen.

All Articles