Le prince a dit ou où était la guerre. Mon expérience dans l'étude "Guerre et paix"

Je n’ai toujours pas lu le roman épique de Léon Tolstoï «Guerre et paix» - à l’école, ce n’était pas intéressant à cause du «verbiage» de l’auteur, et d’une manière ou d’une autre, nous n’avons pas le temps de commencer une œuvre aussi volumineuse.

Cependant, j'ai décidé qu'il valait la peine d'étudier ...

image

Entraînement


Je n'ai pas nettoyé les mots et les signes de tiers (numéros de pièce latins, numéros de note de bas de page et partie des commentaires) qui, dans le contexte de près de 400 mille mots du texte du roman, une erreur de mille mots ne donnerait pas de données incorrectes, mais j'ai décidé de faire la préparation minimale du texte .

Fait partie du programme de préparation de fichiers
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np

#filename = input(« : „)

filename = #
file = open(filename, 'r')
text = file.read()
text = text.replace(“\n», " ")
text =text.replace(']','').replace('[','').replace('\"','').replace(",", "").replace(".", "").replace("?", "").replace("!", "").replace(")", "").replace("(", "")
text =text.lower()
words_untill = text.split() #



En tant que personne qui travaille constamment avec des nombres, je me suis intéressé aux questions suivantes:

1. Le mot le plus long du roman


Ayant appris de sa femme que Lev Nikolaïevitch était encore le graphomane, il décida de découvrir les longs mots qu'il avait inventés pour le roman de Tolstoï.

Donc, TOP 3 des mots longs.

La première place (27 lettres et un tiret) était divisée par les mots surnaturellement beaux , surnaturellement raffinés et irrésistiblement charmants :

... Comment un bon maître d'hôtel sert quelque chose de surnaturellement beau ce morceau de boeuf que vous ne voulez pas si vous le voyez dans une cuisine sale, donc dans ce soir, Anna Pavlovna a servi ses invités d'abord vicomte, puis abbé, comme quelque chose de surnaturellement raffiné ...

... Le Français est sûr de lui parce qu'il se respecte personnellement, à la fois l'esprit et le corps,irrésistiblement charmant pour les hommes et les femmes. L'Anglais est sûr de lui parce qu'il est un des citoyens de l'État le plus à l'aise au monde.Par conséquent, en tant qu'Anglais, il sait toujours ce qu'il doit faire et sait que tout ce qu'il fait en tant qu'Anglais est sans aucun doute bon. L'Italien est sûr de lui parce qu'il est excité et oublie facilement lui-même et les autres ... La

deuxième place (25 lettres et un trait d'union) a pris le mot de façon monotone :

... avec ses visages monotones et divers , retenant son souffle tandis que le cœur volait, il se leva sur des étriers et retomba à nouveau ... La

troisième place (24 lettres) prit le motExcellence , ce mot, contrairement aux précédents, revient huit fois, en appel au maréchal Mikhail Illarionovich Kutuzov.

Partie du programme pour trouver le mot le plus long
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np

words = text.split() # , ,
words = sorted(words, key = len, reverse=True) #

for i in range(3): #
print(words[i].ljust(30), len(words[i])) # -3


2. Le mot le plus utilisé


Auparavant, la liste était effacée des mots d'une et deux lettres afin de supprimer les prépositions et les pronoms courts des cycles de comparaison. Après la première itération, il s'est avéré qu'aucune des trois lettres (épée, mal, arrière, etc.) n'était incluse dans le TOP-10, et j'ai effacé séquentiellement la liste des mots de trois lettres, et même, après de nouvelles expériences, de quatre lettres mots.

Fait partie d'un programme de nettoyage de mots courts

words2 =[]# c,
for i in range(len(words)):#
if len(words[i])>4:
words2.append(words[i])
else: break # , , ,


Il n'y avait pas tant de noms dans la liste des mots les plus fréquemment utilisés, j'ai donc dû supprimer les mots «seulement», «quand»,
«alors», «maintenant», «ceci», «qui», « de la liste des mots du roman qui »,« parce que »,« encore »,« soudainement »,« très »,« rien »,« son ».

Une partie du programme pour trouver les mots les plus populaires

words_counts = Counter(words2)
n = []
pop_word = []
for word, count in words_counts.most_common(10):# -10
n.append(count)
pop_word.append(word)
print(word.ljust(20), count)


En conséquence, le TOP 10 des mots populaires:

1. dit - 1411
2. prince - 952
3. temps - 544
4. Andrey - 500
5. parlait - 464
6. princesse - 435
7. dit - 424
8. personnes - 391
9. Natasha - 376
10. personnes - 372

Puisque la recherche a été effectuée sans tenir compte des formes des mots, pour le «prince» j'ai dû trouver toutes les formes du mot. Après avoir clarifié les données, le PRINCE a pris la première place dans le TOP avec 1435 références dans le roman, contre le verbe TOLD.

Rechercher toutes les formes du mot PRINCE

n4 = []
form_n4 = []
for i in range(len(words_untill)):
if «» in words_untill[i]:
n4.append(1)
form_n4.append(words_untill[i])
else: n4.append(0)
print(« — » + str(len(form_n4)))


Comme vous pouvez le voir dans la liste, les verbes SAID (1411) et SPEAKED (464) sont plus courants dans le roman que les verbes SAID (424), ce qui suggère que les hommes parlent 4,5 fois plus dans le roman que les femmes (les accusations sont entendues ici sexisme adressé à Leo Nikolaevich), et la princesse (435) apparaît beaucoup moins souvent que le prince.

Il est également devenu intéressant de savoir quelle attitude la société avait envers Natalya Ilyinichna Rostova alias Natasha Rostova . Tout au long du roman, elle est restée Natasha, malgré le fait qu'à la fin du roman, Natalia Rostova est devenue l'épouse de Pierre Bezukhov. Dans toutes les formes, Natasha apparaît dans le texte 591 fois, tandis que les formes du nom Natalya et Natalie n'apparaissent que 9 fois.

3. Où était la guerre dans le roman?


Malgré son nom, la «guerre» dans le roman ne se produit sous toutes ses formes que 278 fois.

Rechercher toutes les formes du mot WAR

n3 = []
form_n3 = []
for i in range(len(words_untill)):
if «» in words_untill[i] and «» not in words_untill[i]:# «»
n3.append(1)
form_n3.append(words_untill[i])
else: n3.append(0)
print(form_n3)
print(« — » + str(len(form_n3)))


J'ai divisé le roman entier en sections de 10 000 mots et j'ai décidé de retracer la mention des mots «prince», «Natasha» et «guerre» au cours du roman.

Briser un roman de 10 mille mots

: «0» — , «1» — .

m1=[]
m2=[]
m3 =[]
m4 = []
while i <= len(n1):
m1.append(sum(n1[i: i+10000]))# «»
m2.append(sum(n4[i: i+10000]))# «»
m3.append(sum(n3[i: i+10000]))# «»
m4.append(sum(nata1[i: i+10000]))# «»
i=i+10000


image

L'histogramme montre que moins sur les princes après une flambée dans la description de la guerre vers la fin du roman, et de plus en plus ils se souviennent de Natasha.

La corrélation inverse est clairement visible dans la distribution de la dépendance aux mots «guerre» et «Natasha» - moins il y a de guerre, plus Natasha.

image

La corrélation inverse dans la distribution de la référence aux mots «prince» et «Natasha» est également clairement visible.

image

Il n'y a pas de corrélation claire dans la distribution de la référence aux mots "prince" et "guerre", bien qu'il soit clair que lorsqu'ils parlent peu de guerre, ils ne se souviennent pas des princes, mais cela n'explique pas le grand nombre de références aux "princes" en l'absence de "guerre".

image

Il est nécessaire de suivre la corrélation pendant le développement du récit.

image

Comme le montre le graphique, une corrélation élevée n'est présente qu'au milieu du roman, lorsqu'il y a une guerre dans le roman, dans d'autres endroits du roman, la corrélation est faible, sur la base de laquelle on peut conclure que l'utilisation du `` prince '' et de la `` guerre '' n'a pas une corrélation constante au cours du roman.

résultats


  1. Vous devez lire les classiques !!!
  2. Si vous voulez lire sur la guerre et non sur l'amour, alors lisez la première partie du premier volume et le troisième volume.
  3. Si vous voulez lire comment les princes vivaient en temps de paix, alors le deuxième volume est parfait.
  4. Si vous êtes intéressé par l'amour en l'absence de guerre, alors vous devriez lire le quatrième volume.

All Articles