O príncipe disse ou onde estava a guerra. Minha experiência no estudo "Guerra e Paz"

Ainda não li o romance épico de Leo Tolstoi "Guerra e Paz" - na escola não foi interessante por causa da "verborragia" do autor e, de alguma forma, não há tempo para começar um trabalho tão volumoso.

No entanto, eu decidi que valia a pena estudar ...

imagem

Treinamento


Não limpei palavras e sinais de terceiros (números de peça em latim, notas de rodapé e parte de comentários) de que, no contexto de quase 400 mil palavras do texto do romance, um erro de até mil palavras não daria dados incorretos, mas decidi fazer a preparação mínima do texto .

Parte do programa de preparação de arquivos
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np

#filename = input(« : „)

filename = #
file = open(filename, 'r')
text = file.read()
text = text.replace(“\n», " ")
text =text.replace(']','').replace('[','').replace('\"','').replace(",", "").replace(".", "").replace("?", "").replace("!", "").replace(")", "").replace("(", "")
text =text.lower()
words_untill = text.split() #



Como uma pessoa que trabalha constantemente com números, fiquei interessado nas seguintes perguntas:

1. A palavra mais longa da novela


Tendo aprendido com sua esposa que Lev Nikolayevich ainda era o grafo-maníaco, ele decidiu descobrir que palavras longas inventara para o romance de Tolstoi.

Então, TOP 3 palavras longas.

O primeiro lugar (27 letras e um hífen) foi dividido pelas palavras sobrenaturalmente bonitas , sobrenaturalmente refinadas e irresistivelmente encantadoras :

... Como um bom garçom serve como algo sobrenaturalmente bonito naquele pedaço de carne que você não quer se vê-lo em uma cozinha suja, então em hoje à noite Anna Pavlovna serviu seus convidados primeiro visconde, depois abade, como algo sobrenaturalmente refinado ...

... O francês é autoconfiante porque se respeita pessoalmente, mente e corpo,irresistivelmente encantador para homens e mulheres. O inglês é autoconfiante, alegando que é um cidadão do estado mais confortável do mundo e, portanto, como inglês, sempre sabe o que precisa fazer e sabe que tudo o que faz como inglês é, sem dúvida, bom. O italiano é autoconfiante, porque está empolgado e se esquece facilmente de si e dos outros ... O

segundo lugar (25 letras e um hífen) levou a palavra monotonamente diversa :

... Os hussardos não olhavam para trás, mas com cada som de um núcleo que passava, como se estivesse no comando, todo o esquadrão com com seus rostos monotonamente diversos , prendendo a respiração enquanto o núcleo voava, ele subiu nos estribos e caiu novamente ...

Terceiro lugar (24 letras) levou a palavraExcelência , essa palavra, diferente das anteriores, ocorre oito vezes, como um apelo ao marechal de campo Mikhail Illarionovich Kutuzov.

Parte do programa para encontrar a palavra mais longa
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np

words = text.split() # , ,
words = sorted(words, key = len, reverse=True) #

for i in range(3): #
print(words[i].ljust(30), len(words[i])) # -3


2. A palavra mais usada


Anteriormente, a lista era limpa de palavras de uma e duas letras para remover preposições e pronomes curtos dos ciclos de comparação. Após a primeira iteração, verificou-se que nenhuma das três letras (espada, maldade, retaguarda etc.) foi incluída no TOP-10, e eu limpei sequencialmente a lista de palavras de três letras e, mesmo depois de outras experiências, de quatro letras palavras.

Parte de um programa de limpeza de palavras curtas

words2 =[]# c,
for i in range(len(words)):#
if len(words[i])>4:
words2.append(words[i])
else: break # , , ,


Não havia muitos substantivos na lista de palavras usadas com mais frequência, então eu tive que remover as palavras "somente", "quando",
"então", "agora", "agora", "isso", "qual", " da lista de palavras do romance qual ”,“ porque ”,“ novamente ”,“ subitamente ”,“ muito ”,“ nada ”,“ dele ”.

Parte do programa para encontrar as palavras mais populares

words_counts = Counter(words2)
n = []
pop_word = []
for word, count in words_counts.most_common(10):# -10
n.append(count)
pop_word.append(word)
print(word.ljust(20), count)


Como resultado, as 10 principais palavras populares:

1. disse - 1411
2. príncipe - 952
3. tempo - 544
4. Andrey - 500
5. falou - 464
6. princesa - 435
7. disse - 424
8. pessoas - 391
9. Natasha - 376
10. pessoas - 372

Como a pesquisa foi realizada sem levar em conta as formas das palavras, para o “príncipe” eu tive que encontrar todas as formas da palavra. Após esclarecer os dados, o PRINCE ficou em primeiro lugar no TOP com 1435 referências no romance, contra o verbo TOLD.

Pesquise todas as formas da palavra PRINCE

n4 = []
form_n4 = []
for i in range(len(words_untill)):
if «» in words_untill[i]:
n4.append(1)
form_n4.append(words_untill[i])
else: n4.append(0)
print(« — » + str(len(form_n4)))


Como você pode ver na lista, os verbos SAID (1411) e SPEAKED (464) são mais comuns no romance do que os verbos SAID (424), o que sugere que os homens falam 4,5 vezes mais no romance do que as mulheres (as acusações são ouvidas aqui sexismo endereçado a Leo Nikolaevich) e a princesa (435) aparece com muito menos frequência do que o príncipe.

Também ficou interessante qual atitude a sociedade tinha em relação a Natalya Ilyinichna Rostova, também conhecida como Natasha Rostova . Durante todo o romance, ela permaneceu Natasha, apesar de, no final do romance, Natalia Rostova se tornar esposa de Pierre Bezukhov. Em todas as formas, Natasha ocorre no texto 591 vezes, enquanto as formas do nome Natalya e Natalie ocorrem apenas 9 vezes.

3. Onde estava a guerra no romance?


Apesar do nome, "guerra" no romance ocorre em todas as formas apenas 278 vezes.

Pesquise todas as formas da palavra WAR

n3 = []
form_n3 = []
for i in range(len(words_untill)):
if «» in words_untill[i] and «» not in words_untill[i]:# «»
n3.append(1)
form_n3.append(words_untill[i])
else: n3.append(0)
print(form_n3)
print(« — » + str(len(form_n3)))


Dividi o romance inteiro em seções de 10 mil palavras e decidi traçar as referências às palavras "príncipe", "Natasha" e "guerra" durante o curso do romance.

Quebrando um romance de 10 mil palavras

: «0» — , «1» — .

m1=[]
m2=[]
m3 =[]
m4 = []
while i <= len(n1):
m1.append(sum(n1[i: i+10000]))# «»
m2.append(sum(n4[i: i+10000]))# «»
m3.append(sum(n3[i: i+10000]))# «»
m4.append(sum(nata1[i: i+10000]))# «»
i=i+10000


imagem

O histograma mostra que menos sobre os príncipes após um aumento na descrição da guerra no final do romance, e cada vez mais eles se lembram de Natasha.

A correlação inversa é claramente visível na distribuição da dependência das palavras "guerra" e "Natasha" - quanto menos guerra, mais Natasha.

imagem

A correlação inversa na distribuição da referência às palavras "príncipe" e "Natasha" também é claramente visível.

imagem

Na distribuição da dependência da menção das palavras “príncipe” e “guerra” não há uma correlação clara, embora seja claro que, quando pouco se fala sobre a guerra, eles não se lembram dos príncipes, mas isso não explica o grande número de referências aos “príncipes” na ausência de uma “guerra”.

imagem

É necessário rastrear a correlação durante o desenvolvimento da narrativa.

imagem

Como pode ser visto no gráfico, uma alta correlação está presente apenas no meio da novela, quando há guerra na novela, em outros lugares da novela a correlação é baixa, com base nos quais se pode concluir que o uso do “príncipe” e da “guerra” não tem uma correlação constante no decorrer da novela.

achados


  1. Você precisa ler os clássicos !!!
  2. Se você quiser ler sobre a guerra, e não sobre o amor, leia a primeira parte do primeiro volume e o terceiro volume.
  3. Se você quiser ler sobre como os príncipes viviam em tempos de paz, o segundo volume é perfeito.
  4. Se você está interessado em amor na ausência de guerra, leia o quarto volume.

All Articles