El príncipe dijo o dónde estaba la guerra. Mi experiencia en el estudio "Guerra y paz"

Todavía no he leído la novela épica de Leo Tolstoi "Guerra y paz" . En la escuela no era interesante por la "verborrea" del autor, pero de alguna manera no hay tiempo para comenzar un trabajo tan voluminoso.

Sin embargo, decidí que valía la pena estudiar ...

imagen

Formación


No limpié las palabras y signos de terceros (números de parte latinos, números de notas al pie y parte de comentarios) que en el contexto de casi 400 mil palabras del texto de la novela, un error de incluso mil palabras no daría datos incorrectos, pero decidí hacer la preparación mínima de texto .

Parte del programa de preparación de archivos.
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np

#filename = input(« : „)

filename = #
file = open(filename, 'r')
text = file.read()
text = text.replace(“\n», " ")
text =text.replace(']','').replace('[','').replace('\"','').replace(",", "").replace(".", "").replace("?", "").replace("!", "").replace(")", "").replace("(", "")
text =text.lower()
words_untill = text.split() #



Como persona que trabaja constantemente con números, me interesaron las siguientes preguntas:

1. La palabra más larga de la novela.


Habiendo aprendido de su esposa que Lev Nikolayevich seguía siendo el grafómano, decidió averiguar qué largas palabras había inventado para la novela de Tolstoi.

Entonces, TOP 3 palabras largas.

El primer lugar (27 letras y un guión) se dividió entre las palabras sobrenaturalmente bellas , sobrenaturalmente refinadas e irresistiblemente encantadoras :

... Como un buen camarero jefe da como algo sobrenaturalmente hermoso ese trozo de carne que no quieres si lo ves en una cocina sucia, así que en Esta noche, Anna Pavlovna sirvió a sus invitados como primer vizconde, luego abad, como algo sobrenaturalmente refinado ...

... El francés tiene confianza en sí mismo porque se venera personalmente, tanto en mente como en cuerpo.irresistiblemente encantador para hombres y mujeres. El inglés confía en sí mismo porque es ciudadano del estado más cómodo del mundo y, por lo tanto, como inglés, siempre sabe lo que debe hacer y sabe que todo lo que hace como inglés es indudablemente bueno. El italiano tiene confianza en sí mismo porque está entusiasmado y se olvida fácilmente de sí mismo y de los demás ... El

segundo lugar (25 letras y un guión) tomó la palabra monótonamente diversa :

... Los Húsares no miraron hacia atrás, pero con cada sonido de un núcleo que pasaba, como si estuviera al mando, todo el escuadrón con Con sus caras monótonamente diversas , conteniendo la respiración mientras el núcleo volaba, se levantó sobre los estribos y cayó de nuevo ... El

tercer lugar (24 letras) fue tomado por la palabraExcelencia , esta palabra, a diferencia de las anteriores, aparece ocho veces, como un llamado al mariscal de campo Mikhail Illarionovich Kutuzov.

Parte del programa para encontrar la palabra más larga.
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np

words = text.split() # , ,
words = sorted(words, key = len, reverse=True) #

for i in range(3): #
print(words[i].ljust(30), len(words[i])) # -3


2. La palabra más utilizada


Anteriormente, la lista se borraba de palabras de una y dos letras para eliminar las preposiciones y pronombres cortos de los ciclos de comparaciones. Después de la primera iteración, resultó que ninguna de las tres letras (espada, maldad, retaguardia, etc.) estaba incluida en el TOP-10, y borré secuencialmente la lista de palabras de tres letras e incluso, después de más experimentos, de cuatro letras. palabras.

Parte de un breve programa de limpieza de palabras

words2 =[]# c,
for i in range(len(words)):#
if len(words[i])>4:
words2.append(words[i])
else: break # , , ,


No había tantos sustantivos en la lista de palabras usadas con mayor frecuencia, así que tuve que eliminar las palabras "solo", "cuándo",
"entonces", "ahora", "esto", "cuál", " de la lista de palabras de la novela cual "," porque "," otra vez "," de repente "," muy "," nada "," su ".

Parte del programa para encontrar las palabras más populares.

words_counts = Counter(words2)
n = []
pop_word = []
for word, count in words_counts.most_common(10):# -10
n.append(count)
pop_word.append(word)
print(word.ljust(20), count)


Como resultado, las palabras populares TOP-10 :

1. dijo - 1411
2. príncipe - 952
3. tiempo - 544
4. Andrey - 500
5. habló - 464
6. princesa - 435
7. dijo - 424
8. personas - 391
9. Natasha - 376
10. personas - 372

Dado que la búsqueda se realizó sin tener en cuenta las formas de las palabras, para el "príncipe" tuve que encontrar todas las formas de la palabra. Después de aclarar los datos, el PRINCIPE ocupó el primer lugar en el TOP con 1435 referencias en la novela, en contra del verbo TOLD.

Buscar todas las formas de la palabra PRINCE

n4 = []
form_n4 = []
for i in range(len(words_untill)):
if «» in words_untill[i]:
n4.append(1)
form_n4.append(words_untill[i])
else: n4.append(0)
print(« — » + str(len(form_n4)))


Como puede ver en la lista, los verbos SAID (1411) y SPEAKED (464) son más comunes en la novela que los verbos SAID (424), lo que sugiere que los hombres hablan 4.5 veces más en la novela que las mujeres (aquí se escuchan acusaciones sexismo dirigido a Leo Nikolaevich), y la princesa (435) aparece con mucha menos frecuencia que el príncipe.

También se volvió interesante qué actitud tenía la sociedad hacia Natalya Ilyinichna Rostova, también conocida como Natasha Rostova . A lo largo de la novela, ella permaneció como Natasha, a pesar de que al final de la novela, Natalia Rostova se convirtió en la esposa de Pierre Bezukhov. En todas las formas, Natasha aparece en el texto 591 veces, mientras que las formas del nombre Natalya y Natalie aparecen solo 9 veces.

3. ¿Dónde estaba la guerra en la novela?


A pesar del nombre, "guerra" en la novela ocurre en todas sus formas solo 278 veces.

Buscar todas las formas de la palabra GUERRA

n3 = []
form_n3 = []
for i in range(len(words_untill)):
if «» in words_untill[i] and «» not in words_untill[i]:# «»
n3.append(1)
form_n3.append(words_untill[i])
else: n3.append(0)
print(form_n3)
print(« — » + str(len(form_n3)))


Dividí toda la novela en secciones de 10 mil palabras y decidí rastrear la mención de las palabras "príncipe", "Natasha" y "guerra" durante el curso de la novela.

Rompiendo una novela de 10 mil palabras

: «0» — , «1» — .

m1=[]
m2=[]
m3 =[]
m4 = []
while i <= len(n1):
m1.append(sum(n1[i: i+10000]))# «»
m2.append(sum(n4[i: i+10000]))# «»
m3.append(sum(n3[i: i+10000]))# «»
m4.append(sum(nata1[i: i+10000]))# «»
i=i+10000


imagen

El histograma muestra que menos sobre los príncipes después de un aumento en la descripción de la guerra hacia el final de la novela, y cada vez más recuerdan sobre Natasha.

La correlación inversa es claramente visible en la distribución de la dependencia de las palabras "guerra" y "Natasha": cuanto menos guerra, más Natasha.

imagen

La correlación inversa en la distribución de la referencia a las palabras "príncipe" y "Natasha" también es claramente visible.

imagen

No existe una correlación clara en la distribución de la referencia a las palabras "príncipe" y "guerra", aunque está claro que cuando dicen poco sobre la guerra, no recuerdan acerca de los príncipes, pero esto no explica la gran cantidad de referencias a "príncipes" en ausencia de "guerra".

imagen

Es necesario seguir la correlación durante el desarrollo de la narrativa.

imagen

Como se puede ver en el gráfico, una alta correlación está presente solo en el medio de la novela, cuando hay guerra en la novela, en otros lugares de la novela la correlación es baja, sobre la base de lo cual se puede concluir que el uso del "príncipe" y la "guerra" no tiene una correlación constante en el curso de la novela.

recomendaciones


  1. ¡Necesitas leer los clásicos!
  2. Si quieres leer sobre la guerra, y no sobre el amor, lee la primera parte del primer volumen y el tercer volumen.
  3. Si quieres leer sobre cómo vivían los príncipes en tiempos de paz, entonces el segundo volumen es perfecto.
  4. Si estás interesado en el amor en ausencia de guerra, entonces debes leer el cuarto volumen.

All Articles