Sang pangeran berkata atau di mana perang itu. Pengalaman saya dalam studi "Perang dan Perdamaian"

Saya masih belum membaca novel-epik Leo Tolstoy "Perang dan Damai" - di sekolah itu tidak menarik karena "bertele-tele" dari penulis, tetapi entah bagaimana tidak ada waktu untuk memulai karya yang begitu produktif.

Namun, saya memutuskan bahwa itu layak dipelajari ...

gambar

Latihan


Saya tidak membersihkan kata-kata dan tanda-tanda pihak ketiga (nomor bagian Latin, nomor catatan kaki, dan bagian dari komentar) bahwa dengan latar belakang hampir 400 ribu kata dari teks novel, kesalahan bahkan ribuan kata tidak akan memberikan data yang salah, tetapi saya memutuskan untuk membuat persiapan teks minimum .

Bagian dari program persiapan file
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np

#filename = input(« : „)

filename = #
file = open(filename, 'r')
text = file.read()
text = text.replace(“\n», " ")
text =text.replace(']','').replace('[','').replace('\"','').replace(",", "").replace(".", "").replace("?", "").replace("!", "").replace(")", "").replace("(", "")
text =text.lower()
words_untill = text.split() #



Sebagai orang yang bekerja terus-menerus dengan angka, saya menjadi tertarik pada pertanyaan-pertanyaan berikut:

1. Kata terpanjang dalam novel


Setelah mengetahui dari istrinya bahwa Lev Nikolayevich masih seorang graphomaniac, ia memutuskan untuk mencari tahu kata-kata apa yang telah ia ciptakan untuk novel karya Tolstoy.

Jadi, TOP 3 kata yang panjang.

Tempat pertama (27 huruf dan tanda hubung) dibagi dengan kata-kata yang indah secara supernatural , halus, dan menawan :

... Seperti pelayan kepala yang baik memberikan sesuatu yang secara supernatural indah dari sepotong daging sapi yang tidak Anda inginkan jika Anda melihatnya di dapur yang kotor, jadi malam ini Anna Pavlovna melayani tamu-tamunya pertama kali viscount, kemudian kepala biara, sebagai sesuatu yang disempurnakan secara supernatural ...

... Orang Prancis itu percaya diri karena dia menghormati dirinya secara pribadi, baik pikiran maupun tubuh,Sangat menarik untuk pria dan wanita. Orang Inggris percaya diri dengan alasan bahwa ia adalah warga negara dari negara paling nyaman di dunia, dan karena itu, sebagai orang Inggris, ia selalu tahu apa yang perlu ia lakukan dan tahu bahwa semua yang ia lakukan sebagai orang Inggris tidak diragukan lagi bagus. Orang Italia itu percaya diri karena dia bersemangat dan dengan mudah melupakan dirinya sendiri dan orang lain ... Posisi

kedua (25 huruf dan tanda hubung) mengambil kata yang sangat beragam :

... The Hussars tidak melihat ke belakang, tetapi dengan setiap suara nukleus yang lewat, seolah-olah ada perintah, seluruh skuadron dengan dengan wajahnya yang sangat beragam , menahan napas sementara intinya terbang, ia bangkit dengan sanggurdi dan sekali lagi jatuh ...

Tempat ketiga (24 huruf) mengambil kataYang Mulia , kata ini, tidak seperti yang sebelumnya, muncul delapan kali, sebagai seruan kepada Field Marshal Mikhail Illarionovich Kutuzov.

Bagian dari program untuk menemukan kata terpanjang
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np

words = text.split() # , ,
words = sorted(words, key = len, reverse=True) #

for i in range(3): #
print(words[i].ljust(30), len(words[i])) # -3


2. Kata yang paling umum digunakan


Sebelumnya, daftar itu dibersihkan dari kata-kata satu dan dua huruf untuk menghapus preposisi dan kata ganti pendek dari siklus perbandingan. Setelah iterasi pertama, ternyata tidak satu pun dari tiga huruf (pedang, kejahatan, belakang, dll.) Dimasukkan dalam TOP-10, dan saya secara berurutan membersihkan daftar kata tiga huruf, dan bahkan, setelah percobaan lebih lanjut, dari empat huruf kata-kata.

Bagian dari program pembersihan kata pendek

words2 =[]# c,
for i in range(len(words)):#
if len(words[i])>4:
words2.append(words[i])
else: break # , , ,


Tidak ada banyak kata benda dalam daftar kata-kata yang paling sering digunakan, jadi saya harus menghapus kata-kata "hanya", "kapan",
"begitu", "sekarang", "ini", "ini", " dari " daftar kata-kata novel yang "," karena "," lagi "," tiba-tiba "," sangat "," tidak ada "," miliknya ".

Bagian dari program untuk menemukan kata-kata paling populer

words_counts = Counter(words2)
n = []
pop_word = []
for word, count in words_counts.most_common(10):# -10
n.append(count)
pop_word.append(word)
print(word.ljust(20), count)


Akibatnya, TOP-10 kata populer:

1. kata - 1411
2. pangeran - 952
3. waktu - 544
4. Andrey - 500
5. berbicara - 464
6. putri - 435
7. kata - 424
8. orang - 391
9. Natasha - 376
10. orang - 372

Karena pencarian dilakukan tanpa memperhitungkan bentuk kata-kata, untuk "pangeran" saya harus menemukan semua bentuk kata. Setelah mengklarifikasi data, PRINCE mengambil tempat pertama di TOP dengan 1435 referensi dalam novel, terhadap kata kerja TOLD.

Cari semua bentuk kata PRINCE

n4 = []
form_n4 = []
for i in range(len(words_untill)):
if «» in words_untill[i]:
n4.append(1)
form_n4.append(words_untill[i])
else: n4.append(0)
print(« — » + str(len(form_n4)))


Seperti yang dapat Anda lihat dari daftar, kata kerja SAID (1411) dan SPEAKED (464) lebih umum dalam novel daripada kata kerja SAID (424), yang menunjukkan bahwa pria berbicara 4,5 kali lebih banyak dalam novel daripada wanita (tuduhan terdengar di sini seksisme ditujukan kepada Leo Nikolaevich), dan sang Putri (435) muncul jauh lebih jarang daripada Pangeran.

Juga menjadi menarik bagaimana sikap masyarakat terhadap Natalya Ilyinichna Rostova alias Natasha Rostova . Sepanjang novel, ia tetap Natasha, terlepas dari kenyataan bahwa pada akhir novel Natalia Rostova menjadi istri Pierre Bezukhov. Dalam semua bentuk, Natasha muncul dalam teks 591 kali, sedangkan bentuk nama Natalya dan Natalie hanya muncul 9 kali.

3. Di mana perang dalam novel?


Terlepas dari namanya, "perang" dalam novel terjadi dalam semua bentuk hanya 278 kali.

Cari semua bentuk kata PERANG

n3 = []
form_n3 = []
for i in range(len(words_untill)):
if «» in words_untill[i] and «» not in words_untill[i]:# «»
n3.append(1)
form_n3.append(words_untill[i])
else: n3.append(0)
print(form_n3)
print(« — » + str(len(form_n3)))


Saya membagi seluruh novel menjadi bagian-bagian dari 10 ribu kata dan memutuskan untuk melacak referensi ke kata "pangeran", "Natasha" dan "perang" selama novel.

Memecahkan novel 10 ribu kata

: «0» — , «1» — .

m1=[]
m2=[]
m3 =[]
m4 = []
while i <= len(n1):
m1.append(sum(n1[i: i+10000]))# «»
m2.append(sum(n4[i: i+10000]))# «»
m3.append(sum(n3[i: i+10000]))# «»
m4.append(sum(nata1[i: i+10000]))# «»
i=i+10000


gambar

Histogram menunjukkan bahwa kurang tentang pangeran setelah lonjakan deskripsi perang menjelang akhir novel, dan semakin banyak mereka ingat tentang Natasha.

Korelasi terbalik terlihat jelas dalam distribusi ketergantungan pada kata "perang" dan "Natasha" - semakin sedikit perang, semakin banyak Natasha.

gambar

Korelasi terbalik dalam distribusi referensi ke kata "pangeran" dan "Natasha" juga terlihat jelas.

gambar

Dalam distribusi ketergantungan pada penyebutan kata-kata "pangeran" dan "perang" tidak ada korelasi yang jelas, meskipun jelas bahwa ketika sedikit dikatakan tentang perang, maka mereka tidak ingat pangeran, tetapi ini tidak menjelaskan sejumlah besar referensi ke "pangeran" tanpa adanya "perang".

gambar

Penting untuk melacak korelasi selama pengembangan narasi.

gambar

Seperti dapat dilihat dari grafik, korelasi tinggi hanya ada di tengah-tengah novel, ketika ada perang dalam novel, di tempat-tempat lain novel korelasinya rendah, atas dasar itu dapat disimpulkan bahwa penggunaan "pangeran" dan "perang" tidak memiliki korelasi yang konstan dalam perjalanan novel.

temuan


  1. Anda perlu membaca klasik !!!
  2. Jika Anda ingin membaca tentang perang, dan bukan tentang cinta, maka bacalah bagian pertama dari jilid pertama dan jilid ketiga.
  3. Jika Anda ingin membaca tentang bagaimana para pangeran hidup di masa damai, maka jilid kedua sempurna.
  4. Jika Anda tertarik pada cinta tanpa adanya perang, maka Anda harus membaca volume keempat.

All Articles