Halaman web adalah sumber informasi yang berharga untuk banyak pemrosesan bahasa alami dan tugas pencarian informasi. Mengekstraksi konten inti secara efektif dari dokumen-dokumen ini sangat penting untuk kinerja aplikasi turunan. Untuk mengatasi masalah ini, kami memperkenalkan model baru yang mengklasifikasikan dan memberi label blok teks pada halaman HTMLsebagai blok template, atau blok yang berisi konten utama. Metode kami menggunakan model Hidden Markov di atas potensi yang diperoleh dari fitur model objek HTMLdokumen ( Document Object Model, DOM) menggunakan jaringan saraf convolutional ( Convolutional Neural Network, CNN). Metode yang diusulkan secara kualitatif meningkatkan kinerja untuk mengekstraksi data teks dari halaman web.

1. Perkenalan

Metode modern dalam pemrosesan bahasa alami dan pencarian informasi sangat tergantung pada koleksi teks yang besar. World Wide Web adalah sumber konten yang tidak ada habisnya untuk aplikasi semacam itu. Namun, masalah umum adalah bahwa halaman web tidak hanya mencakup konten utama (teks), tetapi juga iklan, daftar hyperlink, navigasi, pratinjau artikel lain, spanduk, dll. Konten template ini sering memiliki dampak negatif pada kinerja aplikasi turunan [15,24]. Tugas memisahkan badan teks pada halaman web dari konten (templat) lainnya dalam literatur dikenal sebagai "menghapus templat standar", "memilah-milah halaman web", atau "mengekstraksi konten". Metode populer yang dikenal untuk masalah ini menggunakan algoritma berbasis aturan atau pembelajaran mesin.Pendekatan yang paling berhasil pertama-tama membagi halaman web input menjadi blok teks, dan kemudian biner{1, 0}Memberi label setiap blok sebagai konten atau templat utama. Dalam artikel ini, kami mengusulkan Model Markov Tersembunyi di atas potensi saraf untuk tugas menghilangkan pola. Kami menggunakan kemampuan jaringan saraf konvolusional untuk mempelajari potensi unary dan berpasangan dalam blok berdasarkan kombinasi tanda nonlinier kompleks berdasarkan DOM. Selama peramalan, kami menemukan label blok yang paling memungkinkan {1, 0}, memaksimalkan probabilitas gabungan dari urutan label menggunakan algoritma Viterbi [23]. Efektivitas metode kami ditunjukkan pada set data komparatif standar.

. 2 . 3 , . 4 -.


HTML- [7] Body Text Extractor (BTE). BTE , , HTML- -. , BTE , . , : (1) HTML, , , (2) , -.

DOM, HTML [11,19,6]. , , <table>, .

DOM . . [24] [22]. , -, -, -. .

. [10] , . HTML , , , . , , (), , (). DOM [4,21]. . [3] DOM, , . . [21] / , DOM .

«», . FIASCO . [2] (SVM) HTML- , DOM , . . [17] SVM . . [20] , , . , . CleanEval [1].


. 1. Web2Text. DOM (Collapsed DOM) - , . DOM. , , : . . , , , .

, DOM. , , . , - , .


— - (- ) [1]. . 1.


, - (X) HTML-. ( DOM) Jsoup [12].


. 2. DOM. : HTML, — DOM, — DOM.

DOM, i) , , ii) , , : , <br>, <checkbox>, <head>, <hr>, <iframe>, <img>, <input>. DOM. DOM- . 2 DOM, (<ul>), DOM. (, « »), . Collapsed () DOM (CDOM).


. - , , . - , : i) HTML, ii) DOM, iii) DOM . DOM, . , , HTML. , DOM- ( #text) . , , . , Web2Text , , — .


— , , , . , CDOM . .

. , CDOM, , CDOM. 128 , , « - <p>», « », « », « », « - » .. , , .

. 25 . . , , , 2, 3, 4 > 4. , HTML-, ..

3.4. (Convolutional Neural Network, CNN)

, , . , . pi (li = 1), pi (li = 0) , li i , . . pi, i + 1 (li = 1, li + 1 = 1), pi, i + 1 (li = 1, li + 1 = 0), pi, i + 1 (li = 0, li + 1 = 1) pi, i + 1 (li = 0, li + 1 = 0) — . .

CNN 5 , ReLU , (50, 50, 50, 10, 2) (50, 50, 50, 10, 4) . 1 (1, 1, 3, 3, 3) . CNN , , , . CNN , , , . , , . 2 , softmax. 4 , . , i . (dropout) 0,2 L2 10-4.



lii, θunary — , n — .



θpairwise — .


- . (b0, b1, ..., bn) (l0, l1, ..., ln) ∈ {0, 1}n :


λ — . λ = 0,1 . [23], CNN.


. Web2Text - . , . Web2Text .


CleanEval 2007 [1] . 188 -. (60 ) (676 ). (55 ) (5 ). 10000 , , . CleanEval : (531 ), (58 ) (148 ).

. , ( CleanEval) . “- — ” ( ). , , . (, [20]) . (, ) (-, ). .

-, 10 . - ( ). , - , « ». -. , , , , 2/3 .


[14] 10–3 5000 . - 128 - 9 . , . , .


Web2Text , . BTE [7] Unfluff [8] . [17,16] — , , (. 1). CRF [20] CleanEval. (Conditional Random Field, CRF) , . , 4.1, CRF - . , , , , CleanEval. CleanEval, , .

. CRF [20] 9 705 . , CNN 17 960 , CNN 12 870 . 30 830. , .


1 . , . , Web2Text (Accuracy), Recall F1 , CleanEval. , , , 3.2. , , Web2Text CNN, .


1. - CleanEval. : (55 — , 5 — , 676 — ) (531 — , 58 — , 148 — ). , .

. Web2Text 54 -; 35 DOM , 19 . Macbook Intel Core i5 2,8 .


, , , . HTML, .

- ClueWeb12. . CW12-A 733M - (27,3 ) CW12-B 52M (1,95 ). Indri. 50 TREC Web Track 2013 [5].


2. . (*) HTML. (†) , .

2 , -. HTML . , , †. , , CW12-A, , , CW12-B. - . , (QL) , (RM). , . , (BTE, article-ext, large-ext, Unfluff) , . (CRF, Web2Text) . , Web2Text 0,05. , Web2Text CleanEval, 4.1.


Web2Text -. , CRF [9], , DOM . CleanEval . , , , .


, - .
, .

