Web2Text: Tief strukturierte Extraktion von Webseiteninhalten

Ich prĂ€sentiere Ihnen die Übersetzung des Artikels "Web2Text: Deep Structured Boilerplate Removal" von einem Autorenteam, Thijs Vogels, Octavian-Eugen Ganea und Carsten Eickhof.

Webseiten sind eine wertvolle Informationsquelle fĂŒr viele Aufgaben zur Verarbeitung natĂŒrlicher Sprache und zum Abrufen von Informationen. Das effektive Extrahieren von Kerninhalten aus diesen Dokumenten ist fĂŒr die Leistung abgeleiteter Anwendungen von entscheidender Bedeutung. Um dieses Problem zu lösen, fĂŒhren wir ein neues Modell ein, das Textblöcke auf einer Seite HTMLals Vorlagenblöcke oder Blöcke mit Hauptinhalt klassifiziert und beschriftet . Unsere Methode verwendet das Hidden-Markov-Modell zusĂ€tzlich zu den Potentialen, die sich aus den Eigenschaften des Objektmodells des HTMLDokuments ( Document Object Model, DOM) unter Verwendung von Faltungs-Neuronalen Netzen ( Convolutional Neural Network, CNN) ergeben. Das vorgeschlagene Verfahren verbessert qualitativ die Leistung zum Extrahieren von Textdaten von Webseiten.

1. Einleitung

Moderne Methoden der Verarbeitung natĂŒrlicher Sprache und des Abrufs von Informationen hĂ€ngen stark von großen Textsammlungen ab. Das World Wide Web ist eine unerschöpfliche Quelle fĂŒr Inhalte fĂŒr solche Anwendungen. Ein hĂ€ufiges Problem ist jedoch, dass Webseiten nicht nur den Hauptinhalt (Text) enthalten, sondern auch Anzeigen, Hyperlinklisten, Navigation, Vorschau anderer Artikel, Banner usw. Dieser Vorlageninhalt wirkt sich hĂ€ufig negativ auf die Leistung einer abgeleiteten Anwendung aus [15,24]. Die Aufgabe, den Haupttext einer Webseite vom Restinhalt (Vorlageninhalt) in der Literatur zu trennen, wird als "Löschen einer Standardvorlage", "Segmentieren einer Webseite" oder "Extrahieren von Inhalten" bezeichnet. Bekannte gĂ€ngige Methoden fĂŒr dieses Problem verwenden regelbasierte Algorithmen oder maschinelles Lernen.Die erfolgreichsten AnsĂ€tze teilen die eingegebene Webseite zuerst in Textblöcke und dann in BinĂ€rdateien auf{1, 0}Beschriften Sie jeden Block als Hauptinhalt oder Vorlage. In diesem Artikel schlagen wir das Hidden-Markov-Modell zusĂ€tzlich zu neuronalen Potentialen vor, um Muster zu entfernen. Wir nutzen die FĂ€higkeit von Faltungs-Neuronalen Netzen, unĂ€re Potentiale und Paarpotentiale in Blöcken zu untersuchen, die auf komplexen nichtlinearen Zeichenkombinationen basieren DOM. WĂ€hrend der Vorhersage finden wir die wahrscheinlichste Blockbezeichnung {1, 0}, wodurch die gemeinsame Wahrscheinlichkeit der Markierungssequenz mithilfe des Viterbi-Algorithmus maximiert wird [23]. Die Wirksamkeit unserer Methode wird anhand von Standard-Vergleichsdaten demonstriert.

. 2 . 3 , . 4 -.


HTML- [7] Body Text Extractor (BTE). BTE , , HTML- -. , BTE , . , : (1) HTML, , , (2) , -.

DOM, HTML [11,19,6]. , , <table>, .

DOM . . [24] [22]. , -, -, -. .

. [10] , . HTML , , , . , , (), , (). DOM [4,21]. . [3] DOM, , . . [21] / , DOM .

«», . FIASCO . [2] (SVM) HTML- , DOM , . . [17] SVM . . [20] , , . , . CleanEval [1].


. 1. Web2Text. DOM (Collapsed DOM) - , . DOM. , , : . . , , , .

, DOM. , , . , - , .


— - (- ) [1]. . 1.


, - (X) HTML-. ( DOM) Jsoup [12].


. 2. DOM. : HTML, — DOM, — DOM.

DOM, i) , , ii) , , : , <br>, <checkbox>, <head>, <hr>, <iframe>, <img>, <input>. DOM. DOM- . 2 DOM, (<ul>), DOM. (, « »), . Collapsed () DOM (CDOM).


. - , , . - , : i) HTML, ii) DOM, iii) DOM . DOM, . , , HTML. , DOM- ( #text) . , , . , Web2Text , , — .


— , , , . , CDOM . .

. , CDOM, , CDOM. 128 , , « - <p>», « », « », « », « - » .. , , .

. 25 . . , , , 2, 3, 4 > 4. , HTML-, ..

3.4. (Convolutional Neural Network, CNN)

, , . , . pi (li = 1), pi (li = 0) , li i , . . pi, i + 1 (li = 1, li + 1 = 1), pi, i + 1 (li = 1, li + 1 = 0), pi, i + 1 (li = 0, li + 1 = 1) pi, i + 1 (li = 0, li + 1 = 0) — . .

CNN 5 , ReLU , (50, 50, 50, 10, 2) (50, 50, 50, 10, 4) . 1 (1, 1, 3, 3, 3) . CNN , , , . CNN , , , . , , . 2 , softmax. 4 , . , i . (dropout) 0,2 L2 10-4.



l∗i — i, ξunary — , n — .



ξpairwise — .


- . (b0, b1, ..., bn) (l0, l1, ..., ln) ∈ {0, 1}n :


λ — . λ = 0,1 . [23], CNN.


. Web2Text - . , . Web2Text .


CleanEval 2007 [1] . 188 -. (60 ) (676 ). (55 ) (5 ). 10000 , , . CleanEval : (531 ), (58 ) (148 ).

. , ( CleanEval) . “- — ” ( ). , , . (, [20]) . (, ) (-, ). .

-, 10 . - ( ). , - , « ». -. , , , , 2/3 .


[14] 10–3 5000 . - 128 - 9 . , . , .


Web2Text , . BTE [7] Unfluff [8] . [17,16] — , , (. 1). CRF [20] CleanEval. (Conditional Random Field, CRF) , . , 4.1, CRF - . , , , , CleanEval. CleanEval, , .

. CRF [20] 9 705 . , CNN 17 960 , CNN 12 870 . 30 830. , .


1 . , . , Web2Text (Accuracy), Recall F1 , CleanEval. , , , 3.2. , , Web2Text CNN, .


1. - CleanEval. : (55 — , 5 — , 676 — ) (531 — , 58 — , 148 — ). , .

. Web2Text 54 -; 35 DOM , 19 . Macbook Intel Core i5 2,8 .


, , , . HTML, .

- ClueWeb12. . CW12-A 733M - (27,3 ) CW12-B 52M (1,95 ). Indri. 50 TREC Web Track 2013 [5].


2. . (*) HTML. (†) , .

2 , -. HTML . , , †. , , CW12-A, , , CW12-B. - . , (QL) , (RM). , . , (BTE, article-ext, large-ext, Unfluff) , . (CRF, Web2Text) . , Web2Text 0,05. , Web2Text CleanEval, 4.1.


Web2Text -. , CRF [9], , DOM . CleanEval . , , , .


, - .
, .

