Web2Text: الاستخراج المنظم لمحتوى صفحة الويب

مرحبا يا هابر! أقدم لكم ترجمة مقالة "Web2Text: إزالة هيكلية عميق" من قبل فريق من المؤلفين Thijs Vogels و Octavian-Eugen Ganea و Carsten Eickhof.

تعتبر صفحات الويب مصدرًا قيمًا للمعلومات للعديد من مهام معالجة اللغات واسترجاع المعلومات الطبيعية. يعد استخراج المحتوى الأساسي بشكل فعال من هذه المستندات أمرًا بالغ الأهمية لأداء التطبيقات المشتقة. لحل هذه المشكلة ، نقدم نموذجًا جديدًا يقوم بتصنيف كتل النص وتسميتها في الصفحة على HTMLأنها كتل قوالب ، أو كتل تحتوي على محتوى رئيسي. تستخدم طريقتنا نموذج Hidden Markov على رأس الإمكانات التي تم الحصول عليها من خصائص نموذج الكائن HTMLللوثيقة ( Document Object Model, DOM) باستخدام الشبكات العصبية التلافيفية ( Convolutional Neural Network, CNN). تعمل الطريقة المقترحة على تحسين الأداء لاستخراج البيانات النصية من صفحات الويب.

1 المقدمة

تعتمد الأساليب الحديثة لمعالجة اللغات الطبيعية واسترجاع المعلومات بشكل كبير على مجموعات كبيرة من النصوص. شبكة الويب العالمية هي مصدر لا ينضب من المحتوى لمثل هذه التطبيقات. ومع ذلك ، فإن المشكلة الشائعة هي أن صفحات الويب لا تتضمن المحتوى الرئيسي (النص) فحسب ، بل أيضًا الإعلانات وقوائم الارتباطات التشعبية والتنقل ومعاينات المقالات الأخرى واللافتات وما إلى ذلك. غالبًا ما يكون لمحتوى القالب هذا تأثير سلبي على أداء تطبيق مشتق [15،24]. تُعرف مهمة فصل النص الرئيسي في صفحة الويب عن باقي المحتوى (النموذج) في الأدبيات باسم "حذف قالب قياسي" أو "تقسيم صفحة الويب" أو "استخراج المحتوى". تستخدم الطرق الشائعة المعروفة لهذه المشكلة الخوارزميات المستندة إلى القواعد أو التعلم الآلي.تقسم أكثر الأساليب نجاحًا أولاً صفحة الويب المدخلة إلى كتل نصية ، ثم ثنائية{1, 0}تصنيف كل قالب على أنه المحتوى أو القالب الرئيسي. في هذه المقالة ، نقترح نموذج ماركوف المخفي على رأس الإمكانات العصبية لمهمة إزالة الأنماط. نحن نستخدم قدرة الشبكات العصبية التلافيفية على دراسة الاحتمالات المزدوجة والاقتران في كتل بناءً على مجموعات معقدة غير خطية من العلامات المستندة إلى DOM. أثناء التنبؤ ، نجد أكثر تسمية كتلة محتملة {1, 0}، مما يزيد من الاحتمال المشترك لتسلسل الملصقات باستخدام خوارزمية Viterbi [23]. يتم توضيح فعالية طريقتنا على مجموعات قياسية من البيانات المقارنة.

. 2 . 3 , . 4 -.


HTML- [7] Body Text Extractor (BTE). BTE , , HTML- -. , BTE , . , : (1) HTML, , , (2) , -.

DOM, HTML [11,19,6]. , , <table>, .

DOM . . [24] [22]. , -, -, -. .

. [10] , . HTML , , , . , , (), , (). DOM [4,21]. . [3] DOM, , . . [21] / , DOM .

«», . FIASCO . [2] (SVM) HTML- , DOM , . . [17] SVM . . [20] , , . , . CleanEval [1].

ص 1

. 1. Web2Text. DOM (Collapsed DOM) - , . DOM. , , : . . , , , .

, DOM. , , . , - , .


— - (- ) [1]. . 1.


, - (X) HTML-. ( DOM) Jsoup [12].

ص 2

. 2. DOM. : HTML, — DOM, — DOM.

DOM, i) , , ii) , , : , <br>, <checkbox>, <head>, <hr>, <iframe>, <img>, <input>. DOM. DOM- . 2 DOM, (<ul>), DOM. (, « »), . Collapsed () DOM (CDOM).


. - , , . - , : i) HTML, ii) DOM, iii) DOM . DOM, . , , HTML. , DOM- ( #text) . , , . , Web2Text , , — .


— , , , . , CDOM . .

. , CDOM, , CDOM. 128 , , « - <p>», « », « », « », « - » .. , , .

. 25 . . , , , 2, 3, 4 > 4. , HTML-, ..

3.4. (Convolutional Neural Network, CNN)

, , . , . pi (li = 1), pi (li = 0) , li i , . . pi, i + 1 (li = 1, li + 1 = 1), pi, i + 1 (li = 1, li + 1 = 0), pi, i + 1 (li = 0, li + 1 = 1) pi, i + 1 (li = 0, li + 1 = 0) — . .

CNN 5 , ReLU , (50, 50, 50, 10, 2) (50, 50, 50, 10, 4) . 1 (1, 1, 3, 3, 3) . CNN , , , . CNN , , , . , , . 2 , softmax. 4 , . , i . (dropout) 0,2 L2 10-4.


و ١

lii, θunary — , n — .


و ٢

θpairwise — .


- . (b0, b1, ..., bn) (l0, l1, ..., ln) ∈ {0, 1}n :

و 3

λ — . λ = 0,1 . [23], CNN.


. Web2Text - . , . Web2Text .


CleanEval 2007 [1] . 188 -. (60 ) (676 ). (55 ) (5 ). 10000 , , . CleanEval : (531 ), (58 ) (148 ).

. , ( CleanEval) . “- — ” ( ). , , . (, [20]) . (, ) (-, ). .

-, 10 . - ( ). , - , « ». -. , , , , 2/3 .


[14] 10–3 5000 . - 128 - 9 . , . , .


Web2Text , . BTE [7] Unfluff [8] . [17,16] — , , (. 1). CRF [20] CleanEval. (Conditional Random Field, CRF) , . , 4.1, CRF - . , , , , CleanEval. CleanEval, , .

. CRF [20] 9 705 . , CNN 17 960 , CNN 12 870 . 30 830. , .


1 . , . , Web2Text (Accuracy), Recall F1 , CleanEval. , , , 3.2. , , Web2Text CNN, .

ر 1

1. - CleanEval. : (55 — , 5 — , 676 — ) (531 — , 58 — , 148 — ). , .

. Web2Text 54 -; 35 DOM , 19 . Macbook Intel Core i5 2,8 .


, , , . HTML, .

- ClueWeb12. . CW12-A 733M - (27,3 ) CW12-B 52M (1,95 ). Indri. 50 TREC Web Track 2013 [5].

ر 2

2. . (*) HTML. (†) , .

2 , -. HTML . , , †. , , CW12-A, , , CW12-B. - . , (QL) , (RM). , . , (BTE, article-ext, large-ext, Unfluff) , . (CRF, Web2Text) . , Web2Text 0,05. , Web2Text CleanEval, 4.1.


Web2Text -. , CRF [9], , DOM . CleanEval . , , , .


, - .
, .

