Web2Text: рд╡реЗрдм рдкреЗрдЬ рдХреА рд╕рд╛рдордЧреНрд░реА рдХрд╛ рдЧрд╣рди рд╕рдВрд░рдЪрд┐рдд рдирд┐рд╖реНрдХрд░реНрд╖рдг

рдирдорд╕реНрдХрд╛рд░, рд╣реЗрдмреНрд░! рдореИрдВ рдЖрдкрдХреЗ рд▓рд┐рдП рд▓реЗрдЦ "рд╡реЗрдм 2 рдЯреЗрдХреНрд╕реНрдЯ: рдбреАрдк рд╕реНрдЯреНрд░рдХреНрдЪрд░реНрдб рдмреЙрдпрд▓рд░рдкреНрд▓реЗрдЯ рд░рд┐рдореВрд╡рд▓" рдХреЗ рд▓реЗрдЦрдХ рдерд┐рдЬрд╝реНрд╕ рд╡реЛрдЧреЗрд▓реНрд╕, рдСрдХреНрдЯреЗрд╡рд┐рдпрди-рдпреВрдЬреЗрди рдЧрд╛рдЗрдирд╛ рдФрд░ рдХрд╛рд░реНрд╕реНрдЯрди рдИрдХреЙрдл рдХрд╛ рдПрдХ рдЕрдиреБрд╡рд╛рдж рдкреНрд░рд╕реНрддреБрдд рдХрд░рддрд╛ рд╣реВрдВред


рд╡реЗрдм рдкреЗрдЬ рдХрдИ рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдФрд░ рд╕реВрдЪрдирд╛ рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрддрд┐ рдХрд╛рд░реНрдпреЛрдВ рдХреЗ рд▓рд┐рдП рдЬрд╛рдирдХрд╛рд░реА рдХрд╛ рдПрдХ рдореВрд▓реНрдпрд╡рд╛рди рд╕реНрд░реЛрдд рд╣реИрдВред рдЗрди рджрд╕реНрддрд╛рд╡реЗрдЬрд╝реЛрдВ рд╕реЗ рдкреНрд░рднрд╛рд╡реА рд░реВрдк рд╕реЗ рдореБрдЦреНрдп рд╕рд╛рдордЧреНрд░реА рдирд┐рдХрд╛рд▓рдирд╛ рд╡реНрдпреБрддреНрдкрдиреНрди рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдХреЗ рдкреНрд░рджрд░реНрд╢рди рдХреЗ рд▓рд┐рдП рдорд╣рддреНрд╡рдкреВрд░реНрдг рд╣реИред рдЗрд╕ рд╕рдорд╕реНрдпрд╛ рдХреЛ рд╣рд▓ рдХрд░рдиреЗ рдХреЗ рд▓рд┐рдП, рд╣рдо рдПрдХ рдирдП рдореЙрдбрд▓ рдХреЛ рдкреЗрд╢ рдХрд░рддреЗ рд╣реИрдВ рдЬреЛ рдЯреЗрдХреНрд╕реНрдЯ рдкреЗрдЬ HTMLрдХреЛ рдЯреЗрдореНрдкреНрд▓реЗрдЯ рдмреНрд▓реЙрдХ, рдпрд╛ рдореБрдЦреНрдп рд╕рд╛рдордЧреНрд░реА рд╡рд╛рд▓реЗ рдмреНрд▓реЙрдХ рдХреЗ рд░реВрдк рдореЗрдВ рд╡рд░реНрдЧреАрдХреГрдд рдХрд░рддрд╛ рд╣реИред рд╣рдорд╛рд░реА рд╡рд┐рдзрд┐ HTMLрджрд╕реНрддрд╛рд╡реЗрдЬрд╝ рдХреЗ рдСрдмреНрдЬреЗрдХреНрдЯ рдореЙрдбрд▓ рдХреА рд╡рд┐рд╢реЗрд╖рддрд╛рдУрдВ рд╕реЗ рдкреНрд░рд╛рдкреНрдд рдХреНрд╖рдорддрд╛рдУрдВ рдХреЗ рд╢реАрд░реНрд╖ рдкрд░ рдЫрд┐рдкреЗ рд╣реБрдП рдорд╛рд░реНрдХреЛрд╡ рдореЙрдбрд▓ ( Document Object Model, DOM) рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреА рд╣реИ, рдЬреЛ рдХрд┐ рд╕рдВрд╡реЗрджреА рддрдВрддреНрд░рд┐рдХрд╛ рдиреЗрдЯрд╡рд░реНрдХ ( Convolutional Neural Network, CNN) рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░ рд░рд╣реА рд╣реИ ред рдкреНрд░рд╕реНрддрд╛рд╡рд┐рдд рд╡рд┐рдзрд┐ рдЧреБрдгрд╛рддреНрдордХ рд░реВрдк рд╕реЗ рд╡реЗрдм рдкреГрд╖реНрдареЛрдВ рд╕реЗ рдкрд╛рда рдбреЗрдЯрд╛ рдирд┐рдХрд╛рд▓рдиреЗ рдХреЗ рд▓рд┐рдП рдкреНрд░рджрд░реНрд╢рди рдореЗрдВ рд╕реБрдзрд╛рд░ рдХрд░рддреА рд╣реИред


1ред рдкрд░рд┐рдЪрдп


рдкреНрд░рд╛рдХреГрддрд┐рдХ рднрд╛рд╖рд╛ рдкреНрд░рд╕рдВрд╕реНрдХрд░рдг рдФрд░ рд╕реВрдЪрдирд╛ рдкреБрдирд░реНрдкреНрд░рд╛рдкреНрддрд┐ рдХреЗ рдЖрдзреБрдирд┐рдХ рддрд░реАрдХреЗ рдкрд╛рда рдХреЗ рдмрдбрд╝реЗ рд╕рдВрдЧреНрд░рд╣ рдкрд░ рдЕрддреНрдпрдзрд┐рдХ рдирд┐рд░реНрднрд░ рд╣реИрдВред рд╡рд░реНрд▓реНрдб рд╡рд╛рдЗрдб рд╡реЗрдм рдРрд╕реЗ рдЕрдиреБрдкреНрд░рдпреЛрдЧреЛрдВ рдХреЗ рд▓рд┐рдП рд╕рд╛рдордЧреНрд░реА рдХрд╛ рдПрдХ рдЕрдЯреВрдЯ рд╕реНрд░реЛрдд рд╣реИред рд╣рд╛рд▓рд╛рдВрдХрд┐, рдПрдХ рдЖрдо рд╕рдорд╕реНрдпрд╛ рдпрд╣ рд╣реИ рдХрд┐ рд╡реЗрдм рдкреЗрдЬреЛрдВ рдореЗрдВ рди рдХреЗрд╡рд▓ рдореБрдЦреНрдп рд╕рд╛рдордЧреНрд░реА (рдкрд╛рда), рдмрд▓реНрдХрд┐ рд╡рд┐рдЬреНрдЮрд╛рдкрди, рд╣рд╛рдЗрдкрд░рд▓рд┐рдВрдХ рд╕реВрдЪреА, рдиреЗрд╡рд┐рдЧреЗрд╢рди, рдЕрдиреНрдп рд▓реЗрдЦреЛрдВ рдХреЗ рдкреВрд░реНрд╡рд╛рд╡рд▓реЛрдХрди, рдмреИрдирд░ рдЖрджрд┐ рд╢рд╛рдорд┐рд▓ рд╣реИрдВред рдпрд╣ рдЯреЗрдореНрдкреНрд▓реЗрдЯ рд╕рд╛рдордЧреНрд░реА рдЕрдХреНрд╕рд░ рд╡реНрдпреБрддреНрдкрдиреНрди рдЕрдиреБрдкреНрд░рдпреЛрдЧ [15,24] рдХреЗ рдкреНрд░рджрд░реНрд╢рди рдкрд░ рдирдХрд╛рд░рд╛рддреНрдордХ рдкреНрд░рднрд╛рд╡ рдбрд╛рд▓рддреА рд╣реИред рд╕рд╛рд╣рд┐рддреНрдп рдореЗрдВ рдПрдХ рд╡реЗрдм рдкреЗрдЬ рдкрд░ рдореБрдЦреНрдп рдкрд╛рда рдХреЛ рдмрд╛рдХреА (рдЯреЗрдореНрдкрд▓реЗрдЯ) рд╕рд╛рдордЧреНрд░реА рд╕реЗ рдЕрд▓рдЧ рдХрд░рдиреЗ рдХрд╛ рдХрд╛рд░реНрдп "рдПрдХ рдорд╛рдирдХ рдЯреЗрдореНрдкрд▓реЗрдЯ рдХреЛ рд╣рдЯрд╛рдирд╛", "рд╡реЗрдм рдкреЗрдЬ рдХреЛ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рдирд╛", рдпрд╛ "рд╕рд╛рдордЧреНрд░реА рдХреЛ рдирд┐рдХрд╛рд▓рдирд╛" рдХреЗ рд░реВрдк рдореЗрдВ рдЬрд╛рдирд╛ рдЬрд╛рддрд╛ рд╣реИред рдЗрд╕ рд╕рдорд╕реНрдпрд╛ рдХреЗ рд▓рд┐рдП рдЬреНрдЮрд╛рдд рд▓реЛрдХрдкреНрд░рд┐рдп рддрд░реАрдХреЗ рдирд┐рдпрдо-рдЖрдзрд╛рд░рд┐рдд рдПрд▓реНрдЧреЛрд░рд┐рджрдо рдпрд╛ рдорд╢реАрди рд╕реАрдЦрдиреЗ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВредрд╕рдмрд╕реЗ рд╕рдлрд▓ рджреГрд╖реНрдЯрд┐рдХреЛрдг рдкрд╣рд▓реЗ рдЗрдирдкреБрдЯ рд╡реЗрдм рдкреЗрдЬ рдХреЛ рдЯреЗрдХреНрд╕реНрдЯ рдмреНрд▓реЙрдХ рдореЗрдВ рд╡рд┐рднрд╛рдЬрд┐рдд рдХрд░рддреЗ рд╣реИрдВ, рдФрд░ рдлрд┐рд░ рдмрд╛рдЗрдирд░реА{1, 0}рдкреНрд░рддреНрдпреЗрдХ рдмреНрд▓реЙрдХ рдХреЛ рдореБрдЦреНрдп рд╕рд╛рдордЧреНрд░реА рдпрд╛ рдЯреЗрдореНрдкрд▓реЗрдЯ рдХреЗ рд░реВрдк рдореЗрдВ рд▓реЗрдмрд▓ рдХрд░рдирд╛ред рдЗрд╕ рд▓реЗрдЦ рдореЗрдВ, рд╣рдо рдкреИрдЯрд░реНрди рд╣рдЯрд╛рдиреЗ рдХреЗ рдХрд╛рд░реНрдп рдХреЗ рд▓рд┐рдП рддрдВрддреНрд░рд┐рдХрд╛ рдХреНрд╖рдорддрд╛ рдХреЗ рд╢реАрд░реНрд╖ рдкрд░ рдЫрд┐рдкреЗ рд╣реБрдП рдорд╛рд░реНрдХреЛрд╡ рдореЙрдбрд▓ рдХрд╛ рдкреНрд░рд╕реНрддрд╛рд╡ рдХрд░рддреЗ рд╣реИрдВред рд╣рдо рдЬрдЯрд┐рд▓ рдиреНрдпреВрд░рд▓ рдиреЗрдЯрд╡рд░реНрдХ рдХрд╛ рдЕрдзреНрдпрдпрди рдХрд░рдиреЗ рдХреА рдХреНрд╖рдорддрд╛ рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рддреЗ рд╣реИрдВ, рдЬреЛ рдХрд┐ рд╕рдВрдХреЗрддреЛрдВ рдХреЗ рдЬрдЯрд┐рд▓ nonlinear рд╕рдВрдпреЛрдЬрдиреЛрдВ рдХреЗ рдЖрдзрд╛рд░ рдкрд░ рдмреНрд▓реЙрдХ рдореЗрдВ рд╕рдВрдпреБрдХреНрдд рдФрд░ рдпреБрдЧреНрдо рдХреНрд╖рдорддрд╛ рдХрд╛ рдЕрдзреНрдпрдпрди рдХрд░рддреЗ рд╣реИрдВ DOMред рдкреВрд░реНрд╡рд╛рдиреБрдорд╛рди рдХреЗ рджреМрд░рд╛рди, рд╣рдо рд╕рдмрд╕реЗ рд╕рдВрднрд╛рд╡рд┐рдд рдмреНрд▓реЙрдХ рд▓реЗрдмрд▓ рдкрд╛рддреЗ рд╣реИрдВ {1, 0}, Viterbi рдПрд▓реНрдЧреЛрд░рд┐рдереНрдо [23] рдХрд╛ рдЙрдкрдпреЛрдЧ рдХрд░рдХреЗ рд▓реЗрдмрд▓ рдХреЗ рдЕрдиреБрдХреНрд░рдо рдХреА рд╕рдВрдпреБрдХреНрдд рд╕рдВрднрд╛рд╡рдирд╛ рдХреЛ рдЕрдзрд┐рдХрддрдо рдХрд░рддреЗ рд╣реИрдВред рддреБрд▓рдирд╛рддреНрдордХ рдбреЗрдЯрд╛ рдХреЗ рдорд╛рдирдХ рд╕реЗрдЯреЛрдВ рдкрд░ рд╣рдорд╛рд░реА рдкрджреНрдзрддрд┐ рдХреА рдкреНрд░рднрд╛рд╡рд╢реАрд▓рддрд╛ рдХрд╛ рдкреНрд░рджрд░реНрд╢рди рдХрд┐рдпрд╛ рдЬрд╛рддрд╛ рд╣реИред


. 2 . 3 , . 4 -.


2.


HTML- [7] Body Text Extractor (BTE). BTE , , HTML- -. , BTE , . , : (1) HTML, , , (2) , -.


DOM, HTML [11,19,6]. , , <table>, .


DOM . . [24] [22]. , -, -, -. .


. [10] , . HTML , , , . , , (), , (). DOM [4,21]. . [3] DOM, , . . [21] / , DOM .


┬л┬╗, . FIASCO . [2] (SVM) HTML- , DOM , . . [17] SVM . . [20] , , . , . CleanEval [1].


p1


. 1. Web2Text. DOM (Collapsed DOM) - , . DOM. , , : . . , , , .


, DOM. , , . , - , .


3.


тАФ - (- ) [1]. . 1.


3.1.


, - (X) HTML-. ( DOM) Jsoup [12].


p2


. 2. DOM. : HTML, тАФ DOM, тАФ DOM.


DOM, i) , , ii) , , : , <br>, <checkbox>, <head>, <hr>, <iframe>, <img>, <input>. DOM. DOM- . 2 DOM, (<ul>), DOM. (, ┬л ┬╗), . Collapsed () DOM (CDOM).


3.2.


. - , , . - , : i) HTML, ii) DOM, iii) DOM . DOM, . , , HTML. , DOM- ( #text) . , , . , Web2Text , , тАФ .


3.3.


тАФ , , , . , CDOM . .


. , CDOM, , CDOM. 128 , , ┬л - <p>┬╗, ┬л ┬╗, ┬л ┬╗, ┬л ┬╗, ┬л - ┬╗ .. , , .


. 25 . . , , , 2, 3, 4 > 4. , HTML-, ..


3.4. (Convolutional Neural Network, CNN)


, , . , . pi (li = 1), pi (li = 0) , li i , . . pi, i + 1 (li = 1, li + 1 = 1), pi, i + 1 (li = 1, li + 1 = 0), pi, i + 1 (li = 0, li + 1 = 1) pi, i + 1 (li = 0, li + 1 = 0) тАФ . .


CNN 5 , ReLU , (50, 50, 50, 10, 2) (50, 50, 50, 10, 4) . 1 (1, 1, 3, 3, 3) . CNN , , , . CNN , , , . , , . 2 , softmax. 4 , . , i . (dropout) 0,2 L2 10-4.


-:


f1


lтИЧi тАФ i, ╬╕unary тАФ , n тАФ .


-:


f2


╬╕pairwise тАФ .


3.5.


- . (b0, b1, ..., bn) (l0, l1, ..., ln) тИИ {0, 1}n :


f3


╬╗ тАФ . ╬╗ = 0,1 . [23], CNN.


4.


. Web2Text - . , . Web2Text .


4.1.


CleanEval 2007 [1] . 188 -. (60 ) (676 ). (55 ) (5 ). 10000 , , . CleanEval : (531 ), (58 ) (148 ).


. , ( CleanEval) . тАЬ- тАФ тАЭ ( ). , , . (, [20]) . (, ) (-, ). .


-, 10 . - ( ). , - , ┬л ┬╗. -. , , , , 2/3 .


4.2.


[14] 10тАУ3 5000 . - 128 - 9 . , . , .


4.3.


Web2Text , . BTE [7] Unfluff [8] . [17,16] тАФ , , (. 1). CRF [20] CleanEval. (Conditional Random Field, CRF) , . , 4.1, CRF - . , , , , CleanEval. CleanEval, , .


. CRF [20] 9 705 . , CNN 17 960 , CNN 12 870 . 30 830. , .


4.4.


1 . , . , Web2Text (Accuracy), Recall F1 , CleanEval. , , , 3.2. , , Web2Text CNN, .


t1


1. - CleanEval. : (55 тАФ , 5 тАФ , 676 тАФ ) (531 тАФ , 58 тАФ , 148 тАФ ). , .


. Web2Text 54 -; 35 DOM , 19 . Macbook Intel Core i5 2,8 .


4.5.


, , , . HTML, .


- ClueWeb12. . CW12-A 733M - (27,3 ) CW12-B 52M (1,95 ). Indri. 50 TREC Web Track 2013 [5].


t2


2. . (*) HTML. (тАа) , .


2 , -. HTML . , , тАа. , , CW12-A, , , CW12-B. - . , (QL) , (RM). , . , (BTE, article-ext, large-ext, Unfluff) , . (CRF, Web2Text) . , Web2Text 0,05. , Web2Text CleanEval, 4.1.


5.


Web2Text -. , CRF [9], , DOM . CleanEval . , , , .


6.


, - .
, .


  1. Marco Baroni, Francis Chantree, Adam Kilgarriff, and Serge Sharoff. CleanEval: a competition for cleaning web pages. In LREC, 2008.
  2. Daniel Bauer, Judith Degen, Xiaoye Deng, Priska Herger, Jan Gasthaus, Eugenie Giesbrecht, Lina Jansen, Christin Kalina, Thorben Kr├дger, Robert M├дrtin, Martin Schmidt, Simon Scholler, Johannes Steger, Egon Stemle, and Stefan Evert. FIASCO: Filtering the internet by automatic subtree classification, osnabruck. In Building and Exploring Web Corpora: Proceedings of the 3rd Web as Corpus Workshop, incorporating CleanEval, volume 4, pages 111тАУ121, 2007.
  3. Deepayan Chakrabarti, Ravi Kumar, and Kunal Punera. Page-level template detection via isotonic smoothing. In Proceedings of the 16th international conference on World Wide Web, pages 61тАУ70. ACM, 2007.
  4. Deepayan Chakrabarti, Ravi Kumar, and Kunal Punera. A graph-theoretic approach to webpage segmentation. In Proceedings of the 17th international conference on World Wide Web, pages 377тАУ386. ACM, 2008.
  5. Kevyn Collins-Thompson, Paul Bennett, Fernando Diaz, Charlie Clarke, and Ellen Voorhees. Overview of the TREC 2013 web track. In Proceedings of the 22nd Text Retrieval Conference (TRECтАЩ13), 2013.
  6. Sandip Debnath, Prasenjit Mitra, Nirmal Pal, and C Lee Giles. Automatic identification of informative sections of web pages. IEEE transactions on knowledge and data engineering, 17(9):1233тАУ1246, 2005.
  7. Aidan Finn, Nicholas Kushmerick, and Barry Smyth. Fact or fiction: Content classification for digital libraries. Unrefereed, 2001.
  8. Adam Geitgey. Unfluff тАУ an automatic web page content extractor for node.js!, 2014.
  9. John Gibson, Ben Wellner, and Susan Lubar. Adaptive web-page content identification. In Proceedings of the 9th annual ACM international workshop on Web information and data management, pages 105тАУ112. ACM, 2007.
  10. Thomas Gottron. Content code blurring: A new approach to content extraction. In Database and Expert Systems Application, 2008. DEXAтАЩ08. 19th International Workshop on, pages 29тАУ33. IEEE, 2008.
  11. Suhit Gupta, Gail Kaiser, David Neistadt, and Peter Grimm. DOM-based content extraction of HTML documents. In Proceedings of the 12th international conference on World Wide Web, pages 207тАУ214. ACM, 2003.
  12. Jonathan Hedley. Jsoup HTML parser, 2009.
  13. Rong Jin, Alex G Hauptmann, and ChengXiang Zhai. Language model for information retrieval. In Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, pages 42тАУ48. ACM, 2002.
  14. Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
  15. Christian Kohlsch├╝tter. A densitometric analysis of web template content. In Proceedings of the 18th international conference on World wide web, pages 1165тАУ 1166. ACM, 2009.
  16. Christian Kohlsch├╝tter et al. Boilerpipe тАУ boilerplate removal and fulltext extraction from HTML pages. Google Code, 2010.
  17. Christian Kohlsch├╝tter, Peter Fankhauser, and Wolfgang Nejdl. Boilerplate detection using shallow text features. In Proceedings of the third ACM international conference on Web search and data mining, pages 441тАУ450. ACM, 2010.
  18. Victor Lavrenko and W Bruce Croft. Relevance based language models. In Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, pages 120тАУ127. ACM, 2001.
  19. Shian-Hua Lin and Jan-Ming Ho. Discovering informative content blocks from web documents. In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 588тАУ593. ACM, 2002.
  20. Miroslav Spousta, Michal Marek, and Pavel Pecina. Victor: the web-page cleaning tool. In 4th Web as Corpus Workshop (WAC4)-Can we beat Google, pages 12тАУ17, 2008.
  21. Fei Sun, Dandan Song, and Lejian Liao. Dom based content extraction via text density. In Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval, pages 245тАУ254. ACM, 2011.
  22. Karane Vieira, Altigran S Da Silva, Nick Pinto, Edleno S De Moura, Joao Cavalcanti, and Juliana Freire. A fast and robust method for web page template detection and removal. In Proceedings of the 15th ACM international conference on Information and knowledge management, pages 258тАУ267. ACM, 2006.
  23. Andrew J Viterbi. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. In The Foundations Of The Digital Wireless World: Selected Works of AJ Viterbi, pages 41тАУ50. World Scientific, 2010.
  24. Lan Yi, Bing Liu, and Xiaoli Li. Eliminating noisy information in web pages for data mining. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 296тАУ305. ACM, 2003.


All Articles