Agregator berita dua minggu

Pada 18 November, Telegram meluncurkan kontes pengelompokan data: Kontes Pengelompokan Data . Itu perlu dalam dua minggu untuk membuat agregator berita Anda. Pembatasan yang ditetapkan dalam kompetisi ini menakuti sekelompok orang, tetapi bukan saya dan rekan-rekan saya. Saya akan memberi tahu Anda bagaimana kami melangkah, pemilihan apa yang kami buat, dan kesulitan apa yang kami temui. Solusi yang kami kirim ke kompetisi memproses 1000 dokumen dalam 3,5 detik, mengambil 150 MB, menempati posisi ke-6 dalam pemungutan suara publik, dan ke-3 dalam hasil akhir. Kami membuat banyak kesalahan, karena itu kami tidak mengambil tempat yang lebih tinggi, kebanyakan dari mereka sekarang diperbaiki. Semua kode dan semua model dapat ditemukan di repositori . Semua skrip untuk model pelatihan ditransfer ke Colab.


Suara publik terbanyak
Suara publik terbanyak


Tugas


.


5 :


  • ,
  • 7
  • , ,



, . , : //, . , 5 : , , . .


. , , . , “” , , , . , .


:


  • : 200 ( 1.5 )
  • 1000
  • 2
  • Debian GNU/Linux 10.1,

, 1000 , . : 200 , ( word2vec, fasttext, GloVe, ) ULMFiT/ELMo/BERT. , . , 2 .


, , . .



. , Python ( ). . , , . , .


, Go, , , . C++, , . , . C++11, - .


C NLP, 2016 FastText’. , TF-IDF, , , , , . FastText — word2vec n-, . ELMo 197 , BERT — 632 , ( ). , FastText C++ .


- . , ( , !). OpenNMT, . , C++, Python, . .


, , DBSCAN, . DBSCAN MLPack, MLPack Debian’. . , , DBSCAN’ . MLPack .


- : TensorFlow, Torch, MXNet. “TensorFlow C++, ” — . -, , . -, 200 . Tensorflow Lite, . .


. , , . , Eigen, . Keras, , , Torch ( ). .


:


  • : C++, FastText, OpenNMTTokenzer, Eigen
  • : Python, FastText, OpenNMTTokenzer, Keras

..



FastText’ .


, , . , .


. . , , . 3 2/3, 5 4/5. , . . 60$ . , 327 1176 , . 3-4 .


, . , BBC News categories. .


, FastText . : ; BBC, All the news, News categories . , .


supervised FastText’ ( autotune). Supervised — , , .


Pengklasifikasi


2 : . , . ( ) . , , , , . , . , — ( hard-negative ). ( ) . triplet loss. Keras’, Torch’. .


Model untuk belajar vektor


, , , . , , BERT. , . unsupervised ELMo. , ELMo .


SLINK: O(n^2) . , — : , , , .


Clustering Agglomerative
. .


O(n^2) — . , : . , 10000 2000 . , . , .


3 : , , . — , . 99 . , . PageRank , .


3 : , , .



  1. .
  2. “” , - “”.
  3. , - , .
  4. , - .
  5. , - , .
  6. , - .
  7. std::sort std::stable_sort, - .
  8. , - .
  9. , - .


, . .


?


-, rss- . Telegram — , Instant View, . . .


-, . -: , , , . .


, , README .


Anda dapat melihat versi saat ini di sini , versi dari kontes di sini .

Source: https://habr.com/ru/post/undefined/


All Articles