🅾️ 🤶 😷 Pemrosesan Bahasa Alami. Hasil 2019 dan tren untuk 2020 🍷 🚆 🤞🏿

Halo semuanya. Dengan beberapa penundaan, saya memutuskan untuk menerbitkan artikel ini. Setiap tahun saya mencoba merangkum apa yang terjadi di bidang pemrosesan bahasa alami. Tahun ini tidak terkecuali.

BERTs, BERTs ada di mana-mana

Mari kita mulai. Jika Anda belum pergi ke taiga Siberia terpencil atau liburan di Goa selama satu setengah tahun terakhir, maka Anda pasti telah mendengar kata BERT. Muncul pada akhir 2018, selama masa lalu, model ini telah mendapatkan popularitas sedemikian rupa sehingga gambaran seperti itu akan tepat:

BERT benar-benar memikat semua yang bisa diisi NLP. Mereka mulai digunakan untuk klasifikasi, pengakuan entitas bernama, dan bahkan untuk terjemahan mesin. Sederhananya, Anda tidak dapat melewati mereka dan Anda masih harus mengatakan apa itu.

Gambar menunjukkan perbandingan pahlawan acara (kiri) dengan dua model yang juga terdengar. Di sebelah kanan adalah pendahulu langsung dari BERT - model ELMo .

Penyimpangan liris.

« »: , , Elmo, Bert — ; , , , — . . , , .

Model Allen AI ELMo adalah semacam penerus seluruh pengembangan wilayah pada tahun-tahun sebelumnya - yaitu, jaringan saraf berulang dua arah, ditambah beberapa trik baru untuk boot. Rekan-rekan OpenAI telah memutuskan apa yang bisa dilakukan dengan lebih baik. Dan untuk ini, Anda hanya perlu menerapkan arsitektur Transformer yang disajikan setahun sebelum Google untuk tugas ini. Saya percaya bahwa selama 2,5 tahun terakhir, semua orang telah berhasil berkenalan dengan arsitektur ini, jadi saya tidak akan membahasnya secara rinci. Bagi mereka yang ingin menerima komuni, saya merujuk ulasan saya dari tahun 2017 .

Mereka (karyawan OpenAI) menyebut model GPT-2 mereka . Dan kemudian, pada model ini, mereka telah melakukan pekerjaan yang cukup bagus. Tapi mari kita tinggalkan di hati nurani mereka, dan kembalilah kepada domba-domba kita, yaitu para model.

Salah satu trik ELMo yang paling penting adalah pra-pelatihan untuk kasus besar dan tidak terisi. Ternyata sangat baik, dan kolega dari Google memutuskan bahwa kami bisa melakukan yang lebih baik lagi. Selain menerapkan arsitektur Transformer (yang sudah ada di GPT-2), BERT, yang merupakan singkatan dari Bidirectional Encoder Representations from Transformers, yaitu representasi vektor dari bidirectional encoder berdasarkan arsitektur Transformer, berisi beberapa hal yang lebih penting. Secara khusus, yang paling penting adalah cara untuk melatih kasus besar.

Gambar menunjukkan metode untuk menandai data yang tidak terisi. Dua metode tata letak secara khusus ditampilkan sekaligus. Pertama, urutan token (kata) diambil, misalnya, kalimat, dan dalam urutan ini satu token sewenang-wenang ([MASK]) bertopeng. Dan model dalam proses pembelajaran harus menebak token seperti apa yang disamarkan. Cara kedua - dua kalimat diambil secara berurutan atau dari tempat sewenang-wenang dalam teks. Dan model harus menebak apakah kalimat ini berurutan ([CLS] dan [SEP]).

Ide pelatihan seperti itu sangat efektif. Jawaban dari teman sumpah dari Facebook adalah model RoBERTa , sebuah artikel tentang model ini disebut "Pelatihan BERT Dioptimalkan Secara Berkelanjutan". Lebih jauh lagi.

Saya tidak akan mencantumkan semua cara untuk meningkatkan pelatihan model bahasa besar berdasarkan arsitektur Transfomer karena fakta bahwa itu hanya membosankan. Saya menyebutkan, mungkin, hanya karya rekan-rekan saya dari Hong Kong - ERNIE . Dalam pekerjaan mereka, rekan kerja memperkaya pelatihan melalui penggunaan grafik pengetahuan.

Sebelum melanjutkan, berikut adalah beberapa tautan bermanfaat: artikel tentang BERT . Serta seperangkat model BERT dan ELMo yang terlatih untuk bahasa Rusia.

Model kecil

Tapi cukup tentang BERT. Ada beberapa tren yang lebih penting. Pertama-tama, ini adalah tren untuk mengurangi ukuran model. BERT yang sama sangat menuntut sumber daya, dan banyak yang mulai berpikir tentang cara mempertahankan (atau tidak benar-benar kehilangan) kualitas, mengurangi sumber daya yang diperlukan agar model dapat bekerja. Rekan Google muncul dengan BERT kecil, saya tidak bercanda - ALBERT: BERT kecil . Anda dapat melihat bahwa BERT kecil bahkan melampaui kakaknya dalam sebagian besar tugas, sambil memiliki urutan parameter yang lebih kecil.

Pendekatan lain untuk bar yang sama dilakukan lagi oleh rekan-rekan saya dari Hong Kong. Mereka datang dengan BERT - TinyBERT kecil . (Jika pada titik ini Anda berpikir bahwa nama-nama itu mulai diulang, saya cenderung setuju dengan Anda.)

Perbedaan mendasar antara kedua model di atas adalah bahwa jika ALBERT menggunakan trik-trik rumit untuk mengurangi model BERT asli, misalnya, berbagi parameter dan mengurangi dimensi representasi vektor internal melalui penguraian matriks, maka TinyBERT menggunakan pendekatan yang berbeda secara mendasar, yaitu distilasi pengetahuan, yaitu, ada distilasi pengetahuan, yaitu, ada model kecil yang belajar mengulang setelah kakak perempuannya dalam proses pembelajaran.

Kasing kecil

Dalam beberapa tahun terakhir (sejak sekitar 1990, ketika Internet muncul), telah ada peningkatan bangunan yang tersedia. Kemudian muncul algoritma yang menjadi mampu memproses lampiran besar seperti itu (ini adalah apa yang kita sebut "revolusi pembelajaran yang mendalam", ini sudah tahun sejak 2013). Dan, sebagai hasilnya, mulai dirasakan secara normal bahwa untuk mendapatkan kualitas yang baik dalam beberapa tugas, diperlukan sejumlah besar data mark-up - kumpulan teks dalam kasus kami. Misalnya, kasus-kasus umum untuk tugas penerjemahan mesin pembelajaran saat ini diukur dalam jutaan pasang kalimat. Sudah lama jelas bahwa untuk banyak tugas tidak mungkin untuk mengumpulkan kasus-kasus seperti itu dalam jumlah waktu yang wajar dan untuk jumlah uang yang masuk akal. Untuk waktu yang lama tidak begitu jelas apa yang harus dilakukan. Tapi tahun lalu (siapa yang akan Anda pikirkan?) BERT datang ke tempat kejadian.Model ini dapat melakukan pra-pelatihan pada volume besar teks yang tidak terisi, dan model yang sudah selesai mudah untuk beradaptasi dengan tugas dengan case kecil.

Semua tugas yang tercantum dalam tabel ini memiliki korps pelatihan dalam ukuran beberapa ribu unit. Artinya, dua hingga tiga kali lipat lebih kecil. Dan ini adalah alasan lain mengapa BERT (dan keturunan serta kerabatnya) menjadi sangat populer.

Tren baru

Nah, pada akhirnya, beberapa tren baru, seperti yang saya lihat. Pertama-tama, ini adalah perubahan mendasar dalam sikap terhadap teks. Jika semua waktu sebelumnya dalam sebagian besar tugas teks hanya dirasakan sebagai bahan input, dan hasilnya adalah sesuatu yang bermanfaat, misalnya, label kelas. Sekarang masyarakat memiliki kesempatan untuk mengingat bahwa teks tersebut terutama merupakan alat komunikasi, yaitu, Anda dapat "berbicara" dengan model - mengajukan pertanyaan dan menerima jawaban dalam bentuk teks yang dapat dibaca manusia. Inilah yang dikatakan oleh artikel baru dari Google T5 (namanya dapat diterjemahkan sebagai "transformator lima kali").

Tren penting lainnya adalah bahwa wilayah tersebut belajar kembali untuk bekerja dengan teks yang panjang. Sejak tahun 70-an, komunitas memiliki cara untuk bekerja dengan teks yang panjangnya sewenang-wenang - ambil TF-IDF yang sama. Tetapi model ini memiliki batas kualitas sendiri. Tetapi model pembelajaran mendalam yang baru tidak dapat bekerja dengan teks yang panjang (BERT yang sama memiliki batas 512 token dari panjang teks input). Namun akhir-akhir ini, setidaknya dua karya muncul bahwa dari sisi yang berbeda mendekati masalah teks panjang. Karya pertama dari kelompok Ruslan Salakhutdinov disebut Transformer-XL.

Dalam karya ini, idenya dihidupkan kembali yang menjadikan jaringan rekursif begitu populer - Anda dapat menyimpan status sebelumnya dan menggunakannya untuk membangun yang berikutnya, bahkan jika Anda tidak memutar gradien mundur dalam waktu (BPTT).

Keduakarya ini bekerja dengan polinomial Legendre dan dengan bantuan mereka memungkinkan untuk memproses urutan puluhan ribu token dengan jaringan saraf berulang.

Mengenai hal ini, saya ingin menyelesaikan tinjauan perubahan yang telah terjadi dan tren yang muncul. Mari kita lihat apa yang akan terjadi tahun ini, saya yakin banyak hal yang menarik. Video pidato saya tentang topik yang sama di Pohon Data:

PS Kami akan segera memiliki beberapa pengumuman yang lebih menarik, jangan beralih!

Pemrosesan Bahasa Alami. Hasil 2019 dan tren untuk 2020

BERTs, BERTs ada di mana-mana

Model kecil

Kasing kecil

Tren baru

More articles: