Mesin terjemahkan. Dari perang dingin hingga saat ini

Terjemahan mesin menjadi sangat luas dalam beberapa tahun terakhir. Tentunya, sebagian besar pembaca saya telah menggunakan layanan Google.Translate atau Yandex.Translation setidaknya sekali. Mungkin juga banyak orang mengingat bahwa belum lama ini, sekitar 5 tahun yang lalu, menggunakan penerjemah otomatis sangat sulit. Tidak mudah dalam arti bahwa mereka memberikan terjemahan dengan kualitas yang sangat buruk. Di bawah potongan adalah riwayat terjemahan mesin yang singkat dan tidak lengkap, yang darinya akan terlihat dalam tugas ini dan beberapa penyebab serta konsekuensinya. Pertama, gambar yang menunjukkan konsep penting tentang terjemahan mesin:



Konsep ini disebut konsep "saluran bising" dan berasal dari teknik radio. Dalam versi yang berbeda, ini dikaitkan dengan berbagai ilmuwan, Nyquist, KupfmΓΌller, Shannon, tetapi dalam perselisihan ini saya mendukung rekan senegaranya - Vladimir Alexandrovich Kotelnikov, yang pada tahun 1933 membuktikan teorema terkenalnya. Dengan sendirinya, teorema ini berada di luar ruang lingkup artikel ini, jadi saya mengirim mereka yang tertarik dengan Wikipedia .

Bagi kami, sesuatu yang lain itu penting. Konsep saluran bising telah diterapkan ke arah baru - terjemahan mesin otomatis. Setelah Perang Dunia II berakhir, mitra luar negeri kami memutuskan bahwa Uni Soviet, yang telah menunjukkan kekuatannya dengan mengalahkan tentara terbaik di Eropa dan dunia, merupakan ancaman serius. Berbagai tindakan diambil untuk menghentikan ancaman ini, termasuk mengerjakan terjemahan otomatis dari bahasa Rusia ke bahasa Inggris. Ini diperlukan karena Uni Soviet menghasilkan banyak informasi - program televisi, pembicaraan radio, buku, dan majalah. Dan jika kita mempertimbangkan negosiasi sekutu kita tentang organisasi Pakta Warsawa, maka skala masalahnya sudah cukup menakutkan: tidak mungkin untuk melatih, dan bahkan mempertahankan pasukan penerjemah profesional seperti itu.Dan di sini idenya lahir - katakanlah teks dalam bahasa Rusia hanyalah teks yang terdistorsi dalam bahasa Inggris, dan kami akan mencoba secara algoritmik untuk mengembalikan teks "sumber". Inilah yang diusulkan oleh Warren Weaver pada tahun 1949.

Secara konseptual, itu terlihat indah, tetapi pertanyaannya adalah bagaimana mengimplementasikannya. Berjalan sangat cepat dalam waktu, ini diwujudkan atas dasar apa yang disebut terjemahan frasa.

Tapi mari kita mulai. Apa cara termudah untuk menerjemahkan ke pikiran? Terjemahan kamus - artinya, kamus yang sudah jadi diambil, dan semua kata dalam kalimat diganti dengan padanannya dalam bahasa lain. Pendekatan ini diusulkan oleh perusahaan IBM terkenal pada tahun 1989.. Pendekatan ini memiliki kelemahan yang jelas: urutan kata dalam berbagai bahasa dapat berbeda, dan terkadang sangat banyak. Langkah selanjutnya dalam model ini adalah mengizinkan permutasi kata-kata. Dan bagaimana seseorang dapat memprediksi permutasi ini? Dalam karya yang sama, model lain diusulkan (jika yang pertama disebut Model 1, maka yang kedua disebut Model 2 sangat logis). Dalam sistem ini, selain kamus, ada yang disebut model penyelarasan - korelasi kata dalam dua kalimat satu sama lain. Penyelarasan dipelajari berdasarkan statistik tubuh. Kelemahan yang jelas dari model ini adalah bahwa dibutuhkan banyak upaya untuk mempersiapkan kasus di mana penyelarasan dilakukan, penerjemah profesional tidak hanya harus menerjemahkan teks, tetapi juga menunjukkan kata mana yang merupakan terjemahan.

Perlu dicatat bahwa selain urutan kata-kata yang berbeda, ada, misalnya, masalah bahwa beberapa kata akan sepenuhnya tanpa terjemahan (misalnya, artikel tidak ada dalam bahasa Rusia), dan beberapa kata akan memerlukan lebih dari satu terjemahan word (mis. preposisi + kata benda). Rekan IBM menyebut ini tingkat kesuburan dan membangun model untuk itu juga berdasarkan statistik. Ini adalah Model 3 (cukup dapat diprediksi, bukan?). Dalam karya yang sama, beberapa model lebih dijelaskan, mereka mengembangkan ide-ide yang dijelaskan dengan menambahkan kondisi untuk memprediksi terjemahan kata - misalnya, ke kata sebelumnya, karena beberapa kata lebih baik dikombinasikan satu sama lain dan oleh karena itu lebih umum. Seluruh kelompok model ini memunculkan apa yang disebut terjemahan berbasis frase.

Arah ini ada dan dikembangkan, khususnya, kerangka kerja terbuka untuk terjemahan mesin Moses dikembangkan (di situs web resmi Anda dapat melihat bahwa itu agak membusuk). Pada suatu waktu, ini adalah sarana utama terjemahan mesin, meskipun terjemahan mesin tidak begitu umum pada waktu itu. Tetapi pada tahun 2014 terjadi hal yang mengerikan - pembelajaran yang dalam mencapai bidang terjemahan mesin. Jika Anda ingat satu tahun sebelumnya sampai pada representasi kata-kata vektor, saya jelaskan artikel ini tentang pernikahan . Dan pada tahun 2014, sebuah artikel diterbitkan oleh Dmitry Bogdanov (dan rekan penulisnya, salah satunya adalah Yoshua Bengio yang terkenal) berjudul Neural Machine Translation oleh Jointly Learning to Align and Translate(atau - terjemahan mesin saraf melalui pelatihan bersama penyelarasan dan terjemahan). Dalam karya ini, Dmitry mengusulkan penggunaan mekanisme perhatian untuk jaringan saraf berulang dan dengan bantuannya ia mampu mengalahkan Musa tersebut dengan jumlah yang signifikan.

Di sini Anda perlu ngelantur dan berbicara tentang cara mengukur kualitas terjemahan mesin. Dalam karya PapineniPada tahun 2002, metrik BLEU diusulkan (studi evaluasi bilingual - studi perbandingan bilingual). Metrik ini pada dasarnya membandingkan berapa banyak kata dari terjemahan mesin yang cocok dengan kata-kata dari versi manusia. Kemudian kombinasi kata dua kata, tiga, empat dibandingkan. Semua angka ini dirata-ratakan dan tepat satu angka yang diperoleh yang menggambarkan kualitas sistem terjemahan mesin di gedung ini. Metrik ini memiliki kelemahan, misalnya, mungkin ada opsi manusia yang berbeda untuk menerjemahkan satu teks, tetapi mengejutkan selama hampir 20 tahun, tidak ada yang lebih baik telah diusulkan untuk menilai kualitas terjemahan.

Namun kembali ke mekanisme perhatian. Harus dikatakan bahwa jaringan berulang diusulkan 15 tahun sebelumnya, dan kemudian tidak membuat kehebohan. Masalah signifikan dengan jaringan-jaringan ini adalah mereka dengan cepat melupakan apa yang mereka β€œbaca”. Selesaikan sebagian masalah ini untuk terjemahan mesin dan mekanisme perhatian membantu. Ini dia dalam gambar:



Apa yang dia lakukan? Ini menimbang kata-kata dalam input untuk memberikan satu kata vektor untuk terjemahan. Inilah yang memungkinkan untuk secara otomatis membangun matriks penyelarasan berdasarkan teks mentah tanpa markup. Misalnya, seperti:

gambar

Setelah semua orang melihat bahwa itu mungkin, upaya besar dicurahkan untuk terjemahan mesin, yang menjadi bidang pemrosesan bahasa alami yang paling cepat berkembang. Peningkatan kualitas yang signifikan telah dicapai, termasuk untuk pasangan bahasa yang jauh, seperti Inggris dan Cina atau Inggris dan Rusia. Jaringan berulang memerintah bola untuk beberapa waktu oleh standar modern - hampir 4 tahun. Namun pada akhir 2017, terompet terdengar mengumumkan pendekatan raja gunung yang baru. Itu adalah artikel yang disebut Perhatian adalah semua yang Anda butuhkan (perhatian adalah semua yang Anda butuhkan; parafrase dari nama lagu The Beatles yang terkenal "Yang Anda butuhkan adalah cinta"). Artikel ini menyajikan arsitektur transformator, yang sedikit kurang lengkap terdiri dari mekanisme perhatian. Saya berbicara lebih banyak tentang dia di sebuah artikel diHasil 2017 , jadi saya tidak akan mengulangi sendiri.

Sejak itu, cukup banyak air yang mengalir, namun demikian, masih banyak lagi yang tersisa. Misalnya, dua tahun lalu, pada awal 2018, peneliti Microsoft mengumumkan pencapaian kesetaraan dalam kualitas dengan terjemahan manusia yang diterjemahkan dari bahasa Inggris ke dalam dokumen berita Cina. Artikel ini telah banyak dikritik, terutama dari sudut pandang bahwa pencapaian angka yang sama oleh BLEU adalah indikator kecukupan metrik BLEU yang tidak lengkap. Tapi hype dihasilkan.

Arah lain yang menarik dalam pengembangan terjemahan mesin adalah terjemahan mesin tanpa data paralel. Seperti yang Anda ingat, penggunaan jaringan saraf memungkinkan kami untuk meninggalkan marka penyelarasan dalam teks yang diterjemahkan untuk mengajarkan model terjemahan mesin. Para penulis Terjemahan Mesin Tanpa Menggunakan Hanya Monolingual Corpora Only (terjemahan mesin hanya menggunakan data monolingual) menyajikan sistem yang, dengan kualitas tertentu, dapat menerjemahkan dari Bahasa Inggris ke Bahasa Prancis (kualitasnya, tentu saja, lebih rendah dari pencapaian terbaik pada waktu itu, tetapi hanya sebesar 10%) . Menariknya, penulis yang sama meningkatkan pendekatan mereka menggunakan ide-ide terjemahan phrasal akhir tahun itu.

Akhirnya, hal terakhir yang ingin saya tekankan adalah terjemahan yang disebut non-regresif. Apa itu? Semua model, dimulai dengan IBM Model 3, mengandalkan kata-kata sebelumnya yang telah diterjemahkan saat menerjemahkan. Dan penulis karya , yang disebut terjemahan mesin non-regresif, mencoba untuk menghilangkan ketergantungan ini. Kualitasnya juga ternyata sedikit kurang, tetapi kecepatan terjemahan seperti itu bisa puluhan kali lebih cepat daripada untuk model autoregresif. Menimbang bahwa model modern bisa sangat besar dan lambat, ini adalah keuntungan yang signifikan, terutama di bawah beban berat.

Tak perlu dikatakan bahwa wilayah tersebut tidak berdiri diam dan menawarkan ide-ide baru, misalnya, apa yang disebut terjemahan balik, ketika data monolingual yang diterjemahkan oleh model itu sendiri digunakan untuk pelatihan lebih lanjut; penggunaan jaringan konvolusi, yang juga lebih cepat daripada transformator standar akhir-akhir ini; penggunaan model bahasa besar pra-terlatih (saya punya artikel terpisah tentang mereka ). Semua, sayangnya, tidak dapat dicantumkan.

Perusahaan kami memiliki salah satu ilmuwan terkemuka di bidang terjemahan mesin - Profesor Qun Liu. Profesor Liu dan saya memimpin kursus dalam pemrosesan bahasa alami, di mana perhatian besar diberikan khusus untuk terjemahan mesin. Jika Anda tertarik pada bidang ini, maka Anda masih dapat bergabung dengan kursus kami , yang dimulai sebulan yang lalu.

Dan jika Anda merasakan kekuatan dalam diri Anda, maka kami akan senang melihat Anda di antara peserta dalam kompetisi kami untuk menerjemahkan dari Bahasa Mandarin ke Bahasa Rusia! Kompetisi akan dimulai pada 14 April dan akan berlangsung tepat sebulan. Kami berharap bahwa peserta kami akan mencapai hasil baru dalam tugas ini dan akan dapat memajukan seluruh bidang terjemahan mesin. Kompetisi akan diadakan di platform MLBootCamp, dan kami sangat berterima kasih kepada tim MLBootCamp dan secara pribadi Dmitry Sannikov atas bantuan mereka dalam pengorganisasian.

Tautan Persaingan

All Articles