Kesulitan dalam mengangkat asisten suara. Tampilan ahli bahasa dan pengembang

Bekerja dengan asisten suara sering dibandingkan dengan membesarkan anak. Dia terus-menerus belajar sesuatu, mengulangi setelah "tua-tua". Secara bertahap menguasai bahasa dan kemampuan untuk membangun komunikasi. Kadang-kadang dia mengerti semuanya terlalu harfiah atau hanya memberikan sesuatu yang aneh. Ini karena memproses bahasa adalah proses yang rumit dan panjang yang membutuhkan perhatian lebih dari satu spesialis. Kami meminta sesama pengembang bahasa, Ivan, dan insinyur utama Bassel untuk berbagi kasus menarik dari pengalaman mereka dengan Sky Voice Assistant. Kami menanyakan dua spesialis pertanyaan yang sama untuk mencari tahu mengapa matematika saja tidak bisa menang ketika memproses bahasa, bagaimana asisten suara belajar bercanda, dan mengapa ini perlu.

Untuk apa Anda bertanggung jawab? Apa yang termasuk dalam bidang tanggung jawab Anda?


Ahli bahasa

Saya bertanggung jawab untuk segala sesuatu yang berkaitan dengan aspek linguistik dari pekerjaan asisten suara. Ini adalah analisis pertanyaan pengguna, dan merencanakan logika jawaban, dan mencari atau membuat teks untuknya. Selain itu, saya mengembangkan beberapa layanan yang sangat terkait dengan teks (termasuk cuaca, pengingat, berita, bersulang, permainan kata), dan mengumpulkan konten untuk pelatihan. Ini termasuk, misalnya, merekam berbagai suara untuk mengaktifkan kolom.

Pengembang

Saya bertanggung jawab atas otak chatbot kami. Saya menulis logikanya: bagaimana dia menerima pertanyaan, bagaimana dia menjawab, dari mana dia mendapatkan data, layanan apa yang akan bekerja di dalam dirinya. Ini adalah layanan komunikasi dan basis pengetahuan sehingga dapat menjawab pertanyaan apa pun. Dia dapat menoleh padanya dan mengatakan apa cuacanya, berapa nilai tukar dolar, memesan taksi untuk Anda, mengatur alarm, dll.

Apakah Anda pikir bekerja dengan asisten suara seperti membesarkan anak?


Ahli Bahasa

Mengenai anak-anak dan pembelajaran mesin ada artikel yang sangat bagus tentang Habrรฉ, dan secara umum itu adalah analogi populer.

Tetapi masalahnya adalah bahwa AI tidak memiliki pemahaman tentang konteks di luar apa yang termasuk dalam set pelatihan, bahkan pengetahuan paling dasar dari dunia di luar tugas tertentu dan metode penilaian yang melekat seperti rasa dan akal sehat yang hilang. Karena itu, hasilnya seringkali tidak dapat diprediksi.

Pengembang

Kami tidak dapat mengatakan bahwa asisten suara adalah seorang anak, karena anak tersebut memiliki kemampuan untuk menganalisis dan belajar. Asisten suara adalah hal yang agak bodoh. Anda ingin dia melakukan sesuatu, mengaturnya tugas, dan itu saja - dia akan melakukannya.
Kita bahkan tidak dapat menganggap neuron sebagai anak - dengan sendirinya, ia tidak dapat belajar. Kita harus selalu menunjukkan jalannya. Kecerdasan buatan dalam pengertian ini hanya berperan ketika neuron dapat menemukan situasi yang mirip dengan yang Anda ajarkan padanya. Saya tidak berpikir bahwa ini umumnya kecerdasan, hanya peluang besar.

Kasus lucu apa yang muncul dalam proses bekerja dengannya?


Ahli bahasa

saya akan menjawab dua. Setelah kami memilih kata-kata untuk game Alias, yang didasarkan pada pencarian kata-kata yang mirip ("asosiasi") menggunakan model word2vec. Kami memilih dengan sangat hati-hati, tidak mungkin untuk membayangkan bahwa asosiasi dengan kata "pusar" adalah ekspresi seksual selektif jauh melampaui batas-batas sensor. Tampaknya kata itu sangat kekanak-kanakan dan digunakan dalam konteks yang sama sekali berbeda.
Tampaknya, kami tidak tahu sesuatu tentang asisten kami, atau tentang pengumpul teks untuk kasing bekas.

Satu hal lagi. Suatu kali kami memutuskan untuk menambah daftar salam Rusia dan selamat tinggal analog mereka dari bahasa yang berbeda. Dari "bonjour" biasa hingga ekspresi Arab dan Yahudi. Kata-kata baru diindeks oleh algoritma pencarian kami untuk ekspresi yang sama, tetapi tidak ada yang mendekati mereka! Sebagai hasilnya, kolom itu menjawab setiap permintaan yang tidak dapat dipahami atau dengan cara apa pun menyimpang: "As-salamu alaikum wa-rahmatu-Llah . " Ketika Anda mendengar ini dengan suara mesin yang dikejar sebagai respons terhadap โ€œdi mana AS?โ€, Itu membingungkan.

Bagaimana dengan homonim? Ketika kata-kata terdengar sama, tetapi ini adalah dua kata yang sangat berbeda. Misalnya, kata kerja dan kata benda


Ahli Bahasa

Ya, itu menyebalkan bagi semua orang yang terlibat dalam pemrosesan bahasa. Ini terjadi dengan seluruh kalimat, mereka telah lama diukir di batu. Contohnya seperti "Dia melihat keluarga mereka dengan matanya sendiri." Apakah itu semacam makhluk yang memiliki tujuh mata, dan dia melihat mereka. Entah dia sendiri melihat keluarga mereka. Entah pada suatu saat tampaknya bagi mereka bahwa mereka adalah tujuh matanya.

Contoh yang lebih sederhana: "Jenis baja ini ada di bengkel." Beberapa jenis material โ€œbajaโ€ tersedia di bengkel, atau beberapa pekerja berlumpur mulai bekerja tidak hanya di bengkel, tetapi juga ada. Artinya, homonim adalah masalah yang sangat besar, tidak hanya pada level kata, tetapi juga pada level seluruh kalimat. Ada juga masalah pada tingkat kesamaan bentuk kata. Katakanlah, kasus nominatif dan akusatif dari satu kata terdengar sama. Oleh karena itu, bahkan tugas yang tampaknya sederhana seperti menentukan bentuk kata memerlukan penggunaan paket yang kompleks untuk analisis. Dan paket-paket ini tidak pernah memberikan jawaban yang pasti. Mereka hanya bisa memberikan kemungkinan satu bentuk atau lainnya.

Bagaimana Anda memecahkan masalah seperti itu? Bagikan Lifehacks


Ahli bahasa

Ya, tidak ada trik khusus. Pilih dengan sangat hati-hati data di mana model dilatih, dan hati-hati menguji semuanya.

Adapun homonimi, jika kita sekarang mencoba untuk melatih ulang model sehingga menentukan bentuk yang benar dari kata tertentu, itu akan menetapkan tambalan untuk solusi tidak sempurna saat ini. Untuk benar-benar belajar bagaimana bekerja dengan homonim, tentu saja, ada metode linguistik, tetapi mereka tidak selalu dan di mana-mana digunakan. Dan mereka masih mengerjakannya. Untuk bahasa Rusia, situasinya jauh lebih buruk daripada bahasa Inggris, karena kami memiliki lebih banyak bentuk kata.

Pengembang

Kami meninjau dialog, logika pengakuan, kami melihat bahwa asisten suara tidak memahaminya dengan baik. Terkadang Anda perlu menambahkan dialog baru. Mungkin ada situasi ketika dia menjawab pertanyaan, jawaban yang dia tidak tahu sama sekali. Sejarah perkembangan membantu.

Benarkah Alice di Rusia bekerja lebih baik daripada pendahulunya? Mengapa?


Ahli Bahasa

: Penilaian subjektif: Siri juga bekerja dengan sangat baik.

Namun, Alice sekarang adalah asisten suara yang paling kompetitif, karena Yandex memiliki sejumlah besar sumber daya dan layanan untuk memperluas potensinya. Selain itu, mereka sudah memiliki kemampuan untuk menambahkan layanan pihak ketiga, yaitu, setiap pengembang atau tim dapat menambahkan beberapa fungsi mereka. Ini membuat peluangnya benar-benar luas.

Di satu sisi, masalahnya adalah sumber daya dan pengalaman Yandex: mereka telah lama terlibat dalam pemrosesan bahasa, mereka sendiri telah mengembangkan banyak sumber daya untuk ekstraksi data, penguraian, dan analisis bentuk kata. Banyak ahli bahasa yang baik datang kepada mereka.

Di sisi lain, itu kompeten menggabungkan dan melengkapi satu sama lain algoritma jaringan klasik dan saraf. Itu sebabnya dia bisa memahami permintaan yang jelas, dan mempertahankan percakapan tentang apa pun.

Jangan lupa bahwa ini, meskipun sangat bagus, tetapi tiruan dari percakapan.

Pengembang

Tentu saja. Karena di Google logika utama didasarkan pada bahasa Inggris, dan kami berada di Rusia. Di Yandex, orang yang mengerjakan asisten suara yang bahasa ibunya adalah bahasa Rusia. Bagiku Alice sekarang lebih baik dan akan lebih baik. Karena Rusia sedang mengerjakan logika.
Di sini pertanyaannya bukan pada algoritma, bukan dalam pengembangan. Inilah konteks, logika, dan secara umum jiwa dari perkembangan ini. Alice sepertinya lebih alami.

Mengapa matematika tidak bisa menang? Bagaimana keterampilan bahasa membantu Anda bekerja dengan asisten suara Anda?




Programmer Linguist , seperti para filsuf, mungkin memiliki ilusi yang dapat dimengerti, tetapi kadang-kadang berbahaya bahwa mereka dapat memahami bidang lain dengan bantuan aparat pengetahuan mereka. Yaitu, cukup bagi mereka untuk membaca dokumentasi untuk beberapa modul pemrosesan bahasa, dan mereka akan belajar bagaimana bekerja dengannya. Sayangnya, ini tidak sepenuhnya benar, karena bahasa adalah sistem yang terlalu kompleks. Bahkan ahli bahasa sendiri sekarang kurang memahami cara kerjanya.

Jika kita menyelidiki penelitian, menjadi jelas bahwa bahasa dalam aspek kognitif (cara umumnya bekerja di kepala, bagaimana pikiran ditransformasikan menjadi ucapan kita) sangat sulit untuk dipisahkan dari semua level lainnya. Untuk membuat sistem pemrosesan yang benar-benar pintar, kita perlu belajar bagaimana memformalkan sisi ini dan yang lainnya juga.

Kami sering harus menarik penelitian murni linguistik. Misalnya, kami bekerja pada modul pemrosesan waktu, yaitu ketika seseorang berkata: "Ingatkan saya untuk melakukan ini di lantai pertama." Kesulitan muncul dalam memproses kata tengah malam. Besok pada tengah malam, apakah besok pukul 0 atau besok pukul 24? Tidak mungkin menemukan jawaban atas pertanyaan ini tanpa menggunakan metode linguistik atau filologi. Orang hanya bisa menebak di dasar kopi. Mereka mengatakannya atau tidak. Studi ini adalah bahwa saya melihat Korps Nasional Bahasa Rusia semua kasus menggunakan kata "tengah malam" dengan referensi waktu yang berbeda, yaitu, hari ini / besok. Memandang apa yang ada dalam pikiran orang. Margin adalah 60% terhadap 40% mendukung fakta bahwa hari ini di tengah malam - besok pukul 0.

Tidak mungkin, hanya dengan melihat beberapa use case, tidak mengetahui cara kerja bahasa, untuk merumuskan aturan dan beberapa daftar cara terakhir untuk mengatakan sesuatu. Untuk alasan apa pun, Anda dapat mengatakan jumlah proposal yang tidak terbatas. Mencoba mengatur semua ini dengan beberapa algoritma terbatas sangat sulit. Sistem yang tidak menggunakan analisis linguistik tidak akan pernah memberikan akurasi 100%.

Pengembang

Ahli bahasa banyak membantu. Dia dapat menemukan sejumlah besar opsi untuk bagaimana orang bertanya tentang sesuatu. Selain itu, mengoperasikan mesin adalah hal yang berbahaya. Kami tidak dapat menerima permintaan apa pun. Ahli bahasa membantu kita menentukan seperti apa pertanyaan-pertanyaan ini, dalam bentuk apa, membantu mengatur jawaban yang benar. Dia juga menganalisis teks, menghilangkan topik-topik yang tidak layak dibicarakan: politik, komentar rasis, dll.

, ? , ?




Tentu saja, pemrosesan bahasa adalah masalah interdisipliner. Dan sekarang, dan selalu perlu menarik spesialis dalam psikologi dan psikolinguistik, yang menentukan bagaimana seseorang memahami bahasa. Pada tingkat yang lebih dalam, penelitian kognitif juga diperlukan sekarang. Karena baru sekarang kita memiliki teknologi yang memungkinkan kita melacak bagaimana otak manusia bekerja ketika memproses kesalahan dalam sintaksis seperti urutan kata yang salah dan kesalahan semantik, seperti ketika sesuatu yang tidak terduga diucapkan, sama sekali tidak sesuai artinya. Dan hasil penelitian ini meragukan segala sesuatu yang sebelumnya dianggap diakui secara universal dalam linguistik. Karena ternyata kesalahan ini ditangani dengan cara yang sangat mirip, baik untuk bahasa, yaitu, informasi suara, dan untuk video atau komik,atau bahkan untuk musik dan urutan suara apa pun. Artinya, mekanisme untuk mencari kesalahan dalam struktur dan indera bersifat universal untuk semua informasi yang dirasakan seseorang. Ini menunjukkan bahwa perlu untuk bekerja pada analisis sintaksis dan semantik tidak dalam kerangka bahasa, tetapi dalam kerangka persepsi umum informasi.

Pengembang

Turing mengatakan: "Komputer layak disebut cerdas jika bisa menipu manusia untuk percaya bahwa itu adalah manusia" - Komputer dapat disebut pintar hanya jika Anda tidak mengerti bahwa itu adalah mesin, bukan manusia.

Di sinilah para psikolog akan membantu di masa depan. Kami tidak bergantung pada kata-kata saja. Emosi ... bagaimana seseorang memahami juga penting. Seseorang memiliki lima indera, setidaknya dua digunakan selama percakapan. Dan asisten suara memiliki satu sumber. Ini adalah "telinganya".
Psikolog dapat bekerja dengan pengembang yang menganalisis sinyal audio dan membantu kami menentukan emosi dengan suara, untuk memahami apakah orang tersebut marah atau dalam suasana hati yang baik. Dan tergantung pada ini, menentukan kapan asisten suara harus bercanda, dan kapan - untuk serius. Sebagai programmer, kita tidak bisa mengendalikan ini. Jika kita mengatakan "lelucon" ke mobil, itu akan melakukannya dalam situasi yang aneh. Misalnya, ajari dia pertanyaan "Apa yang harus dilakukan?" jawab "Lepaskan celanamu dan lari." Jika pengguna sebelum pertanyaan ini mengatakan bahwa ayahnya meninggal atau dia putus dengan gadis itu, dia sedang tidak mood, mesin tidak akan memperhitungkan semua informasi ini dan akan memberikan lelucon.

Karena kita berbicara tentang lelucon, bagaimana mengembangkan rasa humor di asisten suara?


Ahli bahasa

. Rasa humor adalah fenomena manusiawi yang inheren yang membantu untuk beradaptasi dengan perubahan, menghadapi kesulitan, memperkuat interaksi sosial dan banyak lagi. Dalam bentuk persisnya, itu, saya pikir, hampir tidak diperlukan untuk AI. Penelitian di bidang ini sedang berlangsung, tetapi ini tentang memahami dan mensimulasikan humor. Penting untuk menjelaskan kepada mobil bahwa tas kulit terkadang melakukan hal-hal yang tidak dapat dimengerti olehnya - mereka bercanda - dan mengharapkan lelucon sebagai balasannya.

Dengan pemahaman, semuanya sangat rumit, jadi saya akan menjawab tentang peniruan. Ada dua jalan keluar:

  1. menggunakan lelucon yang dibuat oleh orang-orang - khusus ditulis atau diperoleh oleh sistem dari kumpulan teks;
  2. coba pahami apa yang membuat orang tertawa (koneksi semantik yang tersembunyi, paralel dan tidak terduga, kombinasi kata dari bidang semantik yang berbeda, inversi kasus dan makna), dan sadari ini.

Sudah ada solusi teknis: permainan kata-kata yang sama dibuat hanya berdasarkan urutan umum dari huruf. Masalahnya adalah selalu mengevaluasi secara obyektif hasil kerja dan entah bagaimana mengatasi ambang 5-10% contoh konyol.

Sebagai aturan, AI tidak bercanda atau tidak lucu, dan penelitian yang kompleks diperlukan untuk mengubah situasi.
Cara termudah dan paling dapat diandalkan untuk menambahkan humor ke asisten suara adalah dengan hanya menulis skrip atau, dalam kasus ekstrim, semacam pola lelucon. Maka kita dapat secara cerdas menghasilkan mereka untuk satu alasan atau yang lain. Saya yakin bahwa di Yandex Alice ini sering bekerja seperti ini. Banyak yang memperhatikan bahwa Alice mengerti lagu dan lelucon dari serial The Witcher. Anda dapat menanyakan sesuatu kepadanya seperti โ€œBagaimana cara membayar sang Penyihir?โ€ Dan dia akan bercanda sebagai imbalan. Hal-hal ini kemungkinan didaftarkan secara manual.

Pengembang

Seorang ahli bahasa terlibat dalam mengumpulkan jawaban yang bisa lucu. Dia mencari mereka di kandang bahasa, kemudian mereka berakhir di database asisten suara. Dan, ketika kami memintanya untuk bercanda, dia menemukan yang tepat di database dan memberikan lelucon. Dia juga dapat bercanda secara spontan jika dia melihat situasi yang mirip dengan yang dia latih. Itu semua tergantung konteksnya.

Menurut Anda mengapa orang ingin asisten suara bercanda?


Ahli bahasa

Tampaknya bagi saya ada begitu banyak alasan mengapa orang ingin melihat humor di dalamnya. Rasa humor adalah kualitas murni manusia. Apa yang membuat kita menjadi manusia. Ingin menemukan kemanusiaan di chatbot, mereka mencari rasa humor di dalamnya. Ini bisa dilihat, bahkan jika Anda melihat semua contoh kecerdasan buatan dalam budaya: robot yang benar-benar pintar dari film ini akan bercanda.

Asisten suara mana yang menurut Anda paling dewasa?


Ahli bahasa

Jika orang dewasa sudah tua, sulit dikatakan. Kontrol suara hampir sama dengan benda kuno seperti sintesis ucapan, diciptakan, anehnya, pada abad ke-18. Mereka telah menghadapinya sejak awal abad ke-20, dan solusi kerja pertama kali muncul pada 1960-an dan telah berkembang sejak saat itu. Asisten suara cerdas diciptakan di IBM pada tahun 90-an, dan mencapai ponsel cerdas pada tahun 2011.

Jika orang dewasa membosankan tetapi dapat diandalkan, maka Siri. Tampaknya teks-teks jawaban untuk bahasa Rusia baru-baru ini diperbarui di dalamnya, dan memberikan jawaban yang paling benar dan aman untuk reputasi. Nyaman untuk perusahaan besar, tetapi juga tidak bermain. Tidak ada cara untuk mengobrol dan mengumpulkan dialog yang masuk akal seperti di Alice. Tapi dia tidak memiliki tujuan seperti itu, karena itu adalah asisten suara yang dibangun ke dalam smartphone (atau dalam peralatan apa pun). Ini terutama memiliki fungsi utilitarian untuk mengendalikan segalanya. Saya ingat awalnya jawabannya bahkan lebih menarik dan kontroversial daripada sekarang. Tapi, rupanya, mereka memutuskan bahwa orang sudah cukup bermain dengan asisten suara, dan sudah waktunya baginya untuk menjadi serius. Lakukan saja pekerjaan Anda.

Alice hadir dalam aplikasi atau dalam produk terpisah - dalam sebuah kolom. Baik di sana maupun di sana penting untuk menarik minat seseorang sehingga ia ingin membeli kolom atau membuka aplikasi. Kontrol suara yang kering saja akan terasa membosankan.

Pengembang

Tidak ada orang dewasa. Semua asisten suara memiliki sedikit pengetahuan, dan sekarang ada lebih banyak. Mereka tidak belajar sendiri. Saya ingat betapa bodohnya Alice bekerja sekitar 3-4 tahun yang lalu. Tapi setiap hari dia membaik. Pengembang memantau situasi tertentu dan memperbaiki kesalahan, membuat kasus baru, skrip. Pengguna membantu mereka, mencatat beberapa nuansa. Yandex memiliki sumber daya yang hebat: ada mesin pencari, ada server dan semuanya untuk menyimpan data.

Namun, ada pendapat bahwa Siri adalah yang paling dewasa, karena informatif, tetapi memiliki lebih sedikit lelucon, permainan, dll. Apa kamu setuju?



Iya. Karena mereka bermain dengan apa yang bisa diandalkan. Ini lebih baik daripada menjawab 100 pertanyaan, tetapi 40 di antaranya salah. Mereka sangat rapi dalam desain. Mereka ingin asisten selalu mengatakan sesuatu yang benar dan tidak konyol seperti Alice sebelumnya.

Untuk meringkas


Tidak semua orang mendukung analogi antara pembelajaran mesin dan mengasuh anak.
Bahasa ini tidak ada habisnya. Seorang penutur asli dapat mengekspresikan pikiran yang sama dalam jumlah ucapan yang tak terbatas. Tanpa menggunakan metode analisis linguistik, Anda tidak akan mendapatkan akurasi 100%.

Pengetahuan dari bidang lain juga membantu dalam pembelajaran mesin. Penelitian kognitif dan psikolinguistik akan membantu untuk memahami bagaimana otak memproses pemrosesan informasi, khususnya, bagaimana seseorang memahami bahasa untuk mentransfer pengetahuan ini ke pembelajaran mesin. Dan dalam menyelesaikan masalah etika, psikolog akan datang untuk menyelamatkan.
Biasanya AI bercanda bukan lucu atau tidak, tetapi orang butuh lelucon! Oleh karena itu, penelitian di bidang ini sedang berlangsung.

Asisten suara paling kuat dan kompetitif di Rusia adalah Alice. Percakapan dengannya dekat dengan percakapan dengan seseorang. Dan yang paling dewasa (dengan kata ini kami maksudkan bukan pada momen gaming, tetapi pada keandalan dan akurasi dalam memproses permintaan) - Siri.

All Articles