Masa depan ada di sini: bagaimana robot suara bekerja dan apa yang dapat mereka lakukan

gambar

Robotisasi operasi rutin, ketika robot digunakan untuk menyelesaikan tugas-tugas sederhana dan padat karya, daripada manusia, adalah tren yang sangat aktif. Banyak hal sedang diotomatisasi, termasuk percakapan telepon dengan pelanggan. Perusahaan Neuro.net terlibat dalam penciptaan teknologi yang memberikan peluang untuk meningkatkan kemampuan robot.

Dalam artikel ini, para pengembang berbicara tentang teknologi dan nuansa mengenali gender lawan bicara dengan suara dan bekerja pada elemen-elemen penting dari dialog.

Pertama kasus, dan kemudian gangguan teknologi


gambar

Salah satu kasus yang paling menarik adalah penggantian karyawan call center dari perusahaan mitra dengan robot suara. Kemampuan yang terakhir digunakan bukan untuk situasi biasa, seperti mengklarifikasi alamat pengiriman, tetapi untuk mencari tahu mengapa beberapa pelanggan cenderung mengunjungi situs web perusahaan.

Teknologi ini didasarkan pada penggunaan jaringan saraf penuh, bukan skrip individual. Itu adalah jaringan saraf yang memungkinkan kami untuk memecahkan masalah yang biasanya membingungkan robot. Pertama-tama, kita berbicara tentang jawaban lawan bicara seperti "baik, saya belum tahu, mungkin ya, meskipun tidak" atau bahkan "ya tidak." Kata-kata yang umum bagi manusia menjadi kendala yang tidak dapat diatasi untuk robot.

gambar

Selama pelatihan, robot mulai memahami apa artinya diletakkan dalam frasa tertentu, dan apa yang harus menjadi jawabannya. Robot itu memiliki beberapa suara - baik pria maupun wanita. Tugas utama adalah "memanusiakan" robot sehingga lawan bicara manusia tidak menguji kemampuan mesin, tetapi melakukan dialog sesuai dengan skenario target.

Di bawah ini adalah contoh dari apa yang terjadi.


Robot mendengarkan lawan bicara, memberikan jawaban tergantung pada apa yang dikatakan klien. Jumlah total cabang skrip yang dapat digunakan untuk percakapan lebih dari seribu.
Tujuan utama dari robot ini adalah untuk memahami alasan menurunnya aktivitas klien perusahaan di situs dan membuat penawaran yang menarik bagi semua orang. Ini adalah salah satu upaya pertama perusahaan untuk mengotomatiskan pekerjaan pusat panggilan.

Robot baru lebih sempurna. Berikut adalah beberapa contoh bagaimana robot berkomunikasi dengan manusia: contoh pertama , kedua , ketiga .

Sekarang tentang teknologi


Ada tiga fitur teknologi utama yang memungkinkan robot bekerja:

  • pengakuan jenis kelamin lawan bicara dengan suara,
  • pengenalan umur
  • membangun dialog dengan teman bicara manusia.

gambar

Mengenali jenis kelamin lawan bicara dengan suara


Mengapa ini dibutuhkan? Awalnya, fungsi ini dibuat untuk melakukan survei menggunakan robot. Sebelumnya, pekerjaan survei dilakukan oleh orang-orang yang mengisi sejumlah poin. Misalnya, lantai teman bicara. Jelas bahwa seseorang tidak perlu bertanya dengan siapa dia berbicara - seorang pria atau wanita, untuk menentukan parameter ini. Dalam 99%, semuanya jelas. Robot adalah masalah lain, sehingga mereka kurang lebih akurat belajar mengenali suara, saya harus melakukan pekerjaan berskala besar. Dan itu tidak sia-sia, sekarang teknologi ini digunakan untuk mempersonalisasi penawaran dan permintaan suara tergantung pada jenis kelamin.

Poin penting - suara wanita bersifat universal dan dapat digunakan untuk bekerja dengan berbagai produk terluas, dan itu sangat penting untuk produk untuk wanita. Menurut berbagai penelitian,suara wanita dirasakan secara positif oleh audiens mana pun, masing-masing, dalam hal ini, konversi lebih besar. Pengecualian - saat mempromosikan produk "pria", suara pria lebih disukai.

Bagaimana itu bekerja? Pertama, pemrosesan data primer dilakukan, didasarkan pada pemrosesan rekaman suara dan fragmen yang berlangsung 20 ms. Semua fragmen suara yang dikumpulkan sudah diproses sebelumnya dalam komponen VAD (Deteksi Aktivitas Suara). Ini diperlukan untuk memisahkan "butiran dari sekam", yaitu ucapan dari kebisingan. Semua sampah dibuang, yang meningkatkan akurasi model.

Untuk pengakuan, digunakan ruang koefisien cepstral, perbedaan pertama dan kedua, digunakan. Dasarnya adalah metode GMM - Gauss Mixture Models.

Jadi, dalam interval 10-20 ms, spektrum daya saat ini dihitung, setelah itu transformasi Fourier terbalik dari logaritma spektrum diterapkan, dengan mencari koefisien yang diperlukan.

Model GMM kami dikonfigurasikan secara terpisah untuk mengajar mod suara pria dan wanita, dan model juga digunakan untuk menentukan suara dewasa dan anak-anak. Tentu saja, Anda tidak dapat melatih sistem dari awal, Anda perlu rekaman suara yang ditandai.

Untuk meningkatkan efisiensi sistem, koefisien model suara timbre diterapkan:

  • Ketajaman timbral.
  • Kehangatan timbral.
  • Kecerahan timbral.
  • Kedalaman timbral.
  • Kekerasan timbral.
  • Pertumbuhan timbral.
  • Ketidakrataan timbral.
  • Reverb Timbre.

Model Timbre diperlukan untuk mengidentifikasi dengan benar suara anak-anak - model lain menerima suara anak sebagai perempuan. Selain itu, Anda perlu membedakan antara suara wanita kasar (misalnya, wanita merokok lanjut usia), suara pria tinggi, dll. By the way, jika seseorang mengatakan "halo" dan kemudian batuk - semua model sebelumnya yang tidak menggunakan filter timbre akan mendefinisikan suara sebagai laki-laki.



Bagian utama dari sistem adalah modul klasifikasi data berdasarkan multilayer perceptron, MLP. Ini mentransmisikan data dari model suara pria dan wanita, data dari model timbral. Di pintu masuk ke sistem, kami mendapatkan array nilai rahasia, dan pada output, hasil dari penentuan jenis kelamin.

Teknologi yang dijelaskan di sini digunakan untuk bekerja secara online (sesuai dengan frasa pertama klien) dan mode klasifikasi offline (setelah percakapan). Akurasi pengenalan gender adalah sekitar 95%. Poin penting adalah bahwa keterlambatan saat bekerja online tidak melebihi 120-150 ms, yang sangat penting untuk humanisasi robot. Biasanya, jeda dalam komunikasi antara robot dan seseorang bukan milidetik, tetapi detik, yang, tentu saja, terlihat aneh bagi lawan bicara manusia, dan segera jelas bahwa sistem digital berkomunikasi.

Rencana termasuk menambahkan pekerjaan dengan teks, lebih tepatnya - akhir. Jika teman bicara mengatakan "Aku bisa" - pasti, ini adalah seorang wanita. Dalam waktu dekat, teknologi ini akan difinalisasi dan diimplementasikan dalam sistem pengakuan.

Menentukan usia teman bicara


Mengapa ini dibutuhkan? Pertama-tama, agar tidak menawarkan berbagai produk dan layanan kepada anak di bawah umur. Selain itu, mengidentifikasi usia berguna untuk mempersonalisasi penawaran berdasarkan kategori usia.

Bagaimana itu bekerja? Teknologi yang sama persis digunakan seperti dalam kasus sebelumnya. Keakuratan sistem adalah sekitar 90%.

gambar

Membangun Dialog


Dan sekarang kita lanjutkan ke yang paling menarik - prinsip membangun dialog.

Mengapa ini dibutuhkan? Untuk mengganti seseorang secara kompeten, robot harus dapat bekerja dalam skenario dialog linear dan non-linear. Dalam kasus pertama, itu bisa berupa kuesioner, dalam karya kedua - dengan pelanggan call center, jalur dukungan teknis perusahaan, dll.

Bagaimana cara kerjanya? Kami menggunakan Mesin NLU, yang dasarnya adalah analisis semantik dari teks yang diterima dari sistem ASR. Lebih jauh, objek-objek pengenalan seperti entitas (intents) dan intents (intensi), yang digunakan dalam logika membangun alur percakapan, dibedakan darinya.

Berikut adalah contoh cara kerja teknologi.

Teks yang diterima dari sistem pengenalan suara (ASR):
“Secara umum, saya tertarik dengan proposal Anda, tetapi saya ingin lebih murah. Dan sekarang saya agak sibuk, Anda bisa menelepon saya kembali pada pukul enam besok. "

Objek diisi dengan Mesin NLU:

Maksud:
konfirmasi = benar
keberatan =
pertanyaan mahal = null
callback = true
wrong_time = true

Entitas:
date = 01/02/2019 (misalkan tanggal panggilan 01/01/2019)
waktu =
18:00 jumlah = 6

Prinsip pengisian Objek dalam contoh ini adalah:

Maksud (niat):

  • Teks "Saya tertarik dengan proposal Anda" telah diterjemahkan ke dalam niat "konfirmasi" dengan nilai "benar".
  • Teks "Saya ingin lebih murah" diterjemahkan ke dalam niat "keberatan" dengan nilai "mahal".
  • Teks "Aku agak sibuk sekarang" telah diterjemahkan ke maksud "wrong_time" dengan nilai "true".
  • « » intent «call_back» «true».
  • , intent «question» null

Entities ():

  • «» entity «date» «02.01.2019», current_date + 1 (, 01.01.2019).
  • « » entity «time» «18:00»,
  • «» entity «amount» «6», , entities .

Untuk seluruh daftar maksud dan entitas, nilai-nilai tertentu diberikan, yang kemudian digunakan untuk membangun alur percakapan.

Sekarang mari kita bicara tentang algoritma kerja yang didukung oleh sistem NLU Engine. Ini termasuk dua level.

Tingkat pertama - ini bekerja pada sampel data yang relatif kecil sekitar 600-1000 catatan. Algoritma ML digunakan di sini. Akurasi pengakuan: 90-95%.

Tingkat kedua - transisi ke itu dilakukan setelah peluncuran proyek dan akumulasi sampel data yang besar, termasuk lebih dari 1 juta catatan. Algoritma DL sudah digunakan di sini. Akurasi pengakuan: 95-98%.

Solusinya bekerja dengan dua subsistem:

  • subsistem kategorisasi dan klasifikasi data teks,
  • subsistem pembentukan dialog.

Kedua subsistem bekerja secara paralel. Di pintu masuk ke sistem kategorisasi dan klasifikasi, teks pelanggan yang dikenali dari frasa suara ditransmisikan, pada output, keputusan memberikan parameter yang diisi Entitas dan Nilai untuk membentuk jawaban.

Subsistem pembentukan dialog untuk membangun skenario non-linear dibangun di atas jaringan saraf. Di pintu masuk ke sistem, teks pelanggan yang dikenali dari frasa suara ditransmisikan, di pintu keluar, keputusan dibuat tentang apa yang harus hilang pada saat berikutnya.

Skenario non-linear cocok untuk jalur dukungan pertama - robot tidak tahu siapa yang menelepon, tentang produk tertentu dan dengan pertanyaan apa. Di sini, konstruksi dialog selanjutnya tergantung pada respons klien.

Tetapi untuk panggilan keluar, solusi terbaik adalah skenario linier. Teladannya diberikan di bagian paling awal artikel. Varian lain dari skenario linier adalah melakukan survei ketika tidak peduli apa jawaban klien, ini akan dianalisis lebih lanjut oleh spesialis. Tetapi penting untuk membimbing klien melalui semua pertanyaan yang ada di daftar.

Akibatnya, saya ingin menekankan bahwa robot suara tidak akan menggantikan orang. Sekarang mereka melakukan pekerjaan yang sangat baik dengan pekerjaan rutin - memanggil orang untuk mengajukan beberapa pertanyaan kepada mereka dan mendengarkan / mencatat / menganalisis jawaban. Dengan demikian, call center dan operator dukungan teknis merasa lega dengan kebutuhan untuk melakukan prosedur rutin yang sama. Sebaliknya, mereka dapat fokus pada pertanyaan dan tantangan yang sangat menarik.

All Articles