Algoritma AI dan otomatisasi pengkodean klinis sebagai contoh

Pengkodean klinis adalah proses administrasi di mana data yang diperoleh selama diagnosis diterjemahkan (hari ini, secara manual menggunakan buku referensi dan manual) ke dalam simbol kode yang sesuai. Sumber data klinis meliputi:

  • Data saat masuk.
  • Data saat dikeluarkan.
  • Studi patologis.
  • Studi radiologis.
  • Resep

Kesalahan dalam pengkodean adalah hal yang sering terjadi dan memiliki konsekuensi yang tidak menyenangkan (dari staf yang memproses ulang dan mengurangi pendanaan rumah sakit hingga kehilangan kendali atas epidemi), lebih lanjut tentang hal ini di bawah ini.

Secara grafis, proses pengkodean dapat diwakili dalam Gambar. 1.



Gambar. 1 - Proses pengkodean klinis

ICD-10 adalah standar pengkodean terpadu yang digunakan di banyak negara di dunia. Singkatan ICD-10 singkatan dari "edisi ke-10 Klasifikasi Internasional Penyakit dan Masalah Kesehatan Lainnya", yang disusun oleh staf Organisasi Kesehatan Dunia. Dokumen tersebut berisi representasi kode dari berbagai penyakit, gejala dan tanda-tanda mereka, penyimpangan dari norma, serta keluhan, keadaan sosial dan penyebab eksternal dari cedera dan berbagai penyakit.

Sebagai aturan, setiap kode terdiri dari 7 karakter: 1-3 karakter digunakan untuk menunjukkan kategori penyakit, karakter 4-6 menentukan lokasi dan tingkat keparahan, karakter ke 7 saling melengkapi. Di beberapa negara, penunjukan kode dapat bervariasi. Dalam waktu dekat, transisi ke standar ICD-11 baru dengan kode penyakit yang lebih besar diharapkan. Dokumen ini akan berisi lebih dari 55.000 kode dengan tambahan penunjukan beberapa kasus klinis baru dan penyakit mental. Memahami representasi dan klasifikasi kode baru sangat penting bagi negara, wilayah individu, dan organisasi kesehatan untuk mengembangkan industri lebih lanjut dan menarik dana yang memadai.

Dua aplikasi penting dari pengkodean klinis:

  1. Penagihan (pemerintah daerah dan pemerintah negara bagian, kesehatan dan asuransi).
  2. Pelaporan (studi epidemiologi, kebijakan negara, pengawasan epidemiologis).


Penyandi klinis dengan hati-hati memeriksa semua catatan medis untuk perawatan medis untuk menentukan yang berikut:

  • Diagnosis utama.
  • Perawatan sekunder (jika dilakukan).
  • Mengidentifikasi penyakit lain.
  • Komplikasi yang muncul.

Semua hal di atas ditampilkan dalam kode yang sesuai dengan standar ICD-10.

Masalah Pengkodean Klinis


Eksekusi manual dari proses pengkodean dikaitkan dengan berbagai kesulitan, dan secara umum menyebabkan banyak masalah bagi karyawan institusi:

  • , : , - , .
  • , 4 .
  • . 8- 24 , .
  • , 70-75%. 1 , (AHIMA). , .
  • Rasio kecepatan dan ketepatan pengkodean . Kedua parameter ini saling terkait: semakin tinggi kecepatan, semakin rendah kualitas dan sebaliknya.
  • Kurangnya staf . Hanya sekitar 52% pengkode klinis yang bekerja secara berkelanjutan. Banyak lembaga menggunakan offshoring untuk mengurangi jumlah kasus yang tertunda.




Tabel 1: Kompetisi Coding Klinis Nasional II ICD-10

Konsekuensi dari kesalahan pengkodean klinis


Kesalahan dalam klasifikasi dan pengkodean klinis sangat umum. Mereka mempengaruhi banyak aspek pekerjaan lembaga medis, termasuk pembayaran biaya perawatan medis yang diberikan. Pertimbangkan sebuah contoh dengan operasi usus buntu (pengangkatan usus buntu), opsi yang paling umum untuk operasi darurat. Representasi kode yang tidak lengkap atau salah dari transaksi secara signifikan mempengaruhi pembiayaan.

Contoh: seorang pasien dirawat dengan diagnosis apendisitis akut. Pada periode pasca operasi, infeksi luka berkembang. Pasien diberikan antibiotik intravena.




Tabel 2. Pengaruh kesalahan pengkodean dalam kasus apendisitis purulen akut pada pembiayaan.

Contoh menunjukkan bahwa kesalahan pengkodean klinis dapat menyebabkan pemrosesan berlebih dan pendanaan berkurang. Konsekuensi serius lain dari pengkodean klinis yang salah adalah hilangnya kendali atas pengembangan epidemi.

Seberapa praktis menggunakan algoritma AI untuk pengkodean klinis?


Jika AI dapat mengemudi seperti manusia, dapatkah ia menangani pengkodean klinis?

Selama beberapa tahun terakhir, keberhasilan yang signifikan telah dicapai dalam penerapan AI di berbagai bidang kegiatan. Tamasya kecil ke dalam subjek:

AI adalah bidang pengetahuan yang luas tentang komputer yang dapat meniru kemampuan manusia. Ini memungkinkan mesin untuk menggunakan data untuk pelatihan, menghilangkan kebutuhan untuk pengkodean keras untuk melakukan tugas tertentu. AI memungkinkan komputer untuk belajar menggunakan pengalaman mereka sendiri. Komputer mampu memproses data dalam jumlah besar dan memperhatikan koneksi yang lebih dalam, yang pada akhirnya memberikan tingkat akurasi yang lebih tinggi dibandingkan manusia. Semua ini adalah dasar untuk hasil yang lebih akurat, yang merupakan dasar untuk keputusan yang lebih tepat.


Meskipun banyak kesulitan yang dihadapi AI dalam industri kesehatan, ia dapat memainkan peran kunci dalam pengkodean klinis, memberikan beberapa keuntungan yang tidak dapat disangkal:

  • Biaya keuangan lebih rendah.
  • Konsistensi yang lebih baik.
  • Penghapusan kekurangan staf.
  • Implementasi pengkodean pra-klinis.
  • Mempercepat proses, yang pada gilirannya akan mengarah pada pembiayaan yang lebih cepat.
  • Meningkatkan akurasi dan ruang lingkup audit.

Masalah kompleksitas data medis


Banyak fasilitas dan organisasi kesehatan tidak menggunakan pendekatan konseptual untuk mengatur dan mengelola kualitas data, terutama dalam jangka panjang. Nilai catatan medis dan data berdasarkan mereka tumbuh seiring waktu. Bahkan pengenalan rekam medis elektronik (EMR) belum menyederhanakan pemrosesan data waktu nyata dengan cara yang memadai, karena fungsi perangkat lunak yang digunakan sangat terbatas.

Berikut adalah masalah utama dalam pemrosesan data medis:

  • Tingkat kualitas rekam medis elektronik yang berbeda.
  • Kurangnya kompatibilitas, serta kompleksitas sistem klinis.
  • Kompleksitas proses pengumpulan, pencarian, dan analisis data.
  • Kebutuhan untuk memproses data yang tidak lengkap atau hilang.
  • Cakupan dan pengambilan sampel data.
  • Persyaratan peraturan dan proses birokrasi.

Sekarang mari kita belajar

Kasus Rumah Sakit Maharaj Nakhon di Chiang Mai


Ini adalah rumah sakit pelatihan di Universitas Chiang Mai, yang terletak di wilayah Muang di Chiang Mai di provinsi Chiang Mai. Ini adalah rumah sakit Thailand pertama di luar Bangkok, dibuka pada tahun 1941. Rumah sakit yang agak besar ini memiliki 1.400 tempat tidur, 69 tempat tidur di unit perawatan intensif dan 92 tempat tidur tambahan, serta 28 kamar operasi. Sepanjang tahun, ada lebih dari 45.000 kasus rawat inap, termasuk lebih dari 1.000 operasi jantung terbuka dan lebih dari 40 operasi transplantasi ginjal. Saya mendaftarkan lebih dari 1,3 juta pasien di rumah sakit klinik.

Kompleksitas data


Kami menggunakan data klinis dari repositori Rumah Sakit Chiang Mai, yang direkam antara 2006 dan 2019. Tabel 3 berisi beberapa statistik yang menunjukkan kompleksitas informasi yang sedang diproses.



Tabel 3. Statistik dari set data rumah sakit Maharaj Nakhon Chiang Mai.

Dalam artikel ini kita tidak akan masuk ke rincian spesifik dan hanya memperhatikan poin-poin yang paling signifikan:

  • Dalam 42,5% kasus perawatan medis, satu set kode unik digunakan (hanya beberapa kasus dengan catatan identik)
  • Kasus rawat inap secara signifikan lebih kompleks
  • Cukup banyak kasus observasi rawat jalan (tidak ada riwayat medis)
  • Kumpulan kode yang kompleks (100 atau lebih) digunakan di lebih dari 70% kasus, seperti ditunjukkan pada Gambar. 2.




Ara. 2. Frekuensi dari 30 kode ICD-10 paling umum dalam set data stasioner

Gambar. 2 menunjukkan masalah yang disebut "long tail" dalam 30 kode ICD-10 yang paling umum. Seperti yang Anda lihat, sebagian besar kode sangat jarang. Fitur ini mempersulit pembelajaran mesin, karena kemungkinan pemodelan kasus yang lebih jarang lebih rendah.

Cara mengolah sumber data


Setiap sumber data memiliki fitur berikut: format, jenis, tingkat kesulitan. Karena itu, sulit untuk melakukan pra-proses data, dan ada masalah dalam pembentukan sinyal prediksi yang signifikan. Lebih lanjut akan menjadi jelas bahwa tahapan pemrosesan data dan pemodelan terkait dengan kompleks tugas yang sama rumitnya yang perlu dipecahkan.



Tabel 4 - karakteristik sumber data dan kompleksitas pemrosesan mereka

Pra-pemrosesan data dilakukan sehubungan dengan berbagai sumber. Misalnya, untuk pemrosesan, data teks tidak terstruktur (laporan radiologis atau lainnya) digunakan, data laboratorium semi-terstruktur (dalam berbagai format, termasuk teks, data campuran numerik), resep terstruktur dan data tabular pada penerimaan pasien.

Tugas Otomasi


Karena kerumitan pemrosesan data, seperti yang ditunjukkan di atas, otomatisasi proses pengkodean klinis menghadapi sejumlah masalah yang berbeda:
  • Sejumlah besar pengklasifikasi unik (lebih dari 12.000).
  • Kurangnya patokan atau standar emas.
  • Kurangnya dataset yang tersedia untuk umum.
  • Data tidak seimbang (banyak kasus yang jarang terjadi).
  • Sulitnya menemukan cara untuk menggabungkan data dari beberapa sumber berbeda.


Kelebihan menggunakan algoritma pembelajaran mendalam (AI)


Deep Learning adalah salah satu pendekatan yang paling dibenarkan untuk mengotomatisasi proses pengkodean klinis.

Sekali lagi tamasya kecil: pembelajaran mendalam adalah keluarga metode pembelajaran mesin berdasarkan jaringan saraf dengan kemampuan belajar representatif yang tinggi. Ini adalah seperangkat algoritma yang meniru kerja otak manusia, yaitu: bagaimana cara mengirimkan permintaan melalui berbagai hierarki konsep dan masalah terkait untuk menemukan solusi untuk masalah tersebut. Pembelajaran mendalam telah berhasil digunakan dalam berbagai bidang: pemrosesan gambar dan visi komputer, pemrosesan bahasa alami (NLP), terjemahan mesin, sistem autopilot, sistem deteksi penipuan dan lainnya.

Ketepatan menggunakan algoritma pembelajaran mesin adalah karena hal berikut:

  • .
  • .
  • .
  • ( ).



Bagian ini membahas beberapa arsitektur yang digunakan untuk merancang model pengkodean prediktif ICD-10. Pertama-tama, kami merumuskan masalah klasifikasi oleh beberapa label untuk memprediksi kode ICD-10. Untuk memprediksi probabilitas setiap kode ICD-10, kami menggunakan arsitektur jaringan komunikasi langsung saraf. Selanjutnya, korespondensi dari prediksi kode ICD-10 dengan nilai-nilai yang paling mungkin akan ditetapkan.

Arsitektur pemodelan intuitif adalah untuk mengumpulkan semua data yang tersedia dari berbagai sumber dan melatih satu jaringan. Ini akan mencerminkan interaksi antara berbagai jenis data dan hubungannya dengan diagnosis akhir. Arsitektur pemodelan ini disebut model gabungan, yang akan digunakan pada bagian dengan hasil.

Ara. Gambar 3 memperlihatkan struktur grafik dari suatu model gabungan. Karena beberapa sumber data digunakan sekaligus, arsitektur ini tidak dapat dianggap yang terbaik. Karena sumber data berbeda dalam kompleksitasnya, hal ini mengarah pada pembangunan jaringan yang terlalu rumit dengan fine-tuning hyperparameters melalui banyak iterasi, serta eksperimen dengan jumlah lapisan dan fungsi kehilangan yang berbeda. Dengan demikian, modalitas data tidak akan dipelajari dengan cukup baik.



Ara. 3. Struktur model gabungan

Arsitektur kedua berisi beberapa jaringan yang belajar bagaimana berinteraksi dengan sumber data individual, seperti yang ditunjukkan pada Gambar. 4. Kemudian, data perkiraan yang diperoleh dari setiap jaringan dikumpulkan menggunakan metode rata-rata atau nilai rata-rata tertimbang. Hal ini menyebabkan kurangnya dominasi perwakilan atau representasi data yang lebih kecil dari berbagai sumber dalam ruang atribut dalam proses pembelajaran. Namun, ini berdampak negatif pada adopsi keputusan yang tepat, karena pemilihan langsung satu sumber berdasarkan penggabungan pengetahuan setelah menerima pendapat dari masing-masing sumber data kurang informatif.



Ara. 4. Struktur model rata-rata

Oleh karena itu, kita beralih ke arsitektur pemodelan ensemble, yang ditunjukkan pada Gambar. 5. Struktur model harus sedemikian rupa sehingga memungkinkan Anda untuk menentukan secara andal berbagai modalitas data dengan tingkat kerumitan yang berbeda, serta memeriksa dengan seksama hubungan yang dibangun di antara mereka. Jaringan kami, dibangun di atas model-model yang dilatih secara individual, disebut "ensemble" atau "expert". Dia meniru pekerjaan pembuat kode klinis, menggunakan semua jenis data klinis, membuat keputusan tentang diagnosis akhir.

Bahkan, jaringan akan menerima pengetahuan ahli dari jaringan yang sudah terlatih, yang lebih efektif daripada mempelajari sumber individu. Jaringan ensemble akan memanfaatkan pengalaman masing-masing spesialis (ahli patologi, ahli radiologi, apoteker, dan lainnya) dalam banyak iterasi, mendapatkan pengetahuan yang diperlukan untuk membuat diagnosis. Selain itu, ia memiliki kemampuan untuk merumuskan diagnosis baru, menerima data prediktif dari jaringan individu, dan tidak hanya memperhitungkan prediksi dengan koefisien bobot tertinggi berdasarkan pada satu sumber.



Ara. 5. Struktur model ensemble

Hasil awal


Bagian ini menyajikan langkah-langkah yang digunakan untuk mengukur keakuratan model yang dijelaskan di atas, serta hasil eksperimen.

Langkah-langkah Evaluasi


Tidak seperti klasifikasi biner dan multikelas, mengevaluasi keefektifan klasifikasi berdasarkan beberapa kriteria tergantung pada kriteria mana yang benar. Untuk memeriksa bagaimana model akan berperilaku dalam berbagai situasi, mereka menggunakan pendekatan berbeda untuk memeriksa hasil untuk mengidentifikasi kesalahan yang disebabkan oleh pengkodean yang tidak memadai atau berlebihan. Mengingat hal tersebut di atas, langkah-langkah penilaian berikut digunakan:

  • Medium Accuracy - Akurasi rata-rata tertimbang untuk setiap nilai ambang yang diperoleh dengan menjumlahkan nilai pada kurva pengembalian akurasi.
  • Kesalahan cakupan - nilai yang mencirikan durasi penilaian peringkat yang cukup untuk mencakup semua label.
  • – y_score, , .
  • F1 – .
  • – , .
  • – , .



Tabel 5 menunjukkan peningkatan bertahap dalam kinerja keseluruhan model untuk semua indikator kinerja utama. Secara kuantitatif, ini berarti peningkatan 4-5% untuk set data perawatan rawat inap dan peningkatan 2-3% dalam pemrosesan data rawat jalan. Sumber yang berbeda memberikan berbagai kontribusi untuk akurasi model. Misalnya, data yang diambil dari resep adalah yang paling informatif. Untuk setiap sumber, model kompleksitas tertentu digunakan, dan jumlah waktu dan iterasi yang berbeda diperlukan untuk studi yang tepat. Deep network mampu menemukan minimum optimal dalam beberapa modalitas data lebih cepat daripada yang lain. Oleh karena itu, untuk meningkatkan akurasi, mereka menggunakan metode pelatihan masing-masing modalitas secara terpisah untuk menyandikan tingkat variabilitas kompleksitas data secara maksimal.

Di sisi lain, model yang disajikan mampu mencapai akurasi level seseorang dalam diagnostik primer, terutama ketika bekerja dengan data dari rumah sakit. Ini penting untuk berbagai aplikasi pengkodean klinis, misalnya, untuk penagihan, terutama berdasarkan diagnosis yang benar.



Tabel 5. Akurasi pengkodean otomatis

Tabel 6 menyajikan 5 penyakit utama yang diurutkan berdasarkan tingkat akurasi. Akurasi untuk tiga kategori pertama dari data perawatan rumah sakit adalah lebih dari 90%. Mengenai kasus yang terkait dengan deteksi neoplasma pada pasien (sekitar 30% dari data), akurasi yang sangat menggembirakan sekitar 80% diperoleh. Terlepas dari indikator kinerja yang lebih rendah dari model untuk data rawat jalan, akurasi masih melebihi 60% (rata-rata sekitar 65%), yang dengan sendirinya merupakan langkah maju yang besar.



Tabel 6. Akurasi model untuk 5 kasus diagnostik tingkat tinggi yang paling umum

Model kinerja kesadaran diri


Konstruksi dan evaluasi keefektifan model pembelajaran mesin dilakukan dalam proses pelatihan / evaluasi mereka. Untuk penilaian menggunakan data yang dipilih secara acak. Namun, menilai keakuratan perkiraan saat ini secara real time sangat sulit. Untuk mengatasi masalah, kriteria diperkenalkan yang mengevaluasi seberapa percaya diri model dalam perkiraannya sendiri. Sebagai contoh, akan berguna untuk mengetahui bahwa keakuratan model sesuai untuk kasus perawatan medis sederhana dan tidak cukup untuk kasus medis kompleks. Ini bisa berfungsi sebagai sinyal untuk memeriksa kembali kasus tertentu oleh seseorang secara manual.

Kami mengusulkan model penilaian kepercayaan dalam kombinasi dengan model prediksi kode ICD-10. Dalam Fig. Gambar 6 menunjukkan jaringan penilaian validasi. Kami melakukan proses pelatihan untuk mendeteksi ketidakkonsistenan antara kode yang diprediksi dan yang sebenarnya, dengan mempertimbangkan semua data input. Jadi, model ini dapat mengevaluasi keandalan ramalan dengan mempertimbangkan data awal, tingkat kerumitan kasus tertentu, dan kemungkinan mendapatkan ramalan "baik" dan "buruk".



Ara. 6. Struktur model untuk menilai tingkat keandalan

Tabel 7 berisi hasil pengujian jaringan tingkat kepercayaan untuk berbagai data dari set. Jadi, setiap ramalan berisi penilaian keandalannya. Misalnya, akurasi perkiraan lebih dari 97% diamati pada 3% kasus, 85% - dalam 50% kasus. Penilaian reliabilitas memungkinkan Anda untuk mengotomatiskan proses menarik bantuan pihak ketiga saat dibutuhkan. Model yang disajikan ditandai oleh kesadaran diri, mudah diluncurkan dan dievaluasi oleh pengguna secara real time.



Tabel 7. Keandalan estimasi berbagai set data

Fitur utama:

  • Pemodelan ensemble, dikombinasikan dengan jaringan pakar untuk memilih perkiraan terbaik, lebih unggul daripada metode pemodelan lainnya.
  • , , , .
  • 4% .
  • ( ), 1%.
  • , ,
  • , .
  • 80% 50% ( , ).
  • , ( ).
  • , .


,


Hasilnya dapat menjadi dasar untuk menciptakan sejumlah aplikasi yang berkontribusi pada pengembangan lebih lanjut dari sektor kesehatan. Saat ini, ada banyak program untuk otomatisasi pengkodean klinis: analitik waktu-nyata, perkiraan biaya, logistik dan perencanaan staf, dan lainnya. Kami menawarkan solusi perangkat lunak yang sangat terspesialisasi untuk memprediksi pengkodean klinis:

Sistem Pendukung Keputusan
Aplikasi yang mengkhususkan diri dalam otomatisasi proses pengkodean klinis mencakup sistem pendukung keputusan berdasarkan model prediksi yang memiliki kemampuan berikut:

  • Alat perangkat lunak untuk pekerjaan encoders klinis.
  • .
  • QA- - .
  • .
  • , .



Audit klinis memberikan verifikasi kebenaran pengkodean dan kepatuhannya dengan kriteria yang ditetapkan. Hasil audit digunakan untuk menganalisis pekerjaan lembaga kesehatan, menyusun laporan, dan mengembangkan strategi untuk meningkatkan efektivitasnya. Pengembangan strategi audit yang akurat dan berkualitas tinggi memberikan perhatian khusus baik secara lokal maupun internasional. Namun, saat ini proses ini dilakukan terutama secara manual, itulah sebabnya sejumlah besar kesalahan umum dikaitkan. Otomatisasi pengkodean dapat efektif di bidang ini, memberikan bantuan dalam:

  • Melakukan audit terjadwal dan berkala.
  • Meningkatkan akurasi dan kinerja.
  • Identifikasi pola dan tren yang mencurigakan.
  • Pemahaman yang lebih akurat tentang proses pengkodean dan kompetensi pembuat enkode.
  • , .



Artikel ini menyoroti fitur pengkodean klinis di bidang perawatan kesehatan dan menunjukkan efektivitas otomatisasi proses ini. Di antara berbagai arsitektur yang disajikan, model ensemble pembelajaran mendalam paling cocok untuk tugas ini. Ini berhasil menerapkan data dari berbagai sumber, memiliki prospek yang baik untuk pengembangan lebih lanjut dan meningkatkan akurasi dengan menambahkan set data baru untuk analisis. Ia menggunakan, memproses, dan memodelkan data dalam berbagai kategori, termasuk data tabel yang tidak terstruktur, semi-terstruktur, dan terstruktur. Karena bidang pengkodean klinis sangat sensitif terhadap kesalahan, sistem tambahan digunakan untuk secara otomatis mengevaluasi keakuratan prakiraan secara real time.

Kami mengukur model menggunakan database Rumah Sakit Maharaja Nakhon (Chiang Mai), menunjukkan potensi besar mereka dalam praktik pengkodean klinis nyata. Model melewati proses pembelajaran tanpa mengetahui hasil akhir, yang merupakan keuntungan lain. Oleh karena itu, mereka dapat melakukan prediksi kode ICD-10 yang konsisten dan berkelanjutan berdasarkan sumber data klinis baru sampai pasien keluar. Fitur ini menyediakan kemampuan untuk menginformasikan tentang gambar diagnostik saat ini secara real time. Model-model ini mampu belajar dengan cepat saat catatan medis baru tiba.

Perspektif lebih lanjut


Kami hanya berada pada tahap awal pengembangan sistem otomatisasi pengkodean klinis dan membuka cakrawala baru untuk memperkenalkan layanan ini ke sejumlah besar lembaga kesehatan. Kami dapat memberikan bantuan dalam pembangunan sistem pendukung keputusan dan menunjukkan manfaatnya, serta mengintegrasikan solusi ke dalam proses dan sistem modern.

All Articles