以AI算法和临床编码自动化为例

临床编码是一种管理过程,其中将在诊断过程中获得的数据转换为相应的代码符号(今天,使用参考书和手册进行手动操作)。临床数据来源包括:

  • 录取数据。
  • 放电时的数据。
  • 病理学研究。
  • 放射学。
  • 菜谱

编码错误是经常发生的事情,并且会带来令人不愉快的后果(从员工再加工和减少医院经费到对流行病失去控制),更多信息请参见下文。

用图形表示,编码过程可以在图1中表示。 1.



图1-临床编码过程

ICD-10是世界许多国家/地区使用的统一编码标准。 ICD-10的缩写代表“世界疾病和其他健康问题国际分类的第十版”,由世界卫生组织的工作人员编制。该文件包含各种疾病,其症状和体征,与规范的背离,投诉,社会环境以及伤害和各种疾病的外部原因的代码表示。

通常,每个代码由7个字符组成:1-3个字符用于指示疾病的类别,4-6个字符确定位置和严重性,第7个字符是互补的。在某些国家/地区,代码名称可能有所不同。在不久的将来,有望过渡到具有更大体积疾病代码的新ICD-11标准。该文件将包含55,000多个代码,并附加一些新的临床病例和精神疾病的名称。了解新的法规代表和分类对于国家,各个地区和卫生组织进一步发展该行业并吸引足够的资金至关重要。

临床编码的两个重要应用:

  1. 计费(地方政府和州政府,医疗和保险)。
  2. 报告(流行病学研究,国家政策,流行病学监测)。


临床编码器会仔细检查所有医疗记录以进行医疗护理,以确定以下内容:

  • 主要诊断。
  • 二级治疗(如果执行)。
  • 确定了其他疾病。
  • 出现了并发症。

以上所有内容均按照ICD-10标准以相应的代码显示。

临床编码问题


手动执行编码过程会带来各种困难,并且通常会给机构员工带来很多麻烦:

  • , : , - , .
  • , 4 .
  • . 8- 24 , .
  • , 70-75%. 1 , (AHIMA). , .
  • 速度与编码精度之比这两个参数是相互关联的:速度越高,质量越低,反之亦然。
  • 人员不足仅约52%的临床编码器可以持续工作。许多机构使用离岸外包来减少未决案件的数量。




表1:第二届全国临床编码竞赛ICD-10

临床编码错误的后果


分类和临床编码中的错误非常常见。它们影响医疗机构工作的许多方面,包括支付所提供的医疗费用。考虑一个阑尾切除术(切除阑尾)的例子,这是急诊手术的最常见选择。交易的代码表示不完整或不正确会严重影响融资。

例子:患者被诊断为急性阑尾炎。术后出现伤口感染。为患者开了静脉注射抗生素。




表2.在急性化脓性阑尾炎的情况下编码错误对财务的影响。

一个例子表明,临床编码错误可能导致过度处理并减少资金。错误的临床编码的另一个严重后果是无法控制流行病的发展。

使用AI算法进行临床编码有多实用?


如果AI可以像人一样驾驶,它可以处理临床编码吗?

在过去的几年中,在各种活动领域中将AI的应用取得了巨大的成功。对主题的一小段游览:

人工智能是关于可以模仿人类能力的计算机的广泛知识。它允许机器将数据用于训练,而无需进行硬编码即可执行特定任务。人工智能使计算机可以利用自己的经验进行学习。计算机能够处理大量数据并注意到更深的连接,从而最终比人类提供更高的准确性。所有这些都是获得更准确结果的基础,也是获得更明智决策的基础。


尽管AI在医疗保健行业面临许多困难,但它可以在临床编码中发挥关键作用,并提供一些不可否认的优势:

  • 降低财务成本。
  • 更好的一致性。
  • 消除人员短缺。
  • 临床前编码的实现。
  • 加快流程,这将导致更快的融资。
  • 提高审计的准确性和范围。

医疗数据复杂性问题


许多医疗机构和组织没有使用概念性方法来组织和管理数据质量,特别是从长远来看。医疗记录和基于它们的数据的价值会随着时间增长。甚至电子病历(EMR)的引入也没有以适当的方式简化实时数据的处理,因为所使用软件的功能非常有限。

以下是处理医疗数据的主要问题:

  • 电子病历的质量水平不同。
  • 缺乏兼容性以及临床系统的复杂性。
  • 收集,搜索和分析数据的过程的复杂性。
  • 需要处理不完整或丢失的数据。
  • 覆盖范围和数据采样。
  • 法规要求和官僚程序。

现在让我们学习

清迈Maharaj Nakhon医院病例


这是一家位于清迈大学的培训医院,位于清迈省的孟县。这是曼谷以外的第一家泰国医院,于1941年开业。这家规模较大的医院拥有1400张病床,在重症监护室有69张病床,另外有92张病床,以及28个手术室。一年中,有超过45,000例住院病例,包括1,000例心脏直视手术和40例肾脏移植手术。我在该医院的综合诊所注册了130万患者。

数据复杂度


我们使用清迈医院存储库中的临床数据,该数据在2006年至2019年之间记录。表3包含一些统计数据,这些统计数据说明了所处理信息的复杂性。



表3.清迈玛哈拉治那空府医院数据集的统计数据。

在本文中,我们将不做具体介绍,而仅关注最重要的方面:

  • 在42.5%的医疗护理案例中,使用了一套唯一的代码(只有少数几个具有相同记录的案例)
  • 住院病例要复杂得多
  • 门诊观察病例相当复杂(无病史)
  • 如图70所示,在70%以上的情况下使用复杂的代码集(100个或更多)。2。




图。2.固定数据集中30个最常见的ICD-10代码的频率

图2显示了30种最常见的ICD-10代码中的所谓“长尾”问题如您所见,绝大多数代码非常罕见。此功能使机器学习变得复杂,因为对不太频繁的案例进行建模的可能性较低。

处理数据源的方式


每个数据源都具有以下功能:格式,类型,难度。因此,难以对数据进行预处理,并且在形成重要的预测信号方面存在问题。进一步将变得清楚的是,数据处理和建模的阶段与需要解决的同样复杂的任务相关联。



表4-数据源的特征及其处理的复杂性数据的

预处理是针对各种源进行的。例如,为了进行处理,使用了非结构化的文本数据(放射学报告或其他),半结构化的实验室数据(各种格式,包括文本,数字混合数据),结构化配方和有关患者入院的表格数据。

自动化任务


由于数据处理的复杂性,如上所述,临床编码过程的自动化面临许多不同的问题:
  • 大量独特的分类器(超过12,000个)。
  • 缺乏基准或金标准。
  • 缺乏公开可用的数据集。
  • 数据不平衡(许多罕见情况)。
  • 寻找合并几种不同来源数据的方法的难度。


使用深度学习算法(AI)的便利性


深度学习是使临床编码过程自动化的最合理方法之一。

再次介绍一下:深度学习是基于神经网络的机器学习方法系列,具有很高的代表性学习能力。这是一组模拟人脑工作的算法,即:它如何通过各种概念和相关问题的层次结构传递请求以找到问题的解决方案。深度学习已成功应用于各个领域:图像处理和计算机视觉,自然语言处理(NLP),机器翻译,自动驾驶系统,欺诈检测系统等。

使用机器学习算法的适当性是由于以下原因:

  • .
  • .
  • .
  • ( ).



本节讨论用于设计ICD-10预测编码模型的一些体系结构。首先,我们用几个用于预测ICD-10代码的标签来制定分类问题。为了预测每个ICD-10代码的概率,我们使用直接通信神经网络的体系结构。接下来,将建立预测的ICD-10代码与最可能值的对应关系。

直观的建模架构是从各种来源收集所有可用数据并训练单个网络。这将反映不同类型的数据之间的相互作用以及它们与最终诊断的关系。这种建模架构称为组合模型,该模型将在结果部分中使用。

图。图3示出了组合模型的图形结构。由于一次使用多个数据源,因此不能认为此架构是最佳的。由于数据源的复杂性不同,因此会导致构建一个过于复杂的网络,并通过多次迭代对超参数进行微调,并尝试使用不同数量的层和损耗函数。因此,数据的模态将不会被很好地研究。



图。 3.组合模型的结构

第二种体系结构包含几个学习如何与各个数据源进行交互的网络,如图2所示。 4.然后,使用平均方法或加权平均值对获得的每个网络的预测数据进行汇总。这导致在学习过程中在属性空间中缺乏来自不同来源的代表性或较小数据表示的优势。但是,这不利地影响了正确决策的采用,因为在从每个数据源收到意见后,根据知识的后期合并直接选择一个源的信息较少。



图。 4.平均模型的结构

因此,我们转向整体建模的架构,如图2所示。 5.模型的结构应使您能够可靠地确定具有不同复杂程度的数据的各种模式,并彻底检查它们之间建立的关系。我们的网络建立在经过单独训练的模型之上,被称为“整体”或“专家”。她模仿临床编码器的工作,使用所有类型的临床数据,就最终诊断做出决策。

实际上,该网络将从已经受过训练的网络中接收专家知识,这比研究单个资源更有效。集成网络将利用每位专家(病理学家,放射学家,药剂师等)的多次迭代经验,获得进行诊断所需的知识。此外,她还具有制定新诊断,从各个网络接收预测数据的能力,而不仅考虑基于任一来源的权重系数最高的预测。



图。5.集成模型的结构

初步结果


本节介绍了用于量化上述模型的准确性的措施以及实验结果。

评估措施


与二进制和多类分类不同,通过几种标准评估分类的有效性取决于这些标准中的哪些是正确的。为了检查模型在各种情况下的行为,他们使用不同的方法来检查结果,以识别由编码不足或过度引起的错误。鉴于上述情况,采用了以下评估措施:

  • 中等精度-通过将精度返回曲线上的值相加而获得的每个阈值的加权平均精度。
  • 覆盖率错误-表示足以覆盖所有标签的排名评估持续时间的值。
  • – y_score, , .
  • F1 – .
  • – , .
  • – , .



表5显示了所有关键绩效指标的模型总体绩效的逐步提高。从数量上讲,这转化为住院治疗数据集的4–5%的改善和处理门诊数据方面的2–3%的改善。不同的来源对模型的准确性做出了各种贡献。例如,从处方中获取的数据最有用。对于每个来源,都使用具有一定复杂度的模型,并且进行精确研究需要不同的时间和迭代次数。深度网络能够以更快的速度在某些数据模式中找到最佳最小值。因此,为了提高准确性,他们分别使用每种模态的训练方法来最大程度地编码数据复杂性的可变性级别。

另一方面,所提出的模型能够在初级诊断中实现人员水平的准确性,尤其是在处理来自医院的数据时。这对于临床编码的各种应用非常重要,例如,主要基于正确的诊断来进行计费。



表5.自动编码精度

表6列出了5种主要疾病,按准确度排序。前三类医院护理数据的准确性超过90%。对于与患者肿瘤检测相关的病例(约占数据的30%),获得了令人鼓舞的约80%的准确性。尽管门诊数据模型的性能指标较低,但准确性仍超过60%(平均约65%),这本身就是一大进步。



表6. 5种最常见的高级诊断案例的模型准确性

模型性能自我意识


机器学习模型的有效性的构造和评估是在训练/评估过程中进行的。使用随机选择的数据进行评估。但是,实时评估当前预测的准确性非常困难。为了解决该问题,引入了一个标准,用于评估模型对自己的预测的信心程度。例如,知道模型的准确性适用于简单的医疗案例而不适用于复杂的医疗案例将很有用。这可以用作人工手动检查特定案件的信号。

我们建议结合ICD-10代码预测模型的置信度评估模型。在图。图6显示了验证评估网络。我们进行了一个培训过程,以考虑所有输入数据来检测预测代码与实际代码之间的不一致。因此,该模型能够考虑初始数据,特定案例的复杂程度以及获得“好”和“坏”预测的可能性来评估预测的可靠性。



图。 6.评估可靠性程度的模型的结构

表7包含了针对一组数据的置信度等级网络测试结果。因此,每个预测都包含对其可靠性的评估。例如,在3%的案例中观察到超过97%的预测准确性,在50%的案例中观察到85%。可靠性评估使您可以在需要时自动进行吸引第三方帮助的过程。提出的模型具有自我意识的特征,易于用户实时启动和评估。



表7.估计各种数据集的可靠性

主要特征:

  • 集成建模与专家网络结合以选择最佳预测,优于其他建模方法。
  • , , , .
  • 4% .
  • ( ), 1%.
  • , ,
  • , .
  • 80% 50% ( , ).
  • , ( ).
  • , .


,


该结果可以作为创建许多应用程序的基础,这些应用程序有助于医疗保健行业的进一步发展。目前,有许多用于临床编码自动化的程序:实时分析,成本预测,物流和人员计划等。我们提供用于预测临床编码的高度专业化的软件解决方案:

决策支持系统
专业于临床编码过程自动化的应用包括基于具有以下功能的预测模型的决策支持系统:

  • 用于临床编码器工作的软件工具。
  • .
  • QA- - .
  • .
  • , .



临床审核可验证编码的正确性及其是否符合既定标准。审核结果用于分析医疗机构的工作,编写报告以及制定提高其有效性的策略。准确和高质量审计策略的发展在本地和国际上都引起了特别关注。但是,此过程目前主要是手动执行的,这就是为什么存在大量常见错误的原因。编码自动化可以在此领域有效,可以在以下方面提供帮助

  • 进行计划和定期审核。
  • 提高准确性和性能。
  • 识别可疑模式和趋势。
  • 对编码过程和编码器功能有更准确的了解。
  • , .



本文阐明了医疗保健领域中临床编码的功能,并显示了此过程自动化的有效性。在提出的一系列架构中,深度学习的集成模型最适合此任务。通过添加新的数据集进行分析,它能够成功地应用来自各种来源的数据,具有进一步开发和提高准确性的良好前景。它使用,处理和建模各种类别的数据,包括非结构化,半结构化和结构化表格数据。由于临床编码领域对错误非常敏感,因此使用了一个额外的系统来实时自动评估预测的准确性。

我们使用Maharaja Nakhon医院(清迈)的数据库对模型进行了量化,证明了它们在实际临床编码实践中的巨大潜力。模型在学习过程中不了解最终结果,这是另一个优势。因此,他们能够根据新的临床数据来源对ICD-10代码进行一致且连续的预测,直到患者出院为止。此功能提供了实时通知当前诊断画面的功能。随着新病历的到来,这些模型能够即时学习。

进一步的观点


我们仅处于临床编码自动化系统开发的初期阶段,并且正在为将该服务引入到大量医疗机构中开辟新的视野。我们能够为决策支持系统的构建提供帮助,并展示其优势,并将解决方案集成到现代流程和系统中。

All Articles