对电子病历应用数据挖掘的辅助医疗诊断研究
吴炜① 杨梅瑰② 唐飞岳③
①中国电信湖南省分公司政企客户部,410011,长沙市五一大道359号
②中南大学湘雅三医院医务科,410013,长沙市桐梓坡路138号
③湖南交通职业技术学院信息管理系,410004,长沙市韶山南路635
1 引言
医疗质量管理是医院管理工作的核心和实质所在,推进与落实医疗质量管理是减少医疗安全隐患、遏制医患纠纷发生的重要举措。医学科学的特性决定医疗风险必然存在,医疗服务不可能象其他商品生产行业实现零缺陷[1],但其中的人为因素是可控和可避免的。以2008年山东省3个地级市的医疗事故鉴定档案的数据统计为例分析,其中72.66%的事故原因是可控或可避免[2]。医方对病情未做全面考虑,过分依赖经验或辅助检查结果,造成漏诊、误诊或诊断不及时延误治疗;或对某些潜在危险估计不足、医疗记录不完整、不全面甚至出现错误,是影响医疗质量的最直接的原因。如何避免诊断上的疏失及错误,是医疗管理必须考虑的重要问题。
在医务人员的诊断过程中,通常以患者的口述或症状表现,辅助以检查结果做为诊断的依据,但诊断的正确程度基本上依赖于医务人员的临床经验及专业素质。对已知症状未能做出正确的诊断,而导致病情延误治疗或恶化是常见的医疗质量缺陷。随着信息技术的发展,记录相关诊断信息的载体已逐渐从传统纸本病历转变成电子病历(Electronic Medical Record, EMR)。如何从电子病历数据库中找出诊断项目与诊断结果之间的关联性,以最简洁有效的几个因素辅助医务人员做出准确判断,减少误诊及疏忽的可能性,已成为利用电子病历来提高医疗质量的重要研究课题。
2 理论分析
2.1 概述 “数据挖掘”是泛指从海量的数据中分析萃取,以探索得到非显然的、未知的、潜在的、可能有用的信息未知为主要目的复杂活动,最初在1992 年由Frawley 等人首次提出[3]。1996年Fayyad等人对流程进一步细化为五个步骤[4]。同年,Brachman 与Anand在Fayyad的研究基础上将流程细分为九个步骤[5]。通常
来说,在确定研究方向或要解决的问题后,数据挖掘的工作流程为:原始数据资料的搜集;将数据资料分组,转换有意义的信息;在信息中甄选出有用的知识,从而实现“数据->信息->知识”的转变。
目前数据挖掘的各种技术已被广泛的应用在经营辅助决策、消费行为分析等多个领域。针对特定疾病的诊断与预测也在国内外得到一定的应用,例如以线性判别分析、主成分分析,结合类神经网络以鉴别青光眼;以及利用多群判别分析,结合血清检验与放射性治疗的产生的线性函数,透过ROC曲线分析预测C型肝炎病变为肝硬化的概率。在此,本文提出以数据挖掘技术为基础,结合统计分析与规则推导理论,对电子病历应用数据挖掘以实现医疗诊断辅助的研究。
2.2 数据预处理
2.2.1 数据修剪 由于数据挖掘通常面对的是数量庞大的数据,为提高知识挖掘效率,通常会对数据进行预处理,有效地简化或修剪数据但不失去原本数据中可能隐含的知识。数据修剪的理论依据主要是删除与预计挖掘结果较不相关,或可能误导挖掘结果的数据,以减少整体的数据量与计算量,并增加挖掘结果的精确度。数据修剪也是数据挖掘技术中一个重要的研究方向,本文中不做深入探讨。
针对布尔型(Boolean)的数据项,通常可以直接修剪。针对数值型(Numeric)的数据项,采用相关系数法[6]来做数据修剪,通过衡量两数值变量的线性关系强度及正负偏离的参数,来决定数据是否保留。
2.2.2 空白数据补齐 原始数据中通常会存在一部分被标示为“BLANK”、“NULL”的空白数据。为确保所分析数据的完整性,对此类数据必须予以补齐。处理空白数据的方法大致上有以下五种:直接忽略,该方法操作简单 |
|