医疗行业数据集成中的数据质量问题研究
林靖生① 郭茜②
①上海交通大学医学院附属瑞金医院计算机网络中心,200433,上海市瑞金二路197 号
②Dimensional Insight, Inc. 美国泓维软件有限公司,510145,广州市荔湾区中山七路85-99号1603
之一
关键词 数据集成 数据质量 数据清洗 决策支持 数据挖掘
摘 要 分析了目前医院在建立数据分析系统和数据挖掘系统,数据集成环节中医院当
前的现状和存在的问题及应对办法。在医院信息系统逐步建成后完善后,管理和利用好各
系统收集的数据,为分析系统和决策系统服务,使数据为医院带来更多的价值是医院信息
化建设的又一个高地。各系统在数据集成过程中的数据质量问题直接影响到了日后分析和
决策的正确性,在系统建设过程中扮演了重要的角色。需要利用科学的方法和有效的工具,
建立一套定义、评价、效验、改善数据质量的方法,为医院数据集成提供有效的保障。
1 引言
数据集成已经成为医院数据挖掘和在线分析系统不可或缺的前提,因此,我们就不得
不正视与之密切相关的数据质量问题。决策系统和分析系统的正确结果都依赖原始数据的
质量,没有数据质量的保证就不可能得到正确的分析结果和正确的决策判断。中国医院目
前在线分析系统和数据挖掘项目里,有相当部分难以达到预期目标甚至相去甚远,造成这
种结局的一个重要原因就是中国医院复杂的信息化背景造成的数据质量问题。在数据集成
项目中忽略数据数据质量问题,将为日后的信息化建设埋下隐患。如果发现各系统中的数
据质量问题、在数据集成中如何有效地检测和效验数据质量、如何在现有环境中利用有效
手段干预和改善数据质量是我们必须面对的问题。
2 医疗行业数据环境现状
为了为医院决策支持系统提供良好的数据分析和数据挖掘环境,在医院数据集成项目
中会牵涉到医院各方面的信息系统如HISRISPASCHR物流等,医院的信息系统建设时
间阔度较长,各应用和软件提供商业比较分散、当时也没有可以参照的建设标准和数据标
准。有很多系统还是使用文件方式存储数据。经过多年的数据维护、搬迁,及当时输入时
487
缺乏效验。系统上线时功能模块逐步上线导致的数据缺失、数据不完整、
2.1 医院业务系统中一些存在问题的数据的情形
2.1.1 常识形错误 如:病人实际出生年月为1978 年,输入时误将9 输入为8,导致病人
年龄130 岁。病人住院天数5 年确诊天数1027 天, 输入年月日输入错误,导致病人确诊
天数大于住院天数。
2.1.2 不符合业务逻辑和规定 如:病人的病史记录有气管插管、气管切开等抢救治疗措
施,但在病人的费用记录里没有相关的收费,病史记录里有过告病危但没有病危记录,病
人实际没有进行一级护理或特级护理,但收费按特护或一护收费。
2.1.3 数据不完整 如:病人处方信息中,有处方的汇总记录和总费用记录,但缺少明细
记录。有手术但没有数据报告或手术记录。
2.1.4 数据缺乏实效性 如:手术完成后应及时填写数据切口等级,如果到了出院才输那
再围术期抗菌用药的分析就不能做到及时提示,在可控期间进行控制。
2.1.5 数据统计口径差异 如:病史科室、计算机中心、财务科室可能都拥有自己的信息
系统和对事物的描述方法。如门诊人次、出院 |
|