数据挖掘技术在医学中的应用探讨
张晓东 宋生勤
中山大学附属第三医院信息科(广州 510630)
摘要:本文介绍了数据挖掘的概念,任务和效果的评估方法,初步探讨了数据挖掘的各
种方法以及它在医学领域中的应用。
关键词:数据挖掘;决策树;神经网络;支持向量机
The Discussion of Application with Data Mining Technology
in Medicine
ZhangXiaodong Dep. of Info. Service The Third Affiliated Hospital of Sun Yat-sen University
zhangxiaodong@163.net (GuangZhou 510630)
Abstract: In this paper we introduce the concept, task of data mining, including the
performance evaluation methods. And we discuss the application with the technology in
medicine.
Keywords: data mining; decision tree; neural network; support vector machine
1. 引言
近年来,数据挖掘技术引起了信息产业界的极大关注,其主要原因是先进的科学手
段为我们产生了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识。获取
的信息和知识可以广泛用于各种应用,包括商务生产、生产控制、市场分析、工程设计
和科学探索等。数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述
为“数据丰富,但信息贫乏”。快速增长的海量数据收集、存放在大型和大量数据库中,
需要强大的工具进行分析。
目前的数据库系统可以高效地实现数据的录入、查询、统计等较低层次的功能, 但
无法发现数据中存在的关系和规则, 无法根据现有的数据预测未来的发展趋势,无法发
现海量数据背后隐藏的重要的知识, 出现了“我们被数据所淹没,但却缺乏知识”的现
象。
随着医院信息系统(hospital information system, HIS)的普及以及人类基因组计划和
分子生物医学信息科学的飞速发展,医学数据空前增长,像功能基因组和蛋白质组的数
据已成指数级增长。如何对大量的数据进行存储、管理、对比、检索,寻找其相关性,
挖掘数据中所隐藏的规律,以及对海量的数据进行自动获取,需要新的技术。
2
2 数据挖掘的概念
2.1 数据挖掘与知识发现
简单地说,数据挖掘(data mining ,DM),是从大量数据中提取或“挖掘”出有用的知
识[1]。数据挖掘技术进行数据分析,可以发现重要的数据模式,对商务决策、知识库、
科学和医学研究做出了巨大贡献[2]。另外还有一个概念是知识发现(knowledge discovery
in database,KDD),它被Fayyad 定义为:KDD 是从数据集中识别出有效的、新颖的、
潜在有用的,以及最终可理解的模式的非平凡过程[3]。
知识发现过程一般由以下一些步骤组成:1.数据清理;2.数据集成;3.数据选择;
4.数据变换;5.数据挖掘;6.模式评估;7.知识表示[1]。从中可以看出,数据挖掘是知
识发现中一个步骤,数据挖掘的广义观点是从存放在数据库、数据仓库或其它信息库中
的大量数据中挖掘有趣的知识的过程。相对来讲,数据挖掘主要流行于统计界、数据分
析、数据库和管理信息系统界;而知识发现则主要流行于人工智能和机器学习领域。
2.2 数据挖掘的任务
数据挖掘的任务常见有以下几种。
1.数据总结:其目的是对数据进行浓缩,给出它的紧凑描述。它主要关心从数据泛
化的角度来讨论数据总结。数据泛化目前主要采用多维数据分析方法和面向属性
的归纳方法。
2.相关性分析:也称作关联发现。其目的是发现特征之间的相互依赖关系,常用的
技术有回归分析、关联规则、信念网络等。
3.聚类分析:它是根据数据的不同特征,将其划分为不同的数据类别。它使得属于
同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的
大。在机器学习中聚类属于无监督学习。
4.分类与回归:它是数据挖掘中非常重要的任务,应用最为广泛。分类和回归都可
用于预测,其目的是从已知的历史数据记录中自动推导出对给定的数据的推广描
述,从而能对未来数据进行预测。分类的输出是离散的类别值,而回归的输出则
是连续数值,它们都属于有监督学习。
5.偏差检验:偏差分析包括分类中的反常实例、例外模式、观测结果对期望值的偏
离以及量值随时间的变化等,基本思想是寻找观察结果与参照量之间的有意义的
差别。通过发现并分析异常,引起人们对特殊情况的注意。
数据挖掘技术作为一门具有广泛应用的新兴学科,已经在文本分类、Web 知识发现、
手写 |
|