图像数据挖掘在SARS辅助诊断中的应用
万寿红,李 曦,龚育昌,谢铉洋
(中国科学技术大学计算机科学技术系,安徽省计算与通讯软件重点实验室,合肥 230027)
摘 要:严重急性呼吸道综合症(SARS),又称“非典型肺炎”,是目前人类面临的一种严重危害生命和健康的新发传染病。利用PACS系统中的胸部数字X光(DX)正位图像,采用图像数据挖掘技术,设计并实现了SARS计算机辅助诊断系统。经过数据清理定位DX肺部图像的感兴趣区域,分割出双肺区域,提取特征参数,构造决策树,实现对SARS患者和一般肺炎胸部DX正位图像的分类。实验结果表明,检测SARS图像正确率达到70%以上。
关键词:图像数据挖掘;计算机辅助诊断;SARS;图像分割;决策树
Application of Image Data Mining to
Computer Aided Diagnosis SARS
WAN Shouhong, LI Xi, GONGYuchang, XIE Xuanyang
(Department of Computer Sci. & Tech., University of Sci. & Tech.,
Anhui Province Key Laboratory of Software in Computing and Communication, Hefei 230027)
【Abstract】Severe acute respiratory syndrome (SARS), called “typical Pneumonia”in China, is a newly occurred fast transmittable infectiousdisease which badly endangers human’s life and health. This paper designs and realizes a computer aided diagnosis SARS based on image datamining techniques for digital X-Ray images in picture archiving and communication system (PACS). First, lung region of interest is located afterdata cleaning. Then lung region segmentation and feature parameters extraction are performed. The decision tree is constructed for discrimination ofSARS and “typical Pneumonia”. The experiment result shows that more than 70% SARS cases can be detected.
【Key words】Image data mining; Computer aided diagnosis(CAD); Severe acute respiratory syndrome(SARS); Image segmentation; Decision tree
严重急性呼吸道综合症(Severe Acute Respiratory Syn-
drome, SARS),又称“非典型肺炎”,是目前人类面临的一种严重危害生命和健康的新传染病。由于受到医生经验、水平和主观因素等影响,诊断的正确性与效率仍不利于SARS的诊疗与疫情控制,因此迫切需要借助有效的计算机辅助诊断(computer aided diagnosis, CAD) [1]方法,以快速、准确地发现与诊断SARS疑似病例。当一个患者有胸部的疾病,如肺结核、肺癌以及SARS等疾病时,其胸部数字X光(DX)正位图像上会产生肺部节点,纹理异常等症状。研究表明胸部DX正位图像对SARS的诊断起着决定性的作用[1,2]。本文根据广州医学院第二附属医院PACS数据中的大量胸部DX图像,结合医学专家的经验知识,利用图像数据挖掘技术[3,4],设计并实现了SARS计算机辅助诊断系统,为医生的辅助诊断提供依据,提高SARS疑似病例及时确诊的准确率。
row2
row1
col1
col2
sl
该系统的图像数据挖掘过程包括数据清理、肺部区域分割、特征提取、数据挖掘4个步骤。
1 数据清理
数据清理是从PACS数据库中过滤出胸部DX正位图,并定位肺部感兴趣区域(ROI)的过程。PACS系统中存有多种类型图像,包括CT、MR等非DX图像,它们很少有大型图像数据,在图像的大小上与DX有很大区别。所以首先采用图像分辨率作为衡量指标从数据库中分离出DX图像。
1.1 DX正位图的选取
胸部DX图像包括正位图、侧位图两种,而我们所关心的是正位图。观察发现,正位图的整体亮度及左右边界均比侧位图亮,所以对每幅图像选取平均灰度、图像最左和最右列的平均值及标准方差这5个特征参数形成描述向量,构造训练集,用C4.5算法建立决策树。对561幅胸部DX图像进行分类,结果表明只有5幅图像分类错误,正确率达到99.16%。整个的判定过程实际上只使用了平均灰度、图像最左列的标准方差、最右列的平均值3个决策变量。
1.2 ROI 定位
图1 DX胸片的肺部ROI边界
由于DX肺部图像中包含了一些与诊断无关的信息,而我们感兴趣的仅仅是图像中的肺部区域,通过对感兴趣区域(ROI)自动定位,过滤掉无关信息,从而引导后续算法将“注
基金项目:广州医学院第二附属医院资助项目“医院信息综合管理系统”
作者简介:万寿红(1971-),女,硕士、讲师,主研方向:计算机视觉,图像处理;李曦,副教授;龚育昌,教授、博导;谢铉洋,博士生
收稿日期:2006-02-02 E-mail:wansh@ustc.edu.cn
意力”集中在ROI,进一步提高图像分析处理速度及后继边缘检测的正确率。一个肺部区域由row1,row2,col1,col2这4个参数决定,分别表示肺部区域的上边界、下边界、左边界和右边界,如图1所示。
1.3 列边界的提取
分析图像的统计特性发现,肺叶处灰度值偏小,而图像从左右列边界处经过较亮的软组织带进入左右肺叶。图像的列均值曲线(如图2)在两侧各形成一个波峰,曲线中间突起的波峰则表示脊椎中轴线位置SL。由于噪声的影响,往往在达到峰值前已与肋膈角相切,因此利用列均值的均值MM(Mean of Means),即图中虚线所示,按一定比例s做水平线与列均值曲线相交,并取最左和最右交点col1’和col2’作为列边界Col1和Col2。试验中选取s=0.9得到了较好的结果。12 000 8 000 4 000 colSTD曲线SL col1’ MM col2’ MEAN曲线0 400 800 1 200 1 600
图2 列均值曲线
1.4 行边界的提取
行边界的行均值无明显特征。考虑到行上边界处于双肩部位,对称性在图像中沿SL位置呈对称分布。而偏度(skewness)恰好描述了一组数据围绕采样平均值的不对称程度。为此采用图像的行偏度作为衡量标准求出行上边界row1。设图像某行数据为
1(,...,)nxx=x
则偏度skew定义为33()XXExskewμσ−=
其中,Xσ表示标准方差,Xμ表示平均值,E表示数学期望。偏度skew等于0的位置就是肺部行上界row1所在位置。
肺部区域行下界多位于胸腔与腹腔结合部位,影像特征复杂,偏度值无明显特征。考虑到肺部区域满足一定的宽高比,用下面的公式计算行下界: 2221ColColRowRowWH−=+
其中,WH表示肺部区域宽高比值。WH是经验参数,通过多幅DX胸部正位图象的肺部ROI区域的统计分析,结合放射科专家的先验知识得到。
2 肺部区域分割
如何快速准确地检测双肺边缘轮廓,是计算机辅助诊断的关键问题。DX图象具有边缘不清晰、噪声大等特点,尽管常规的边缘检测方法(sobel、Prewitt﹑kirsch等)运算比较简单,但抗干扰能力较差,在高分辨率情况下会放大不必要的细节,导致不合理的轮廓;在低分辨率情况下会丢失图像的部分边缘信息,产生失真和轮廓漏检。而活动轮廓模型(Active Shape Model, ASM)[5,6] 算法虽然对图像的局部模糊不敏感,但需要预先通过大批样本进行训练来建立肺部轮廓线的统计模型,算法过于复杂。
本文 |
|