首页 基于网格的医学数据分析技术研究与实现

基于网格的医学数据分析技术研究与实现

举报
开通vip

基于网格的医学数据分析技术研究与实现基于网格的医学数据分析技术研究与实现 华 中 科 技 大 学 硕 士 学 位 论 文 摘 要 随着数字化医学数据分析技术的发展,来自临床诊疗、科研教学等方面的强烈 需求,促使医学数据分析技术一直是研究的热点课题。而专门针对职业病中典型疾 病建立有效的预测模型成为急需解决的问题。目前国内外针对典型职业病主要采用 通用型数据分析方法,建模分析结合疾病特点能力较差、预测精度低。同时每天都 在各医院中产生大量医疗数据,数据处理利用率低、资源整合力差。 针对上述情况,医学主观导向分析系统 MedicalSAS(Med...

基于网格的医学数据分析技术研究与实现
基于网格的医学数据分析技术研究与实现 华 中 科 技 大 学 硕 士 学 位 论 文 摘 要 随着数字化医学数据分析技术的发展,来自临床诊疗、科研教学等方面的强烈 需求,促使医学数据分析技术一直是研究的热点课题。而专门针对职业病中典型疾 病建立有效的预测模型成为急需解决的问题。目前国内外针对典型职业病主要采用 通用型数据分析方法,建模分析结合疾病特点能力较差、预测精度低。同时每天都 在各医院中产生大量医疗数据,数据处理利用率低、资源整合力差。 针对上述情况,医学主观导向分析系统 MedicalSAS(Medical Subjective Analysis System)将医学数据分析技术同网格环境相结合,利用网格平台资源整合、高性能 计算的优势,通过建立四大类通用数据分析模型和专有组合预测模型,实现了针对 典型疾病的预测。针对典型疾病,给出了指数平滑-神经网络(ES-BP)和模糊 C 均值 聚类-神经网络(FCM-BP)等组合建模预测方法,通过将指数平滑和模糊 C 均值聚类 建模输出分别作为 BP 网络输入,构造自学习神经网络对患者未来得病情况做预测。 同时基于网格平台,实现了数据分析算法的服务封装部署和服务请求调度,提供了 从数据预处理、模型训练评估到模型结果可视化的流程操作,使用简单且具有良好 的可扩展性。 系统功能测试与算法性能测试表明,基于传统数据分析方法实现的 ES-BP、 FCM-BP 组合预测模型能较好的克服单独建模时的缺陷,并能结合疾病数据特征, 综合各致病因子对工人未来得病情况进行预测。组合模型预测精度均高于 Weka 系 统中单独建模预测精度,在矽肺、高血压疾病中针对工人是否得病、得病年龄等预 测中取得了较好的测试效果。 关键词: 组合预测,矽肺,BP 神经网络,指数平滑法,FCM 聚类 ,网格 I - 华 中 科 技 大 学 硕 士 学 位 论 文 Abstract With the development of medical data analysis techniques, the strong demand from clinical treatment, research learning makes it become a hot topic. How to find an effective prevention method on occupational diseases becomes an urgent problem to solve. Classical data analysis methods are widely used for diseases with low forecast accuracy. At the same time, hospitals have a large number of cases of clinical data every day, which makes the sharing and using of the whole information extremely low and difficult. According to these circumstances, the medical subjective analysis system (MedicalSAS) provides a professional medical analysis platform for medical experts, with the combination of medical analysis and the sharing of resources, job scheduling on grid. Modelling on the submitted disease data through effective data analysis algorithm, it can predict the typical characteristics of disease, and give suggestions on the analysis of disease information. One of the key technologies in MedicalSAS is the establishment of combined forecasting methods on the silicosis and hypertension diseases. Two combined forecasting methods based on BP neural network are proposed to predict the possible rate and ages of sufferers to suffer the diseases. At the same time, CGSP 2.0 is used to implement the encapsulation and deployment of data analysis grid services, and the operations on data preparation, model establishment, model evaluation and model visualization are also provided. The platform is user-friendly and scalable. Function and performance test showed that, the combined forecasting methods based on the traditional data analysis algorithms can make a prediction to exert the superiorities of the time series datum of dust-exposed workers and other pathogenic factors, and the efficiency and accuracy of the hybrid models are enhanced greatly contrasted with single BP neural network. The hybrid models can be effective methods for the silicosis and hypertension diseases prediction. Key words: Combined forecasting, Silicosis, BP neural network, Exponential smoothing, FCM clustering, Grid II - 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集 体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中 以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保 留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本 人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密? , 在_____年解密后适用本授权书。 本论文属于 不保密?。 (请在以上方框内打“?”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 华 中 科 技 大 学 硕 士 学 位 论 文 1 绪论 1.1 研究背景与意义 随着数字化医学诊断技术的发展以及医院信息化水平的推进,来自临床诊疗、 科研教学等方面的强烈需求,促使医学数据分析技术一直是研究的热点课题。而专 门针对慢性病、职业病中典型疾病建立科学有效的预测分析方法成为目前急需解决 的问题。职业病、慢性病研究的最大难点就是数据来源复杂多样、数量庞大、数据 整理和归档工作量大、费时费力;并且国内外针对矽肺、高血压这样的典型疾病, 主要都是采用通用型数据分析方法,建模分析普遍存在不能结合疾病数据特点、建 模预测效果不理想、预测精度低等问题。同时,每天都在不同的医院、医疗研究机 构中产生着大量的临床数据、病例资料,对这些数据的处理利用率低、资源整合力差。 医学数据分析技术涉及到很多学科,包括医学统计学、职业流行病学、数据挖 掘等等[1]。传统的针对矽肺等职业病的建模研究主要采用通用数据分析模型,包括采 用时间序列分析、非线性回归分析等对接尘队列的研究,在粉尘浓度监测、致病因 子分析方面也取得了很多研究成果[2],但是在针对矽肺等典型疾病特征的预测中,还 没有合适有效的建模分析方法。只有针对典型疾病建立专有预测模型,才能在疾病 预测中取得好的预测效果,为此可以将多种单一预测模型通过一定方式组合起来建 立组合预测模型。组合模型可以更有效的结合医学数据特征并发挥各模型自身长处, 避免单一建模自身缺陷,获得优于单一预测模型的预测效果和预测精度。通过医学 组合建模预测技术建立的医学主观导向系统,可以由医务工作者自己根据疾病情况 选择不同组合模型,并设置不同预测目标值对疾病建模预测。这样不但提高了医学 疾病数据的利用率,提高了疾病预测的准确性,还能为医学培训、医学研究与教学、 计算机辅助预测等提供数字实现手段。 医学主观导向分析系统需要建立有效的医学数据分析模型,同时由于医学数据 量大且来源复杂,需要海量的计算,迫切的需要一个拥有大规模计算能力的环境。 基于网格的医学主观导向分析系统针对此类情形而 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 ,充分利用网格平台的异构 资源整合和高性能计算能力,由网格平台完成建立数据分析建模所需的计算,并利 用有效算法完成对典型疾病预测分析和服务调度,最终在网格节点上实现针对典型 疾病的预测分析模型。 1 华 中 科 技 大 学 硕 士 学 位 论 文 1.2 国内外研究概况 1.2.1 医学数据分析技术简介 医学数据分析技术是通过将数据分析建模算法、医学统计学分析方法和具体典 型疾病(矽肺、高血压等)数据相结合进行建模和预测分析,从而获得对医生诊断决 策具有实际参考价值的辅助信息的一种方法[3]。这些辅助信息既包括针对典型疾病的 群体发病特征的预测,也包括根据某种规则对已有疾病数据信息综合分析所得到的 参考诊断意见。在计算机辅助诊断预测技术发展迅速的今天,数字化医学决策支持 系统的研究会对医学数据分析方法学的发展产生巨大的推动作用,其应用可以提高 疾病预测诊断的准确性,减轻医生的会诊压力,提高效率。 医学数据建模与分析是近几年兴起的新兴交叉学科,在医学决策辅助诊断中有 着重要的作用。借助数据分析建模的有力手段,医学疾病数据的处理和分析方法得 到了极大的改变。这不仅可以基于现有的电子病历数据和数据分析方法来极大的提 高医学临床诊断水平,而且能为医学研究与教学、计算机辅助诊断预测等提供数字 实现手段。因此,目前世界上有不少国家的研究机构致力于这个领域的研发工作, 并且研究出一些面向临床的、功能简单的医学数据处理与分析系统用于辅助诊断预 测。 1. MYCIN 由斯坦福大学开发的 MYCIN 系统通过对细菌感染疾病的诊断和治疗提供咨询, 确定疾病的种类并提出处方[4],它利用了专家日常的决策知识,可以对不完全和不确 定的信息进行推理,指导从患者症状出发,确定疾病种类及相应的治疗方法。不但 具有很高的性能,而且具有解释功能和知识获取功能。但知识库的控制结构和表达 方式复杂,不易理解,并且终端需要大量的人机交互,效率很低,所以一直不能应 用于临床。 2. KnowledgeSEEKER 由 Angoss 公司开发的 KnowledgeSEEKER 系统可以展示病人饮酒方式、吸烟习 惯及身高对血压高低的影响[5]。但 KnowledgeSEEKER 是依附于数字化医疗产品厂商 提供的,价格昂贵,而且临床应用功能不够丰富,不能达到对动态医学知识的提取 和分析,进行医疗辅助诊断所需要的诸多功能。 3. Intelligent Miner 2 华 中 科 技 大 学 硕 士 学 位 论 文 Intelligent Miner 是 IBM 公司的 DM 产品,它提供很多 DM 算法,包括关联、分 类、回归、预测模型、偏离统计方法、数据准备模型和数据可视化工具。IM 有两大 特点:一是它的 DM 算法可伸缩;二是它与 IBM DB/2 关系数据库系统紧密地结合 在一起。IM 的优点在于输出结果具有良好的可视化显示及较宽的算法选择范围,其 缺点是自动化操作程度低。而且价格昂贵,不能在中小医院及企业普及。 4. AlphaMiner 国内对于这方面的研究也颇有成果,由哈尔滨工业大学和香港大学联合开发的 AlphaMiner 系统是国内较大的用于数据分析和辅助诊断的数字化决策支持系统[6]。 AlphaMiner 在 新 西 兰 怀 卡 托 大 学 开 发 的 数 据 分 析 处 理 软 件 包 Weka(Waikato Environment for Knowledge Analysis)基础上实现,提供了工作流形式的数据加载及展 示、建模预测、模型评估等功能,可以帮助用户建立一个完整的数据分析流程,并 提供了强大的分析功能,还可以构建特定的商业分析功能,是国内相关领域里一个 很好的典范。 1.2.2 组合建模技术简介 如何针对典型疾病(矽肺、高血压等),通过合理的建立专有数据分析模型,对 疾病特征做科学合理地预测分析是医学数据分析中主要要解决的问题。研究多模型 组合方式下的建模预测方法,使更有效的利用医学数据自身特点并发挥各模型自身 长处,以获得优于单一预测模型的预测效果,是一项很有现实意义的工作。 (combined forecasting)就是设法把不同的预测模型组合起来,综合 所谓组合预测 利用各种预测方法所提供的信息,以适当的加权平均形式得出组合预测模型[7]。组合 预测最关心的问题就是确定组合的个数以及如何求出加权平均系数,使得组合预测 模型更加有效地提高预测精度。组合预测比单个预测模型考虑问题更系统、更全面、 更科学,能有效地减少单个模型预测过程中一些环境因素的影响。 1969 年,Bates.J.M 和 Granger.C.W.J 首次对组合预测方法进行系统地研究。其研 究成果引起预测学者的重视。进入二十世纪七十年代以来,组合预测方法的研究进 一步得到了重视。1989 年,国际预测领域的权威学术刊物《Journal of Forecasting》 还出版了组合预测方法专辑。这充分说明了组合预测方法在预测学中的重要地位。 最近十几年以来,国内预测学界也非常重视组合预测方法的研究,也取得一系列的 研究成果,电子科技大学的唐小我教授的研究成果尤其突出。二十世纪九十年代以 3 华 中 科 技 大 学 硕 士 学 位 论 文 来,组合预测方法成为国内外预测界研究的热点课题,组合预测方法已取得一系列 研究成果。 目前,在组合建模预测方法的研究中取得的成果主要有[7]:专家意见法、方差最 小法、模糊数学法、人工神经网络法、卡而曼波法等。另外,简单加权算术平均组 合预测模型、残差矩阵组合预测模型、线性回归组合预测模型、基于支持向量机回 归的非线性组合预测技术、基于 BP 网络的非线性组合预测技术、ARIMA 模型和指 数平滑方法、临界 AR 模型、广义自回归条件异方差模型(LARCH)、模糊神经网络 模型等,它们都有各自的特点和长处。个别单模型方法在做疾病预测效果较差时, 组合预测方法是一种全新的预测方法,其理论和方法逐步完善、应用范围不断拓广。 对同一预测问题而言,由于考虑的角度、方式和层次等不同,可为其提供不同的预 测方法,将这些方法进行组合,可增大信息量,能更好地进行预测。组合预测将各 种预测效果进行总体性综合考虑,比单个预测模型能更系统、更全面的对医学现象 进行描述[8]。 1.2.3 网格环境下的医疗数据共享平台现状与发展趋势 基于网格环境的数字化医学决策分析技术是当今的研究热门。随着数字化医学 诊断技术的发展以及医院信息化的推进,医院中各种电子病历数据的数量与日俱增, 由于各单位信息系统在数据编码、消息交换等各方面存在较大差异,信息“孤岛” 现象较为严重,跨医院、跨地区、跨领域的健康数据共享及分析极其困难。因此人 们对整和利用这些疾病数据的工具的需要越来越迫切,这为网格环境下的医学数据 共享平台的发展提供了基础和契机。国外开发了一些著名的利用网格技术的数字化 医疗决策数据共享分析平台,而国内相关系统还不多见[9]。 在利用网格技术发展数字化医疗的研究中,西方国家走在了世界前列。由美国 宾夕法尼亚大学领导、与 IBM 公司合作的计算网格项目“国家数字乳房 X 线照相档 案”(National Digital Mammography Archive, NDMA)经过几年的研究开发目前已联结 北美 4 家医院,最终可使多达数千家医院将乳房病历数据以数字化形式存储,经授 权医务人员能够随时访问病人记录,利用分布的海量信息、借助计算网格提供的分 析工具实现个别病例诊断与乳腺癌多发人群界定,实现计算机辅助诊断,支持相关 的教育培训项目以及相关的科学研究[10]。欧洲先后建立了几个覆盖全欧洲的大型网 格系统,其中比较具有影响力的有 DataGrid 和 HealthGrid 等。Data Grid 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 中的 4 华 中 科 技 大 学 硕 士 学 位 论 文 WP10(WorkPackage 10)是对生物信息和医学方面的数据网格及应用[11]。项目的参与 者还开发了一些根据组织纹理信息对乳腺癌自动分类和识别的计算机辅助诊断工 具,识别结果已接近医务人员的诊断,因而能在乳腺疾病的分类中起辅助作用。欧 盟的 HealthGrid 项目是一个计划研发周期超过 20 年、涵盖多个交叉领域的大型项目, 它计划通过全欧洲研究单位的合作与数据信息整和在医疗信息、生物信息、神经信 息领域及相关交叉学科的研究中取得突破。 我国在医疗信息基础设施领域的研究还处于起步阶段,各种医院信息系统(HIS、 RIS、PACS 等)刚刚在各大、中型医院和社区普及。由于没有统一的国家标准,各个 系统所采用的标准各异,未能实现与医院信息系统的有效交互。不同系统间或者相 同系统不同版本间的信息交换存在着很大的障碍,并进一步限制了跨医院跨区域的 健康数据的共享[12]。目前在国内基于网格计算技术的数字化医疗数据共享平台比较 少。上海交通大学网格中心利用 IBM 近年来在网格技术方面的研究和开发成果,集 成上海交通大学医学院放射医学疾病数据融合处理技术、上海华山医学数字化虚拟 人重建技术、上海交通大学病历数据处理及辅助诊断等科研成果,在上海交大网格 中间件平台上初步构建了一个病历数据分析处理网格平台[13]。中山大学的医学辅助 诊断网格,实现了医院间 PACS 系统的数据共享,借助这一系统医生可以快捷地获 得各种医学电子病历数据以辅助自己进行当前诊断[14],这将有利于医生提高疾病的 诊断效率并降低误诊的机率。 1.3 研究内容 基于网格的医学主观导向分析系统 MedicalSAS(Medical Subjective Analysis System)课题来源于 863 课题“基于网格的数字化医疗决策支持系统”针对疾病数据 的数据挖掘与知识分析部分,旨在通过从医学数据仓库中提取相关数据,进行分析建 模。针对矽肺、高血压等典型疾病,为疾病的科学预测提供参考。同时利用网格技术 整合分布资源的优势,屏蔽网格信息资源的异构性,实现疾病预测的数字化医疗知 识分析方法集成,最终实现网格化的医学主观导向分析系统。基于网格平台和组合 建模预测技术建立的 MedicalSAS 系统,可以由医务工作者自己根据疾病情况选择不 同组合模型,并设置不同预测目标值对疾病建模预测,对于每一步建模的中间过程 都可以进行主观导向干预,并对建模流程进行动态加载和保存。 而如何针对特定疾病(矽肺、高血压等),采用专有算法对疾病特征进行预测是 5 华 中 科 技 大 学 硕 士 学 位 论 文 模型训练与分析模块中的难点。主要工作是针对特定疾病,通过建立四大类通用数 据分析模型和专有组合预测模型,实现数据处理、疾病预测、模型结果的可视化等 流程化操作。在四大类经典算法实现基础上,将多种预测模型通过一定方式组合, 使之更有效的结合疾病数据特征并发挥各模型自身长处,避免单一建模自身缺陷, 以获得优于单一预测模型的预测效果和预测精度。将多个模型组合预测建模时,可 以分别是各个模型单独建模预测后得到的预测结果的动态组合,也可以把一个模型 的建模输出作为另一个模型的输入进行模型的迭加预测分析。 在经典算法和专用算法实现的基础上,完成对算法进行服务封装扩展,使之成 为适应网格应用平台的新型的疾病诊断预测的主观导向分析系统。研究难点在于: 如何屏蔽物理网格资源的异构性和各类数据建模算法的差别,在不同网格计算结点 上对外提供一致的数据分析算法服务访问接口,实现四大类数据分析算法的统一调 度。总之,要将数据分析建模算法应用于动态的网格环境,利用网格在资源整合、 适应医疗数据的大数据量整 高性能计算方面的优势,屏蔽不同各计算资源节点差异, 合分析计算的需求。 1.4 文章组织结构 第一章首先介绍了基于网格的医学决策支持系统的研究背景和意义,简要介绍 了国内外研究概况,包括医学数据分析技术、医学组合建模预测方法和网格环境下 的服务调用及作业监控技术。最后介绍了本课题的研究内容和文章的组织结构。 第二章首先介绍基于网格的医学决策支持系统的整体框架和模块设计,着重说 明系统中医疗数据分析层的数据加载及预处理模块、算法训练及评估模块以及网格 资源管理层的服务调用模块的具体结构,并分别描述了各模块所使用关键技术。 第三章首先对传统医学数据分析建模方法作了简单介绍;然后引出文章中重点 论述的组合数据分析建模方法,并按照组合方式的不同分别对线性组合分析模型和 非线性组合分析模型实现原理和实现方法做了讨论,并对文中谈到的两种组合分析 模型实现方法、实现原理和实现过程作了阐述。 第四章描述疾病诊断预测组合建模技术在系统和网格平台的具体实现。在系统 中的实现技术中着重说明了数据预处理技术中的连续属性离散化技术和数据采样与 数据集划分技术,组合模型的实现技术以及数据分析建模中聚类模型和决策树模型 的可视化技术。并结合具体网格平台环境,对数据分析算法网格服务的封装和部署, 6 华 中 科 技 大 学 硕 士 学 位 论 文 数据分析网格服务请求与调度的实现作了介绍。 第五章首先介绍了测试数据的有关信息和测试环境,然后对系统进行了功能测 试和性能分析。功能测试主要针对数据加载及预处理、多维数据特征描述及展示、 网格环境下的疾病预测进行。性能测试主要针对数据分析建模算法的执行效率和预 测精度与 Weka 等系统进行了对比分析。 第六章对全文进行了总结并展望了未来的工作。 7 华 中 科 技 大 学 硕 士 学 位 论 文 2 基于网格的医学主观导向分析系统架构 本章首先介绍基于网格的医学主观导向分析系统(MedicalSAS)的整体框架和模 块设计,着重说明系统中数据加载及预处理模块、模型训练及评估模块以及网格服 务调用及监控部分模块的具体结构,并分别描述了各模块所使用的关键技术和实现 方法。 2.1 MedicalSAS 系统整体框架 随着医学统计学与计算机技术的发展,计算机辅助诊断技术在异构信息整和、 电子病历查询与分析等方面的应用越来越广泛,这些已经成为针对典型疾病的临床 诊断、治疗和医学研究中不可缺少的手段。日益增长的医学疾病数据信息使得医生 每日需要阅读大量的病历数据,而且许多慢性职业流行病发病规律往往与病人工作 环境、生活习惯等诸多因素密切关联,与各种致病因子也存在明显的剂量反应关系, 这给医生的诊断带来了不少难度。医学决策支持系统将医学统计学研究方法、医学 数据分析模型和典型疾病(矽肺、高血压等)特征相结合,通过建模分析方法对典型 疾病提供工作流环境载体下的主观导向分析功能。 MedicalSAS 有如下优势:首先,提供了良好的交互环境,用户可以在统一的界 面下方便的完成对数据分析的各种操作;其次,针对特定疾病特征进行数据建模, 提供了疾病预测、诊断、治疗和预防的主观导向分析功能,能够有效的进行疾病辅 助诊断,并通过将多种传统单一模型相组合,以获得更好的建模预测效果和更高的 预测精度;另外,提供了网格环境下的主观导向分析,以工作流为载体,为医学专 家提供图形化的主观导向建模方式。医疗数据的分析算法是工作流中的处理信息源 或者处理结点,提供模型参数选择、输入、输出和自由组合算法的功能。而成型的 模型,具备了处理一个综合问题(医疗数据分析)的能力,达到了最终的目的。 MedicalSAS 系统的层次结构从上至下分别是 portal(客户端)、工作流管理层、模型 管理层、医疗数据分析层、网格资源管理层,其层次结构如图 2.1 所示。 MedicalSAS 通过客户端界面和 Web 页面方式负责向用户提供功能接口。在网格 portal 页面提供了用户管理、服务监控和模型管理的功能。客户端界面提供了主观导 向分析的工作流接口, 用户可以通过接口调用底层服务来完成用户操作。工作流管 理层实现了对工作流的过程模型定义、可视化的建模工具、服务执行监控和工作流 8 华 中 科 技 大 学 硕 士 学 位 论 文 校验的功能。模型管理层主要包括模型存储的输入输出模块和基础模块,实现对模 型库的动态管理。医疗数据分析层提供对加载数据的建模分析,并给出针对典型疾 病的分析建模评估结果。网格资源管理层负责对数据分析网格服务的调用监控和管 理。本章将依次对医疗数据分析层中各个模块和网格资源管理层中的服务调用模块 做介绍。 图 2.1 MedicalSAS 系统层次结构 2.2 医疗数据分析层 医疗数据分析层包括数据加载及抽样、数据预处理、算法模型训练、结果展示 及评估。下面对各个部分做详细介绍。 2.2.1 数据加载及预处理 数据库连接及数据加载模块支持以文本文件和数据仓库文件两种方式读取医疗 数据。医疗数据可以保存在普通文本文件中,包括 CSV,XLS,TXT,ARFF 等文件格式; 也可以通过 JDBC 数据驱动对加载到数据仓库中中的数据表直接进行访问。对于读 9 华 中 科 技 大 学 硕 士 学 位 论 文 入的数据集,可以通过编辑操作查看原始数据中各属性字段,也可以直接在面板中 得到数据集中各属性数据的最大值、最小值、平均值、方差等基本统计信息,并以 柱状图、散点图、曲线图、饼状图等方式直观展示给用户数据分布信息。该子模块 流程如图 2.2 所示。 图 2.2 数据加载模块流程 数据预处理模块是系统中进行模型训练前的必需步骤,不同类别的数据分析模 型需要对数据进行不同的数据预处理操作。该模块主要提供数据清理、数据集成、 数据变换、数据规约等功能。其中数据清理实现对医疗数据中的空值、异常值和重 复数据的处理。空值和重复值处理是指系统按照用户指定的处理方式,对空缺值和 记录中的重复值进行处理;异常值处理是对医疗数据进行检测,发现并处理异常。 数据集成实现对数据的抽样和新属性的构造功能。构造新属性是通过属性的归并, 或数学表达式计算等构造新的属性列。数据抽样包括对训练属性、训练记录的选择。 数据变换实现对数据的规范化、离散化和匿名化处理。规范化是指对数值属性进行 线性标准化或正态分布标准化等;离散化是通过将属性域划分为区间,减少给定连 续属性值的个数;匿名化处理是由用户指定,对一些隐私字段的属性进行标识转换, 同时创建映射表。 10 华 中 科 技 大 学 硕 士 学 位 论 文 2.2.2 算法训练 算法训练模块是系统的核心,实现对医疗数据的关联、聚类、分类和回归分析。 MedicalSAS 系统目前提供四大类共 34 种传统经典数据分析算法: 1. 关联规则分析算法用以识别医疗数据属性间的依赖或关联,包括得病与各个 致病因子之间的关联关系。 2. 聚类分析用以将医疗数据集合进行聚类,发现子集间的共性,使聚成的各个 子类具有较高的相似度,并可以将数据集的聚类结果作为其它算法的建模输 入进行数据分析预测。 3. 分类算法是预测型算法,用以预测目标属性的值,包括对是否得病、得病期 数以及得病年龄的预测分析。通过构建决策树、神经网络、贝叶斯网络等分 类模型对各个得病因子建模分析得到最终的预测目标属性值。 4. 回归算法也是预测型算法的一种,可以通过根据不同的数据集构建线性、非 线性、对数回归等多种回归模型来对得病年龄等做预测。 在算法训练中通过对预处理后的训练数据文件进行模型建立分析,完成从数据 到模型的转换;再应用训练好的模型对测试数据做预测,对病人发病情况等进行科 学预测分析。MedicalSAS 系统中实现的传统经典数据分析算法针对典型疾病特征的 预测精度能在 60%以上。 在算法训练部分,通过选择算法名称并设置相应算法参数可以选择不同建模算 法。在使用预测型算法进行预测分析时,要求指定具有相同字段的训练集和测试集, 并根据预测目标设定预测属性字段;在使用描述型算法做建模分析时,建模输出随 算法类别不同而不同,可以是各属性字段间关联度的描述,也可以是对各数据集按 相似度的聚类输出。对于每次的数据建模分析结果均给出相应的建模输出。操作记 录中记录每次选择算法和计算服务结点的历史信息。 算法模型训练结果的好坏关键在于针对特定疾病模型的算法选择和建立。训练 模型只有能针对具体疾病数据特征进行分析,并综合各影响致病因子,才可能得到 较好的分析预测结果和更高的预测精度。因此,在算法训练部分提供了多模型组合 方式下的建模预测方法。 MedicalSAS 系统基于传统四大类数据分析方法,给出了六种针对矽肺和高血压 疾病的专用组合建模预测算法,包括指数平滑-神经网络、模糊聚类-神经网络、K 均 11 华 中 科 技 大 学 硕 士 学 位 论 文 值聚类-线性回归、线性回归-决策树、线性回归-神经网络、决策树-神经网络等六 种组合预测建模方法,可以实现对典型疾病特征的预测。组合建模由于能克服传统 单独模型自身缺陷,并结合各模型自身优势,相比传统经典数据分析方法具有较高 的预测精度。图 2.3 是 MedicalSAS 系统中的算法训练和算法评估部分流程图。 图 2.3 算法训练和算法评估流程图 2.2.3 算法评估 算法评估部分基于算法训练结果,通过提供测试文件对算法训练得到的分析结 果进行验证。算法评估与算法训练部分有一定交叉,通过设置不同的测试集数据, 可以反复对训练结果进行评估。结合四大类具体算法,算法评估部分可以采用简单 验证、交叉验证、n-维交叉验证、自举法等几种验证方法。MedicalSAS 系统中默认 选用简单验证法对算法模型评估,具体做法是从原始数据集中拿出一定百分比的数 据作为训练数据,其它的作为测试数据。在对数据集合进行训练集和测试集的划分 时,要保证选择的随机性,这样才能使分开的各部分数据的性质是一致的。 具体的算法评估 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 要结合具体的建模算法。对于预测型算法,通过统计学参 数衡量算法预测精度,包括平均相对误差(MRE)、均方误差(MSE)、平均绝对误差 (MAE)、残差平方和(SSE)等指标,预测型算法中的模型评估包括对训练集的误差评 估和对测试集的误差评估两部分。对于描述型算法,需要结合具体算法特征采用不 12 华 中 科 技 大 学 硕 士 学 位 论 文 同的评估方法,比如在聚类分析中通过对聚类得到的各子类中数据相似度的评估来 判断模型的好坏,而在关联分析中则通过设置不同的支持度和置信度因子来得到最 佳的关联规则以取得最好的评估结果。 2.3 网格资源管理层 网格资源管理层包括服务调用、服务管理、节点管理、算法服务监控四大子模 块。网格服务的抽象与调度是实现易用性、容错性、灵活性的关键。结合数据分析 建模在网格应用中的实际特点,MedicalSAS 系统中采用基于服务的网格编程思想。 用户使用 MedicalSAS 系统访问网格计算结点上的数据分析算法时,不必关心网 格结点底层实现细节和与具体算法相关的资源调度问题。在不同网格计算结点上通 过对外提供一致的数据分析算法服务访问接口,屏蔽物理网格资源的异构性和各类 数据建模算法的差别。 图 2.4 数据分析网格服务调度流程 MedicalSAS 系统将各大类中相关数据分析子算法分别封装成数据分析建模网格 服务并部署在各计算结点上;然后,将具有相同的输入参数和访问接口的数据分析 建模网格服务抽象成数据分析网格虚拟服务,也即数据分析模型调用 API,用户在本 地利用这些 API 即可调用不同网格结点上的数据分析网格程序。当用户调用执行网 格计算结点上的具体数据分析算法时,会对由用户本地提交的疾病数据文件进行建 模分析并生成建模输出结果文件。数据分析网格服务调度流程如图 2.4 所示。 13 华 中 科 技 大 学 硕 士 学 位 论 文 2.4 小结 本章详细介绍了医学主观导向分析系统的整体框架和部分关键模块的实现。数 据加载及预处理模块主要负责疾病数据文件的读入、基本属性字段信息的显示、多 维数据特征的可视化展示以及根据不同模型训练算法对原始疾病数据的必要数据预 处理。模型训练模块通过对预处理后的典型病历数据信息选择指定数据分析方法进 行建模,生成科学有效的数据模型。数据模型评估模块基于模型训练得到的输出结 果,通过提供测试文件对模型训练输出进行验证,并结合具体疾病数据信息对典型 医学现象的群体发病特征做预测,或根据某种规则对已有疾病数据信息综合分析给 出参考诊断意见。服务调用及监控模块通过实现分析算法的网格服务封装,屏蔽物 理网格资源的异构性和不同数据分析算法的差别,在不同网格计算结点上通过对外 提供一致的数据分析算法服务访问接口,为用户提供一致的数据分析算法服务。 14 华 中 科 技 大 学 硕 士 学 位 论 文 3 医学建模预测分析技术研究 本章首先对传统医学数据分析建模分析方法作了简单介绍;然后引出文章中重 点论述的组合数据分析建模方法,并按照组合方式的不同分别对线性组合分析模型 和非线性组合分析模型实现方法做讨论。对针对典型疾病的两种典型组合预测模型 的实现方法和优缺点作了讨论,即:指数平滑-神经网络组合预测模型和模糊 C 均值 聚类-神经网络组合预测模型。 3.1 传统数据分析方法 3.1.1 疾病资料介绍 文中主要实现针对矽肺和高血压疾病的建模预测。矽病是由于工人长期吸入生 产性矽尘而引起的以肺组织纤维化为主要特点的疾病,是我国危害最大的职业病之 一,至今缺乏有效的治疗手段。矽肺与粉尘接触量、吸烟量、接尘时间等存在明显 的剂量反应关系[15,16]。本研究所用矽肺数据通过对中南某厂矿工人跟踪记录建立了 研究队列,通过自 1960 年到 2003 年长达 40 多年的职业流行病学追踪调查,得到时 间队列上的工人接尘、工作时间等情况。时间队列上还包括每个工人的加权平均吸 烟量、接尘时间等影响致病因子。图 3.1 给出的是所用矽肺数据资料。 图 3.1 矽肺数据资料表 高血压则是现在流行的心血管疾病,与患者饮食、遗传、运动等多因素存在密 切关系。本研究所用高血压数据来自对某县居民的问卷调查,包括对居民饮食、遗 15 华 中 科 技 大 学 硕 士 学 位 论 文 传、运动等多方面的调查。图 3.2 给出的是所用高血压数据资料。 图 3.2 高血压数据资料表 3.1.2 预测型算法在疾病预测上的应用 医学数据分析建模中根据数据分析建模算法类型可以分为预测型和描述型两大 类[17]。预测型数据分析的首要任务是创建一个可以预测,以及估计数值的预测模型, 从而可以自动实现决策过程。预测型算法主要以对预测目标精度的准确性来衡量模 型的好坏,比如在高血压疾病中根据患者的收缩压和舒张压压差对工人是否得高血 压做预测判断时,以及在矽肺疾病中对工人得病期数、得病时的临界接尘值做预测 时[18],对预测目标的精度好坏就是衡量预测型建模的最重要指标。 预测型医学数据分析方法包括分类、回归和时间序列分析三大类[19]:分类要解 决的问题是为一个事件或对象归类。分类模型既可以用于分析已有的数据,也可以 用它来预测未来的数据。在矽肺病例应用上,可用分类来预测工人是否得病及得病 时年龄、工人得病时接尘临界值等等;在高血压病例应用上,可以用分类来预测患 者的收缩/舒张压,进而对其是否得高血压做预测。 回归是通过已知值的变量来预测其他变量的值。线性回归是最常用的统计分析 模型,但大多数现实疾病问题是不能用简单的线性回归预测的。如在矽肺病例应用 中,工人得病就与累积接尘值、接尘时间、吸烟等诸多因素密切相关,而工人各年 接尘值又受工作时间、作业环境粉尘浓度等复杂非线性因素影响,这些变量之间本 身都存在非线性关联,很难通过简单的线性回归模型达到有效的预测目的[20]。因此 可采用非线性回归或将线性回归与其它分析方法组合,以获得更好的预测效果。 时间序列是用变量过去的值来预测未来的值。通过在连续的时间流中截取时间 窗口,窗口内的数据作为一个数据单元,然后让这个时间窗口在时间流上滑动,以 16 华 中 科 技 大 学 硕 士 学 位 论 文 获得建立模型所需要的训练集[21]。由于许多医学疾病特征都与时间因素有关,既有 趋势变动又有季节变动[22]。并且常常有足够多的医学数据可以用来构成一个合理长 度的时间序列,因此时间序列分析方法在医学上有很广阔的应用前景。 3.1.3 描述型算法在疾病诊断上的应用 描述型数据分析的任务是通过各种直观或有效的方式对数据得到更深入的理 解,进而了解数据所反映的领域背景情况。在高血压疾病中,可以寻找患者得病与 其饮食、运动、遗传等因素的关系,而在矽肺疾病应用上可以寻找得病结果与吸烟 量、接尘值、工作时间等的关联程度。描述型医学数据分析算法包括聚类和关联分 析两大类:聚类是把整个数据集分成不同的群组,目的是要群与群之间差别很明显, 而同一个群之间的数据尽量相似。K-均值模型是比较常用的聚集算法,图 3.3 是应 用 K-均值聚类算法对高血压数据按照得病情况进行聚类后的结果。 图 3.3 K-均值聚类算法对高血压得病情况聚类输出 关联规则分析是寻找在同一个事件中出现的不同项的相关性,比如可以寻找矽 肺得病与接尘年龄、工作时间等因子的相关性。关联规则可记为 A==>B,A 称为前提 和左部,B 称为后续或右部。图 3.4 所示是由 Apriori 关联规则推导出的矽肺状态与 吸烟、接尘时间、工作截止时间之间的关联关系。 17 华 中 科 技 大 学 硕 士 学 位 论 文 图 3.4 Apriori 关联算法推导的各致病因子间的关联规则 衡量关联规则意义的两个重要参数是支持度和可信度[23]。某一特定关联在数据 集中出现的频率称为支持度。非常低的支持度可能意味着此关联不是很重要,或出 现了错误的关联关系。可信度是指在规则中项及其组合出现的相对频率,即当已有 A 存在时,B 发生的概率是多少,也即概率论中的条件概率。可信度的计算方法是求百 B 同时出现的频率)/(A 出现的频率)。 分比:(A 与 总之,医学数据分析建模方法中包括预测型和描述型两大类,表 3.1 是对其中 典型的数据分析建模方法的特征比较和应用场景总结。 表 3.1 典型建模算法特征比较和应用场景 算法 优点 不足 典型应用 名称 神经网 对非线性数据能进行 预测矽肺工人是否得病以 “黑箱”性,需要较长 络方法 很好的预测,网络具 及得病时年龄;预测高血 的训练时间,解释性 有自组织自适应性 差 压患者的舒张 /收缩压进 而对是否得病做预测 决策树 描述简单,分类速度 处理复杂性数据时分 通过构造分类树预测矽肺 快,适合大规模数据 支多,管理难度大, 工人发病期数 处理 缺值处理不好 遗传 隐含并行性、易于和 算法较复杂,收敛于 寻找高血压患者得病与饮 算法 其它模型结合 局部极小的较早收敛 食、运动、遗传等因素的 问题尚未解决 关系。 粗集 不需要给出额外信 难以直接处理连续的 体现在与神经网络、遗传 方法 息;简化输入信息的 属性 等技术的结合上。如训练 表达空间;算法简单, 神经网络,从中提取规则 易于操作 等。 贝叶斯 易于理解,预测效果 对发生频率低的事件 预测高血压得病的可能性 网络 比较好 预测效果差 和概率 统计分 容易理解,对结果描 对复杂数据的预测效 基于矽肺接尘时间序列预 析方法 述精确 果差 测工人未来接尘值 客户端 网格计算节点服务器 数据仓库节点服务器 满足下列条件:wi?0,且 1iw , ,式(3.1)为对于实际值 yt 的线性组合建模预测 1 1 2 2ˆt t t N Nt i ity w w w, , , , 18 1i , ˆ ˆy y y w y, , ˆ ˆˆ 华 中 科 技 大 学 硕 士 学 位 论 文 3.2 组合数据分析建模方法 组合预测的基本思想就是通过一定的方式把不同模型的计算结果综合起来,相 互取长补短,从而达到提高预测精度和增加预测结果可靠性的效果[24]。 组合建模预测的数学描述如下: ur 记 X:{X1,X2,…,Xt,…,Xn}为待预测的原始数据,向量 si 是由模型 i 得到的预测结 r ur ur ur 果(i=1,2,…,k)。则组合预测结果为 s , , (s1, s2 ,..., sk ) ,,()函数是由组合方法确定的组 合预测函数。根据,()函数性质的不同,可以是 k 个模型分别预测后对所得预测结果 的加权组合,也可把模型 i 的输出作为模型 i+1 的输入进行模型迭加。 组合预测结合各单项预测方法的特点,可以从不同的角度进行分类。按照组合 预测与各单项预测方法的函数关系,组合预测可以分成线性组合预测和非线性组合 预测:当将多个预测模型采用加权平均形式组合成一个模型时,就是线性组合预测 模型;当将多种预测方法得到的预测结果进行非线性组合得到一个预测精度更高的 预测结果时,就是非线性组合预测模型[25]。 3.2.1 线性组合数据分析预测模型 线性组合分析模型就是将多个预测模型采用加权平均形式组合成一个模型。设 对同一问题采用多种预测模型,模型数为 N,记 yt(t=1,2,…,n)为实际观测值序列, yˆit (i=1,2,…,N)为第 i 种预测模型的预测值,wi 为第 i 种预测模型的组合加权系数,并 n 满足下列条件:wi?0,且 1iw , ,式(3.1)为对于实际值 yt 的线性组合建模预测 i ,1 公式: N y y , ... , w y y (3.1) ˆ ˆˆ 1 1 2 2ˆt t t N Nt i ity w w ˆ 1i , n w, , , , ˆ 令 eit , yt yit 为第 i 种建模方法预测值与实际值的误差,则 et t t t i it 为 ˆ ˆy y y w i ,1 y, , 线性组合预测建模中预测值与实际值的误差。 确定各组合模型的组合权系数是线性组合预测的关键,往往也很困难。常见的 权系数选取方法有[26]:算术平均法、标准差法、方差倒数法、均方倒数法、德尔菲 法、最优加权法等。但是这些方法的计算量都很大,且效果不是很好。 19 华 中 科 技 大 学 硕 士 学 位 论 文 3.2.2 非线性组合数据分析预测模型 若组合预测值 f 满足 f , g ( f1, f 2 ,..., f m ) ,其中 g 为非线性函数, f1, f 2 ,..., f m 分别 为 m 种预测模型,则称该组合预测为非线性组合预测。大量的理论研究和实证分析 都与线性方法和模型有关。然而,许多医学上的时间序列数据展现出来的非线性特 征表明不能通过简单的线性关系来解释其变化趋势,某种疾病的产生也往往与各种 致病因子之间存在复杂的非线性关系[26]。使用非线性模型的优点有时相当明显,但 非线性模型也有不足之处,即相对于线性模型而言,其拟合难度通常也很大,当向 前步长超过一步时,计算预测值很困难。本文针对矽肺疾病数据经过大量的实验研 究,选择基于 BP 神经网络的非线性组合预测结构,通过构造非线性组合模型对工人 是否得病和得病时年龄做预测。 3.3 指数平滑-神经网络组合预测模型 3.3.1BP 神经网络 人工神经网络是人脑神经元网络的一种物理模型,是由大量神经元按照一定的 方式组合而成的网络。数学上可以证明,人工神经网络可以逼近所有函数,这意味 着神经网络能逼近那些刻画了样本数据规律的函数,而不论这些函数具有怎样的表 现形式,可以有效地弥补其他很多方法在数据搜集、因素相关分析等方面的缺陷。 神经网络由于具有良好的非线性逼近能力、容错性、推广能力和自学习特性,使其 在医学时间序列疾病预测中已有一定的应用[27]。 BP 神经网络模型是人工神经网络中应用最广泛的一种。神经元连接形式为前馈 神经网络,学习方式为有监督学习。其工作原理为[28]:当输入信号从输入层经中间 层(隐含层)向输出层传播时,网络的训练学习过程即开始,训练学习过程由正向传 播和反向传播组成。先正向传播,若输出响应与期望输出模式的误差大于阈值时, 则转入反向传播过程,同时根据误差大小逐层修正各层连接权值;然后再进入正向 传播过程,若输出响应与期望输出模式的误差仍大于阈值时,再转入反向传播,同 时修正各层连接权值,如此反复若干次直至误差小于阈值。BP 网络实质上实现了一 个从输入到输出的映射功能,网络运算实质就是一个非线性函数的优化问题;在整 个网络学习中,能够从输入输出数据中提取规律,将其保存于网络权值中并应用于 一般情形,因此具有较强的自学习能力和推广、概括能力[29]。BP 多层神经网络结构 20 华 中 科 技 大 学 硕 士 学 位 论 文 如图 3.5 所示。 图3.5 BP神经网络拓扑结构图 记, 为学习步长,X p1, X p 2 ,..., X pn 为输入样本,w jn 为隐含层节点j到下一层节点 Pj 的权值, t pk 为第k个输出层的误差纠正因子,则网络结构中隐层节点j输出和输入节 点p的关系为: S pjh , whji x pi ,Opjh , f jh (S pjh ) 。输出节点k和隐层输出节点p的关系为: i o o o o S ,pk kjOpj w pk , , k f pkO()。定义输出误差为S pk ,则: , pk pkpk t O。整个网络 , , j m 1 1 学习的目的就是为了使如下定义的误差平方和最小: E , O , pk2 , 2 k (t pk pko )2 。 2 k ,1 在实际构造训练网络时,网络结构中各参数都必须注意选择[30]:初始权值和隐 含层数选取时通常在构造中加入不同小伪随机数,并通过多次实验选取平均值。隐 含层数太少,模型的泛化能力强,但是学习时间太长,精度难以保证;隐含层太多, 网络的鲁棒性下降,训练中又容易陷入局部极小值[31]。期望误差和训练步数应结合 网络结构进行选取。期望误差太小或训练步数太大,会使训练时间增加很多,这只 能靠改变网络结构来优化。期望误差太大或训练步数太小,又达不到预测精度。学 习速率决定循环中产生的权值变化量,合适的学习速率应能保证每次训练产生的误 差平方和下降速率很快,一般选择在[0.01,0.8]之间,常取偏小值以保证系统的稳 定性。 在网络训练时,常存在着网络层数选取困难、容易陷入局部极小值等问题[32]。 由于 BP 算法中以解决复杂非线性函数的全局极值为目标,但算法本身是局部搜索的 优化方法,训练过程本质上是求非线性函数的极小点问题,这使得它可能陷入局部 极值而训练失败。而且随着训练能力的提高,可能出现学习能力下降引起“过拟合” 现象。 21 华 中 科 技 大 学 硕 士 学 位 论 文 3.3.2 指数平滑算法 指数平滑法是一种性能优良、适应性强的时间序列分析方法,在各个方面都有 着广泛的应用。其作用主要体现在两个方面[33]:一是用于预测,二是用于修匀历史 数据,以测定时间数列的长期趋势。指数平滑法具有显著的特点,它有效地利用了 全部历史数据且操作简单易行,对于短期预测有着很好的效果。 指数平滑法的基本概念是假设时间序列具有某种特征,即存在某种基本数据模 式。而这些观测值既体现着这种基本数据模式,又反映着随机变动。指数平滑法的 目标就采用“修匀”历史数据来区别基本数据模式和随机变动。这相当于在历史数 据中消除极大值或极小值来获得该时间序列的“平滑值”,即对未来的预测值。指 数平滑法通过对过去不同时间的资料取不同的权数加权,加以平均以对未来进行预 测。利用指数平滑进行时间序列分析时,把距离现在较近的历史数据作为影响较大 的因素,同时不断运用误差反馈对新的预测值纠正,对短期预测有很好的效果。式(4.1) 是基于时序{Xt}的指数平滑公式: ' (4.1) yt , , X ,t (1 ,) t X1, ,t 1, 2,... 其中平滑因子, ?[0,1];yt' 为第 t 期的指数平滑值。t>50 时,初始值 y1' 对 yt' 计 算结果影响极小,可以设定为 X1 ;t<50 时,y1' 对 yt' 影响较大,应取前几项的平均值。 平滑因子 , 决定平滑水平以及对预测值与实际结果间差异的响应速度[34]: , 越接近 1,远期实际值对本期平滑值的下降越迅速;, 越接近 0,远期实际值对本期平滑值 影响程度的下降越缓慢。当时间数列相对平稳时,可取较大的, ;当时间数列波动较 大时,应取较小, ,以不忽略远期实际值的影响。 当时间数列无明显的趋势变化,可用一次指数平滑预测。二次指数平滑适用于 具线性趋势的时间数列。三次指数平滑法基于构建抛物线模型,其修正预测值使其 跟踪非线性趋势的变化,广泛用于二次曲线趋势的预测:对于符合 Xt=a+bt+ct2 的时 间序列数据,反复利用指数平滑定义公式(4.1)可推出 at,bt,ct 三个平滑系数, 式(4.2) 是相关的平滑系数表达式: at , 3y' t 3yt'' , yt ''' 2 (4.2) b , , ((6 5, ) yt 2(5 4, ) y'' , (4 3, ) y''' ) / (2(1 , ) ) ct , , 2 ( yt 2y'' , y''' ) / (1 , )2 ' t t ' '' ' ''' '' 其中:yt , , ,t 1t, , ,t(1 tX ,y 1, ''t , , (1 ty ,y , 1 分别为第''')(1 yt ,期的一次、X ) ,y ) y 22 华 中 科 技 大 学 硕 士 学 位 论 文 二次、三次指数平滑值,进而得到三次指数平滑预测值为: (4.3) X t , f , at , bt f , (ct / 2) f 2 ,f 是预测的时间步长。 3.3.3 指数平滑-神经网络组合预测建模方法 任何单一预测方法都无法面对动态变化的现实,为了更好地综合利用各模型的 信息,可以将各种模型通过适当的方法进行组合,获得优于任何单一预测模型的组 合预测模型。由于传统的时间序列指数平滑预测方法具有算法简单、稳定可靠的优 点;神经网络预测方法对于任何复杂函数都有卓越的拟合能力,对于信号的变化反 应灵敏,适合于中短期预测,这两种预测方法分别适用于不同的预报时间范围,表 现出了不同的特点。将二者通过一定方式进行组合预测,就可以发挥各模型的优点, 获得更优的预测结果,提高预测精度。 通过 BP 神经网络的理论原理分析知道,BP 神经网络模型是一个强有力的学习 系统,能够实现输入与输出之间的高度非线性映射。神经网络的组合预测方法中, 各个输入预测方法的权重是按单个样本误差和总体误差满足给定精度要求,由网络 在动态学习中给出。另外 BP 神经网络系统对各个权重的要求并不严格。无论是从输 入到隐含层的权值,还是隐含层到输出层的权值都可正可负,也可以是零。这种对 权重不严格的特点,可以对各个预测结果所提供的信息按照其反映现实的真实程度 进行有效地筛选,从而有效地保存各种预测方法提供的有用信息,提高预测的精度。 另外 BP 神经网络系统具有无后效性的特点。每一层神经网元的状态只影响下一层神 经元的状态,减少了组合预测结果对真实值的偏离;同时还有利于提高网络整体的 收敛性。 鉴于此,在构造 ES-BP 组合预测模型对矽肺疾病做预测分析时,可以先利用指 数平滑法对接尘时间队列数据做预测得到工人年接尘预测值,再把得到的接尘预测 值与接尘年龄和加权平均吸烟量等致病因子一起输入 BP 网络进行训练,对工人是否 得病以及得病时年龄做预测。各输入参数在组合预测中的权重根据网络的自学习获 得,当网络收敛稳定后,其输出就是组合预测结果。这种组合方法既可以利用指数 平滑法充分结合原始矽肺接尘时间队列数据特点,又可以通过神经网络对各矽肺影 响因子间的非线性结构关系进行描述。可以弥补单独利用 BP 做时间序列预测时由于 时序期数太长带来的误差累积问题。实现 2 个模型的优势互补,提高预测精度。 ES-BP 组合预测模型结构如图 3.6 所示。 23 华 中 科 技 大 学 硕 士 学 位 论 文 图 3.6 指数平滑-BP 组合模型结构 ES-BP 组合预测模型具体的组合建模预测步骤为: 1. 指数平滑预测接尘值:选取工人接尘时间队列数据,确定合适的指数平滑因 子 a,及合适的指数平滑次数后对工人未来接尘值做预测。 2. BP 网络预测得病年龄:把由指数平滑得到的接尘预测值和吸烟队列数据、 年龄因子一起经过归一化后作为网络输入,工人是否得病以及得病时年龄作 为网络输出,对训练数据做网络训练。 3. 应用训练好的网络对预测样本数据做预测分析,网络输出为 0 时代表工人不 得病,为其它数值时代表工人得病年龄的预测值。 3.4 模糊 C 均值聚类-神经网络组合预测模型 3.4.1 模糊 C 均值聚类算法 聚类是一个将数据集划分为若干组或类的过程,并使得同一个组内的数据对象 具有较高的相似度;而不同组中的数据对象是不相似的。由于同一组中内的数据有 较高相似度,所以同一个组内的所有对象常常被当作一个对象来进行处理或分析等 操作[35]。聚类分析既可以作为一个单独模型对数据分布等特征进行描述;也可以作 为其它算法的预处理步骤。按照划分结果的不同,聚类可以分为硬聚类、模糊聚类 和可能性聚类方法。硬聚类得到的各聚类结果间具有明显的界限,要求每个样本经 过聚类之后能且只能划分到唯一类别中,但这样无法表达样本在类属性方面的中介 性,使得所得的聚类结果偏差较大,并且容易陷入局部最优解;而模糊聚类中样本 按概率可能属于一个或多个聚类结果中[36],隶属函数或概率是输入样本和聚类中心 的关系表述的 0,1 的值,该输入与所有分类的关系值总和为 l,与硬聚类相比,模 24 华 中 科 技 大 学 硕 士 学 位 论 文 糊聚类算法的收敛性速度要慢得多;可能性聚类中样本对各个类的隶属度的取值也 在 0,1 内,但不要求每个样本对各个类的隶属度之和为 1。 Bezdek 提出的经典模糊 C 均值聚类(FCM 聚类)就是用隶属度确定每个数据点 属于某个聚类的程度的一种聚类算法。算法的输出是 C 个聚类中心点向量和 C*N 的 一个模糊划分矩阵,这个矩阵表示的是每个样本点属于每个类的隶属度。根据这个 划分矩阵按照模糊集合中的最大隶属原则就能够确定每个样本点归为哪个类。聚类 中心表示的是每个类的平均特征,可以认为是这个类的代表点。FCM 聚类算法对于满足正态分布的数据聚类效果会很好[37],另外,算法对孤立点是敏感的。算法具体 步骤可详见文献[38]。 完成数据的模糊聚类任务时,首先要对聚类中心个数进行确定,然后再确定采 用什么方法来聚类。关于聚类个数的问题,有的学者根据研究发现:样本的可分性 越好,其对应的最优加权指数 m 就越大;反之,样本的可分性越差,m 越低[39]。从 这一结论可设计一种聚类有效的判别方法——比较法来解决此问题,即设聚类个数 C 从 2 开始增加到某一常数,分别计算 m ,然后根据所得 m 来选取最适宜的 C 值。只 有得到最优的 C 划分时,对应的 m 才最大。总之,对 FCM 聚类影响较大的有以下 几个重要参数:聚类中心的初始化、模糊最优加权指数 m、聚类的类别数 C 和距离 范数。在基于目标函数的聚类算法中,模糊加权指数 m、类别数 C、迭代停止阀值 e 的最优选取方法尚无理论指导。 3.4.2 模糊 C 均值聚类-神经网络组合预测建模方法 由于 FCM 聚类算法是一种无监督的模糊聚类方法,在算法实现过程中不需要人 为的干预,但是在算法中也存在如下不足:首先,算法中需要设定一些参数,若参数 的初始化选取的不合适,可能影响聚类结果的正确性;其次,当数据样本集合较大 并且特征数目较多时,算法的实时性不太好。为此可以将聚类算法和 BP 神经网络结 合起来,通过构造 BP 网络来解决聚类参数选择和数据集训练的问题。 基于聚类的 FCM-BP 组合预测模型基本思想是先利用聚类算法把训练样本划成 几类,使各类样本保持较多的相似性,再用神经网络对各类样本分别训练,并将训 练得到的网络模型分别对归类后的预测样本做判断。这样可以有效去除原始数据中 的异常点、提高神经网络训练模型的训练精确度并减小模型的复杂度。 由于在做神经网络预测之前先对训练样本进行了聚类分析。把大的数据集划分 25 华 中 科 技 大 学 硕 士 学 位 论 文 成为相似的较小的几类,同时在每一小类中,数据保持较高的相似度。这样在对每 一小类进行网络训练时肯定会降低训练的次数,网络模型的复杂度会降低很多,网 络的收敛速度会更快,网络的训练时间也会减小很多[40]。在之后进行 BP 网络训练时, 就可以减少中间层最佳中心向量的个数。最佳中心向量的个数减小了,就使原来较 复杂的模型转换为几个不同的较简单的模型。经过聚类分析后,还可以使原始数据 中的异常点被分为数据集较少的一类或几类,不参加神经网络的训练,使神经网络 能更好的近似非线性时间序列的规律[41]。 FCM-BP 组合预测模型结构如图 3.7 所示。 图 3.7 FCM-BP 组合模型结构 FCM-BP 组合预测模型步骤为: 1. 对矽肺数据训练样本和预测样本分别做数据预处理。在保证矽肺数据一致性 的基础上,对输入的各组数据去除缺失值和偏离值后,结合吸烟、接尘年龄、 工人工作时间、累积接尘值等致病因子将输入数据分别归一化到[0.1,0.9] 区间。 2. 通过 FCM 聚类算法对训练样本数据进行聚类划分,得到 N 个小类{C1,C2,…, Cn },利用 BP 网络分别对这 N 个类{C1,C2,…,Cn}中的训练样本数据做 网络训练,得到 N 个训练好的 BP 网络{P1,P2,… ,Pn}。 3. 对预测样本数据应用 FCM 聚类算法判定所属类 Ci 。分别应用类 Ci 中训练 得到的 BP 网络 Pi 对该类中的预测样本数据做预测,对工人得病年龄进行预 测,进而得到预测结果。 26 华 中 科 技 大 学 硕 士 学 位 论 文 3.5 小结 本章基于传统医学数据分析建模方法,结合具体疾病特征,首先介绍了组合数 据分析建模方法的实现原理,并按照线性组合预测和非线性组合预测模型对组合数 据分析建模的实现方法作了初步探讨。然后基于典型疾病数据,结合影响疾病的各 种可能致病因子,研究了分别采用 ES-BP 和 FCM-BP 组合模型针对典型疾病的预测 建模实现方法。总之,对影响因子较多且非线性联系显著的时间序列疾病数据,更 适合应用组合模型进行预测,组合模型预测精度均高于单独使用 BP 建模的预测精 度,有较好的应用价值。 27 华 中 科 技 大 学 硕 士 学 位 论 文 4 医学建模预测分析技术实现 基于网格平台的医学数据分析技术的具体实现,包括数据预处理、数据分析建 模、模型结果的可视化和建模算法在网格平台的封装部署等步骤。本章按照医学建 模预测分析技术的具体实现流程,依次对各实现步骤做介绍,并重点介绍组合模型 的实现和其在网格平台上的封装部署:数据预处理技术中主要介绍连续属性离散化 技术和数据采样与数据集划分技术;数据分析建模技术以第三章谈到的两种组合建 模技术为例阐述组合建模的实现流程;模型结果可视化部分则以聚类和决策树算法 为例讨论可视化实现方法。 4.1 数据预处理 数据预处理是进行建模预测前的必需步骤,不同类别的数据分析模型需要对数 据进行不同的数据预处理操作。数据预处理可以改进数据的质量,从而有助于提高 其后的挖掘过程的精度和性能。数据预处理主要提供数据清理、数据集成、数据变 换、数据规约等功能:数据清理可以看作数据集成的清洁性预处理,主要是空缺值 的处理、噪声数据的平滑;数据集成实现对数据的抽样和新属性的构造功能;数据 变换实现对数据的规范化、离散化和匿名化处理;数据规约主要是压缩数据集、减 少数据量。系统主要实现的预处理算法包括连续属性离散化技术以及数据采样与数 据集划分技术等等。 4.1.1 连续属性离散化技术 连续属性离散化是数据预处理中的重要问题。组合建模算法和很多传统建模算 法都要求先对连续属性数据进行离散化处理。离散化的任务是把连续属性的取值范 围或取值区间划分为若干个数目不太多的小区间,其中每个区间对应着一个离散的 符号。 对于不考虑带类别标记的数据,MedicalSAS 中采用等宽区间法进行数据的离散 化处理,把连续属性取值区间等分为 N 个小区间(N 是用户给定的离散值个数)。设原 始区间为[a,b],则 N 个等分区间为[a, a+(b-a)/N],[a+(b-a)/N), a+2(b -a)/N],…, [a+(b-a)/N),b];对于带有类别标记的数据,MedicalSAS 中采用划分方法进行数据离 散化处理,划分策略的实现方法是:初始把整个属性取值范围作为一个离散属性值 28 华 中 科 技 大 学 硕 士 学 位 论 文 (它与该段区间对应),然后对该区间进行反复划分(不停地把一个区间分为两个相邻 的区间,每个区间对应一个离散的属性值),直到满足某种停机条件。 原始矽肺数据输入字段属性包括工人每年接尘量、累积接尘量、接尘总年数、 开始接尘年龄、加权平均吸烟量等,全部为连续属性,数据加载后的数据信息如图 4.1 所示。按照等宽区间法进行连续属性离散化后得到离散化后的数据类如图 4.2 所 示,离散化分类区间数取 4 段。由图 4.2 可以看出,输入的数据经过等宽区间法后 已经被分成了一个个区间,而不是具体的数值。 图 4.1 连续属性的原始矽肺数据 图 4.2 离散化后的矽肺数据 4.1.2 数据采样与数据集划分 数据采样获得的数据集只是原有数据集的一个子集,数据采样包括对训练数据 集和测试数据集的采样。在规范的预测过程中,为了生成比较好的顶测模型,除了通 过数据采样生成训练数据集外,通常还需要得到控制数据集、测试数据集和证实数 29 华 中 科 技 大 学 硕 士 学 位 论 文 据集,即对数据集进行划分。训练数据集用于生成预测模型;控制数据集用于控制 模型生成过程,避免过度训练;测试数据集用于评价某一个特定的模型的精确度; 评价数据集通过比较模型的预测结果和已知的结果来评价最终模型的精确度。 数据分析工具利用训练数据集来生成一个预测模型,然后利用控制数据集从众 多的预测模型中选出最好的一个。选定了一个模型之后就要用测试数据集来对该预 测模型进行测试。由于该预测模型的生成过程己经利用了训练数据集和控制数据集, 所以测试时既不能使用训练数据集也不能使用控制数据集,而需要一个单独的测试 数据集。当测试的结果较差时,就需要改变一些学习参数重新生成预测的模型。 原始高血压数据来自对某县 3000 户居民的实际问卷调查,数据量大而且数据属 性繁多,可能的得病因子属性就有 27 个,全部数据集中还有很多空值。因此对高血 压数据进行建模分析需要先对数据集进行数据采样,去除对高血压致病影响不大的 属性因子,将 27 个可能的得病因子进行合并,如将“是否参加锻炼”、“一周进行 几次运动”和“一周运动有几天超过 30 分钟”合并为“一周运动时间”属性。考虑 到原始数据集数据量大,其中存在缺失值 ,对于含有缺失值的字段不进行数据采样。 实际进行高血压数据分析建模时,按照 3:2 比例进行训练数据集和测试数据集选取, 并且训练数据集数目应不少于 300 组。 4.2 组合建模技术实现 在对数据进行预处理后,可以选择专用组合建模算法对典型疾病做预测分析。 本节以指数平滑-神经网络组合预测模型和模糊 C 均值聚类-神经网络组合预测模型 为例对组合建模实现方法做介绍。 4.2.1 指数平滑-神经网络组合预测方法实现 指数平滑-神经网络组合预测模型实现关键在于定义模型组合接口和网络训练时 对各层参数值的校正,将指数平滑输出的接尘预测值和吸烟值、工作时间等致病因 子一起作为神经网络输入。网络学习中各输入参数在组合预测中的权重根据网络的 自学习获得。 指数平滑-神经网络组合模型实现过程如下: 1. 选择一组训练样例,每一个样例由输入信息和期望的输出结果两部分组成。 2. 确定指数平滑因子和指数平滑次数后,应用指数平滑法对输入时间序列数据 30 华 中 科 技 大 学 硕 士 学 位 论 文 进行指数平滑建模。 3. 将指数平滑建模输出和其他训练集属性一起输入神经网络训练。分别计算神 经元处理后的各层节点的输出,网络的实际输出和期望输出的误差。 4. 从输出层反向计算到第一个隐层,并按照某种能使误差向减小方向发展的原 则,调整网络中各神经元的连接权值。 5. 对训练样例集中的每一个样例重复 3、4 步骤,直到对整个训练样例集的误 差达到期望误差为止。 6. 选取一组和训练样例格式一致的数据集作为测试数据,利用训练好的网络对 测试集做评估,评估输出为各项统计学误差。 4.2.2 模糊 C 均值聚类-神经网络组合预测方法实现 模糊 C 均值需要对输入疾病数据预先归类,再利用神经网络对每一子类训练。 神经网络训练过程与指数平滑-神经网络组合预测模型中网络训练过程基本相同,不 再做过多阐述。而在模糊聚类中,大致要经过特征提取、聚类策略、选取阀值三个 步骤。 模糊 C 均值聚类-神经网络组合模型实现过程如下: 1. 选取需要的训练样例,每一个样例由输入数据信息和期望的输出结果两部分 组成。 2. 确定聚类类别数 c,模糊加权指数 m,设定迭代停止阀值 e,算法的最大迭 代次数 bmax。对隶属度矩阵初始化。 3. 由隶属度矩阵计算模糊聚类中心,得到模糊聚类中心矩阵。并由模糊聚类中 心矩阵更新模糊聚类隶属度矩阵。 4. 选择某种合适的矩阵范数来比较更新前后的隶属度矩阵,若系统达到一种稳 定状态,则终止迭代,得到要求的模糊聚类中心和数据划分结果,否则转步 骤 3 继续进行,直至稳定。 5. 对划分后得到的每一子类分别应用神经网络训练。网络训练流程同指数平滑 -神经网络组合模型中步骤 3~5。得到训练养例的最终训练结果。 6. 选取一组和训练样例格式一致的数据集作为测试数据,按步骤 2~4 对测试数 据进行类别判定,得到相应的各小类,利用各小类对应的训练好的网络分别 31 华 中 科 技 大 学 硕 士 学 位 论 文 对测试集做评估,评估输出为各项统计学误差。 4.3 数据分析算法网格服务实现 4.3.1 网格平台环境 MedicalSAS 系统实现从客户端读入数据文件或从数据仓库读取数据文件,从部 署有网格服务的服务节点上进行数据分析服务调用。 原型系统实现的网格平台环境中,包括多个部署有数据分析算法服务的网格计 算节点和一个装有数据仓库的中心节点服务器。用户登陆网格 portal 下载系统客户端 后即可访问网格节点资源进行主观导向分析建模。表 4.1 列出系统环境中使用的所 有节点机的配置。 表 4.1 系统环境 客户端 网格计算节点服务器 数据仓库节点服务器 满足下列条件:wi?0,且 1iw , ,式(3.1)为对于实际值 yt 的线性组合建模预测 CPUPentiumIII 1GHz, CPU Pentium III 1GHz, CPU Intel Xeon 3.2GHz, 1 1 2 2ˆt t t N Nt i ity w w 硬件 内存 512M, 内存 512M, 内存 2G, 硬盘容量 200G 硬盘容量 40G 硬盘容量 200G w, , , , 1i , Windows2003server, Red Hat Linux 9, Windows 2003server, JDK 1.6.0 SQL Server2005 MySQL 4.1.10, ˆ ˆy y y w 软件 Tomcat 4.1.31, y, , JDK 1.6.0, ˆ ˆˆ CGSP2.0, ˆ Apache Ant 1.6.5 ˆ 备注 安装数据仓库 需要登陆网格 portal 下载 网格 portal 服务器,医疗数 系统客户端 据分析服务计算节点 字段名称 字段类型 字段说明 数据分析网格服务的调用地址及相应 4.3.2 数据分析算法网格服务封装和部署 service_url varchar(255) 的服务名 数据分析网格应用服务的封装和部署在各网格结点前端机上实现,采用 Red Hat 调用的数据分析网格服务中的函数名 servicefunction_name varchar(30) Linux 操作系统和 CGSP2.0 网格中间件,其它支撑软件包括 JDK1.6、apache-ant、 读入的数据文件路径和文件名 file_name varchar(30) jakarta-oro、tomcat 等。 输出的模型路径和模型名 model_type varchar(30) 作为一个数据分析网格应用开发平台,必须保证数据分析软件资源和数据分析 算法模型训练时的算法参数 model_parameter varchar(255) 数据类型 输入属性 接尘时间队 预测目标属性 网格服务的独立性,使得数据分析软件内部实现方式甚至运行环境的改变不会要求 S , pk kjOpj wpk , ,k f Opk()。定义输出误差为S pk ,则: , pk pkpk t O。整个网络 , , 列长度/年 1 1 服务的重新部署(只要软件对外提供的调用方式不变);同时,网格平台软件的升级 , pk2 , 2 k (t pk pko )2 。 或更改也不会要求应用领域的软件资源作相应的改变。为了实现这种独立性,利用 yt , , X ,t (1 ,) t X1, ,t 1, 2,... b , , ((6 5, ) yt 2(5 4, ) y'' , (4 3, ) y''' ) / (2(1 , ) ) 32 其中:yt , , ,t 1,t t , ,(1 Xt ,y 1 '',t , ,(1 t ,yy , 1 分别为第''')(1 yt ,期的一次、X ) ,y ) y ' t t 华 中 科 技 大 学 硕 士 学 位 论 文 Java 语言的外部程序执行功能,在服务封装的实现程序中,调用外部命令来执行数 据分析网格服务。服务封装和部署的过程中,需要定义 3 个文件:Web 服务部署描述 器(WSDD,Web Service Deployment Descripter)、服务接口定义文件和服务实现文件。 WSDD 告诉服务器如何发布网格服务,如网格服务的 URL、网格服务的生命周期、 可以被公开访问的接口方法等。服务接口文件是一个 Java 语言的 Interface,定义网 格服务的接口。服务实现文件实现接口文件对应的 Interface,具体实现接口中定义的 方法。 4.3.3 数据分析网格服务请求与调度 数据分析网格服务请求的实现采用 C/S 模式,服务器端是运行在 CGSP 容器所 在节点上的一个守护程序,客户端则运行在用户本地机上。首先,客户端解析用户 请求并发送给服务器端;服务器端监听来自客户端的请求,根据算法请求参数选择 或者生成一个数据分析网格服务实例并将其句柄返回给客户端;客户端接收到服务 实例句柄后封装服务请求消息并向服务器发送;服务器根据该消息执行操作并向客 户端发送服务结果;最后,客户端对接收到的服务结果进行处理。 数据分析网格服务调度参数 表4.2 客户端 网格计算节点服务器 数据仓库节点服务器 CPUPentiumIII 1GHz, CPU Pentium III 1GHz, CPU Intel Xeon 3.2GHz, 硬件 内存 512M, 内存 512M, 内存 2G, 硬盘容量 200G 硬盘容量 40G 硬盘容量 200G Windows2003server, Red Hat Linux 9, Windows 2003server, JDK 1.6.0 SQL Server2005 MySQL 4.1.10, 软件 Tomcat 4.1.31, JDK 1.6.0, CGSP2.0, Apache Ant 1.6.5 备注 安装数据仓库 需要登陆网格 portal 下载 网格 portal 服务器,医疗数 系统客户端 据分析服务计算节点 网格服务的抽象与调度是实现易用性、容错性、灵活性的关键。用户访问网格 字段名称 字段类型 字段说明 计算结点上的数据分析算法时,不必关心网格结点底层实现细节和与具体算法相关 数据分析网格服务的调用地址及相应 service_url varchar(255) 的资源调度问题。即在不同网格计算结点上通过对外提供一致的数据分析算法服务 的服务名 访问接口,屏蔽物理网格资源的异构性和各类数据建模算法的差别。表 4.2 给出调 调用的数据分析网格服务中的函数名 servicefunction_name varchar(30) 度数据分析网格算法服务时的传递参数。 读入的数据文件路径和文件名 file_name varchar(30) 输出的模型路径和模型名 model_type varchar(30) 算法模型训练时的算法参数 model_parameter varchar(255) 33 数据类型 输入属性 接尘时间队 预测目标属性 列长度/年 华 中 科 技 大 学 硕 士 学 位 论 文 4.4 数据分析建模可视化 数据分析模型输出包括模型评估和模型结果的可视化。模型评估基于模型训练 结果,通过提供测试文件对模型训练得到的分析结果进行验证。模型评估与模型训 练部分有一定交叉,通过设置不同的测试集数据,可以反复对训练结果进行评估。 模型结果的可视化在于帮助用户对模型的理解,这包括两部分:将数据建模的结果 以一种有意义的方式进行可视化;并增加和用户的交互性,让用户能对数据操纵并 动态的察看结果。本节以聚类和决策树两种数据分析模型为例,重点介绍模型结果 的可视化实现技术。 4.4.1 聚类模型的可视化 聚类模型可视化技术包括基于统计的可视化、基于质点的可视化、层次聚类的 可视化等等。聚类可视化模型的主要工作就是对聚类在每个维度上值的分布情况进 行描述。按照聚类中所用字段可分为两大类:聚类字段和描述字段。其中聚类字段 参与算法的运算;描述字段不参与算法的运算,但是参与聚类结果的可视化。聚类 字段和描述字段都是聚类字段的必要部分。 图 4.3 针对矽肺数据的聚类任务输出 MedicalSAS 系统实现的聚类可视化中使用散点图来可视化聚类结果,同时通过 交互方式控制分割指标来增加或减少可见的聚类个数。用户可以指定平行坐标系的 34 华 中 科 技 大 学 硕 士 学 位 论 文 属性值,并通过区域放大缩小对聚类分布进行评估。其中对于每个聚类都使用三个 值:中心、直径、数量来进行描述。在平行坐标系中,对于每个维度都有一个纵坐标 轴,每一个数据都使用一条多边形线来描述。通过将每个聚类的直径映射到每个维 度上,并且利用颜色的变化:聚类的中心不透明而到聚类的边缘显得很浅。颜色被用 于每个聚类在层次中的位置,这样有层次关系的聚类就可以拥有相似的颜色。图 4.3 是针对矽肺数据的聚类可视化输出结果,其中指定 X 坐标为接尘总年数,Y 坐标为得 病时年龄。 对于多维数据,需要先采用降维技术。降维时需要保持在原始空间中聚类中心 之间的位置关系。包括计算每个聚类点到聚类中心的距离和该聚类点和聚类中心的 角度。角度是通过对该聚类点隶属的其它聚类中心计算矢量距离之和得到的。每个 矢量的长度和该质点的隶属程度成反比,矢量的角度是当前的聚集中心到该矢量所 在的聚类中心的角度。 4.4.2 决策树的可视化 决策树归纳方法是目前许多基于规则进行归纳数据分析技术的基础,它在分类、 预测和规则提取等领域都有广泛的应用。决策树具有分类表格一样的树结构,其中 包含内部节点和叶子节点。在每个内部节点上,都会选择一个属性对该节点进行分 裂,每个分支就是分裂的一种情况;叶子节点则包含了类别或者类别的分布。整棵 决策树就是一个类似流程图的树型结构,采用自顶向下的递归方式,从树的根结点 开始,在它的内部结点进行属性值的测试比较,然后按照给定实例的属性值确定对 应的分枝,最后在决策树的叶子结点得到结论。其中这个过程在以新的结点为根的 子树上重复。 决策树可视化的基本单元是节点的可视化。在整个决策树的拓扑显示上,采用 分层显示的方法。在整个可视化过程中,提供了一个全局视图,让用户在进行细部 观察的时候,依然能够清楚其在全局中的坐标,从而体现全局和局部坐标的关系。 图 4.4 是应用 C45 决策分类树构造矽肺期数预测模型时的模型输出结果。 对于决策树中每个叶子节点,包括对叶子节点属性的特征和叶子节点类别的分 布情况的描述。叶子节点属性的特征包含了该节点所在路径条件的汇总。对于数值 型字段,会有三种情况:小于 a、大于 a 同时小于 b、大于 b;对于种类字段,有两 种情况:属于某个集合,不属于某个集合。一棵分类决策树的构造就是对以上图形 35 华 中 科 技 大 学 硕 士 学 位 论 文 信息的文字化、定量化描述。 图 4.4 C45 决策树算法对矽肺期数建模预测输出 4.5 本章小结 本章按照医学数据分析技术的具体实现流程,依次对各实现步骤做介绍,并重 点介绍了第三章谈到的两种组合预测模型的实现方法和其在网格平台上的封装部署 与请求调度。数据预处理技术中主要介绍连续属性离散化技术和数据采样与数据集 划分技术;数据分析建模技术以两种组合建模技术为例阐述组合建模的实现流程; 模型结果可视化部分则以聚类和决策树算法为例讨论数据分析技术中结果可视化的 实现方法。 36 华 中 科 技 大 学 硕 士 学 位 论 文 5 功能测试与性能分析 本章具体描述系统测试,首先介绍测试数据的有关信息和测试环境,然后对系 统进行功能测试和性能分析。功能测试主要针对数据加载及预处理、多维数据特征 描述及展示、疾病建模预测等进行。最后通过测试数据对算法进行性能分析,主要 从预测精度上对算法建模进分析,并和 Weka 等数据分析工具做性能分析比较。 5.1 测试环境 系统测试所用矽肺数据和高血压疾病数据属性如表 5.1 所示。实验数据选用中 南地区同一厂矿中 300 组工人的矽肺队列数据和随访的 3000 组居民高血压得病调查 数据。矽肺队列数据中包含时间序列上的多种矽肺影响因子,包括粉尘接触量、吸 烟量、接尘年龄(由接尘时间平移得到)等等。高血压得病调查数据包括居民饮食、 运动、遗传、是否得病等各个方面调查情况。 表 5.1 测试数据相关信息 数据类型 输入属性 接尘时间队 预测目标属性 列长度/年 ARFF,矽肺数据 工人每年接尘量 ?30 矽肺发病期数/ CSV 累积接尘量 是否得病及得 等 接尘总年数 病时年龄 开始接尘年龄 加权平均吸烟量 ARFF,高血压数 亲属是否患高血压 收缩压/ CSV 据 每周进行几次锻炼 舒张压 等 每周几次运动超过 30 分钟 每周几天吃蔬菜水果、鱼肉 禽、豆类、蛋类、奶制品、 甜食、熏制品 BP 指数平滑-BP FCM 聚类-BP 系统客户端运行环境:windows xp 操作系统,内存 1024MB,CPU1.83GHz。采用 Eclipse3.3.0,JDK 1.6.0 编程实现。 系统服务器端运行环境:目前医疗数据分析的服务主要部署在两个节点上,服 务计算结点具有相同配置:Red Hat Linux 9 操作系统,内存 512MB,CPU1GHz,JDK 1.6.0。另外包括一个 Portal 服务节点,负责对整个主观导向分析系统的计算资源进 行整合和监控,用户需要登陆网格 Portal 下载系统客户端以进行主观导向分析,Portal 服务节点配置与两个计算结点配置相同。另外包括一个建有数据仓库的服务器,存 37 华 中 科 技 大 学 硕 士 学 位 论 文 放通过 HL7 数据加载代理整合的数据资源。 5.2 功能测试 5.2.1 数据加载及预处理功能测试 数据加载及预处理负责医学数据的读入、基本属性字段信息的显示以及根据不 同模型训练算法对原始医学数据的必要数据预处理。 数据加载支持以文本文件(支持.csv,.arff 等格式)和数据仓库两种方式读取医疗 数据,用户可以通过预处理面板的“打开文件”加载文本数据,也可以通过“打开 数据库”以 JDBC 数据驱动对加载到数据仓库中的数据表直接进行访问。对于读入 的数据集,可以在预处理面板中通过“编辑”查看原始数据中各属性字段,也可以 直接在预处理面板中得到数据集中各属性数据的平均值、方差等基本统计信息,并 在数据可视化面板中以柱状图、散点图等方式直观展示给用户数据分布信息。在预 处理面板中对各个基本属性字段也以柱状图形式给出了基本信息,用户可以在左边 选择需要的属性字段后,在右边通过“全部字段可视化”对所有属性字段分布进行 查看。用户可以通过“选择”按纽选择预处理算法后,通过“应用”按纽实现对原 始数据的数据预处理。图 5.1 所示是数据加载及预处理界面。 图 5.1 数据加载及预处理界面 38 华 中 科 技 大 学 硕 士 学 位 论 文 5.2.2 数据预处理结果输出 数据预处理结果输出以曲线图等多种可视化数据展示方式对预处理后的数据进 行展示,图 5.2 所示是利用柱状堆栈图、曲线图、折线图等对矽肺数据资料的描述 结果的可视化展示方式,所用字段包括工人接尘总年份、吸烟指数、开始工作时间 和截止工作时间等,数据量包括读入的 100 组矽肺数据。对于预处理后的矽肺数据 资料还可以三维数据可视化方式进行展示,对读入各数据属性信息动态描述,三维 可视化展示包括散点图和盒状图等。 图 5.2 二维数据特征描述及展示界面 5.2.3 网格平台上的疾病预测功能测试 用户需要从部署有网格服务的服务节点上进行数据分析服务调用,以针对典型 疾病数据进行建模预测分析。用户选择计算结点后,需要在后台启动相应计算结点 上的 CGSP 容器,以提供服务器上部署了的医疗数据分析服务,目前在网格节点上 共部署有四大类共 40 个数据分析算法。图 5.3 所示为网格计算结点上服务运行时的 后台显示信息。 39 华 中 科 技 大 学 硕 士 学 位 论 文 图 5.3 服务运行后台界面 在模型训练模块通过提供四大类建模算法和针对矽肺典型疾病的组合建模算 法,可以实现对疾病数据的预测和描述。用户在数据分析建模面板选择算法类别后, 可以根据算法名称选择不同建模算法。在不同的建模分析算法中,可以由用户通过 “算法参数选择”自己设置算法的初始参数,若用户不对算法参数做修改,则使用 默认的算法参数值。在使用预测型算法进行预测分析时,用户可以选择“提供的测 试集”后通过“设置”选取和训练集一样格式的测试集,并可以设定预测目标属性 字段;在使用描述型算法做建模分析时,建模输出随算法类别不同而不同,可以是 各属性字段间关联度的描述,也可以是对各数据集按相似度的聚类输出。对于每次 的数据建模分析结果均在“模型输出”编辑框中给出相应的建模输出, “模型保存” 编辑框中则可以对算法模型的训练输出结果进行保存。操作记录中记录每次选择算 法和计算服务结点的历史信息。图 5.4 和图 5.5 所示是指数平滑-神经网络组合算法 的建模过程和输出的误差结果。 40 华 中 科 技 大 学 硕 士 学 位 论 文 图 5.4 模型训练界面 以高血压数据资料作为建模数据源,输入参数包括居民饮食、运动、遗传等多 个致病因子,其中训练数据取 300 族,测试数据取 40 组,图 5.5 是用指数平滑-神 经网络算法对居民收缩压的预测结果分析,并给出了误差分析结果。 图 5.5 指数平滑-神经网络算法对居民收缩压的预测结果分析 41 华 中 科 技 大 学 硕 士 学 位 论 文 5.3 数据分析建模算法性能评测与分析 5.3.1 组合建模与单独建模预测精度比较 为验证指数平滑-神经网络组合预测算法的有效性,对原始时间队列中 300 组工 人接尘时间队列数据利用指数平滑方法进行未来接尘值预测,得到每个工人的接尘 预测值。矽肺接尘时间队列样本中年接尘值随时间变化具有非线性递减趋势,采用 0.6 较合适。由 三次指数平滑法对工人未来接尘值预测。实验比较知平滑因子 a 取 于接尘年数小于 50,故第一年预测值取前三年实际值的平均。 将指数平滑预测的工人接尘值和加权平均吸烟量、接尘年龄归一化后作为 BP 网 络输入。BP 网络隐含层数和初始权值通过网络训练自学习获得,学习速率取 0.1, 激活函数为双极型激活函数 Sigmoid 函数,期望误差设为 0.001。其中训练数据取 250 组,预测数据取其余 50 组。输出为 0 时表示工人不得病,为其它数值时表示工 人得病时年龄预测值。将工人得病年龄预测值和实际得病年龄比照得到个体预测误 差,对 50 组预测样本中的个体预测误差求平均得到组合建模预测误差。图 5.6 给出 采用 ES-BP 组合模型与单独使用 BP 网络对 50 组预测样本数据中工人得病年龄的预 测情况,由图中看出 ES-BP 组合模型预测值更接近工人实际得病年龄。 图 5.6 ES-BP 预测与 BP 预测 为验证模糊聚类-神经网络组合预测算法的有效性,利用 FCM-BP 组合模型在做 预测前,需要先对原始接尘时间队列数据做必要预处理,将 300 组工人的接尘时间 队列数据中各年接尘数据值求平均,得到 300 组工人个体的年平均接尘值数据。将 42 华 中 科 技 大 学 硕 士 学 位 论 文 求得的年平均接尘值和加权平均吸烟量、接尘年龄等致病因子一起作为 FCM-BP 组合 预测模型输入,把工人得病时年龄作为输出,通过 BP 网络训练对工人得病年龄做预 测。其中训练数据取 200 组,预测数据另取 100 组。利用训练得到的分类结果对预 测数据进行分类判断后分别应用不同的网络结构做预测。 ,BP 网络隐含层数和初始权值通过网络训练自学习 组合模型中聚类数设定为 5 获得,学习速率取 0.1,激活函数为双极型激活函数 Sigmoid 函数,期望误差设为 0.001。将网络输出值转换为实际值后,网络输出为 0 时表示工人不得病,为其它数 值时表示工人得病年龄的预测值。 分别计算组合建模与 BP 单独建模预测的平均相对误差(MRE),均方根误差(RMSE),平均绝对误差(MAE)和相对平方根误差(RRSE),式(5.1)至(5.4)为相 应的误差计算公式: n (5.1) F MAE= | At t | / n , t ,1 n 2 (5.2) RMSE= / n , ( A F ) t t t ,1 n Ft A (5.3) ) / n , MRE= ( Ft t ,1 n n 2 (5.4) RRSE= (Ft tA ) / ( At A )2 , t ,1 t ,1 其中 At 是时段 t 的实际值;Ft 是时段 t 的预测值; A 是实际输入值的平均值;n 是整个 预测期内的时段个数(预测次数)。模型评价如表 5.2 所示。 表 5.2 组合建模预测与 BP 预测误差分析 BP 指数平滑-BP FCM 聚类-BP MRE 0.2617 -0.0202 -0.0151 RMSE 3.9777 1.31 1.3397 MAE 3.4750 1.1334 1.1758 RRSE 0.2475 0.1793 0.1834 Weka 中 BP 算法 MAE= | At t | / n , 5.3.2 和 weka 系统的建模分析比较 ( A F ) MRE= ( Weka 是新西兰怀卡托大学开发的一个数据分析工作平台,能承担大量的数据分 析任务,包括对数据进行预处理,数据分析以及在新的交互式界面上的可视化工作。 (Ft tA ) / ( At A )2 , 2005 年 8 月,在第 11 届 ACM SIGKDD 国际会议上,怀卡托大学的 Weka 小组荣获 MedicalSAS 系统中 ES-BP 组合 算法 43 华 中 科 技 大 学 硕 士 学 位 论 文 了数据挖掘和知识探索领域的最高服务奖,weka 是现今最完备的数据分析工具之一。 对于矽肺数据,把工人工作起止时间、接尘总年数、吸烟指数、得病前接尘量、 接尘最大最小值等作为输入参数,把工人是否得病作为预测输出,70 组作为训练数 据,30 组作为测试数据。对于高血压数据,将遗传、饮食、运动等各因子作为输入 参数,是否得病作为输出参数,250 组作为训练数据,50 组作为测试数据。分别以 线性回归、聚类分析和 C45/J48 决策树模型为例比较不同系统中算法性能。衡量参 数包括平均相对误差(MRE)、均方根误差(RMSE)、平均绝对误差(MAE)、相对平方 根误差(RRSE)。表 5.3 给出了 MedicalSAS 系统中的组合算法与 Weka 中决策树算法 和 BP 神经网络算法的精度比较结果。 表 5.3 MedicalSAS 系统与 Weka 中预测算法建模精度比较 Weka 中 BP 算法 MAE= | At t | / n , Mean absolute error 3.1250 平均绝对误差 MAE: 1.4629 ( A F ) Root mean squared error 2.3536 均方根误差 RMSE: 1.8174 MRE= ( Mean relative error 0.5322 平均相对误差 MRE: -0.0308 Root relative squared error 0.2662 相对平方根误差 RRSE: 0.1536 (Ft tA ) / ( At A )2 , MedicalSAS 系统中 FCM-BP 组 Weka 中决策树算法 合算法 MedicalSAS 系统中 ES-BP 组合 Mean absolute error 2.3874 平均绝对误差 MAE: 1.6543 算法 Root mean squared error 2.5381 均方根误差 RMSE: 1.9324 Mean relative error 0.1664 平均相对误差 MRE: -0.0308 Root relative squared error 0.2993 相对平方根误差 RRSE: 0.1634 5.4 小结 本章对 MedicalSAS 系统中的数据加载及预处理模块、多维数据特征描述及展示 模块、疾病预测模块进行了功能测试。性能测试主要针对模型预测精度展开,结合 矽肺数据对工人得病年龄做预测,通过平均相对误差、平均绝对误差、均方根误差、 相对平方根误差等统计学指标说明了建模预测的有效性。将指数平滑-神经网络和模 糊 C 均值聚类-神经网络组合建模预测算法的预测精度同传统算法建模预测做比较, 同时将这两种组合算法和 Weka 中的单独建模算法进行了比较。实验结果表明:指数 平滑-神经网络模型能结合原始工人接尘时间队列数据特点,从时间序列上对工人得 病年龄做预测;模糊 C 均值聚类-神经网络模型先对数据预归类,能极大减小模型复 杂度并降低网络训练时间。两种组合模型预测精度均高于 BP 单独建模预测精度,在 工人得病年龄预测中取得了较好的测试效果。 44 华 中 科 技 大 学 硕 士 学 位 论 文 6 总结与展望 随着数字化医学诊断技术的发展以及医院信息化水平的推进,医学数据分析技 术一直是医学统计学领域的热点课题。针对慢性病、职业病中典型疾病特点建立科 学合理有效的预测分析模型,可以帮助医生进行更准确的诊断,在科研教学、辅助 诊断预测等方面都有着不可估量的价值。 医学数据分析技术是通过将数据分析建模方法和具体典型疾病数据相结合进行 建模预测分析,从而获得对医生诊断决策具有实际参考价值的辅助信息的一种方法。 这些辅助信息既包括针对典型疾病的群体发病特征的预测,也包括根据某种规则对 已有疾病数据信息综合分析所得到的参考诊断意见。本文基于典型疾病数据,在传 统医学数据分析技术的基础上,研究多模型组合方式下的组合建模预测方法,实现 了对患者的未来得病情况预测,对全文的工作总结如下: (1)基于典型疾病数据的非平稳非线性特点,将 BP 神经网络模型和指数平滑 方法相结合,通过构造 ES-BP 组合模型,利用神经网络的非线性结构,从时间段上 对工人得病年龄做预测;将模糊 C 均值聚类和 BP 神经网络复合,在做神经网络预测 之前先对样本数据进行了聚类分析,使各子类中数据保持较高的相似度,使网络训 练复杂度和训练时间能降低很多,达到对工人得病年龄预测分析的目的。 (2)基于服务的网格编程思想,将各大类中相关数据分析子算法分别封装成数 据分析建模网格服务并部署在各计算结点上;并将具有相同的输入参数和访问接口 的数据分析建模网格服务抽象成数据分析模型调用 API,用户在本地利用这些 API 即 可调用不同网格结点上的数据分析网格程序。当用户调用执行网格计算结点上的具 体数据分析算法时,会对提交的疾病数据进行建模分析并生成建模输出结果文件。 (3)基于给定的医学疾病数据,以曲线图、散点图等可视化数据展示方式对数 据源进行二维、三维展示。在数据预处理过程中对数据特征按照统计学中各项指标 进行描述,对预处理后的数据集在数据可视化中进行实时动态显示。同时针对聚类 和决策树等算法实现了数据分析建模时模型结果可视化的展示方式。 医学数据分析技术是国内外专家研究十分活跃的领域,将组合建模分析方法与 医学疾病数据特征相结合,对典型疾病的群体发病特征进行预测是医学数据分析领 域中一个新兴的研究方向。医学数据分析技术因其重要性和特殊性自六十年代以来 45 华 中 科 技 大 学 硕 士 学 位 论 文 一直是人们研究的热点,各种医学数据分析算法更是层出不穷。尽管本文的研究工 作在上面几个方面做出了一些有意义的研究成果,但对于在这个领域得发展来说是 微不足道的。个人认为论文的工作还可以在以下几个方面得到完善和改进: 1)针对疾病发病概率的数据分析建模预测 ( 矽肺是危害我国厂矿工人健康的常见疾病,本文实现了针对矽肺的医学数据分 析建模,可以基于各矽肺致病影响因子对工人未来是否得病、得病期数以及得病时 年龄做预测分析。但是如何由工人是否得病的预测转向工人得病概率预测是一个很 困难的问题,因为是否得病的预测其实就是对两类结果的预测,但得病概率预测则 是具体的数值。目前实现的对矽肺疾病发病概率的预测必须要把输入样本中的各组 工人得病概率值作为已知值,这在一定程度上限制了预测应用的范围。如果能够在 工人得病概率未知的情况下,从各组输入参数中寻找各得病因子与最终得病概率之 间的因果关系,将对于疾病的预测预防具有不可估量的价值。 (2)医学数据分析中主观导向性的体现 MedicalSAS 系统基于服务的思想,以工作流为载体,为医学专家提供图形化的 主观导向建模方式。医疗数据的分析算法是工作流中的处理信息源或者处理结点, 提供模型参数选择、输入、输出和自由组合算法的功能,专家可以通过对每一个处 理结点进行人工干预来调整建模结构。专家还可以通过模型上传来自己添加新的适 合于该疾病类型的模型,也可以通过模型保存来对模型训练过程进行保存。但是主 观导向性应该还包括更广泛的内容,涉及从模型加载到最后的模型评估整个流程中 的每个具体步骤。包括更好的与专家的交互性和更强的对医学专家进行数据分析建 模的指导性。 (3)数据分析建模精度的提高 目前在数据分析建模时主要通过将具体建模方法和疾病数据相结合,并不断调 整模型参数来寻找最优建模方法,以获得更高的预测精度。但是模型参数的调整本 身就是一件很烦琐的工作,最优的建模方法也常常需要用户自己通过多次的尝试获 得。寻找到一种更简便的模型优化方法,对于提高模型精度和专家的分析诊断都具 有很大的价值。 46 华 中 科 技 大 学 硕 士 学 位 论 文 致 谢 在华中科技大学服务计算技术与系统教育部重点实验室/集群与网格计算湖北 省重点实验室度过的两年是我一生中非常宝贵的财富。实验室里众多前沿的项目给 我的研究提供了难得的发展机会,在积极向上、治学严谨的实验室氛围中我成长了 很多。 首先衷心感谢我的导师章勤教授,两年前成为章老师学生的那一刻我感到无比 的欣慰。章老师的严谨的治学态度和一丝不苟的敬业精神令人钦佩,为我今后的工 作和学习树立了榜样。章老师的热情、友善和对我的严格要求,给我留下了非常深 刻的印象。章老师对事业执着追求,在学术方面有着很深的造诣而又平易近人。她 待人和蔼真诚,尽力为我们提供最好的发展空间,这种难得的品质使我对她充满敬 佩和感激。每次遇到问题向章老师请教时,她总是热情耐心的给我讲解,我的每一 点进步无不在章老师的关心和指导下取得。希望章老师在为实验室劳碌的时候能多 多注意自己的身体,衷心的祝福章老师身体健康,永远幸福~ 深深感谢我们实验室主任金海教授。金老师渊博的学识、丰富的阅历和对所研 究领域的敏锐的洞察力让我感到钦佩,他幽默而深刻的言语常给我们很多启发,带 来解决问题的新思路。金老师时刻保持着对科研前沿的把握,给予我们最正确的指 导,让我们紧跟国际潮流的发展方向,使我们真正受益非浅。在此,特向金老师致 以诚挚的敬意和衷心的感谢,祝福金老师事业更上一层楼,能够把我们实验室带向 更加美好的未来~ 感谢韩宗芬教授。韩老师兢兢业业的工作态度和严谨认真的科研作风深深感染 着我,为我树立了良好的榜样;而她在生活上给予我的悉心关怀和帮助又让我在紧 张的工作和学习之余体会到了生活中最可贵的真情,让我对实验室有了家的温暖的 感觉,韩老师对我的这份真情我将永远珍藏在心中~ 感谢李胜利教授。李老师的平易近人和热情宽厚让我感受着父亲般的温暖,他 渊博的学识和风趣的态度的结合则让我们的科研环境充满着轻松愉快的气氛。李老 师在学习上严格地督促我,让我努力成长,从李老师身上我学到了谨慎认真的治学 态度。忘不了李老师温文尔雅的学者风范。 在金老师的带领下,实验室就像一个大家庭,我能时刻感受到各位老师的关心 47 华 中 科 技 大 学 硕 士 学 位 论 文 和帮助,吴松、邹德清、廖小飞、袁平鹏、石宣化、谢夏、蒋文斌、邵志远等老师 对知识的执着态度和不知疲倦的工作作风是我学习的榜样。感谢他们为实验室的科 研工作付出的艰辛的努力和营造的良好的学术氛围,感谢他们给我的学习和生活上 的关心和帮助。 感谢项目组的郑然老师,总是认真地参与我们的项目讨论,耐心地为我答疑解 惑,在项目上给我极大的帮助与指导。感谢孙傲冰博士,作为项目组的组长,他积 极地组织我们进行小组讨论,督促我完成各项任务,及时地给我提出有建设性的意 见和建议,我能顺利地完成项目的开发和论文的撰写,离不开他的支持和指导。感 谢李波博士,感谢他在学习工作生活上给我的无私的帮助。祝郑然老师和孙傲冰博 士家庭幸福,事业有成~ 感谢项目组的王敬彤、刘欣、陈巍、兰建、张亮、章伟,与他们在一个项目组 学习工作很快乐。感谢王敬彤在项目开发过程中与我默契的配合,在她的帮助下我 才能克服一个又一个困难。感谢兰建在项目开发上给我的无私的帮助,在他的帮助 下我的项目才能够有了很大的进展。祝他们一切顺利,前程似锦~ 感谢我的室友余璐、潘正秋、习昱鄂,他们在生活上给我很多帮助。感谢实验 室的好兄弟李金虎、乐一帆、罗锋,与他们在一起的日子充满了欢声笑语。 感谢我亲爱的父母,感谢他们的养育之恩,他们对我的成长倾注了全部的爱。 我知道这份恩情我用何种形式的报答都是微不足道的,希望我的祝福能给他们带去 一份快乐,祝福他们健康平安~ 最后,对所有关心和帮助过我的老师和同学表示衷心的感谢~感谢各位老师耐 心审阅我的论文并提出宝贵意见~ 48
本文档为【基于网格的医学数据分析技术研究与实现】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_842972
暂无简介~
格式:doc
大小:600KB
软件:Word
页数:0
分类:工学
上传时间:2017-09-18
浏览量:12