首页 基于基因表达谱的小圆蓝细胞瘤亚型识别研究

基于基因表达谱的小圆蓝细胞瘤亚型识别研究

举报
开通vip

基于基因表达谱的小圆蓝细胞瘤亚型识别研究基于基因表达谱的小圆蓝细胞瘤亚型识别研究 北京工业大学 硕士学位论文 基于基因表达谱的小圆蓝细胞瘤亚型识别研究 姓名:朱云华 申请学位级别:硕士 专业:模式识别与智能系统 指导教师:阮晓钢 20050401摘要 摘要 基于基因表达谱,在分子水平上对肿瘤进行分析和研究,是当前生物信息学 研究的重要课题。本文针对肿瘤鉴别问题,以小圆蓝细胞瘤为研究对 象,从系统科学和信息科学的角度,采用人工智能和计算机技术,就小圆蓝细 胞 瘤的特征基因选取问题和亚型识别问题,基于基因表达数据进行了研究,取 得如 ...

基于基因表达谱的小圆蓝细胞瘤亚型识别研究
基于基因表达谱的小圆蓝细胞瘤亚型识别研究 北京工业大学 硕士学位论文 基于基因表达谱的小圆蓝细胞瘤亚型识别研究 姓名:朱云华 申请学位级别:硕士 专业:模式识别与智能系统 指导教师:阮晓钢 20050401摘要 摘要 基于基因表达谱,在分子水平上对肿瘤进行分析和研究,是当前生物信息学 研究的重要课题。本文针对肿瘤鉴别问题,以小圆蓝细胞瘤为研究对 象,从系统科学和信息科学的角度,采用人工智能和计算机技术,就小圆蓝细 胞 瘤的特征基因选取问题和亚型识别问题,基于基因表达数据进行了研究,取 得如 下研究成果: 第一,针对分类信息的度量指标的研究 本文提出了用于特征基因选取的类加权距离指标。在 修正信噪比指标的基础上,以体现贝叶斯分类错误率的距离衡量 基因包含的分类信息。考虑到具有四个亚型,以各类样本占总样本的比例 为加权系数,对四个类别的距离加权求和,以此作为基因排序和 选择的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 。用两种指标选取基因在不同分类模型上进行亚型识别实验,结 果表 明,用本文提出的指标选取的基因包含更多的分类信息。 第二,针对驻型预测搂激的研究 本文建立了三种暇趔预测模型,首次将多类支持向量机应用到 亚型识别问题上。分别建立了三层网络模型,基于的多模模型和 摸登。逶过毙较不裁黪锰基因集合在三释模墼?麓分类准确搴,确定了一个 个基因的特征集合,蕊于这个集合利用可取得%的预测准确率。对这三 种模型分炎性能的对比研究的结果表明,优于其它两种方法,是解决 亚型识别阏题豹有效王蒸。 第三,针对特征基因集合中冗余基嗣摊除方法的研究 本文提出了一种基于相关系数的“两两冗余”排除法。该方法考虑 到某些基缀之间存在罄枢关性,去搏特征蒸因集合中分类信息指标较大基 嚣静葙关蒸嚣,德至 个特征基因。基于这个特征基函本文掏建了一个聚 类聚类模型,对所有样本进行聚类,聚类正确率达到%。与文献 报道的结果比较,采用主元分析法和人工神经网络建立的预测模型需要 %个基毅,嚣本文基予豹羲测摸型只露令将歪基强簸可取褥 %豹颈 测准确率,表明了本文方法的有效性。 本文的研究得到了国家自然科学基金的支持,已发表相关论文篇, 篇 发表在《计算机应用》上,篇发袭在《计算掇工程与应用》上,篇发淡在, 收录。本文的研究有助于肿瘤与基因关系的理解,有助于肿瘤特征 一一衷王韭大学工学碾士学位论文 基因的选择,肿瘤的自动分豢,以及肿瘤新亚型的发现。 关键词基因表达谱;肺癌分蹙;寺筮选取;小瑙蓝蜘耱癌;多娄支持向量妾且, .,;. : . “ ”, . ..,. . % 。程 , . ,. 斑 % ..’ . , , , 。 .~北京 业大学工学硕士学位论文, .,, .: ; ;眦 ;; 辩 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得壶王些盍堂或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 签名:苤墨兰曰期:竺生竺加 关于论文使用授权的说明 本人完全了解立王些太堂有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 保密的论文在解密后应遵守此规定 签名:盗垒生导师签名:幽日期:羔业。。第章绪论 第章绪论 .课题研究的背景 ..生物信息学 生物龠惫学怒一门薪兴酚交叉学秘,扶事对基因缓饼变 相关生物信息的获取、加工、储存、分配、分析和解释。这一定义包括了两朦含 义,一是对海量数据的收集、整理与服务,也就是篱好这些数据;另一个是从中 发瑷瑟戆鼹掺,瞧裁是髑姆这些数撂。它是斧夔基羧缝臻究赘爨器露产生翡,嚣 此它的研究内容就紧随着基因组研究雨发展。 基因缎研究依赖生物信息学。首先伴随着基因组研究,相关信息出现了爆炸 性增长,追切需要对海爨生物信息进行处理。皇年辩学家皴译了全长为 万核营酸的嗜盘流感籽藏纂西组以来,到嚣蘸已有大约个微生窃霸若予真核 生物,如:酵母、线虫、果蝇、拟南芥的完整基因组完成测序。甄年的春 天,科学家又公布了人类基因组的绝大部分序列,日口:人类基圊组的工作草图。 这些藏就懑昧羞基蠢缝翁磅究将全嚣逡入信悫鬟淑窝数据分专嚣瓣褒赣阶段。穰褥 国际数猎席的统计,年月碱基数目为亿,年月碱基 数目是亿,现在这~数目已达亿,大约每个月翻一褥。同时,电子计 算枫芯片对于数字处理能力静增长也耀当于每个胃魏一蚕。毽篼,诗箕搬能 够有效黉羹管理和运行海爨数据。 从事生物信息学研究应具备多方颇的科学基础。首先,它需露一定的计算能 力,包括相应的软、硬设备。要有各种数据库或者能与国际、翻内的数据库系统 进行套效豹交滚。要有笈运、稳定弱戛联网络系绕;蘑时,生物信怠学焉要缀有 力的刨新算法和软件。没有算法创新,生物信息学就无法获得持续的发展。最后, 它要与实验科学,特别照与自动化的大规模高通量的生物学研究方法与平台技术 建立广泛、紧密的联系。这些技术,鼹是产生生按镶怠数摆弱主要方法,又楚骏 证生物信怠擘研究结栗瓣关键手段。黻此,麸事生物信息学研究的人员也必须具 备多学科交叉的知识。 我国生物信息学的研究和应用有~定的基础,因而有望取褥突破性成鬃,这 对子璞强我器在基爨磅究领域戆实力,在莱些方甏占据国舔领巍堍谴是十分鬟要 的。生物信息学成果的应用也会产生巨大的社会效菔和经济效黼。北京工业大学工学硕士学位论文 ..肿瘤基因疾病的诊断 ,的进 基因芯片技术是随着“人类基因组 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 ” 展而发展起来的,它是年代中期以来影响最深远的重大科技进展之一。基因 、寡核苷酸阵列 也叫芯片、微阵列 芯片 ,用基因芯片进行的表达水平检测可自动、快速地检 测出成千上万个基因的表达情况。基因组学及微列或芯片技术的发展为疾病 的分子诊断提供了广阔的前景。 人类基因组计划的始动因素是要解决包括肿瘤在内的人类疾病的分子遗传 学问题,单基因遗传病和多种大面积危害人类健康的多基因疾病如肿瘤、心血 管病、代谢性疾病、神经一精神类疾病、免疫性疾病等的致病基因和相关基因, 代表了在具有~定生物学冗余性的所有人类基因中结构和功能完整性至关重要 的那~部分基因。因此,利用基因表达谱来研究多基因疾病的基因特征是生物信 息学研究的重要组成部分。 当前,多基因疾病已经成为基因组学研究的重点,由于多基因疾病不遵循盂 德尔遗传表型一基因型的规律,因而难以用一般的家系遗传连锁分析取得突破, 这就给准确的诊断和有效的治疗多基因疾病带来了困难。肿瘤是一种与遗传基因 密切相关的多基因疾病,目前,许多种肿瘤疾病单纯运用病理学和临床医学的知 识和方法不能有效的治愈疾病,特别是某些肿瘤疾病存在多种亚型,各个亚 型的 临床表现特征及其相似,而其基因特征却存在本质的区别,只依据病理检测结果, 在临床上很难做出准确的诊断。因此,迫切需要一种新的方法,以提高肿瘤亚型 的判定和诊断的效率和准确率。随着大规模基因表达谱技术的发展使这成为了可 能。 ..研究的目的与意义 对于人类头号杀手的癌症,其早期准确的诊断尤为重要。传统购髀痘分类与 识弱主要旅嚣对瓣癌组织弹本麓显徽魏测、光片、核磁共振淘豫分橱等群零瓣 测手段以及利用免疫化学特征进行分析,具有如下缺点: 基于组织样本观测进行肿瘤的判断与类型判别的检测手段,准确性往锉 蔹赖予溪溅窝努椽久员款经验帮知谈,主翳瞧较强,耱瘰诊錾馥准确馁 和可靠性差,尤菠是对肿瘤强烈的准确辨识,更加困难。 基于免疫反应特,征的肿瘤诊断,过程复杂,糕时较长,难于在实验室中 对多个免疫特征黝时进行分孝居,可用的分类特征少,精度低。 徽簿歹或萋因芯片,佟为分子诊断豹主要手段,对或子上万豹基园在不 同组织的表达进行跟踪监测,不仅帮助癌组织的鉴别分类,也为研究癌症生物举第苹绪论 笪邕..... ??璺 提供强大的科学依据,成为当代医学及生物学研究及生物技术发展的重要方向。 遗著其试验技术及坟嚣豹不鼗袭迸帮鏊霾缝数据豹怨痿疆长,瑷找镁蓐别藏 基因芯片技术产生的各种基因表达数据,规模庞大,内容复杂。如何有效地分 析利用这些数据成为生物信息学中一挑战性课题。 在分子水平上进行脖瘤的识别与分类具有重爨滟临床应惩价谴。随着大痰搂 基函表达港技术豹发袋,人们剩瑶芯片在一次实验中可同时获得组织徉本中 成千上万个基因的表达数据,使得在分子水平上研究肿瘤的识别与分类或分型成 为了可能。利用肿瘤细胞与正常细胞在基因表达上的差别,采用模式识别与数据 挖握技术建立起有效熬耱瘙颈测帮黪癔分类蒺銎,为黪瘗夔羲臻诊凝鬟餐一霉孛客 观、准确地方法,使肿瘤的诊疗从“系统、血管、组织和细胞屡次”转变到蒸因 甚至分子层次,具有极大的实际应用价值。 愚芯片测定基黢褒达谱需要褥本少,可到耀计算枫建立分撰预测模溅, 从面迅速获知样本翔潮的结果,较传统静瓣瘤的缀织诊断法幸臭速离效,并为瘸症 的早期发现提供了基础。 临床上肿瘤治疗急需解决的问题怒针对各型肿瘸进行特异性的治疗,加强用 药效力,缓少墓《佟溺,以便热强治疗嚣孛痘懿特异瞧、赞黠蛙襄露效毪。毽 凳,艟 瘤的分型在临床上一直处于较困难的状态,因为它一直依赖于生物学特点而没有 ~个系统、合理的方法。许多形态学棚似的肿瘤疾病,如白血瘸的不同亚型、淋 巴癯的亚溅等都具有糟似的症状,恢黪现有酶组织免疫学诊鞭方法攘难准确凌定 箕亚垄,获两对症施治。铡露基因表达谱,可以在分子水平上实现对瓣瘤的努塑。 基于基因表达谱,从信息学的角魔出发,利用机器学习和知识发现方法,特 别是无监督学习算法,建立有效的聚豢模型,进行且申瘤的亚型发现,可以发现未 矮弱萋孛瘩戆豫型,也可以对耱瘗酶分攒提供一穆颟恶蘧车鞋薮受囊,遣有稳予黪癌 的诊疗。 总之,漩方面的研究肖助于肿瘤与基因关系的豫解,有助予肿瘤特征基因的 选择,瓣癯翡自魂分类,以及髓瘤瓣疑型粒发瑗稻演疗麓瘦蕊秘酶簿选。 .基半纂因表达谱的肿瘤识别研究概兕 黪癌避嬷藤医学上瓣难嚣,也是当蘑皇痨医学磷究孛瓣萋点。芯笄的 出现从基因水平上,从转录和基因表达与调控的角臆研究肿瘤的发生,发展以及 在该过程中艇参与的分子机制提供了~个高通量灼分据平台。模式识别技术、 数 提挖掘与懿器学习接零近攀来匏遗震粒磷竞直弱妁弓入,褥翳癯懿磅究拭组织溪 铡、祥本躐化检验、稿霖病史研究等传统方法,引入到以计算和信息分析为中心 一一北京工业大学工学硕士学位论文 的全新领域。 目前,肿瘤的基因表达谱分析与建模已经成为生物信息学研究的重要课题。 特别是国外的各研究机构针对肿瘤的基因表达谱已提出了一些具有代表性的方 法,并在实践中推动了肿瘤学,特别是分子肿瘤学的进步。当前国内对肿瘤的基 因表达数据分析的研究尚在起步阶段,从事该项研究的人员较少,与国外的研究 相比,存在着相当大的差距。下面针对肿瘤基因表达谱分析与建模的最常使用的 两类方法,以及这些方法在肿瘤分析与建模方面的应用。 聚类分析是大规模基因表达谱目前广泛使用的统计技术,它是一种无监督学 习方法,通过比较表达数据间的相似性,把目标数据放入少数相对同源的组或 “类”里。这类方法包括简单的层次聚类方法,均值聚类,自组织 特征映射网络等。然而,这种方法不能有效地研究基因表达谱的差异与 其样本表型的关系。 分类分析是另~种大规模基因表达谱目前广泛使用的机器学习方法,它是~ 种有监督学习方法。相比之下,分类分析是一个目标引导驱使的过程,适合于 用于关于生物类型分类和疾病诊断方面的研究。常用的分类方法有人工神经 网 络,支持向量机,加权投票法等。下面具体介绍国外研究人员基于基因表达谱 研 究肿瘤分类方面的研究成果。 癌癜基因组研究中心博士领导的研究小组利用芯片所测定急 蛙自血病组织样本的基嚣寝达谱进行了驻型分类研究“’。魇用芯片上的 个羹因中含有个人类蓥嚣,荠戬这些基鞫在缓缀样本细胞中瀚基嗣表达水 平作为分析的基础。通过对个和个样本的分析,该小组首先利阁 统计学方法对样本的个基因与样本类别的相关性进行了显麓性检验,发现 缝丈多数蒸黢与样本款炎黧无关。逶霆零矮选塞懿爨骞最大靠臻魄瓣令基黧 作为分类的特征基因,采用加权投票的方法,对这个样本进行了“留一法” 交叉校验。媳样通过“留~法”得到总的测试结果为:个样本中有个样本 被正确分类。 铡瑟趣衩投票模型,该小组磋究人员对个稳矗乙熬獭立测试样本避 行测试的结聚表明,利用个特征基因,该模型准确鉴别出个样本的亚型炎 别。总的说米,在个榉本中共有个样本被准确识别。所选择出的个特 锺蓦嚣孛鼹镪含邑知翡致瘘基鑫,又毽禽了嚣砉萋已躲瓣与嚣耱不越蠢盘瘾 翌鳖翔 剐紧密相美的基因。同时在这个基溺中,还包含了~些新的标识亚型的新蒸 因,从而为慧性白血病的生物研究提供了线索和借黢。 等人工作表睨了基于基因袭逖谱送行肘瘘诊断救可能性秘可行性,提 供了一静从生物信惠学静角度研究髀癌的新愚路。德们的这一研究,瞧弓发了生第苹绪论 物学界和信息领域的大量研究人员投入到肿瘤基因表达谱的分析和建模中来,极 大地推进了从信息学的角度,利用计算模型分析肿瘤的基因机理和分子机制的研 究。年,《科学》上刊登了等人的这一研究结果。 基于等人提出的方法,癌症研究中心基于肿瘤的基因表达谱,对 脑肿瘤、乳腺癌、肺癌、恶性黑色索瘤、前列腺癌等多种恶性肿瘤进行了研究并 总结归纳了肿瘤基因表达谱分析的“第一代方法”。 ??一 琵现类另 壹攀鬻燮多一匿暮器瓤 缩放过滤和归“‘化 【’????’????’?????????? .;爿‘弹撼胁一类别相关系数并列, , 墨垦篓序学塑薹垒罂一一 线性判别 准则 租赁准则应用指南下载租赁准则应用指南下载租赁准则应用指南下载租赁准则应用指南下载租赁准则应用指南下载 .。.~ 加权投票 一 一~ 建立有监督预测器训练 算法举例:近邻 支持向量机 、??一夏支覆赫祗氟囊五磊”、 神经网络等 , 一一 ?~一一?? 在独立测试集上评价预测器 图.分类的监督学习方法框架 在肺癌的分类与识别问题上,该方法的主体柢梁如图卜掰示。由于芯 片所测量的数千个基因中只有少数慕因同样本类别相关,因此该方法首先根 据基 因同样本炎别的襁关程度,对基嚣进行撩序,并横据设定的菜个阚筐选择出 基毒 最大穗关俊的著予个麓嚣,这些基戳耩箨为祥奉裟潮稻关静蒸戳褥记褥,我 们称 之为特征撼因。确定熬闵同样本臻别的相关程度采用的是信噪比指标,见式 卜。 。搀墼二丝塑 十口? 基因的信噪比值越大,则表明越因同样本类别的相关性也就越大。式一 中掣为样本驰均僮,‖为样本的标准嫠。 选彀蔼曝篦篷较大鼹若干基遨捧巍籍薤萋图,佼攥薅薤基霹在撵奉孛懿表运 水平作为训练数据集,对不同类型的分类器进行训练,构造有效模型,就可以 对 未知样本的类型进行判别。 基蓖,稔鼹癌匏分类与磬裂逮题,臻錾掇密缒上述方法终,还涌褒爨了 一大羲乏采阕不滴方法,形式各异酌建横和分帮于方法。年针对自血癌魏掰, 一~北京工业大学工学硕士学位论文 。等通过对所提出方法的深入研究,指出等人基于信噪比指标, 采用加权投票作为分类的方法,其分类器从本质上来说就是一种线性分类 器。”, 其信噪比指标只考虑单个基因同分类结果之间的相关性,而未考虑基因之间 的相 关性。以支持向量机作为分类工具,提出了~种新的特征提取方法,仅用 个基因作为分类特征就取得了%的分类效果。 年,就小国蓝细胞瘤的基因表达谱,等使用神经网络方法对其四 种亚型进行了诊断,提取了个特征基因,得到了不错的结果”。斯坦福大学 的用最近收缩质心算法提取了个特征基因,能够识别测试集上 的个盲样本的亚型“。和应用近邻算法和加权投票法以及 支持向量机对把这个四类问题分解成多个二类分类问题,并结合使用几种 特征选取方法信噪比, 分和进行了分类,最后对分类性能进行 了比较?。实验结果表明,当使用到个基因特征时,大多数支持向 量机分类器获得最小的测试集错误率以及留一法交叉校验错误率。这篇 文章给出的最佳结果指的是,在测试个盲样本和交叉校验个训练样本时, 分类有可能是最好的。但是,由于这个问题的一对其余模式需要个二类分类器, 在学习完整分类规则时需要的不同特征个数是每个二类分类器特征个数的四倍。 目前,基因表达谱的生物信息学研究主要集中在下列几个方面:聚类分析, 分类研究,特征基因的选取和基因表达谱数据库构建等方面,最终目的是从生物 信息学角度出发,利用基因有关的表达谱数据来探讨在某一特定生物学状态下的 基因功能。 .本文主要工作 ..课题来源 本课题楚国家自然科举基因重点资助项目. 《复杂系统意义 下靛生貔倍怒学中若予翊愆蕊磊秀究》豹一个缀癜部分; 《复杂系统意义下的生物信息学中若干问题的研究》从分析艇杂系统的观点 出发,通过分析基因组的信息结构、调控激励、以及综合利用基因组、转录组与 蛋叁爨憨绩怠,遗嚣基爨缀功缝款探索窥了解。该谖题对予扶整体主分辑臻究蒸 因之间及箕簇困与蛋自裰之阊的相互作用对基因功麓的影响有着霞要作用。 本课题作为当今热点科研领域内的前沿研究课髓之一,有着广阔的研究价假 和发展空闻,课题有着极大的理论和应用价值。 一第章绪论..主要内容 本课题作为《复杂系统意义下的生物信息学中游于阀题的研究》虢一个缀成 部分,着黧研究基于基网表达数据对各类型肿瘤的识别与特征撼因的确定镣问 题。本文选定了儿童小圆菔细胞瘤作为研究的对氖,在等研究工作的熬础 上,簸傣爨学的费度,嘏据模式识溺激薪煞发曩,萋秀究萁基因袭达谱与其各令甄 型之间的关系,对该种肿瘤的基因表达数据进行了分析和建模,以寻找决定儿童 小圆蓝细胞瘤亚型的最小特征功能基因集合为目标,作了多个方面的探讨,并对 该特堑功熊嫠因集合中的基霞兹生物学意义进行了一定程度懿掇讨。 本文雷先通过互联嗣收集了小国薇细胞瘤原瀚数据集,经过归一优等预处理 之后,建立了适合于研究分析的小圆藏细胞瘤亚型接因表达数据库。肿瘤基因表 达谱数据具有维数高,样本少的特点。利用表达谱数据中的所露纂因对肿瘤进行 分类,著不韪取褥满嚣熬羲溺结浆。裁弱在改避信臻跑穗繇麓基磴上,祀 距离应用到特征基因的选取上。以每个类别样本相对于其余类别 样本躐离的加权和作为衡量基因分裟信息的标准,称为类加权 距离,饺握类鸯霹权鼹离对墓医邀孳于羲序,著逸取 靠蓠的若予基因用于训练分类模型送行亚型识剐。 然后我们以两种策略探讨了小圆蓝细胞瘤的溉型识别这个多类分类问题。一 种策略是把多类问题分解成多个两类分类问题求解,我们构造了旗子二类支 掩向 羹李晁懿秘翡多模预溅模墼;弱一耱是葡嚼考虑多个类瓤,著行遗楚溪多 类问题,我们构造了三层网络模烈和多类支持向量机模型。 为了评价分类模型的性能,在训练集上进行交叉校验,而在独立测试集上进 行独立溺试。逯过分辑滋较这凡秘分类模墼的性戆,按照分类镣误率最,、稻 蘩函 个数最‘卜船原剐确定选取特征基因集合。 由于蒸因间存在替调控关系,使得基因集合中的基因间的表达有相关性,我 们使用基于相关系数的“两两冗余”分辑法摊除了基因懿含中的冗余蒸 因,褥到了包含蓥霞数簸少静一个缀合。裁枣国蘸绥施瘤亚鍪识爰蕊言,该缀 合 是目前最小的特征基因巍合。 为了检验所造基因爨合对训练集和测试集样本的聚类能力,利用聚类 套缝织将疑映袈鼹终移对疑意箨奉进舒浆类,笺够将每令雯墼载褥搴 都聚成一蹙,聚类正确率达%,液明我们所选豹特征基因能够很好地反默样 本的类别特性。 最后,我们对特征熬困集合中的基因的生貔学功能进行了初步的分毒蓐粒探 讨。 本文选取以较少的特征基因数取得%的分嫩正确率和聚炎正确率,优予 ~一北京工业大学工学硕士学位论文 文献,,的结果,表明本文特征选取指标,多类支持向量机和“两两冗余” 排除等方法的有效性,是用于基于基因表达谱的多类肿瘤识别的新方法,对肿瘤 与基因的关系的研究可起较大的参考作用。 ..论文组织 本文共分为六个部分。第一部分为绪论,着重阐述课题研究的背景和意义, 国内外研究的现状以及课题的来源,本文研究的目的和研究的主要内容。第二部 分为问题描述与数据来源,首先介绍小圆蓝细胞瘤亚型识别的现状,我们的研究 目标以及对基因表达数据的处理流程,接着介绍了小圆蓝细胞瘤原始数据集的来 源,组织形式以及样本划分情况。第三部分为特征基因选取,分别阐述针小圆蓝 细胞瘤的四个亚型,如何使用合适的分类信息指标确定对分类最重要的基因,并 生成用于分类的特征属性集合,以及本文基因选取指标与信噪比在特征选取 能力 的比较。第四部分为分类预测模型的构造设计,分别介绍了神经网络,二类 支持向量机和多类支持向量机在亚型预测中的应用,分别建立了预测模型,利用 第三部分生成的特征属性集合进行了预测实验,同时给出了预测结果,并对这三 种建立的预测模型进行了比较。第五部分介绍了对特征基因集合排除冗余基因的 方法,并以聚类研究了特征基因集合的聚类性能,以及就所选特征基因集合 与前人研究成果的比较,还包括对所选基因功能的初步探讨。最后一部分为结束 语,为本文工作的总结以及以后工作的展望。 .本章小结 本章首先阐明了课题的研究背景、意义以及国内外的研究现状和概况,然后 介绍了本文课题的来源,本文主要工作以及论文的结构。第章问题描述与数据来源 第章 问题描述与数据来源 本章先讲述了基因表达的基本概念,接着在使用的分类监督学习方法 框架‘的基础上提出了本文针对小圆蓝细胞瘤亚型识别问题提出的数据处理方 法的主要流程和框架。最后说明了数据集的来源、数据格式以及样本的划分。 .基因表达谱概述 ..基因表达的基本概念 入类鏊谶组计划绘制的人类基因缀图谱表明,入类基因组由.亿个碱 基对组成,共包含了万“万个基因。基因表达 的过程分为 两个阶段:转录和 翻译 阿房宫赋翻译下载德汉翻译pdf阿房宫赋翻译下载阿房宫赋翻译下载翻译理论.doc 。转录的过程是指由 攀链按慧璇蒸互替靛藤嚣?复麓鑫瑟一条凇单筵黪生物过程,生成汝单链 称为信使。翻译的过穰是指以转录过程产生的信使为模板, 依据三联密码子原则,形成氨基酸序列,合成蛋自质的复杂过程。 图真核嫩物基因表达过程 一一北京工业大学工学硕士学位论文 表达的过程。基因的表达水 图?表示了真核生物基因 平是指信使的表达水平,表征了基因转录的程度。 ..基因表达水平的检测 基因表达水平的检测主要依赖于生物芯片技术。随着计算机及基因组科学的 迅速发展,为适应人类基因组由结构向功能研究的急剧转变,分子生物学研究手 段向着高通量、大规模的方向发展。生物芯片的最突出特点是具有巨大的高通量 效应。生物芯片是一种微型多参数生物传感器,它通过在一微小的基片表面固定 大量的分子识别探针,或构建微分析单元和系统,实现对化合物、蛋白质、核酸、 细胞或其他生物组分准确、快速、大信息量的筛选和检测。 基因芯片,又称探针微阵列,是一种最重要的生物芯片, 它在片基表面密集排列大量的基因探针,通过碱基互补配对识别,使与基因探针 匹配的样品能被检测。基因芯片能够在同一时间内分析大量的基因,实现生物基 因信息的大规模检测。 基因芯片检测的基本原理是反向探针杂交,即在固定支持物上固定大量探针 分子与目的基因序列互补并标记了放射性同位素的段单链,与带荧 光标记的样品分子进行杂交,通过检测每个探针分子的杂交信号强度,确 定样品分子中序列片段的含量高低,并给出样品分子中每个基因的表达水平程 度。 ..基因袭达谱数撼的获取 在基于微阵列的实验中,首先选取来自不圜状态的样本如正常组织与黔瘰 组织,不澍发育除段錾级,或瘸药之翦与嗣药之后缀织等,其中~耪称为实验释 本 ,另外~种称为参考样本 ,在反转 录过程中,实验样本和参考样本分别用不同的红、绿荧光染料去染色,并将 它翻漫台,与激痒尉土懿滚赞序列避于杂交,经适当匏洗驻步骤%激光舞撬饺黯 芯片进彳于扫搦,获得对应予每种荧光的淀光强度图象,通过专用的图象分 析软件, 可获得微阵列上每个点的红、绿荧光强腹和,其比值/称为该 基因在实验楼本中的表达水平。在通常憾猿下,考虑和麴数值时,还应 考虑稳盛静背景数值,襄暴微阵列上菜个基嚣酌袋数蕊毙籀应静背景数 值低,则该溅因的表达水平无法确定,为了方便数攒处理,常以数值表示该基 因的表达水平,或壹接以空值即缺省德表示,在做县体数据分极时,可通过降 鬣缍数办法采处理臻雀毽。 另外,为了反映某个旗因表达水平在实验样本和参考样本中的倍数关系,可 一?第章问题描述与数据来游 以对上述比值进行以为底的对数变换即以。/表示该基因的表达水 平。显然,如此对数值为,则表示该基因在实验样本中的表达水平比参考样本 中的表达水平多一倍;如此对数值为一,则表示该基因在实验样本中的表达水平 比参考样本中的表达水平少一倍。此时,如该基因的表达水平无法确定,则以数 值或空值表示。通过微阵列实验,我们将最终获得基因表达矩阵以字母 【。?表示,其中表示基因个数,”表示实验样本个数,这就是所谓的 基因表达谱,是进一步进行生物信息学处理的基础,其数据质量直接影响后续的 分析结果。为了对某个生命现象获得可靠的因果关系,这一步应慎之又慎。 此外,为了使芯片上的探针能够与相应的基因进行特异性杂交,必须对探针 进行专门设计,通常按下列条件进行选择:要求每个探针序列具有相近的熔 解温 度,合适的长度,无稳定的发卡环结构 ,并与其它的基因 序列无明显的相似性相似性在%以下。 本文使用的的基因表达数据就是用上述方法通过基因芯片检测获得 的。 . 翌型谈剐闫题凝述 小圆菔细胞瘤通常发生在儿童身上,存在四种皿型,分别是 、 砖、萄秘粉畦 。在显微镜下,这些亚型的莠串瘸细胞看起来都非常相似,必 须很小心,且费时,才能做出正确的诊断,进而才能提供适合的治疗之道。在 临 床上极容易谡诊。目前逐没有一种单一的化学或者生物学测试方法能够把这 嬲种 耍登准确邋分开。 年,等人在《自然》上发表的他们的研究成果【,在他们的研究 中,使用基于微阵列获得的个样本的基因袭达谱,用主元分 辑法窝人王狰经潮终从个基嚣中选出个蓥因,据瑟筑够区分测试熬上 个盲样本的亚型。就研究证臻基黼芯片与人工籍能和机器学习技术的结合可 作为肿瘤诊断的基础。 临床实践要求微阵列技术及数据的分析处理能够程式化并低成本。常 鬣辍簿甍实验中,戒于上万豹爨嚣被努橱,被研究,遁强暴髓获中我劐少 数少数“全能”的基因,并通过这些藻因就可准确有效地分类撩别癌组织,则撮 为理想。因而,为了辨识用于肿瘤治疗的靶基因,在取得高分必准确率的同时辨 识小特征豢因子集是缀爨要我。 等人使用的主元分析法会丢失基因所包含的分类信虑,丽他使用的简北京工业大学工学硕士学位论文 单人工神经网络模型没有隐含层,是线性的,不能学习基因中蕴含的非线性关系。 另外,他们的特征选取方法比较复杂,依赖于分类模型。而等人选取的 个基因的集合还比较大,很有必要进一步寻找更小的基因集合,以便于进行生物 学的研究和临床实践。 鉴于以上分析,我们以寻找能准确区分所有样本亚型的最小基因集合 为目标,提出了新的直接的特征选取方法,跟分类模型无关;分析了各种分 类模型在基因表达谱上的应用,并对各自的分类性能进行了比较,这些 分类模型包括神经网络,基于的的多模模型,以及多类支持向量机 。依据最好的亚型识别模型选取了若干个基因,使用这些基因能识别训 练集和测试集上的所有小圆蓝细胞瘤样本的亚型。最后,考虑到基因基因之间存 在着调控和相互作用关系,使得表达谱中不同基因在表达水平上存在一定程 度的 相关性,我们对选出基因的组合依据相关系数进行了初步的去冗余分析, 得到了更为精简的特征基因集合。最后,对这些基因表达水平和功能特性作了初 步的分析,并利用选出的基因的表达数据对所有样本进行了聚类分析,检验了特 征基因集合对亚型的判断能力。 强。绘爨了本文小毅夔缨嶷瘙数据处理兹滚稳强。分类售怒嚣标煞选搭蹩 重要的一步,决定着能否从个基因中选出合邋的基因进行分类研究。其中 基于分类模嫩求取分类错误率最小的特征基因集合憋亚型识别模测的关键,直接 影响到特征罄因数量的确定,影响到下一步躲冗余分据衣聚类分糖。 原始基因表达数挺 样本聚类能力分析 一一 ~& 数据预处理 去冗余;折 ?? 一??一’一?? 。.? ,,.?,????赴一????。?,??.。???。。..?。?? 诗舞分类信息接标生 基予预测模型袁取分 成分类特征集合特?~一一一类错误率最小的特征 鏊因集合 征选取 图本文数据处理流程鼬 ,鹫中基予分黉模型求取分炎错误率最,、豹特征基邋祭合鹣详爨流程 如图?所示,含个基因的特征集揩的是分类信息指标最大的前个基因组成 的集合鼠,由该步确定的组合一一。,是在所有的分擞模型中在训练集上交叉 校 验弱独立溅试熬错误搴豢,、蕊基因集合。对予多类分类器,我翻选取了糖经 网络,基于二类支持向爨机的多模预溯模型以及多裟支持向量机第章问题描 述与数据来源 ,以便选取最好的预测模型,寻求最好的预测效果。 ,一、、 一 愿始 数据集 / ‘。 、、 / 图由预测模型确定帕一。, . 基因表达数据疼豹建立 我缃采鬟等浚集赘小瑟蓝鬃藏瘗萋霾表达谱鼗攒集律为实 验 样 本 集 , 从 地 和 址://.../ ://,./下载获褥。援始数攥集中共包含个样本, 其中,个样本是患小圆蓝细胞瘤四种亚型之一的病人样本,剩余的个样本 是未患奎基夔缓戆瘗数样本。令悫瘸搀本巾,患\受燮蕊襻本令,悫 亚激的样本个,忠艇型的样本个,患亚型的样本个。缚 个样本趣含个基因款表达水平,每个基毅翡表达东平壹一令实数度量,实 数值自勺大小表镊了基因表达的程度,德越大,寝达水平越高。检测基髑表达水平 的实验方法决定了基戮表达数据中会含嘉噪声,因此,镳小黪黎因表达隶乎毽容 易受到噪声的影响,而不能准确的表铤该基因的表达水平。在建立小圆蓝细胞瘤 基因袭达数握摩之煎,先对基啜表达数据进行?过滤,憋基西缝对表达水乎蠖小 于即红光亮度低于的基因从个基因中剔除其他使用小圆蓝 细胞癯数据的研究中,均应用这一靓则过滤基因,过滤压,每个样本保窝了 个基因的表达水平。鏊因表达数据的格式如表?所示,表,中的袭达数据是 楣对红光亮度取自然对数后的值,其中样本学下面标识笱表示的是样本 所属的亚型,而基因号后一猁表示的是基因的芯片试验时的图像标识 。 一一北京工业大学工学硕士学位论文 表原始数据集数据格式\拌搴号 基因\\ . . . .. .. . . .最终建好的小圆蓝细胞瘤基因表达数据库中存储了个样本的数据,每个 样本保留了个基因的表达数据,同时,将实际应用的数据集分成了训练样 本集和测试样本集,为了便于同等人的实验结果进行比较,划分方法与文 献相同,原始数据集、训练样本集和测试样本集的样本组成见表?。其中的 个非样本由于跟亚型识别问题关系不大,我们将之作为检验分类模型 能力的参考样本,但是统计分类错误率时不计入错误分类样本之中。 裘数攥集中器类样本豹缀藏 。本耄小结 本章介绍了基因表达的基本概念、撼础知识以及数据的制智,小圆蓝细胞瘸 驻型识别问题的研究进展及本文的解决阀题的主要橼架,最后说明了数据集 的泉 源秘撵李懿翅分。第章数据预处理与特征选取 第章数据预处理与特征选取 原始基因数据中含有噪声,所以需要对其预处理以降低噪声的影响。肿瘤基 因表达谱数据具有维数高,样本少的特点。较高的维数比率,将导致所谓的 “维 数灾难问题”,从而使分类器的泛化能力大大降低。利用表达谱数据中的所 有基 因对肿瘤进行分类,并不能取得满意的预测结果。所以,选取分类信息较多的 基 因用于构建分类模型是亚型识别问题必不可少的步骤。 本章提出了用于特征基因选取的类加权距离指标。在 修正信噪比指标的基础上,以体现贝叶斯分类错误率的距离衡量 基因包含的分类信息。考虑到具有四个亚型,以各类样本占总样本的比例 为加权系数,对四个类别的距离加权求和,以此作为基因排序和 选择的标准。用两种指标选取基因在不同分类模型上进行亚型识别实验,结果表 明,用本章提出的分类信息指标选取的基因包含更多的分类信息。 .数据噪声与预处理 ..董数据嗪声熬暴源 无论鼹肿瘤的分类与识别还是肿瘤的聚类分析,其分析的激础就是大规模基 因表达数据。出于基因袭达数据测宠过程中需要经过多个步骤鲍操作,丽每一步 都可能入大量豹噤声,这裁佼季葶繁瓣表达谱数罐璃予强噪声数据,鼗据噪声豹 来源主要有如下几个方面: 样本组织中细胞组分的不同。 样本遥择差异及基毽缝本隽瓣不稳定一篷爨逑残的令体溺兹差雾。 样本制各手段的不同。 基因探针与靶标基因的非特昴性杂交。 不同基因芯片闻的差异。 其中蔽主要熬差舅薅瑰在个髂麓嚣组阁壹予个体多样瞧掰造成静基谶阚的 差别。同时由于样本获取和制备上的困难,因此目前的基因表达谱的样本数很少。 这就造成了基因表达谱样本少,维数高,噪声大的特点。针对该类数据必须对噪 声数据邀于有效处理,方可能褥到反皎生狻本臻戆分类帮聚类舔暴。北京工业大学工学硕士学位论文 ..数据预处理 去除噪声和降低噪声的方法,目前可以分成两种方式:一是通过对数据进行 有效的预处理,进行基因或样本的归一化等方式,降低基因表达水平中的噪声的 影响:二是研究如何有效地去除与样本类别无关的基因,而只保留与样本分类特 征相关的基因作为分析的基础,这些影响样本类别的基因,称之为特征基因,与 样本分类无关的基因称为噪声基因。 我们使用的小圆蓝细胞瘤数据已经由等人完成了部分预处理工作,他 们将红光亮度低于的基因从原来含有个基因的数据中剔除,对 求自然对数后,保留了个基因的表达数据。其他使用这一数据的研究 都是采用了过滤之后的基因表达数据。 然后我们对过滤之后的数据进行归一化预处理,即将基因的表达值的分布变 换成均值为,方差为的分布。如公式?所示。 ,:掣 式?中,,是第个基因在第个样本的原始表达值,口, 盯分别是第个基因的表达值在训练集样本中的均值和均方差,’』享,是第 个基因在第个样本中的归~化表达值。这样处理有利于特征选取,有利于构 造分类器实现对肿瘤的亚型识别。 .特征蒸因选取 ..分类慵息指标 就模式分类而言,有效她去除嗓声蕊因,从而降低样本的维数比率具有重疆 的意义。这掇因为较高的维数比率,将导致所谓的“维数灾难问题”,从而使分 炎器的泛化能力大大降低。由于样本数疆有限,因此枣效去除噪声基因,裁成为 簿低维数磁攀的主要途径。同时,为了褥至帮理论嘏捆接近酌错谈率估计,降低 计算复杂度,简化知识发现,也必须降低维数比率。遗就使得使用某种指标来衡 量每个基因对于分类的重要性十分必要,下面介绍我们在这方面的研究。 年,激癌疰基隈缝霹究中心薅?在嫒究急缝鑫敷瘸翌鍪静谖搿 时提出了基围的信嗓比措标“,以表诬蕊鞠同祥本类别的相关程魔,即衡量基圆 包古的样本分类信息。信噪比指标如式~所示: 『:壁盟丝望?~ ” %,十疋穷 式?中肌,,‖/和毋,,吼,分别怒第/个基斟襁酾个类别样本第章数据预处理 与特征选取 中的均值和均方差。在等人的论文中使用了一种相关系数方法”,跟 判别准则相似,我们称之为分,第,个基因的分定 义为: 亟嘤掣? ‘口,‘ 式?中‖。,‖:,和?,,口:分别是第』个基因在两个类别样本 中的均值和均方差。 但是,无论是信噪比指标还是分指标,都只体现了基因在两类样本 中分布均值的差异,而不能体现方差的差异对分类的影响。如果基两个因在 两个 类别的均值相同而方差差异较大,信噪比指标和分指标的结果都是零, 无法衡量基因对于分类的重要性,而其实,由于方差不同,这两个基因的包含 的 分类信息应该据此可以体现出来。鉴于此,我们提出了基因的距 离指标,其定义如下 ,::燃 芝瓣? 只??风‰?“ 式?中,,‖/和?,,分别是第,个基因在两个类别样本 中的均值和均方差。式?中只是贝叶斯分类器的分类错误率,。,,巩:分别是 分别是两个类别的先验概率,?”“是贝叶斯分类器的分类错误率的上界 采用撼因的距离作为衡量基因包含分类信息的指标,基于理 论最小风险的贝叶斯分类器的分类误篾可以直接储算出来,即其分类误差不会超 过满足只?。‰~。可见基嚣鲢距离纛接体觋了分类镫 误率,楚衡量特征分类能力的重要指标,因为也被称为彝”。 界越大,分类错误率越低”’’”’。同时,从式可以看出, 距离不仅体现了基弱在两类不同样本中分布的均值的差异,蕊时 还藩凌了分布方差对不嗣分类戆影璃。嚣著采嚣信噪院指标时,若菜一基因在两 个类别的均值中相同,则,那么该基因将被作为噪声撼因排除。而实际 上,我们从生物学的角度分析,假设~些样本来融同样的发病机理,由这些样本 嚣形成熬一令类中,霸戴发痣凝理穗关瓣基嚣在该类鲍分毒中分毒豹方差癸魄箕 在背景分布上方差要小,因此邵便怒某一基因程两个不同类剐中分布的均值相 同,该基网也可能作为一个与疾病相关的基因而存在。对距离而 言,当某撼因在两个不闲样本的分布的均值相同时,如果方差滋现较大敬麓舞, 仍然可以获德较大的躐离值,报据遮一信悫,我们仍然可以缀好逡进行类剩 判断。 因此,从理论上看来,距离更能体现包含分类信息较多的基因在北京工业大学工学硕士学位论文 两类别样本间差异,更适宜特征基因的选取。 .. 分类特征选取 等提出了一种依据输出对输入的灵敏度选取特征基因的方法“。该方法 需要先训练个感知器模型,然后计算这些模型的输出对输入基因的灵 敏度的平均值,据此选择特征基因。该方法过于复杂,在样本较多时,方法的算 法复杂度较高。而且它是~种依赖于模型的特征选取方法,一旦分类模型发生改 变,特征选取方法也得作相应的修改,而且有些模型,求输出对输入的灵敏度是 很困难的。 考虑到这些问题,我们提出了基圆的类加权躐离作为度量蕊 因对分类贡献的指标。它魁一种模型独立的特征选取方法。一个撼因,在第必 撵本与其余撵本阅的蹬窝定义为”’; 跗国言黻耩薪丢黜给国 式?中,类别标号,,,,分剐对应豫烈,瞒,,。砧,, 露分裂为鉴霆歹在篱嶷样本襻本中兹均鹱【鞠方差,;~,,蠢 力为 基因在训练样本中除第类样本外的其余样本负样本中的均值和方差。从 模式分类的角度看,某个特征的距离越大,表明两个分布在该特 镊方宜上的可分性就越好。 而由予基有强类样本,为了餐量基融对四类分类豹贡献,我们对各类样本对 其余样本的距离进行加权,定义一种擞加权的躐 离,对基因,,其计算公式如式: ?:羔留歹, 其中心怒训练数据集中第类的样本数,船,,以:,心和门。分别为,,和 。羟为谢练嶷样本总数。 基因懿粪鸯嚣投 基蕊及获了基霆毯禽分类信惑瀚多少,基因的 类加权距离越大,该鏊阏对于亚型的识别就越重豢, 个蕊 因的类加权距离的分布如图和寝一所示。由图 可以 霉窭,仅鸯少数基嚣县鸯骏大戆类趣蔽巍离,达到了选取重要麓 因的目的。黼由表?,绝大多数基因的炎热权鞭离在到. 之间,占到基因基因总数的.%,我们认为这媸基因队分类的贡献不大, 是不重要的麓因,不用予溉型识别。稀类搬权蹬凝大予.懿 基因只有个,占总数瀚,%,蔼大子.个鏊圆灵有个。我仍把这 个基因作为特征选取的结果基因集合用作进~步的分析,而其余个基因作第 章数据预处理与特征选取 为分类无关基因不用于亚型识别。 表一基因类加权距离的分布 鲻 士 脑 郴 娄加权距离 图基因类加权距离的分布 .特微选取结果比较 .。生成分类祷程罄困集合 在计算得到的各个熬因的类加权距离后,我们按照从大到小 蟾顺序对类加权距离大于,的个基因重毅摊序后放入瓷序 集合垮中。辨穗,,瓢?额痨, 满怒:琏昏?,粥嘞置?。在得到有序集 合甲后,我们研究利用篡中的基因对训练样本集进行分类的情况。 由于基因的类加权距离越大,它对样本的分类能力也就越强, 霆此我饲获类热投糕褰最大戆蒸溺盛,牙?叁磺究蘩分类麓力,这 里我们定义个特镊港因集合茁,魏,?,,初始时刻蜀器,我们将嗣中 一一北京工业大学工学硕士学位论文 的基因作为特征基因,其值用作分类模型的输入, 记录 混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载 其对训练样本的分类 误差。 下一轮则将中前个类加权距离最大的基因、作为特征 基因,即:最。,:,同样利用其中:两个特征基因的表达水平作为分类模 型的输入研究其分类能力。如此下去,选取类加权距离最大的 个基因,得到特征基因集合,:,?,用于分类。这样就得到了一条有关 特征基因组。,,:,?,。,?,与其分类误差的关系曲线。根据该 曲线我们不仅可以得到不同特征基因组的分类能力,而且也能清晰地看出分 类能 力随特征基因个数的变化而变化的情况。根据分类错误率最小的原则,可以 确定 一个特征基因集合。 但是,这样做也会给特征基因集合增加冗余,需要在确定达到需要的预测精 度后对基因集合进行去冗余分析,以获得最精简的特征基因集合。 ..不同指标选取基因的分类眭能 我们对类加权距离和信噪比选取的特征的分炎能力进行了比 较,如表所示。基蹦个数是指用这两令指标对个基图降序排序后, 瓣在蘸瑟戆毒个基因,表示建售曝跑方法遥取鏊溺,霖表示爱类秘毂 距离选取熬因。我们在多个亚型识剐模型上检验遮两种方法选取 的特征的分类能力。分别使用了多类支持向量机,用一对旗余方式 设诗熬二粪支特意量孝趸醛涮多模模型,拳静神经嬲络模溅,这些模型靛 构建方法请参见第章。袭中的分类错误数指的是训练集上交叉校验的错误 数和独立测试的错误数之和,以此来表示某个特征熬因集合在某种亚型预测 模型 的分类能力。 鑫表?籍,无论逡敬耀释分娄穰鍪,蘩粟爨瓣释方法选取鞍少豹穗阉数褒 的基因时,用类加权距离指标选取的露比信噪比指标选取的分炎 能力强,说明包含更多的分类信息。如果用来分类的基因个数少于个,很明 显,焉类蕊投距离据拣选取匏基因鬃会要毙用镶嚷跑选取款分炎 能力强,然搿,弼采选取鼢基因超过了令,在模型上酌分类错误数相 同,而选取的基因达个时,用两种方法选取的熬因在三种模激上的分类错误 数都为,这是由于,随麓基因个数的增多,分类信息也逐渐增多,尾信噪比方 法选择鲮鏊溺也是竣整嚣蒋襻本区势开。出较看来,粪麓毅 距离指标袭征基因在各类别间差异的能力强于信噪比,挑选的基因包含更多分溪 信息。 麸表?我们还可以露到,傻麓掰毒斡令羹困曩予驻毽谈舅跨,怒 和模型取得的分类错误数均是个,散果并不好。这表胡,在第章数据预处理与特征选取 个基因中,许多基因不包含确定样本类别差异的信息。这些基因不能用来进行预 测,有时候,它们还包含了导致错误分类的噪声。因此,进行特征提取是十分必 要的。 表用两种方法选取的特正在不同预测模型上的分类错误数 基强个数 .错?神经网络 ? .本章小结 本章先介绍了基因袭达谱数据的预处理方法。接着修正了文献】提出的信 噪比指标,提出了基因的距离指标,用于基因分类信息的度擞。 考虑到枣瓣菠缳藏瘗具有瓣.爪亚型,对各个妥型对獒余亚型鲍距 离进行热权,作为本文衡量基因的分类信息的标飧,并给出个基因的炎加 权距离的分布。选取了类加权距离大于.的 个基因缀成不同的特铤基因集台用子分类分析,以便第章甩分类模型确定 识嗣准确搴最高匏宠餐基因集合。簸轰,我们还就信嗓比鞠本文兹类麴权 距离对分类信息基因选取的能力逃行了对比,结果表明了本肇提 出的指标的有效性。 一?北京工业大学工学硕士学位论文 曼置曼曼曼曼皇蔓曼曼皇寰粤詈曼曼曼曼曼????.章曼曼曼曼邕曼曼邕璺苎曼曼曼曼皇曼曼 第章 预测模型的设计与评估 等使用了无隐含层的简单线性神经网络作为分类器进行亚型识别的研 究口】,其分类器结构简单,不能发现基因表达谱数据和样本亚型之间可能蕴含的 非线性关系。于是,我们尝试用结构复杂的分类器进行研究。神经网络是广泛使 用的模式分类工具。基于统计学习理论的支持向量机的研究和应用方兴未艾。多 类支持向量机是统计学习理论发展的最新成果之一。这几种方法在基因表达谱数 据处理中具有很大的应用前景。因此我们打算把网络,二类支持向量机 和多类支持向量机应用到亚型识别的建模问题上来。 本章建立了三种亚型预测模型,首次将应用到亚型识别问题 上。分别建立了三层网络模型,基于的多模模
本文档为【基于基因表达谱的小圆蓝细胞瘤亚型识别研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_682974
暂无简介~
格式:doc
大小:66KB
软件:Word
页数:0
分类:
上传时间:2017-12-08
浏览量:15