首页 全基因组关联分析的原理和方法

全基因组关联分析的原理和方法

举报
开通vip

全基因组关联分析的原理和方法全基因组关联分析(Genome-wideassociationstudy;GWAS)是应用基因组中数以白万计的单核苜酸多态性(singlenucleotideploymorphism,SNP的分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。随着基因组学研究以及基因芯片技术的发展,人们已通过GWAS法发现并鉴定了大量与复杂性状相关联的遗传变异。近年来,这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。全基因组关联方法首先在人类医学领域的研究中得到了...

全基因组关联分析的原理和方法
全基因组关联分析(Genome-wideassociationstudy;GWAS)是应用基因组中数以白万计的单核苜酸多态性(singlenucleotideploymorphism,SNP的分子遗传标记,进行全基因组水平上的对照分析或相关性分析,通过比较发现影响复杂性状的基因变异的一种新策略。随着基因组学研究以及基因芯片技术的发展,人们已通过GWAS法发现并鉴定了大量与复杂性状相关联的遗传变异。近年来,这种方法在农业动物重要经济性状主效基因的筛查和鉴定中得到了应用。全基因组关联方法首先在人类医学领域的研究中得到了极大的重视和应用,尤其是其在复杂疾病研究领域中的应用,使许多重要的复杂疾病的研究取得了突破性进展,因而,全基因组关联分析研究方法的设计原理得到重视。人类的疾病分为单基因疾病和复杂性疾病。单基因疾病是指由丁单个基因的突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 型。复杂性疾病是指由丁遗传和环境因素的共同作用引起的疾病。目前已经鉴定出的与人类复杂性疾病相关联的SN咐点有439个。全基因组关联分析技术的重大革新及其应用,极大地推动了基因组医学的发展。(2005年,Science杂志首次报道了年龄相关性视网膜黄斑变性GWAS结果,在医学界和遗传学界引起了极大的轰动,此后一系列GWA酬续展开。2006年,波士顿大学医学院联合哈佛大学等多个研究机构报道了基于佛明翰心脏研究 样本 保单样本pdf木马病毒样本下载上虞风机样本下载直线导轨样本下载电脑病毒样本下载 关于肥胖的GWAS结果(Herbert等.2006);2007年,Saxena等多个研究组联合报道了与2型糖尿病(T2D)关联的多个位点,Samani等则发表了冠心病GWAS吉果(Samani等.2007);2008年,Barrett等通过GWA跋现了30个与克罗恩病(Crohns'disrease)相关的易感位点;2009年,Weiss等通过GWAS发现了与具有高度遗传性的神经发育疾病一一自闭症关联的染色体区域。我国学者则通过对12000多名汉族系统性红斑狼疮患者以及健康对照者的GWA蒙现了5个红斑狼疮易感基因,并确定了4个新的易感位点(Han等.2009)。截至2009年10月,已经陆续报道了关于人类身高、体重、血压等主要性状,以及视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种威胁人类健康的常见疾病的GWAS结果,累计发表了近万篇论文,确定了一系列疾病发病的致病基因、相关基因、易感区域和SNP变异。)标记基因的选择:HapMap是展示人类常见遗传变异的一个图谱,第1阶段完成后提供了4个人类开中族[Yoruban,NorthernandWesternEuropean,andAsian(ChineseandJapanese)]共269个个体基因组,超过100万个SNP(约1SNP/3kb)及连锁不平衡区域(linkagedisequilibrium,LD)关系的图谱。第二阶段增加了其它的人类种族数据。基丁HapMap可以选择500000到1000000个覆盖全基因组的SNP。基因组拷贝数变异(copynumbervariations,CNV)是20世纪80年代发现的在人类基因组中存在的多种类型的染色体数目和结构变异。是指与参考序列相比,基因组中?1kb的DNA片段插入、缺失和/或扩增,及其互相组合衍生的复杂染色体结构变异。与SNP相似,部分CNV在不同人群中以不同频率分离并具有显著性差异,并可能影响基因表达和表型改变,因此CNV也是一种引起疾病或增加复杂疾病发病风险的重要遗传变异。GWAS用的研究方式与传统的候选基因病例一对照(case-control)关联分析一致,即如果人群基因组中一些SNP与某种疾病相关联,理论上这些疾病相关SNP等位基因频率在某种疾病患者中应高丁未患病对照人群。动物重要经济性状即复杂性状GWAS析方法的原理是,借助丁SN吩子遗传标记,进行总体关联分析,在全基因组范围内选择遗传变异进行基因分型,比较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确认其与目标性状之间的相关性。GWAS具体研究方法与传统的候选基因法相类似:单阶段方法,即选择足够多的样本,一次性地在所有研究对象中对目标SNP®行基因分型,然后分析每个SNPf目标性状的关联,统计分析关联强度和0咐(计算出的OR值等丁1时,则该因素的疾病发生不起任何作用;大丁1时,该因素为危险因素;小丁1时,该因素为保护因素。)。目前GWA跚究主要采用两阶段方法/多阶段方法。第一阶段用覆盖全基因组范围的SNF®行对照分析,统计分析后筛选出较少数量的阳性SNP®行。可以以个体为单位,也可以采用DNApooling的方法(后者可大大降低及基因分型的成本和工作量)。。但是DNApooling的基因分型结果与对所有个体进行基因分型的结果仍有一定差异,DNApooling估计的等位基因频率标准差在1%~4%的范围,因而若单独以DNApooling来估计等位基因频率,那么这种误差对全基因组的病例一对照研究的检验效能(poweroftest)有重要影响。第二阶段或随后的多阶段中采用更大样本的对照样本群进行基因分型,然后结合两阶段或多阶段的结果进行分析。这种设计需要保证第一阶段筛选与目标性状相关SNP的敏感性和特异性,尽量减少分析的假阳性或假阴性,并在第二阶段应用大量样本群进行基因分型验证。结果的统计和分析:在GWA甥丁病例-对照研究设计时,比较病例和对照组中每个SNP等位基因频率差别多采用4格表的卡方检验(chi-squaretest),并计算OR及其95%的可信区问(confidenceinterval,CI),归因分数(attributablefraction,AF)和归因危险度(attributablerisk,AR);同时需对如年龄、性别等主要混杂因素采用Logistic回归分析,以基因型和混杂因素作为自变量,研究对象患病状态为因变量进行分析。GWAS丁研究随机人群的SNP与某一数量性状关联时(如身高、体重、血压等),主要应用单因素方差分析(one-wayANOVA比较SNP位点3种基因型与所研究的数量性状水平的关系,需要调整混杂因素时则采用协方差分析(analysisofcovariance)或线性回归引起结果误差的主要原因有人群分层和多重假设检验调整。无论是GWASW阶段/多阶段设计,还是采用Bonferroni校正等遗传统计方法,都难以解决人群分层及多重比较导致的假阳性或假阴性问题。GWA年能仅凭P值判断某个SNP是否与疾病真正关联,多种族、多群体、大样本的重复验证研究(replication)才是提高检验效能、确保发现真正疾病关联SNP的关键。【例】全基因组关联分析在乳腺癌易感位点筛选的应用2007年6月,乳腺癌关联协作组(BreastCancerAssociationConsortium,BCAC)首先报告了乳腺癌GWAS的结果,该研究共包括三个阶段:第一阶段:408例家族性乳腺癌患者和400名对照,266722个SNP;第二阶段:3990例乳腺癌患者和3916名对照,12711个SNP;第三阶段:22例病例—对照研究,合计21860例患者和22578名对照,30个SNP。研究结果最终发现了5个乳腺癌的易感性位点,4个位丁已知基因:FGFR2(rs2981582)、TNRC9/LOC643714(rsl2443621)、MAP3K1(rs889312)和LSPl(rs3817198),而rsl3281615位丁染色体8q24。虽然GWAS吉果在很大程度上增加了对复杂性状分子遗传机制的理解,但也显现出很大的局限性。首先,通过统计分析遗传因素和复杂性状的关系,确定与特定复杂性状关联的功能性位点存在一定难度。通过GWAS现的许多SN咐点并不影响蛋白质中的氨基酸,甚至许多SN咐点不在蛋白编码开放阅读框(openreadingframe,ORF)内,这为解释SNP位点与复杂性状之间的关系造成了困难。而且,就目前来说GWA融以检测的部分可能主要集中在最小等位基因频(minorallelefrequency,MAF)介丁0.5%~5咆间的少见变异,或者MAF<0.5%的罕见变异,现有的基因分型芯片较难有效地发现这些遗传变异但是,由丁复杂性状很大程度上是由数量性状的微效多基因决定的,SNP位点可能通过影响基因表达量对这些数量性状产生轻微的作用,它们在RNAB转录或翻译效率上发挥作用,可能在基因表达上产生短暂的或依赖时空的多种影响,刺激调节基因的转录表达或影响其RN姓接方式。因此,在找寻相关变异时应同时注意到编码区和调控区位点变异的重要性。其次,等位基因结构(数量、类型、作用大小和易感性变异频率)在不同性状中可能具有不同的特征。在GWA跚究后要确定一个基因型-表型因果关系还有许多困难,由丁连锁不平衡的原因,相邻的SNP之间会有连锁现象发生。同样,在测序时同样存在连锁不平衡现象,而且即使测序的费用降到非常低的水平,要想如GWA研究一般地获得大量样本的基因组数据还是非常困难的。*llumina宣布HiSeqXTen测序系统将会于1月份重磅回归,该技术的早期运用还需要等待一段时间,然而GEN®测了IlluminaXTen在2015年可能会实现的6大应用。IlluminaXTen的测序功能非常强大,一台机器一年能完成18000个人类基因组测序,尽管大规模基因组测序还会面临一系列挑战,但是现在可以将这些顾虑暂时搁置,思考一下科学家们可以利用该技术完成哪些有趣的工作呢?下面就是GE泌测的6大应用。1新生儿与儿科疾病预测新生儿重症监护病房和儿童医院每年都会收治大量患有严重疾病的患儿,而其中很多致命的疾病都存在其遗传基础。其中有一些是已知的遗传疾病,能够通过临床基因检测确诊。然而还有大量的疾病无法通过基因检测查出来,却严重地影响儿童健康。目前有很多试点 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 ,像是NIH的“未确诊疾病计划”就是通过外显子测序来实现检测,外显子测序平均能揭示25-30%勺病理性突变。然而,全基因组测序能够发现难以捕捉的外显子区域,还能够发现结构性变异。随着XTensystem的应用,全基因组测序只是下面要做工作的第一步。它的运转速度更快,不需要杂化反应,检测范围能从单一核昔酸变异到大片段丢失。如果可行的话,患者及其父母,甚至是兄弟姐妹都可以进行全基因组测序。药物试验和药物基因组学基因研究的一个巨大前景就是实现个体化医疗:把治疗疾病具体到每个个体的基因组成上来。实现个体化医疗需要研究疾病预后和药物反应的个体基因差异,目前许多药物基因组计划正在进行,而很多都是运用SNP分析和靶向测序技术。全基因组测序能够更好地促进这些工作,因为全基因组测序能够捕获范围更广的变异。全基因组测序还能够运用到临床试验的前沿,它可以将病人按反应分成很多群体进行研究。控制变异和表达数量性状基因座(eQTLs)国际人类基因组单体型图计划(HapMapProject)的一项重要开支就是从成纤维细胞系中鉴定出基因变异,该项工作由Coriell领头。获得所有SNP基因型后,研究人员可以分析基因表达,最初是通过芯片分析,后来通过RNA-seq技术,最终将这些结果与变异联系起来。这些分析结果产生了成千上万的表达数量性状基因座(eQTLs),分析这些数据可以了解基因变异影响转录的方式。可以想象用最先进的RNA-Seq和WGS(全基因组测序)技术对同一样本进行分析后会得到怎样强大的数据(RNA-seq是在另外一些平台上做的,比如Hiseq2000,因为XTen只能进行全基因组测序)。ENCODEProjectConsortium和其他几个团队揭示了转录广泛发生的方式,毫无疑问,仅仅利用过去的SNP芯片分析是无法得出这些结论的。罕见肿瘤研究癌症基因组图谱(TCGA和国际癌症基因组计划(ICGC)等工作鉴定出大量癌症类型的体细胞突变。大多数工作是通过外显子测序和全基因组测序完成的,而鉴于成本考虑,主要是外显子测序。尽管如此,这些工作极为有效地揭示出反复出现的变异和通路。然而,这些工作主要是基于那些常见的肿瘤类型。不过随着全基因组测序的普及,那些罕见的肿瘤类型也可以通过同样的手段进行研究。通过把TCGAICGC和其他数据库的样本作为比对参照,我们可以获得许多罕见肿瘤的体细胞变异数据。这不仅可以帮助那些患罕见瘤的病人,而且可以帮助深入理解生物学中的特异性。全基因组测序是研究这些罕见肿瘤的极为有效的工具,基于我们对这些肿瘤了解甚少,通过全基因组测序可以捕获到所有的变异,在一次测序中小到可以获知单核昔酸位点的变异,大到染色体重排。将全基因测序大规模应用在肿瘤研究中,也是理所当然了。家族性疾病基因组学研究这一点和第一条应用(新生儿与儿科疾病预测)看起来可能很相似,但其实是另一种研究,需要挖掘受家族性遗传疾病影响的多谱系病因。家族性研究和病例对照研究比起来可能有点过时,但是目前这种研究方法重又回到研究者视线,其中非常重要的一点原因就是在具有不同等位基因的一个家族内部研究变异,而不是在毫不相关的个体之间进行研究。然而,全基因组测序和病例研究相比成本过高,在一个家谱中,研究者可以运用连锁分析,但是仍然需要通过测序来确定造成疾病的特定变异。这时候全基因组测序的优势就会体现出来,它使得研究者可以了解连锁区域的非编码和结构变异,而不是单纯的探究基因变异。这一点非常重要,随便问一个基因研究人员,他会告诉你在研究区域内的大量相关峰值都和已知的基因无关。这样的例子可谓是数不胜数。研究表型丰富的大规模群组那些表型广泛的群组样本通常非常需要基因型研究,过去通常是利用SNP分析和外显子测序的方法进行研究,随着群体参与研究样本和表型数量的增长,研究群组会扩大。这时候对复杂多样的表型进行大规模的、纵向的研究对确认潜在基因非常重要。HiSeqXTen问世后,全基因组测序对于一个样本数量为10000的群组来说仍然成本过高,然而对于一个样本量为200、500或1000的预实验来说还是简易可行的,并且能够发现在大规模群组中可以复制的结果。研究人员可以挑选出具有最广泛表型(生物标记物、临床数据。RNA-seq、健康记录)的小样本,然后结合全基因组测序研究它们之间的关联。除了以上提出的研究领域之外,XTensystem还可以在很多领域大有可为,需要研究者继续挖掘。(来源:生物谷)
本文档为【全基因组关联分析的原理和方法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_179289
暂无简介~
格式:doc
大小:20KB
软件:Word
页数:6
分类:
上传时间:2018-11-18
浏览量:15