生堡煎堑塞堂盘查;QQ!堡!;旦箜!!堂塑!;塑g堕!』垦Pi41鲤!!:堕!!婴蛙!!Q!!!X曼:垫:盟!:!至
以家庭为基础的关联检验在遗传
流行病学中的应用
裴丽君 李成福 张蕾 宋新明 郑晓瑛
·1255·
·基础理论与方法·
【导读】 简述以家庭为基础的关联检验(FBAT)
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
遗传标记等位基因与疾病表型之间关联的
方法在遗传流行病学研究中的应用。介绍FBAT的
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
原理、基本步骤、应用原则,并结合实例说明
如何利用相应的软件有效分析核心家庭数据。分析表明,相对于其他传统的遗传分析方法,FBAT可
以充分利用双亲基因型、受累子代基因型及其表型的家系数据,同时还以其他性状,如环境暴露数据
作为协变量,进行双等位基因或多等位基因与疾病表型的关联分析,其设计优势为可消除病例和不相
关对照之间由于种族差异产生的虚假关联,有效控制由于群体分层引起的偏倚,较其他方法有更高的
检验效率。适用于核心家庭或家系资料的遗传分析,是目前为数不多的进行疾病与遗传标志物关联
检验的家系遗传分析方法之一。
【关键词】遗传流行病学;以家庭为基础的关联检验;疾病表型或性状;遗传标志物
Applicationof‘Family-BasedAssociationTest’instudyinggeneticepidemiologyPE,Li-jun.L,Cheng-
fu,ZHANGLei,SONGXin—ruing,ZHENGX缸弘少ng.InstituteofPopulationResearch,Peking
University,Beijing100871,China
Correspondingauthor:ZHENGXiao-ying,Email:xzheng@pku.edu.ellorphd@pku.edu.ca
【Introduction】TointroducetheapplicationofFamily—BasedAssociationTest(m~T)indetecting
theassociationorlinl【agebetweenmarkerallelesandphenotypeortraitsingeneticepidemiology.A¨ef
overviewonbasicstepsinvolvedindesign,implementation,principlesofapplication,availablesoftware鹊
wellastheuseandfeatureofFBATmethod,wereexplainedbasedondatafromnuclearfamily.Advantages
ofFBATwerecomparedtoconventionalgeneticstatisticsapproaches.Datashowedthatthisapproach
mightmakethemostuseofparentalgenotype,genotypeofaffectedoffspringandtheirphenotypetotestthe
associationbetweenbiaUelicormulti.allelicmarkers。phenotypeortraitstotheirconditionaldistributions
giyentheminimalsufficientstatisticsunderthenullhypothesisforthegeneticmodel.Covariates,such鹊
traitsorenvironmentalexposures.mightbeincludedintothisproudure80astoeffectivelycontrolthebiasof
populationadmixturethroughadjustmentofvariables.FBATcouldbeusedforgeneticanalysiswithdata
fromnuclearfamilysinceitismoreadvantageousthantheconventionalstatisticalmethods.
【Keywords】Geneticepidemiology;Family·BasedAssociationTest;Phenotypeortraits;Genetic
marker
在对多因素遗传疾病研究中,寻找疾病候选基
因早已成为人们关注的热点,除了对新的可疑基因
进行克隆、定位、基因表达等分子生物学研究外,利
用遗传流行病学方法寻找候选基因已逐渐成为该方
法学中的重要内容之一。但是传统的病例对照研究
在选择对照时要求其遗传背景一致,而且由于候选
基金项目:国家“973”重点基础研究发展规划资助项目
(2007CB511901);国家博士后基金资助项目(20070410010);长江学
者奖励计划资助项目;北京大学“985”和“211”资助项目(20020903)
作者单位:100871北京大学人17:1研究所
通信作者:郑晓瑛,Emil:xzheng@pku.edu.on;phd@pku.
edtl.cn
基因与疾病间可能由于病例和不相关对照之间的种
族或地区差异而产生虚假关联,这些种族差异就是
通常提到的群体分层(populationstratification)u’2。。
病例对照研究最常见的影响就是混杂偏倚,疾病候
选基因研究中常见的偏倚就是基因型分布的群体差
异或种族变异,这种混杂偏倚不同于其他环境因素
引起的偏倚,对于这类偏倚采用传统的分层或多因
素回归分析不能得到有效控制,最终可能高估或低
估基因在疾病发生中的作用。以家庭为基础的关联
检验(Family.BasedAssociationTest,FBAT)是一种
新的连锁或关联分析方法,可以弥补成组病例对照
研究的不足,该方法在国外使用非常普遍,但在国内
万方数据
·1256。 生堡煎堑疸堂盘查!!!!堡!!旦箜!!鲞釜!;塑堡垒i!』垦P型塑趔!堕塑鲢!!!!!!y型:垫:堕!:!;
很少有人使用,特别在利用核心家庭或家系数据进
行遗传标记物研究中,了解该方法的设计原理、步骤
和应用十分必要。
基本原理
假设所检验的某基因上一个或几个位点与疾病
状态不连锁或不关联,在无效检验假设成立前提下,
首先利用
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
化线性回归模型,检验基因型与表型
之间的关联;其次,利用指数模型构建似然比,获得
一个得分统计量;最后以子代基因型为依据,在亲代
基因型、子代和亲代表型数据存在的条件下,计算子
代基因型的得分分布统计量,并同时完成对混杂因
素的调整。在无效假设成立前提下,模型(基因型/
疾病)中表型数据为二分类变量,子代和亲代是否受
累的特征作为协变量参与分析,与以往其他遗传模
型相比,大大提高了检验效能。检验的可靠性只取
决于如何构建子代基因型分布,最终对核心家庭或
家系成员的基因型数据做出综合评价b’41。具体分
析中应用标准遗传模型,即显性模型、隐性模型和加
法模型来描述表型中基因的效应幅1,其中显性模型
更适合于研究多因素复杂疾病。FBAT实质上仍然
采用的是以核心家庭为基础的病例一父母对照研究
设计原理,这种研究设计的主要特点是消除群体分
层现象¨’73,不必为病例寻找具有相同遗传背景的
对照,即可克服遗传因素中种族差异产生的偏倚。
1.检验统计量的确定:FBAT是一个能够解决
以核心家庭或家系数据为基础的关联检验方法。构
建关联检验包括两个步骤,首先定义检验统计量,确
定一个能反映疾病表型或性状(T)与基因型或遗传
标志物(X)之间关联的检验统计量。设N个家庭
数,每个家庭有,z。个子代,X。表示第ij个子代的所
检验位点的函数,X,;的特定值将取决于遗传模型,
如果同时检验几个等位基因,X。也可以是向量,重
要特征就是其由第ii个体的基因型确定,且具有惟
一性。其次,定义无效检验假设下的检验统计量的
分布。将总的检验统计量看作是FBAT的检验统
计量,基本方程:
S=∑。L毛
此处的总和即是所有家庭中全部子代的合计,瓦是
疾病表型函数,取决于未知参数,比如T“=1,表示1
个受累子代,瓦=0,表示1个未受累或表型未知的
子代,只有受累子代对检验统计量S有贡献;进一
步将X。设为第ii个子代所拥有的等位基因数,S则
为受累子代的等位基因总数,恰好是传递不平衡检
验(TDT)中所用的检验统计量。当X。为第i/个体
的每一种等位基因数的向量时,S则构成了多个等
位基因的检验统计量",sJ。
2.确定检验统计量的分布:FBAT默认的无效
检验假设为H。,即假设所检验的某基因上一个或
几个位点与疾病表型或性状不连锁和不关联。为了
避免群体分层导致的偏倚,确定表型或性状的分布,
以表型或性状T和亲代基因型为条件,利用子代基
因型计算H。假设下的检验统计量S的分布,如果
亲代基因型未知,则以子代基因型为依据进行
FBAT,在无效假设成立前提下,计算E(S)和Var
(S),则以这种方式获得大
样本
保单样本pdf木马病毒样本下载上虞风机样本下载直线导轨样本下载电脑病毒样本下载
的检验统计量SH。。
Z=[S—E(s)]//瓦习酉 (2)
方程(2)是近似正态分布N(0,1),基于正态分布,
m~T给出一个Z值和双侧的P值。当S为向
量时:
12=[S—E(S)]’Var(s)。[S—E(S)](3)
方程(3)是一个近似x2分布的检验,FBAT可给出
基于近似x2分布的检验统计量x2值及其单侧
P值。
3.FBAT应用软件中主要强调的问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
:首先,
定义X,针对基因对表型的作用,可以选择加法
(additive)、显性(dominant)、隐性(recessive)或基因
型(genotype)模型晗’10|,选择模型恰当与否会影响检
验把握度;其次,要考虑如何确定表型或性状T。
一般讲,丁是表型函数,为二分类变量(即受累或不
受累)。FBAT可以处理任何种类的性状,如果研究
对象T=0,那么该对象的S、E(S)或Var(S)没有
贡献,这样的个体仅仅在亲代基因型数据缺失时帮
助其同胞对确定基因型分布。某些研究建议
T=Y一12,Y是受累状态的二分类指标,12是疾病
患病率n1’12]。对于罕见病而言,12值估计几乎为
零。例如,当12=0.5时,那么一个受累的对象T=
0.5,未受累对象T=一0.5,其权重相等,但体征
不同。
4.应用原则:模型可直接以协变量调整其他混
杂因素,将这些变量与估计值12整合在一起,而不
是对整个样本进行单一的t2值估计。把y均数的
估计作为协变量函数,则用Ti=K一卢;作为暴露变
万方数据
生望煎堡疸堂壅查!鲤!笙!;旦箜!!鲞箜!!塑£婪!』兰Pi!竺迪!!垒塑蛙!;!鲤!y垡:!!!№:!; ·1257·
量,f为样本中的个体n2’131;FBAT软件也可以用
SDT命令执行同胞对的不平衡检验⋯。设计SDT
用于二分变量的两种检验,即存在关联时的连锁和
存在连锁时的关联,即连锁不平衡(1inkage
disequilibrium),该检验并不要求亲代的数据是否完
整,但要求不一致同胞中至少有一个是受累同胞和
一个未受累同胞。
5.模型选择及结果解释:FBAT软件中默认模
型是针对双等位基因,如果分析数据是多等位基
因,则需要选择命令后获得其结果;FBAT关联模
型为加法模型、显性模型、隐性模型和基因型模型。
其中默认模型是加法模型。模型选择是以不同遗传
机制导致的不同疾病为前提,如显性遗传和隐性遗
传疾病的发病机制不同。在确定使用的模型类型
后,运算中选择相应的命令即可实现。在遗传分析
方法中,模型的选择直接影响检验把握度。如果对
某疾病的遗传机制未知,不论是显性还是隐性机制
起作用,在一个或多个等位基因与疾病之间存在关
联时,依赖FBAT方法分析核心家庭数据,虽然检
验结果有所不同,但该方法可得到充分的检验把
握度。
表1中a2m基因为2个等位基因,apoe基因为
3个等位基因;因a2m只有2个等位基因,则其对应
的z统计量相等,但符号相反。结果显示:a2m基
因的等位基因1与疾病之间呈负关联(P<0.001),
表明该等位基因可能对疾病具有保护作用,a2m基
因的等位基因2与疾病之间呈正关联(P<0.001),
表明该等位基因可能增加疾病的发病风险。
表2显示有信息家系数比加法模型少,而且Z
和P检验结果与加法模型不同,从上述两个模型检
验结果可知,最后应保留哪种模型的检验结果,要结
合所研究疾病的实际情况做出判断。
该统计分析软件于2000年由美国Harvard大
学公共卫生学院生物统计学系编制,主要用于核心
家庭或家系的群体遗传学分析n1|。详细的软件操
作命令可在网站免费下载(http:/www.biostat.
harvard.edu/~fbat/default.html)。
实例分析
以一项还原叶酸载体基因(A80G)遗传变异与
唇腭裂(CLP)和先天性心脏病(CHD)病因学关联研
究为例H引,介绍FBAT的最基本输出结果及其解
释。该研究中采用了82个CLP病例核心家庭和67
个CHD病例核心家庭数据,进行出生缺陷与还原叶
酸载体基因(RFCl)病因关联的研究。首先用文本
格式建立数据库,即家系文件数据库(pedigreefile)
包括家系ID、个体ID、父亲ID、母亲ID、性别
(1=男,2=女)、受累状态(受累=2,该研究中为
CHD或CLP;未受累=1,未知=0)、遗传标记物(i,
如该研究中为RFCl基因A80G)等位基因(j,该位
点等位基因A和G,i=1为A等位基因;i=2为G
等位基因),其中i=1,2,3,⋯;f_1,2;缺失等位基
因用0表示;其次建立表型文件数据库(phenotype
file),将其中每一个表型或性状的名称按顺序依次
表1 FBAT为加法模型检验结果(最小家系数设为10)
注:总检验数为5;有信息家系数(informativefamilies)即标记位点为杂合子父母的家庭,只有杂合子父母才可提供给FBAT的信息;S为
FBAT统计量;E(S)和Var(s)分别是Ho假设下检验统计量的期望值和变异(相当于标准误);z是用E(S)和Var(s)标化了的s检验统计
量
表2 FBAT为显性模型检验结果(最小家系数设为10)
注:总检验数为4;检验设定的最小家系数为10,对于显性模型,由于a2m基因的等位基因1对应的有信息家系数
本文档为【以家庭为基础的关联检验在遗传流行病学中的应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。