第24章 基因表达谱分析的生物信息学方法
案例辨析及参考
答案
八年级地理上册填图题岩土工程勘察试题省略号的作用及举例应急救援安全知识车间5s试题及答案
案例24-1 为实现对某种疾病的判别诊断,现用已知疾病样本和正常样本作为训练样本构建决策森林分类器,共包含10个决策树,所采用的终止规则为指定树的深度。用该分类器对某未知样本进行分类决策,得到教材表24-2结果,
表示未知样本被决策为疾病类的概率,
则表示被决策为正常类的概率。请根据教材表24-2结果对该未知样本进行最终决策。
教材表24-2 各个决策树对未知样本的决策结果
DT
DT
1
0.90
0.10
6
0.94
0.06
2
0.95
0.05
7
0.48
0.52
3
0.46
0.54
8
0.88
0.12
4
0.49
0.51
9
0.46
0.54
5
0.40
0.60
10
0.47
0.53
根据教材表24-2所显示结果可对未知样本采用近似投票法,即根据每一个决策树对该未知样本的决策结果将该样本近似判别为优势类,并对所诊断的类别计数,这样将该样本判别为疾病优势类的票数为4,即
=0.90、0.95、0.94、0.88时所对应的优势类。同理可得到该样本被判别为正常优势类的票数为6,即
=0.54、0.51、0.60、0.52、0.54、0.53时所对应的优势类。最后根据不同优势类的计票结果将该未知样本判别为正常类。
试问:
(1)用上述思想对未知样本进行决策是否合理?为什么?
(2)应该如何对该未知样本进行最终决策?
案例辨析 用近似投票的思想分析不合理。因为这种思想只考虑优势类的数目,而未考虑优势类与非优势类之间的差异,在两者相差不显著的情况下认为未知样本就属于所谓的优势类,过于武断,会产生很大误差甚至错误。若构建决策树时每一个叶子结点中的样本都是单一类,是可以应用投票法进行决策的。
正确做法 应充分考虑样本被判别为优势类和非优势类的概率,采用后验概率进行决策,即分别计算未知样本被判别为两类的后验概率,设
表示疾病类,
表示正常类,则第一个决策树对未知样本决策为
类和
类的后验概率分别为
=
=
=
=
同理可得到其他9个决策树对该未知样本判别为
类和
类的各个后验概率值,最后对该未知样本进行综合决策
=
=
因为
,所以该未知样本最终应该判别为疾病类。
_1229335211.unknown
_1229335396.unknown
_1229335433.unknown
_1229335934.unknown
_1229336100.unknown
_1229336209.unknown
_1229336087.unknown
_1229335741.unknown
_1229335419.unknown
_1229335227.unknown
_1229335387.unknown
_1229334974.unknown
_1229334984.unknown
_1229332755.unknown
_1229332747.unknown
_1229330474.unknown
_1229330490.unknown