面向生物医学文献挖掘的一种改进的
28卷2期2009年4月
中国生物医学
工程
路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理
学报
V01.28
April
No.22009
ChineseJournalof
Biomedical西彬,leB咖
面向生物医学文献挖掘的一种改进的贝叶斯算法
陆才奇
郑浩然。
张
敏
周
宏
(中国科学与技术大学计算机科学与技术系,合肥230026)
摘要:随着生物医学文献的指数性增长,运用数据挖掘的方法从生物医学文献中发现新的知识变得越来越重要,其中一个关键的问题就是文献检索。通过分析文本属性对文献检索性能的影响,提出一种改进的贝叶斯算法,引入文档长度因子,并对文档特征向量进行降维,最后利用代谢相关的文献库进行实验。实验结果与分析表明,相对于一般的贝叶斯方法,改进的算法提高了文献的查全率和查准率,同时降低了算法执行的复杂性。
关键词:文献挖掘;贝叶斯方法;代谢网络
AnImprovedBayesianAlgorithmforBiomedicalLiteratureMining
LU
(Department
Cai・Oi
oyComputer
5d.&Tech.,‰毋旷蹦.&Tech.ofChina(VSrC),蚴i
ZHENGHao-Ran。
ZHANGMin
ZHOUHong
230026)
Abstract:Withtheexponentialgrowthofbiomedicalliteratures,itbecomesmoreandmoreimportant
nuggets
tofindthe
ofinformationfrombiomedicalliteraturesusingdataminingmethods.Aliteratureretrievalalgorithmthat
improved
based
on
Bayesian(LRABIB)wasproposedinthisarticleby
W88
analyzingtheimpactof
textattributiontothe
literatureretrieval.711lefactorofliteraturelengthfeature
vectors
was
introducedintheLRABIB.andthedimensionofliteratures’
Wasexamined
on
reduced.Theeffectivenessofthemethodthe
metabelism
relatedliterature
repository.711leanalysisresultsshowedthattheLRABIBimprovedthemetricsofrecallandprecisioncomparedwitlI
theconventionalBayesianmethodandreducedthecomplexityofthe
Keywords:literaturemimng;Bayesian
algorithm.
method;metabolicnetwork
文章编号0258.8021(2009)02—0257.06
中图分类号
R318
文献标识码
A
引言
挖掘生物医学文献信息的本质是将生物医学文献中报道的发现转化成一种可计算的形式¨。。随着生物技术的快速发展,生物信息量也成爆炸式增长汜1。生物医学文献作为成果展示和学术交流的主要方式之一,其数目之大、增长速度之快远远超过了其他学科领域,例如,Medline(隶属于美国国家生物技术信息中心,是目前世界上最大、最具权威性的著名生物医学文献数据库)收集了全世界4800多种生物学及医学杂志上的1800多万多篇文献,并且以每个月超过万篇的速度增长。面对如此快速增长的文
献信息,研究者仅通过手工方式来跟踪特定领域的文献信息几乎是不太可能的。因此,一个能自动从海量文献中挖掘出相关文献的挖掘系统,成为生物医学研究者必不可少的工具之一。
针对该问题,目前国内外的研究工作主要有:Thomas等人用自然语言处理(NLP)的方法分类文献,将摘要中的句子处理成合乎文法的
单元
初级会计实务单元训练题天津单元检测卷六年级下册数学单元教学设计框架单元教学设计的基本步骤主题单元教学设计
b1;Keerthi等人通过计算关键字与基因名字之间的距离来分类文献Ho;Dobmkhotov等人用NLP结合概率分类方法来分类文献及选择术语(Swiss.Protdatabase)b1,Donaldson等人用支持向量机(SVM)来分类包含蛋白质相互作用的文献【6]。但是,由于生
收稿日期:2008-05-27,修回日期:2008—09.27
基金项目:国家重点基础研究发展(9r73)计划(2006CB9tff'/00)*通讯作者。
E・mail:hrsheng@ustc.edu.ell
万方数据