首页 EM_kNN算法在文本分类中的应用

EM_kNN算法在文本分类中的应用

举报
开通vip

EM_kNN算法在文本分类中的应用EM_kNN算法在文本分类中的应用 摘 要算法是一种重要的文本分类算法但其存在没有局外监测类的某些相关信息无法利用的缺点而!" ()) !!! 所以本文提出一种新的 文本分类算法此算法基于 且在许多文本分类中获得已标志的训练集相当昂贵 !!*+,()) *+算法的思想根据 文本分类模型对文本进行分类将已标志文档和未标志文档相结合对 文本分类算法进行 !()) !!()) " 发展 关键词本分类算法算法 ## !"()) *+ CED 引言算法对数据比较敏感精度偏差比较大 他可将未分所以 -. !& & # ...

EM_kNN算法在文本分类中的应用
EM_kNN算法在文本分类中的应用 摘 要算法是一种重要的文本分类算法但其存在没有局外监测类的某些相关信息无法利用的缺点而!" ()) !!! 所以本文提出一种新的 文本分类算法此算法基于 且在许多文本分类中获得已标志的训练集相当昂贵 !!*+,()) *+算法的思想根据 文本分类模型对文本进行分类将已标志文档和未标志文档相结合对 文本分类算法进行 !()) !!()) " 发展 关键词本分类算法算法 ## !"()) *+ CED 引言算法对数据比较敏感精度偏差比较大 他可将未分所以 -. !& & # 随着 的迅速发展网上信息量大而广且成几何级 %&’()&(’ !! 自动转化为通过迭代将 类文档的类别看成为不完整数据 ! !并会随时迅速爆增即使对于仅查找某一领域的资 !"数不断增长""从而增大了训练集 的规模使原来的训练集数据 变FGH !!!! !!与该主题相关的信息量也是巨大的在智能 !"料的特殊搜索引擎"#" 为现在的 这 样 在 不 变 的 情 况 下 提 高 了 分 类 器 的 FG* H !!!!!对于抽取到的信息如何进行分类以及分类的效率 ! 搜索引擎中#直接影响着智能搜索引擎的搜索速度和准确度在实 就是非监督学习算法如果 !" & IFG!H!& 和精确度精度有时侯用户并不能准确地输入自己的兴趣这就 *!际浏览过程中 本文正是基于以上的两个方面构造了一种新的迭代算法 !于是便需要 !要根据用户对信息的选择来逐步明确用户的兴趣"#集中了监督学习和非监督学习的特点是半监督的学 FG* H!!!!!因此文本分类也成为处理大量网络 " 研究学习用户兴趣的算法它的原理是& # 习算法" 信息资源的重要途径"# % 设 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示第 分别表示已分类文档和未分类文档 ’!!!$%算法原理 ’ !"# $%% !!自动文本分类的统计 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 在监督学习机制下使用两种常 !% 代 未 分 类 文 档 的 类 别 集 合 表 示 第 代 类 的 特 征 向 量 ! &% ’ ! ’ 贝叶斯分类器近邻法而前人又在此基#+" !,用的传统分类算法算法过程如下+ # -/00.础上对贝叶斯分类器进行了改进提出了一种新的算法 !01-./! !" ( 由已分类文档 初始化 模型的类向量2J!+00 &!+F"K ’算法模型理论上的假 但由于实际数据一般很难完全满足 01 "! !% #所以 算法对数据比较敏感精度偏差比较大01 !-/!".设条件由根据公式计算出 的类别!L@M& E% % !-,’(()()"!’ * *%N2#+FG&",--() %#) !H "* * "#% 由 和 重 新 计 算 模 型 的 类 向 量,L’(@ M!FG!.!H ++00 . 此 算 法 基 于因 此 提 出 一 种 新 的 文 本 分 类 算 法 +00 -/!.$ !%2 /算法的思想根据 文本分类模型对文本进行分类将 +00 -!!".&.’02.11. 1 2 K ’已标志文档和未标志文档相结合对 文本分类算法进 行 发 +00 如果未分类文档的类别发生变化或者 小于规定的迭代OJ% 图给出了 算法的思想" +00 " -./展 次数!则转入)+F+N2*! 输出 分类器& P! +00 已分类的训练集 分类器 未分类的训练数据+00 算法使用类内距离和最大准则即求 类的各样 +* &-/00.’ $ !! 本到类特征向量的相似度距离和然后对所有类求和& ))!* * 实验结果与 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 (C2"D 我们采用国际上公认的文本分类系统 作为 实 验 Q7&R=S; 该系统由卡耐基梅隆大学开发系统源代码采用 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 !!测试系统 语言编制我们在原系统中插入了 算法的代码在 !!9-./+00 C22D环境下编译后执行 分类文档数据库采用 T7&5?UV&7? & Q;7&R=S 中 提 供 的 约 篇 微 型 新 闻 组 短 文 章 数 据 库 (!""" A7&7/&(SL" 这些文档预先已分为 类每类约 篇文章本文是 W)=5@L%!!" !2"" & 图 算法示意图2 -./+00 & 基于这个数据库做的分类实验首先算法存在训练集规模不能太大分类精度不是很 #+00 ! 在实验过程中!为了对比实验结果!我们从A7&7&(SLW)=5@L/需要将所有样本存入计算机中每次决策都要计算待识别样" ! 高#数据库中选择 篇作为未分类训练集 共分成 个类每 3!"" !!" ! 本与全部训练样本之间的距离进行比较因此其存储量和计算" "类约 篇然后依次增大已分类训练集 从 篇开始每类2 & 3P "!"!量都很大另一方面算法和 算法采用的是人工分类好 +00 01 "! 篇再从剩下的文章中选择 篇增加到篇每类篇 " !"" 2" & !"" ! !! 要提高它们文档集 来训练分类器属于有监督的学习算法!!" "" "每类 篇2 & !"作为测试集的分类精度就要增大训练集 使 中包含的文档数目增 33 !!!! 和 算法的性能同时也实验主要对比了 -/+00 -/01 ! .." # 加相对没有分类的文档集 是一种既 但分好类的文档集 " !!对比了纯粹 算法和 的平均精度算而纯粹 +00 +00 +00 -./!# #"的数目远大于3333" !!!!昂贵又稀缺的资源# " 法 没 有 利 用 作 为 训 练 集 只 是 使 用 作 为 训 练 集 而 ! !333其次由 和 提出的一种适用于包含隐变量的# 45678 9:;<()7( "#算法和 算法均采用作为 实验结果如 -/+00 -/01 (3*3%3& ..模 型 的最 大 期 望 值简 称 )+=< > > $ ?@(8’’7=& ?7A7B’7=& .;-;,.;;!表 图 所示首先实验显示 算法在实验数据下是2’# & !-./+00 的算法它是一种迭代爬山算法用以在给定不完全数据下 %-.!!#收敛的在 至 次迭代后对未分类的文档集 在 C$D !!2" O" -,L’(@ 3该算法可将大量未归类文档看成不完& 求解极大拟然估计问题的类别判断已不再变化模型参数达到稳定点整个迭代过程类 & !整数据结合少量的已归类文档对 分类器进行参数估计由 !01 !似非监督学习的 均值聚类算法只是初始值和模型类别参数 +,!取得了比较好的效 !此无须人工分类而扩大了分类器的训练集" 已由分类好的数据集 确定其次从表 图 和图 中可以& 2# X 3!’果但由于实际数据一般很难完全满足模型理论上的假设条件 & ! " 看出较小的条件下比如已分类数据为 在已分类训练集 ! !!)" 篇时分类器的平均精度为 明显高于 !*+,-.. /#01#2 ! *+,.3 " 分类器的 和 分类器的 的平均精度接 当 0# 405$ !/2-..!)2! 近 篇时算法的优势就 即训练集中已分类数据较大时!"" ! !*+ # 很不明显了因为 中有很多文章在 分错了类结果对!!*6789: ! 分类器是一种噪音数据于是 分类器的精度无法继续提高 !!*+ " # 而在 很小时有利于确定模型的参数分布提供了有关模 !!!! 型参数分布的有用的信息由此可见分本文提供的 $ !*+,-.. 类算法具有较高的分类精度 $ 表 算法在不同规模下的平均精度 $ ;: " 平均精度 :";"" ! 图 在相同的初始训练集下的分类精度! *+,-..!*+6.3!-.. 篇数<= *+,-*+,3-..... 结束语" 5" !4!!# !/!!# !1!)5 本文提出了一种新的文 本 分 类 算 法算 法 此 *+,-..!’’ 种算法使对文本分类做出重要贡献的未标志训练集加入分类过)" /#!1# !/!#" !4!)5 程中将训练集由已标志训练集扩展到未标志训练集和已标志 ! 4" /1!"" !)!1# /;!"" 训练集的集合平滑了局部精度过高的情况实验结果表明算法 !!;"" 5!!!# /"!"" /4!"" 分类精度较高能适应初始数据很小的情况次算法经过 $ 6 !;"/"" 5#!"" #!1# 5"!"" ;!/迭代模型收敛到稳定值降低 为了进一步提高算法的鲁棒性$ !!# #! 5! 5!1# ;""""/""/算法局部最优值的缺点可以结合主动学习等技术以进一*+ !! 4 #!# 5!# 5$! ;"!")"""步提高算法的适应性和精度 $ 5$!# 5#! #! !"""""""" 参考文献# !"# B%CE4<:<9% E:>.496 <6:=949@ ?H 856= 0=?-H4<651G60=6569/:/4?9:< 458565% D9 I=?>66749@5 ?H /.6 F.4=/669/. J:/4?9:< K?9H6=69>6 ?9 L=/4H4>4:< D9/6<4<@69>6$ "))M%0:@65 **N% LLLD2ED =655$ ,,-,II !# O%P6345$G%B%Q:04=6$%&%K:<:<9$:97 G%:0R:% F=:4949@ :<@?=4/5 H?= <496:= /6S/> <:545H46=5% D9 ?=>66749@5 ?H /6 J496/669/ L998:< D9/6=9:/4?9:< ’.II.;I.. QDDG ?9H6=69>6 ?9 G656=> 97 O6U6<8<$ % $4@$ W% L >?0=45?9 ?H 6U69/ ?76< H?= 9U46 CX65 /6S/> <554H4>/4?9% D9 DN ?=R5?0 ?9 P6=949@ H?= 6S/ ,EK:LVJ::::::LLL-)Y.:F;;;; K/6@?=4Z/4?9 ?H /6 4H/669/ D9/6=9/4?9< K?9H6=69>6\DKP] N^$ 00%+M_% ::.[.::E),)-, !*# G/90=R4$N$L74/ G/90=R4 %S48 69/=?0X ?76< H?= 9/8=< P9@8@6 L4@84/X G65?<8/4?9% O /6545$94U6=54/X ?H :::."))3::::.E:::::‘I..a;;;; 6995X45% 6S/ >/6@?=4Z/4?9 4/ 5800?=/ U6>/?= >49651 P6=949@ 4/ 9X =6<6U9/ H6/8=65% _$6>94>< G60?=/ $ 94U6=54/X F:.F::3.:.:3.::"))F.:,a;;;’O?=/;897$ PQb DDD% $ !M# K%L0/6$ [%O:6=:8$ :97 Q% E% Y6455% L8/?:/67 P6:=949@ ?H 76>454?9 =8<6 H?= /6S/> :/6@?=4Z:/4?9% LKE F=:95:>/4?9 ?9 D9H?=:/4?9 QX5/6$ &8K:<8<$6/ :<% F6S/ K<:545H4>:/4?9 H=? P:‘6<67 :97 a9<:‘6<67 O?>869/5 8549@ BE$E:>.496 P6:=949@$ ’((($,)\’2,^ #"(*- ;;;;; ",*% !N# W::< J4@:$L97=63 E>K:<8<$ Q6‘:5/4:9 F.=89 :97 F? E4/>.6<<$ P6:=949@ /? K<:554HX F6S/ H=? P:‘6<67 :97 a9<:‘6<67 O?>869/5$$"))N$ ;;;;;;LLLD-)N% !)# E>K:<8<$ L97=63 W:>.4/65% cC?31 L /??:< <:9@8:@6 ?76<49@ /6$S/= 6/=46U:<$ ><:545H4>:/4?9 :97 ><85/6=49@%c .//0122333%>5%>8%6782d ;;;;>>:<8<;2‘?3% "))M% !# %/4?9 9 6/8=6 =?g6>/4?95% "(eL:T:LLY.J:J.K::[:I‘f’!# 84 8$ C69@ 49 ?4 $W49P66 9 97 %%&@745%& D976S49@ /6 O45/9>61 L9 BH4>H469/ 6/?7 /? R =?>65459@% % ""KhK.:-F::eb::..:E.JJI(("f’’!# =< B7=7 G585569% &R 96=65/ 964@?8=5 H?= G6@=6545?9 R99>U% M% "K:3:::.--""))’;‘’ !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!上接第 页!,M " 结论从上述图中可以看到采用 算法时链路的延时吞吐 %& !"!’ 量及抖动均明显优于采用 算法但丢失率大的影响对于深 这是由于本文仿真分析了公平队列算法对链路 "&’ !# ’(% ! 采用哈希算法来为每一个业务流分配队列因次在同令牌 入了解和研究 问题具有积极意义%& !’(% $ ’ 桶内的多个会话因为冲突而被丢弃从而导致丢失率较其他参考文献$ 王重钢隆克平龚向阳程时端分组交换网络中队列调度算法的研究!# $$$% "算法大但恰恰由于这一点使得链路不易发生拥塞使 !!! & %(’’及其展望电子学报!&#%$$#++++ ’(("’)!*",-)的其他因子得到显著改善对于那些对丢失率 要求 对教师党员的评价套管和固井爆破片与爆破装置仓库管理基本要求三甲医院都需要复审吗 不高的业务 $ !# //0122%454%67829592952 ’.333:;比如视频可以采用这一算法 %&$!# //0122<=/>%?=@2?/?2<=/>%A745>%><5<565%5/< ,.:.3::.;
本文档为【EM_kNN算法在文本分类中的应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_792768
暂无简介~
格式:doc
大小:33KB
软件:Word
页数:0
分类:生活休闲
上传时间:2018-02-22
浏览量:18