[优质文档]文章特点
首页资讯精华论坛问答博客专栏群组更多 ?
您还未登录 !登录注册天地下最神奇的地方
, 博客
, 微博
, 相册
, 收藏
, 留言
, 关于我
文本特征选择的关键算法
总结
初级经济法重点总结下载党员个人总结TXt高中句型全总结.doc高中句型全总结.doc理论力学知识点总结pdf
算法J#CC++C#
一、特征词选择与特征词权重关系
开始学文本分类的时候经常要搞晕特征词选择和特征词权重 这两个东西,因为两者都要进行量化,很容易认为特征词选择就是计算权重,因此我认为有必要先搞清楚这两个概念。
两者的区别 :特征词选择是为了降低文本
表
关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf
示的维度,而特征词权重是为了表示文本表示中每一个特征项的重要程度。
特征词的选择算法 有:文本特征选择的算法有基于文档频率 (Document Frequency) 、信息增益 (Information Gain, IG) 、开方拟和检验方法 (CHI 统计 ) 、互信息 (mutual Information) 、潜在语义
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
LSA、期望值交叉算熵、文本证据权、 term strength(TS) 、 GSS Coefficient 、 odds ratio等;
特征词的权值 (即所谓的文本表示)计算有:TF-IDF,TF的改进,
[1]信息熵的引用等 。这个将在下篇进行分析一下。
二、特征词权重选择方法分析
以下分别分析一下特征词的选择算法,由于信息增益是很有效的特征选择方法,因此,将给出信息增益的java代码。
1. 基于文档频率(DF)
在文档频率方法中,使用特征词在一个类别中出现的文档数来表示这个特征词与该类别的相关度。出现的文档数多的特征词被保留的可能性大。显然,文档频率方法实现最简单、算法复杂度最低,而且 DF 方法与其他几种方法的分类性能也差不多。
计算公式:DF :特征词term在某一类中的所有文档出现的次数。 term
[2]改进公式:
缺点:待补充
2. 互信息 (mutual Information)
在互信息算法中,采用计算特征词 t 和类别 c 之间的相关度:
其中, A 为在类别 c 中特征词 t 出现的文档数; B 为在除了类别 c 的其他类别中特征词 t 出现的文档数; C 为在类别 c 中特征词 t 未出现的文档数; N 为所有类别中的文档数的总和。如果共有 m 个类别,那么每个特征词将得到 m 个相关度值,取这 m 个值的平均值作为每个特征词的权值,权值大的特征词被保留的可能性大。
缺点:待补充
3. 信息增益 (Information Gain)
信息增益 (IG) 是公认较好的特征选择方法,它刻画了一个词语在文本中出现与否对文本情感分类的影响,即一个词语在文本中出现前后的信息嫡之差。某个词语的信息增益值越大,说明它对分类的贡献就越大。信息增益的计算见公式:
P(Ci) ,表示类别 Ci 出现的概率,其实只要用 1 除以类别总数就得到了(这是说你平等的看待每个类别而忽略它们的大小时这样算,如果考虑了大小就要把大小的影响加进去)。 P(t) ,就是特征 t 出现的概率,只要用出现过 t 的文档数除以总文档数就可以了
P(Ci|t) 表示出现 t 的时候,类别 Ci 出现的概率,只要用出现了 T 并
[3]且属于类别 Ci 的文档数除以出现了 T 的文档数就可以了
Java代码
, /**
, * @param j
, * @return double
, *
, */
, private double getFirstPart(int j) { , double sum = 0;
, for (int i = 0; i < C; i++) { ? //log2(P(cj)) = ln(P(cj))/ln(2); ,, sum += P_C(i) * (Math.log(P_C(j)) / Math.log(2));
,,
,, }
,, return -sum;
,, }
Java代码
,, /**
,, * @param j
,, * @return double
,, * TC[][] represents the number of documents including the term j and
belonging to Classification j
,? */
,, private double getSecondPart(int j) { ,, double sum = 0;
,, //P_Tj represents P(tj) which is the probability of the documents
including term j
,, //That is , P(tj) = documents including term j / the total number of
documents
,, double P_Tj = this.P_t(j);
,, for (int i = 0; i < C; i++) {
,, if (TC[j][i] == 0)
,, TC[j][i] = 1;
,, //log2(TC) = ln(TC)/ln(2); ,? sum += (double) TC[j][i] ,, * ((double) Math.log(TC[j][i]) / (double) Math.log(2));
,,
,, }
,, return P_Tj * sum;
,, }
Java代码
,, /**
,, * @param j
,, * @return double
,, *
,? */
,, private double getThirdPart(int j) { ,, //p(tj) = 1 - p(t_barj)
,, double P_t_bar_j = this.P_t_bar(j); ,, double sum = 0.0;
,,
,, //T_barC = number of classifications - number of docs including Term i
and belonging to Classification j ,, for (int i = 0; i < C; i++) { ,, if (T_barC[j][i] == 0) ,, T_barC[j][i] = 1; ,? sum += (double) T_barC[j][i] ,, * ((double) Math.log(T_barC[j][i]) / (double) Math.log(2));
,, }
,,
,, return P_t_bar_j * sum;
,, }
缺点 :信息增益最大的问题还在于它只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓 “ 全局 ” 的特征选择(指所有的类都使用相同的特征集合),而无法做 “ 本地 ” 的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。 4. 开方拟和检验方法 (CHI 统计 )
开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。
缺点:待补充
5. 潜在语义分析LSA
LSA思想方法最初应用于文本信息检索领域有效地解决了同义词和多义词的问题,通过识别文本中的同义词, LSA将信息检索精度提高了10%--30%
随着应用领域的不断拓展, LSI在信息过滤、信息分类/聚类、交叉语言检索、信息理解、判断和预测等众多领域中得到了广泛的应用。(语义,
[4]降维)
计算奇异值矩阵,可以通过maltab svd 命令来解。
缺点:待补充
参考资料:
[1]. 冯长远, 普杰信 Web 文本特征选择算法的研究
[2]. 杨凯峰,张毅坤,李燕 基于文档频率的特征选择方法 [3]. [4]. 杨建武 文本特征提取技术
CSDN:
百度:
javaeye:
联系方式:chen-hongqin@163.com
, 查看图片附件
顶
踩
分享到: 在网上看了一段代码 觉得好有摘下来 主要 ... | 用eclipse打包jar 遇到的小问题 , 2011-03-07 10:43
, 浏览 2026
, 评论(0)
, 分类:编程语言 , 相关推荐 评论
发表评论
您还没有登录,请您登录后再发表评论
futrueboy
, 浏览: 44052 次 , 性别: , 来自: 杭州 ,
最近访客 更多访客>>
dylinshi126
nimuqin
文章分类
, 全部博客 (23)
, Design Pattern(
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
模式) (3) , 数据挖掘 (1)
社区版块
, 我的资讯 (0)
, 我的论坛 (2)
, 我的问答 (0)
存档分类
, 2011-04 (1)
, 2011-03 (4)
, 2011-02 (1)
, 更多存档...
最新评论
, futrueboy: 似乎有点不清楚,请大家原谅
Command Pattern(命令模式) , futrueboy: 有什么问题,大家可以直说,欢迎发言~ Iterator Pattern(迭代模式)
, zhao3546: 这样做是可以的。 我试验过。
java HttpURLConnection 登录网站 , jessdy: 随着WEB游戏越来越多,研究这种WEB外挂的人也越来越多 or ...
java HttpURLConnection 登录网站 , dd350356750: 呵呵 。确实是个好东西。没试过不知道行不行。先用了。之前也 ...
java HttpURLConnection 登录网站
声明:ITeye文章版权属于作者,受法律保护。没有作者
书
关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf
面许可不得转载。若作者同意转载,必须以超链
接形式标明文章原始出处和作者。 ? 2003-2014 ITeye.com. All rights reserved. [ 京ICP证110151号 京公网安备110105010620 ]