用于聊天词汇的权重计算方法CDTF＊IDF

用于聊天词汇的权重计算方法CDTF＊IDF用于聊天词汇的权重计算方法CDTF＊IDF 用于聊天词汇的权重计算方法CDTF,IDF 第24卷第12期计算机仿真2007年12月文章编号:1006—9348(2007)12—0332一o4 用于聊天词汇的权重计算方法CDTF术IDF 高鹏r,曹先彬 (1.中国科学技术大学计算机科学技术系,安徽合肥230027 2.安徽省计算机通讯软件重点实验室,安徽合肥230027) 摘要:随着聊天室的广泛使用,对聊天内容监控也变成亟待解决的问题.在聊天室监控中,为衡量聊天数据中词汇对聊天内容的描述能力,现...

用于聊天词汇的权重计算方法CDTF＊IDF 用于聊天词汇的权重计算方法CDTF,IDF 第24卷第12期计算机仿真2007年12月文章编号:1006—9348(2007)12—0332一o4 用于聊天词汇的权重计算方法CDTF术IDF 高鹏r,曹先彬 (1.中国科学技术大学计算机科学技术系,安徽合肥230027 2.安徽省计算机通讯软件重点实验室,安徽合肥230027) 摘要:随着聊天室的广泛使用,对聊天内容监控也变成亟待解决的问题.在聊天室监控中,为衡量聊天数据中词汇对聊天内容的描述能力,现在一般直接采用文本词汇的权重计算方法;然而,这种方法忽视了聊天数据与静态文本结构上的差异,导致计算出的权重并不能准确反应词汇描述聊天内容的能力.针对聊天数据的固有特点,提出了一种专门针对聊天数据的词汇权重计算方法CDTFIDF.该方法通过分别计算词汇在不同数据源中的权值并汇总,并对重点词汇提高权重等方式来计算聊天数据的词汇权重.基于IRC聊天室内容监控的实验表明:该方法能较好地衡量聊天词汇的权重,同时基于该方法的监控系统能够准确地识别出聊天数据中的话题. 关键词:聊天室监控;词汇权重;话题识别中图分类号:TP3o1.6文献标识码:A' ACDTF:l:IDFAlgorithmforCalculatingTermWeightofChatData GAOPeng.CAOXian—bin' (1.DepartmentofComputerScienceandTechnology, UniversityofScienceandTechnologyofChina,HefeiAnhui230037,China; 2.AnhuiKeyLabofSoftwareinComputingandCommunication,HefeiAnhui230037.Chin a) ABSTRACT:Chatroommonitoringbecomesanurgenttaskwithitswideuse.Intheprocesso fchatroom monitoring,inordertoscaletheabilityoftermsdescribingthecontentsofchatdata,chatroommonitoring systemsatpresentgenerallyusethetexttermsweightcalculatingmethod.However,thismethodneglectsthe differencebetweenchatdataandtextinstructureaspect;hencetheweightcalculatedcannotresponsethe featureofchatdataaccurately.Thepaperpresentsanewmethodtocalculatethetermweightforchatdatanamed CDTF}IDF.CDTF}IDFconsidersthespecialfeaturesofchatdata.Itcalculateseachtermweightindifferent resources,andthengetsthefinalweightbyincreasingtheweightofkeytermsandsomeothermeans. ExperimentsbasedonIRCshowthatthismethodcancalculatethetermsweightaccurately;atthesametime,the chatroommonitoringsystembasedontheproposedmethodhasagoodperformanceintopicdetection. KEYWORDS:Chatdatamonitoring;Termweight;Topicdetection 1引言随着Internet的飞速发展,基于文本方式的网络聊天工具由于操作简单,话题丰富,隐私性好等特点,为越来越多的人所接受.聊天室丰富了人们的交流方式,使世界各地的网络用户可以直接交换信息而无需身份验证.用户可以根据兴基金项目:国家自然科学基金(60204009),973课题(2004CB318109) 和中科院复杂系统与智能科学重点实验室开放基~(20040104) 收稿日期:2006一ll—l5修回日期:2006一ll一25 .—-—— 332...—— 趣加入几乎任何已有的话题进行讨论,也可以按自己的需要建立新的话题.这种开放性在极大地方便信息交流的同时, 也带来了安全上的隐患.由于缺少对聊天内容的管理,它常会被滥用作为非法活动的平台,如通过聊天进行儿童诱拐, 诈骗,传递有害信息等….因此,对聊天内容进行监控已成为亟待解决的问题. 日前,专门针对聊天室内容监控的研究工作还比较少见,采用的方法一般是首先建立聊天数据的向量空间模型 (VectorSpaceMode1),然后在此模型的基础上计算聊天数据中词汇的权重,再采用文本分类的方式来识别用户正在讨论的内容(主要是话题).由此可见,词汇权重的计算是整个方法中的基础,其效果的优劣直接影响到监控的性能.例如, JasonBengel等人设计了一个相对比较完整的聊天室监控系统ChatTrack,它实现了聊天数据的自动收集,检索和分类;NeilW.等人设计的Butterfly系统则根据用户提出的话题描述,找出含有相关话题的聊天频道并推荐给用户].在这两个系统中,词汇权重的计算都直接采用TFIDF(Term FrequencyInverseDocumentFrequency)方法. 但是,TFIDF实际上是用于文本词汇的权重计算的, 并不完全适合聊天数据中词汇的权重计算.聊天数据与文本数据不同,其自身的特殊性(如多数据源,各数据源数据量不均衡等)决定了直接套用TFIDF方法计算出的聊天数据中词汇的权重,不可能真实反应出聊天数据中词汇对聊天内容的描述能力. 本文提出了一种专门用于聊天数据词汇的权重计算方法CDTFIDF(ChatDataDocumentTermFrequencYInverse DocumentFrequency).该方法根据聊天数据的特殊性,通过分数据源计算词汇权重并汇总,降低分类特性对权重计算的影响,对重点词汇增量加权等方式,可以准确反应出词汇描述对话内容的能力. 2聊天数据的特点及TFIDF方法的不足 2.1聊天数据的特点聊天数据与文本数据不同,其内容是由不同用户的对话组合而成的;这些对话类似口头交流,有着很差的语法,拼写,噪声非常大.除此以外,聊天数据的特殊性主要体现在以下几个方面: 1)聊天数据是多源的.在对聊天室进行监控时,聊天数据可能由来自不同服务器中多个聊天室的聊天内容组成. 2)各个数据源的数据量不同.数据量的多少与当时该数据源的用户在线人数,用户对话题的兴趣程度等多方面因素有关,因此各数据源的数据量差别可能会很大. 3)数据源的分类性很弱.每个数据源都有一个事先定义好的聊天主题,聊天数据存在相对明显的类别特征(比如,主题为philosophy的聊天室的聊天数据的内容可能主要关注的是philosophy方面),但这种预先定义的主题约束性是很弱的,数据源中的话题会随着用户的变化或兴趣的变化而不断的改变,对话内容往往不会按照预先设定的主题进行. 4)话题与用户对话有密切的联系.聊天数据的内容是由不同用户的对话组织在一起的,用户通过对话内容表示其意图.通过观察我们发现,用户在聊天过程中发言次数不同,他们对聊天话题影响程度也不同;用户发言越多,他所表达的意思就越清楚,对话题的影响就越大,而发言较少的用户则对话题起不到影响作用.因此,发言较多的用户在其对话中多次提到的词汇更能反应出这段对话的话题,将这些词汇称为重点词汇. 另外,监控系统在收集聊天数据的过程中,无论是以收集的时间为单位还是以收集的量为单位,都要对数据源中的数据分段收集.这种收集方法可能使同一话题被拆分成两个或多个片段,从而割裂了聊天数据在语义上的连续性.因此, 在同一数据源中收集到的多个数据片段中,分布较广的词汇其反应话题的能力会更高一些. 2.2TFIDF方法的不足 TFIDF方法是针对文本词汇权重计算设计的,直接用来计算聊天数据词汇的权重时存在以下几方面不足之处: 1)由TFIDF方法的结构可知,它是针对单数据源而设计的,在处理单数据源文本集的情况下更有优势.而聊天数据是多数据源的,且各数据源之间的类别差异很弱,计算词汇权重时需要综合考虑词汇在各个数据源中的情况,因此直接使用TFIDF方法计算聊天数据词汇权重不合适. 2)TFIDF方法采用文档频数型公式即IDF函数来调整词汇权重,所有词汇在计算权重时是以总的文档数为基,这显然是不合理的.特别是当某类的文档数相对较少时, 分类结果便容易出错.例如,在一个数据量较少的数据源中, 某词汇出现的频率很高,是一个可以反应对话内容的词汇, 但通过TFIDF得出的权重并不能说明该词是一个能够表达数据源内容的重点词汇. 3)TFIDF忽视了聊天数据重点词汇对权重的影响.根据聊天数据的特点可知,发言较多的用户在其对话中多次提到的词汇更能反应出对话中的话题.通过TFIDF方法并不能使这些能够反应话题的重点词汇权重更加突出. 由聊天数据特殊性和TFIDF算法不足可知,该算法并不适合于计算聊天数据中词汇的权重,因此在进行聊天数据监控时,需要一种针对聊天数据特点的权重计算方法来进一步提高监控的准确率. 3CDTF:I:IDF方法及应用环境 3.1CDTFIDF方法实现基于上一节分析的聊天数据特点,我们提出了一种针对聊天数据词汇权重计算的方法CDTFIDF,该方法根据聊天数据的多源性和弱分类性等特点,通过综合计算各数据源中词汇权重,提高重要词汇的权值来衡量词汇权重.具体实现如式(1),(2),(3)所示. = ?II(/).(1) II_一(2) ? f?f1f?q = (3) 【?f1.5f>q 其中为词的权重,d为数据源的总数,为词力生数据源 c内的基本权重,影响因子为一个大于1的数.n为数据源c内含有词的聊天数据片段的数量,为数据源c内聊天 —— 333—— 数据片段的总数量.为数据源c内词汇的数量.P为一个大于1的数,大小具体由实验确定.m为数据源c内的用户数量t为用户在对话中提到词的次数.当用户在一个聊天数据片段中提到该特征词的次数小于q时,按1计算,当大于q 时,按1.5计算. 从CDTFIDF方法的结构可以看出,该方法在计算词汇权重时分为三个主要步骤: 1)计算各数据源中词汇的权重,其中包括弱化各数据源的分类特性;通过影响因子来增大在同一数据源不同数据片段中出现的词汇的权重;扩大重点词汇的权值; 2)规格化(normalize)各数据源所计算出的词汇权重; 3)综合各数据源计算出的权重作为词汇在聊天数据中的权重. 其计算流程如图1所示. 图1CDTF}IDF方法计算流程图从(1)式可以看出,词j的权重W等于j在各数据源中计算出的权重的总和.通过汇总各数据源计算出的权重,使得含有该词汇的所有数据源对词汇权重的影响都有所体现,实现了权值计算的多源性.在该式中,IDF函数(N/n)l/p以各数据源中的数据片段数量为基调整词汇的权重,避免了 TFIDF以文档总数为基计算词汇权重的缺点.考虑到数据源的弱分类性,式中将P设置为大于2的数,即体现了聊天数据的分类性,又减少了分类特性对权重计算的影响. 在(2)式中对数据源C中的词汇j出现的频率进行规格化,避免了由于各数据源数据量的差异对权重计算的影响. 由聊天数据的特点可以知道,各数据源的数据量差异可能很大,但无论数据量的大小,在监控过程中各数据源应该是平等的,因此在计算词汇权重时要避免由于数据源的数据量不同而造成对权重计算的负面影响.通过(2)式规格化词汇的权重较好地解决了这一问题. 在(3)式中,通过对同一用户i在同一个聊天数据片段中多次提到的词汇j更高的权值来提高该词的权重,其目的是使能够反映话题的重点词汇在权重计算时更加突出. 考虑到收集数据过程中分片可能造成对同一话题的分割,设置影响因子inf的作用是使在同一数据源中出现的同一词汇比在不同数据源中出现的同一词汇的权重有所提高. 3.2应用环境使用CDTFIDF算法的聊天室监控系统对从不同数据源收集到的聊天数据片段建立空问向量模型,计算出词汇权 ...—— 334...—— 重进行特征提取,选择出n个权重最高的词.过滤掉不包含这些特征词的聊天数据片段.使用聚类方法对剩余的聊天数据片段进行聚类,聚类后聊天数据片段集包含的特征词组合反映了聊天数据片段集的话题.监控系统的工作流程如图2 所示. 收集聊天数据片段 J 算聊天数据词汇权重申通过聚类识别聊天数据片段话题图2聊天室监控系统工作流程图 4实验及结果分析 IRC(InternetRelayChat)聊天系统是目前最具代表性的网络聊天工具.为了验证CDTFIDF的效果,收集了IRC 聊天室的聊天对话作为实验数据,分别使用CDTF-kIDF和 TF-7~IDF计算词汇权重,察看其特征词及权重变化,并根据 3.2节介绍建立了一个原型系统,通过识别聊天话题来验证 CDTFIDF方法的优越性. 4.1试验数据准备实验所用的数据取自IRC聊天室,随机选择2个服务器的4个聊天室下载聊天数据.收集聊天数据时,以十分钟为一个片段保存聊天数据,共下载了500个片段.分为5组进行实验,每组100个片段.对收集到的聊天数据片段进行预处理,包括:用停用词表(stop—list)过滤,多昵称合并,对特定词的处理,同根词合并等.在实验中,设置P=3,q=5,inf= 1.2. 4.2试验1:词汇权重计算结果比较用TFIDF和CDTFIDF分别计算词汇权重,以第一组实验为例,选取权重最高的前6项进行对比,察看其特征词及权重变化,结合人工分析实验数据的结果,判断特征词反应话题的能力. 在采用TFIDF算法计算词汇权重的这组实验中选择6 个权重最高的词汇如表1. 表1基于TFIDF算法的实验结果在采用CDTFIDF算法计算词汇权重的这组实验中选择6个权值最高的词汇如表2,为方便两组数据的对比,对权值进行等比例放大.见表2. 表2基于CDTF$IDF算法的实验结栗对比两组实验结果,发现由CDTFIDF算法计算出的词汇权重略高于TFIDF;这是因为在CDTF-kIDF算法中, 在对同一对话片段中由同一用户多次提到的词汇进行增量计算,扩大词汇间权重的差距,使权重能真实反应出词汇描述话题时所起的重要程度.在CDTF-kIDF算法得到的6个词中,有一个词在TFIDF算法选择的6个词中没有出现.通过人工阅读聊天数据发现Hegelianism这个词在主题为 philosophy的聊天室多次出现,是一个能起到区分话题作用的词.造成这种情况是由于聊天室philosophy数据量相较由其它数据源小,通过TFIDF不能正确反映出表示该话题词汇,而通过CDTFIDF算法达到了我们设计的初衷. 4.3试验2:话题发现结果比较根据3.2节中描述的应用环境,建立起了聊天室监控原型系统.在系统中分别使用两种TFIDF和CDTFIDF算法 . 计算词汇权重对实验数据进行话题识别.结果如表3所示表3用两种算法进行话题识别的结栗通过表3可以看出,使用CDTFIDF算法的结果要优于使用TFIDF算法,特别是在第2组和第4组实验中 CDTFIDF的优势要更为明显.这主要是由于第1,3,5组实验中,各数据源的数据量都比较小,差距也不大,两种算法的差别不是很明显.在第2,4组实验中各数据源的数据量差距较大,CDTFIDF算法可以通过规格化来减少这种差距对权重计算的影响,因此准确率高于TFIDF算法. 5结论本文通过分析聊天数据的特点,提出了一种针对聊天数据特点设计的词汇权重计算方法CDTFIDF通过实验证明该方法性能优于目前聊天室监控系统中常用的TF-kIDF算法.当然,目前的聊天室监控方法都是通过建立聊天数据的 VSM模型,利用词汇的统计特性来进行话题识别的,忽视了用户与对话间的关系和对话间的时间线索.下一步将通过分析对话间的时序关系,并结合用户的语义相似性,进一步加强对聊天数据的监控能力. 参考文献: [1]MichealMedaris,CathyGirouald[R]Protectingchildrenin cyberspace:the1CACtaskforceprogramUS.OfficeofJustice andDelinquencyPrevention,2002. [2]GSahon.DevelopmentsinAutomaticTextRetrieval[C]. Science,1999,253.974—979. [3]GSahon,CBuckley.TermWeightingApproachesinAutomatic TextRetrieval[C].InformationProcessingandManagement, 1998,24:513—523 [4]JasonBengel,SusanGauch,EeraMittur,Rajan Vijayaraghavan.ChatTrack:ChatRoomTopicDetectionUsing Classification[C].Proceedingsof2ndSymposiumon IntelligenceandSecurityInformatics(ISI一2004).266—277. [5]WNeil,VanDyke,HLieberman,PMaes.Butterfly.A Conversation—FindingAgentforInternetRelayChat[C]. Proceedingsofthe1999InternationalConferenceonIntelligent UserInterfaces.1999.39—41. [6]TJoachims.AProbabilisticAnalysisoftheRocchioAlgorithm withTF—IDFforFextCategorization[C].Proceedingofthe 14thInternationalConferenceonMachineLearningICM~7, 1997.143—151. [作者简介】高鹏(1978一),男(汉族),陕西西安人,硕士研究生..研究方向:信息安全. 曹先彬(1969一),男(汉族),安徽省巢湖人,博士, 教授,博士生导师.研究方向:计算智能,网络与信息安全. ...—— 335---——

                    本文档为【用于聊天词汇的权重计算方法CDTF＊IDF】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

用于聊天词汇的权重计算方法CDTF＊IDF

你可能还喜欢