首页 基于文献聚类的数据挖掘模型设计与实现

基于文献聚类的数据挖掘模型设计与实现

基于文献聚类的数据挖掘模型设计与实现基于文献聚类的数据挖掘模型设计与实现参赛队员:张静，李逸，徐良飞指导老师:魏建香徐斌褚炜鑫 (南京人口管理干部学院江苏南京 210042) 摘要:聚类分析是统计学中的一项重要技术。通过聚类可以发现隐藏在海量数据背后知识。本文首先建立空间向量模型，改进了传统相似度的计算模型，提出了一种基于摘要词对关键词加权贡献的相似度模型，使得文献的空间向量更加精确。数据来源于05年CSSCI文献数据库图书情报学的3千多条文献数据，并通过中知网查询相关文献的摘要。通过数据清洗、去噪声、降维、规格化处理、样本抽样等...

基于文献聚类的数据挖掘模型设计与实现参赛队员:张静，李逸，徐良飞指导老师:魏建香徐斌褚炜鑫 (南京人口管理干部学院江苏南京 210042) 摘要:聚类分析是统计学中的一项重要技术。通过聚类可以发现隐藏在海量数据背后知识。本文首先建立空间向量模型，改进了传统相似度的计算模型，提出了一种基于摘要词对关键词加权贡献的相似度模型，使得文献的空间向量更加精确。数据来源于05年CSSCI文献数据库图书情报学的3千多条文献数据，并通过中知网查询相关文献的摘要。通过数据清洗、去噪声、降维、规格化处理、样本抽样等一系列步骤，得到最终用于聚类的681篇文献和108个学科特征原子词。利用Matlab软件编程实现了FCM算法的文献聚类。将聚类的结果通过基于学科原子特征词的学科交叉表来表示，统计出图书馆学、情报学和文献学三个学科的研究热点及交叉点，以及图书情报学新的学科增长点，并对结果进行了检验，检验结果表明该统计模型是科学的、有意义的。关键词:聚类; 交叉学科; 关键词; 摘要; 相似度; FCM 一、引言 1.研究背景聚类分析(Clustering Analysis)是统计、模式识别和数据挖掘等领域中一个非常重要的技术，文献聚类就是依据文献之间的相似度按照一定的算法准则，挖掘隐藏在海量文献数据背后的有用知识:如学科交叉、研究热点和新的研究方向。科学研究需要创新。科学技术的发展为每个学科的发展带来新的机遇的同时，也带来更为严峻的挑战。目前，文、理、工、管等学科之间相互渗透、交叉、融合已经成为一种潮流和趋势，其深度和广度正在进一步深化。众所周知，近代科学发展特别是科学上的重大发现和国计民生中的重大社会问题的解决，常常涉及不同学科的相互交充满和相互渗透。学科交叉逐渐形成一批交叉学科，如化学与物理学的交叉形成了物理化学和化学物理学，化学与生物学的交叉形成了生物化学和化学生物学，物理学与生物学交叉形成了生物物理学等。这些交叉学科的不断发展大大地推动了科学进步，因此学科交叉研究(interdisciplinary research)体现了科学向综合性发展的趋势。科学上的新理论、新发明的产生，新的工程技术的出现，经常是在学科的边缘或交叉点上，重视交叉学科将使科学本身向着更深层次和更高水平发展，这是符合自然界存在的客观规律的。由于现有的学科是人为划分的，而科学问题是客观存在的，根据人们的认识水平，过去只有天文学、地理(地质)、生物、数学、物理、化学六个一级学科;而经过20世纪科学的发展和交叉研究，又逐渐形成了新的交叉学科，如生命科学、材料科学、环境科学等。因此研究学科交叉可以反映学科的研究的热点和发展趋势。本次统计建模正是基于以上的研究背景，通过文献聚类来研究学科交叉，其意义在于:(1)通过对文献数据的聚类分析，挖掘学科交叉点，使研究者了解本学科目前的研究 1 现状，如学科发展前沿与热点问题等，以提高研究者的创新意识和创新动力，为科学研究提供决策支持;(2)为管理者和研究机构提供决策支持，如交叉学科的政策支持、研究经费投入、人才培养方向等;(3)通过学科交叉的比较，使学科本身获得动力，提升学科竞争力，使学科能更好地适应社会和经济的发展，更好地服务社会。 2.国内外研究现状不同的数据库,对其文献进行分类有不同的方法,没有一种方法能对所有数据库的文献分类都具有高效率、高精确率。对于科学文献的分类,目前主要采用[1]的方法有: (1)引文分析法:引文分析是指通过对文献中所附的参考引文进行计量统计分析,从而揭示科学技术发展的历史及现状。其目的是寻找文献之间的联系来研究文献内在联系和科学结构的一种方法。 (2)关键词分析法:关键词分析就是通过对反映文献主题内容的词进行关联性或相异性定量分析,研究文献内在联系和科学结构的一种方法。 (3)聚类分析法:聚类分析是指根据分析对象彼此之间的相关程度把文献分成类群,使群内尽量相似,群间尽量相异,然后进行分析研究的过程。 (4)因素分析法:因素分析的概念是英美心理统计学者们最早提出的,因素分析法是从试验所得的m×n个数据文献中概括和提取出较少量的关键因素,它们能反映和解释所得的大量观测事实,从而建立起最简洁、最基本的概念系统,揭示出事物间最本质的联系。 (5)关键词分析与共引聚类分析相结合研究法。目前国内研究的主要热点集中在第一方面,而国外在该领域的最新研究是通过关键词分析和共引聚类分析相结合,以揭示文献的主题结构。 3.文本挖掘中的分词技术中文文本挖掘技术成败的关键在于文本中词汇切分的成功与否。由于汉语语言的特殊性和复杂性,使中文词汇的切分成为一个很伤脑筋的问题。而如果不进行分词,中文信息处理的其它很多研究就无法进行。分词技术中基于词库的算法目前使用较广,也较为成熟,如正向、逆向最大匹配法、逐词遍历法。这类算法分词的正确性很大程度上取决于所建的词库。一个词库应具有完备性和完全性两个方面,建立一个同时满足这两个要求的词库具有[2]很大的难度。所以,对于中文文本挖掘来说,基于词库的分词技术可能会使某些具有重要意义的词汇被疏漏,从而导致挖掘的内容不是十分准确。基于无词典的分词技术正处于研究发展阶段,其基本思想是:基于频度的统计,不依靠于词典,将文本中任意几个字同时出现的频率进行统计,次数越高的越[3][4]可能是一个词。文中设计了一个基于无词典分词的算法,能比较准确地切分出文本中的新词。 4.文本的特征提取特征提取主要是识别文本中代表其特征的词项。提取过程是自动的,提取的特征大部分是文本集中表示的概念。文本特征分为一般特征和数字特征,其中一般特征主要包括动词和名词短语,如人名、组织名等;数字特征主要包括日期、时间、货币以及单纯数字信息。这些特征包含重要的信息,因此特征提取是一种强有力的文本挖掘技术。通过文本特征抽取,记录文本的特征,可以更好地组织文本,如文本的存储、检索、过滤、分类和摘要等。 2 中文姓名识别属于中文信息处理中未登录词处理的范畴,中文姓名在文章中的出现频率虽然不高,但绝非可以忽略,因为中文姓名本身包含着重要的信息,它可能是整个句子甚至整个段落的语义中心,如果不予处理,将影响文本挖掘的性[5]能。数字特征反映一定的信息,但不能表达文本的中心思想,通常只作文本挖掘中的参考信息。 5.聚类分析的原理与方法聚类分析主要包括统计学习和机器学习两种方法。在基于统计学习的聚类分析中，主要研究基于几何距离的聚类，这也是本次建模采用的方法。其主要步骤包括:(1)定义多维空间;(2)计算多维空间中样本点之间的距离，作为样本点之间的相似度;(3)采用某种算法(如FCM、K-means、层次法等)按照相似度大小将相似度高的样本聚为一类。在文献聚类问题中，一般都是根据向量空间模型(VSM)思想，将文献聚类的样本空间表示成={，，„，}，其中样本=(，，„，)为Xxxxxxxxm12nii1i2imm维特征空间中的一个点，现在要找到这样一个划分={，，„，}，使得: RCCCC12kk 且，并且满足类C:C,,,j,1,2,...,k,且i,jX,C,C,,,i,1,2,...,k,ij:ii,1i k**内之和的值最小，x表示类C的中心，x表示划分在类C中的E,x,xjjij,,ij,,1jcxij 文献。 6.研究目标和具体思路本次建模研究目标是在海量数据的基础上，采用聚类分析的理论和方法，挖掘隐藏在数据背后的学科交叉知识，研究的整体框架如下: 数据抽取学科特征词库和提炼数据采集加工文献文献样本聚类分析结果数据库数据库分析图1文献聚类研究框架主要的研究思路为: (1)数据采集:采集三个学科(图书、情报、文献)一年的文献数据; (2)数据预处理: , 降维:经过抽取和提炼，建立学科特征词库，构建聚类空间; , 文献摘要分词:将摘要利用分词技术进行分词，去掉虚泛词; , 关键词与摘要词加权:利用关键词在摘要中出现的频次，计算出摘要词对关键词的贡献度; , 去噪声:对数据库中文献学科类别特点不明显的文献删除。 (3)利用VSM模型，建立文献空间向量; 3 (4)利用Matlab软件中的FCM算法，将文献进行多次聚类; (5)对聚类的结果进行统计分析。二、模型设计 1.向量空间模型(VSM) 向量空间模型(VSM)是文献分类所使用的特征较为普遍采用的方法之一。在这种模型中，文献空间被看作是由一组正交词条向量组成的向量空间，每个文献表示为其中的一个范化特征向量:V(d)=(t,w(d),„,t,w(d),„,t,w(d))，11iinn其中t，也可以要求t是d中出现的所有短语，以提高文献内容的准确性。W(d)iii常被定义为在出现频率()的函数，如()=(())，常用的函数有tdtfdwdtfdiiii 1()1，tfdi,,布尔函数: ;平方根函数: ;对数函数: ,,tfdi(),,,0,()0tfdi,, N;TFIDF函数: 等。本次建模中采用了一种,,，log(()1)tfdii()log(),,，tfdin 新的w(d)的计算模型，具体步骤如下: i (1)构建特征向量空间文献聚类是在一个非常高的维度中进行的，而聚类算法的复杂度与数据维度是非线性关系。理论证明，随着维度的增加，计算的复杂度将呈现指数级的增长。我们通过对05年CSSCI文献数据库中三大学科文献的统计发现，在3932篇文献中关键字的个数为14202，平均每篇文献的关键词个数为3.61个，互异的关键词达到6708个，利用普遍认可的VSM来计算文献相似度矩阵时，特征空间的维度很大，增加了计算的复杂性。因此，文献聚类的首要问题是要将数据进行降维。原子特征词是指从所有文献关键词中找出能够反映出学科特点的关键词中的原子部分。这样做可以将数组维度从一个非常高的维度降低到一个维度相对较低的空间。原子特征词词典的确立是基于关键词的文本分类的非常关键的基础问题，词典中原子特征词的选取既要考虑这些词在文本集合中出现的统计特征，选取那些反映文本内容的原子特征词;又要做停用词表，去掉那些在特定语言中出现频率较高但含义虚泛的词，以降低特征空间的维数;同时还要考虑关键词的频幅限制，以防止因少数关键词在少数文本中频幅过高而造成的聚类中心的偏移影响。 (2)关键词相似度计算模型由于我们对关键进行了抽取和加工，因此大部分的文献关键词与原子特征词并不完全相同，由于在传统的相似度计算模型中两者的相似度将是0，这会使得构建的文献空间向量矩阵绝大部分元素出现0。因此，必须考虑两种关键词之间[6]的部分相似性。假设两个关键字和，字符长度分别为和，连续相同字符串长度为，kklllijij 则该两个关键字相似度定义为T(k,k): ij l,当l,,4, (1) l，l,lT(k,k),,ijij,当0l,4, 显然有T(k,k)?[0，1]。这个公式考虑了关键字之间的部分相似性，提高ij 了相似度计算的精度。例如:两个关键字“公共图书馆”和“数字图书馆”，在许多的文献聚类方法中将这两个关键字的相似度定义为0(即两者完全不同)， 4 这在某种程度上影响了文献相似度的精确度。利用我们给出的公式(1)计算结果为0.4286，能更加准确地表示两者的相似度。 (3)相似度加权计算模型每一篇文献一般有若干个关键词，通过关键词相似度计算模型中公式(1)计算所得的值也相应地有若干个。为了进一步提高文献相似度的精确度，我们结合关键词相似度计算模型和关键词的频次提出一种新的计算文献相似度的相似度加权计算模型: kDk() 假设文献的关键词为，则文献的关键词集合定义为: ii Dkkkkk()(,,,,,), (1) iin12 Fk() 定义文献的关键词的频次为 i FkFkFkFkFk()((),(),,(),,()), (2) iin12 通过关键词相似度计算模型计算 TkTkTkTkTk()((),(),,(),,()), (3) iin12 Maxk() 取公式(3)中的最大值，定义为 i MaxkTk()(()), (4) ii Pk()定义相似度加权计算的值为 i PkMaxkFk()()(()1),，， (5) iii (4)文献空间向量的构建 VSM的目标是将文献数据表示为特征空间中的一个向量。该矩阵以文献作为行，以原子特征词作为文献的特征词，即作为列。每一篇文献的每一个关键词分别和每一个原子特征词进行相似度计算，乘以该关键词在摘要中出现的频次加1后的最大值作为最终结果，因为该词在文献关键词中也出现1次。假设n篇文献，m个学科原子特征词，则文献的空间向量矩阵表示为: www...，，11121m,,www21222m,, ,,............ ,,wwwn1n2nm，，其中，文献在m维空间的特征分量w(i=1,2…,n;j=1,2…,m)计算是通过每篇文献的关ij 键词与原子特征词之间的相似度乘以该关键词在摘要中出现的频次加1，并取最大值得到。例如:一篇文献中的3个关键词及在摘要中出现的频次分别为:数字型图书馆(3); 隐性知识(4); 图书馆工作(2)，第i维的原子特征词为“图书馆”。则这篇文献的w(d)的计i算方式为:首先利用相似度计算模型中公式(5)计算3个关键词与原子特征词“图书馆”的相似度值分别为0.5、0、0.6，然后计算加权后的值分别为0.5×(3+1)=2.0、0×(4+1)=0、0.6×(2+1)=1.8，取最大值2.0作为w(d)的值。 i 5 2.FCM聚类算法模型及步骤 (1)FCM聚类算法模型 FCM算法是一种基于划分的聚类算法，它的思想就是使得被划分到同一类的对象之间相似度最大，而不同类之间的相似度最小。模糊C均值算法是普通C 均值算法的改进，普通C均值算法对于数据的划分是硬性的，而FCM则是一种柔[7]性的模糊划分。FCM算法在迭代寻优过程中，不断更新各类的中心及隶属度矩阵各元素的值，直到逼近下列准则函数最小值 Ncm2mJUVud(,), ， (2) ,,ijijji11,, 式(1)中V={v，v，„，v}，v为w的中心矢量，权重，m,,(1,)12cii 2d，A为某正定阵，时，为欧式距离。式(2)xv,AI,dxvAxv,,,()()jijiijjiij c u,1的约束条件为，,，运用拉格朗日乘数法，可得无约束的准则函数 ,ijji,1 NcNcm2Fudu,,,,(1) ， (3) ,,,,ijijijjjiji1111,,,, 式(3)取极小值的必要条件是 m,12,F (4) ,0,,,,mudijijj,iju c,F,,,,(1)0.u (5) ,ij,,J,1i由式(3)可得 12m,1 (6) umd,(),,ijjij 将式(6)代入式(5)可得 11cc,m,11j,m1 ， (7) u,,()()1,,ij2md,,ii11ij从而有 1,1jm,1 , (8) (),1m1,m1(),2dkj将式(8)代入式(6)得 1 (9) u.ij2cdij,m1(),d,k1kj d,I考虑到可能为0，对，定义集合和I为 ijjjj 6 Iid,,0,,,jij II,,1,2,,3,,jj. I,,,如果则 j 1 (10) u,.ij2cdij,m1(),dk,1kj I,,u,0,如果则令并使类似地，可得聚类中心更新算式，u,1.,,Ijij,ijij,,iIj令可得 ,,,JUV(,)0,vi NN,mmuxvAxvuAxv[()()][2()]0,,,,,,, ,,ijjijiijjiv,,,11jJi 由此可得 NNmmvuxu,. (11) ,,iijjijjj,,11(2)FCM聚类算法步骤 (1)确定类数ccN(2),,、参数m、矩阵A和一个适当的误差参数; ,,0 (0)uU,(2)置定初始模糊分类矩阵表示中元素，令s=0; Uij ()s()sv(3)计算时的 U,,i NN()smmvuxuic,,,1,2,,. ,,iijjijjj11,, (1)s，()sUjN(1~).,(4)按下面的方法更新为 U ?计算 Iid,,0,II和.IcI,,1,2,,,,,,jijjjjj. x?计算的新隶属度。 j 1I,,,如果那么否则并取u,1. u,,uI,,,0,j,ijijijij,2cd,ijiIj,m1(),dk,1kj ()(1)ss，()s(1)s，UU,,,,(5)以一个适当的矩阵范数比较U和U，如果停止; [8]否则，s=s+1，返回(3). 7 三、文献聚类的实现文献聚类实现的步骤如下: (1)数据抽样:从05年CSSCI数据库中情报学、文献学、图书馆学三种学科文献共3932篇文献中，通过系统抽样法，从中选取了800篇文献，其中情报学257篇，文献学120篇，图书馆学423篇。 (2)数据清洗:通过中知网(www.cnki.net)搜索，取出每一篇文献的摘要部分，并统计每一篇文献中关键词在摘要中出现的频次。去掉其中表达不规范的摘要，最终选取情报学、文献学、图书馆学三个学科文献共681篇，其中情报学207篇，文献学98篇，图书馆学376篇，处理后的数据如图2所示。图2 待聚类的文献数据 (3)抽取原子特征词:取出681篇文献中所有的关键词，从中人工选取108个原子特征词，如表1。通过编写程序，求出每一篇文献中的每一个关键词相对于108个原子特征词的相似度值，然后乘以该关键词在摘要中出现的频次加1之后最大相似度值，即为相似度加权值。表1 原子特征词表影响因1 安全 19 传播 37 馆员 55 排架 73 数字 91 子 2 版本 20 导航 38 集成 56 评估 74 搜索引擎 92 用户 3 版权 21 电子 39 计算机 57 评价 75 索引 93 语义 4 保存 22 调查 40 家谱 58 期刊 76 图书 94 元数据 5 被引 23 读者 41 价值 59 企业 77 图书馆 95 阅读 6 本体 24 敦煌 42 检索 60 情报 78 图像 96 整理 7 编目 25 分布式 43 建筑 61 全文数据库 79 推送 97 政府 8 标引 26 分词 44 借阅 62 人文 80 网络计量 98 知识 9 博客 27 分类 45 竞争 63 人性化 81 网页 99 智能 10 采访 28 佛经 46 口述 64 儒家 82 网站 100 中图法 8 11 采购 29 个人 47 类目 65 商务 83 文献 101 主题 12 参考 30 个性化 48 联合 66 社会 84 信息 102 著录 13 藏书 31 公共 49 联机 67 社区 85 虚拟 103 著作 14 查全 32 共享 50 联盟 68 史料 86 叙词表 104 专利 15 查新 33 古籍 51 链接 69 视频 87 学科 105 咨询 16 查询 34 关键词 52 论文 70 收录 88 学术 106 资料 17 成本 35 馆藏 53 目录 71 书目 89 引文 107 资源 18 出版 36 馆际 54 内容分析 72 数据 90 隐性知识 108 自动化 (4)构建文献空间向量矩阵:以681篇文献作为行，108个原子特征词作为列，以步骤(3)中求出的相似度加权值作为矩阵元素来构建文献空间向量矩阵R，图3为R的部分元素。该矩阵每一行即为一篇文献的一个空间向量，每一列(每一维)即为一个文献特征。通过相似度加权计算的方法所取得的值与现有的方法相比较更加准确地反映出某个关键词在文献中的权重，而且所得的文献空间向量矩阵R中的数据的稀疏程度将大大降低，这样通过FCM聚类做出的结果将会更加地精确、稳定。图3文献空间向量矩阵 (5)聚类实现:将文献空间向量矩阵R中的数据存入文本文档，作为Matlab中FCM算法的数据源。运行FCM算法100以上，取出其中聚类目标函数值最小时的聚类结果作为最终结果输出，程序界面如图4。通过多次运行并对结果进行比较发现，聚类的结果比较稳定，如表2。 9 图4 Matlab程序界面表2 前200项数据的聚类结果 1 3 21 3 41 2 61 1 81 1 101 1 121 1 141 1 161 2 181 3 2 2 22 2 42 1 62 1 82 1 102 2 122 1 142 2 162 3 182 1 3 2 23 1 43 1 63 1 83 1 103 1 123 1 143 1 163 2 183 3 4 3 24 1 44 1 64 1 84 1 104 1 124 1 144 1 164 2 184 3 5 1 25 3 45 1 65 2 85 1 105 1 125 1 145 1 165 2 185 2 6 3 26 3 46 3 66 1 86 1 106 1 126 1 146 2 166 2 186 1 7 1 27 2 47 1 67 3 87 1 107 3 127 1 147 3 167 3 187 3 8 1 28 1 48 1 68 3 88 1 108 2 128 1 148 3 168 3 188 2 9 3 29 2 49 1 69 1 89 1 109 1 129 1 149 3 169 3 189 3 10 2 30 1 50 1 70 1 90 1 110 1 130 1 150 3 170 1 190 1 11 3 31 2 51 1 71 1 91 2 111 1 131 1 151 3 171 2 191 3 12 3 32 2 52 1 72 1 92 1 112 1 132 1 152 1 172 1 192 1 13 3 33 1 53 2 73 1 93 1 113 1 133 2 153 2 173 1 193 3 14 1 34 1 54 1 74 3 94 1 114 1 134 3 154 1 174 2 194 3 15 3 35 1 55 1 75 2 95 3 115 1 135 1 155 1 175 3 195 1 16 1 36 1 56 1 76 1 96 2 116 1 136 3 156 1 176 3 196 1 17 1 37 3 57 1 77 1 97 1 117 1 137 1 157 3 177 1 197 2 18 2 38 3 58 1 78 1 98 2 118 1 138 1 158 2 178 3 198 1 19 2 39 3 59 3 79 1 99 1 119 1 139 1 159 1 179 3 199 2 20 1 40 1 60 2 80 1 100 2 120 1 140 3 160 1 180 1 200 1 (6)学科交叉研究方法:通过FCM算法运行所得的学科分类数据同(2)中已知的学科分类数据相比较，得到一张学科交叉表。该表以原子特征词作为行，以两两学科相互之间是否交叉作为列，统计原子特征词是否在某两门学科之间出 10 现以及如果出现，那么出现的频次为多大。这样就可以清晰地知道:哪些文献属于交叉学科，学科之间正在共同探讨哪些方面以及该方面的关注度如何。四、聚类结果统计分析建立一张二维表，通过FCM聚类所得的文献分类结果与文献在现实中的学科分类相比，就可以很清楚地看到该文献是否为交叉学科，同时很清楚地看到该文献属于哪几门学科交叉及各学科之间的交叉点(关注点)。表3 部分学科交叉表(完整学科交叉表见附录II) 原子特征词 I-1 I-2 I-3 II-1 II-2 II-3 III-1 III-2 III-3 安全 0 3 0 0 2 0 5 0 0 版本 0 0 3 0 0 0 0 0 0 版权 0 0 0 0 2 0 4 0 0 保存 0 5 0 0 0 0 0 0 0 被引 0 2 4 0 0 0 0 0 0 本体 0 8 0 0 0 0 0 6 0 表1(见附录II)中每个字段中前一个数字表示文献通过FCM聚类方法聚成的结果，共分为3类，分别用I、II、III表示;后一个数据表示文献的实际分类，其中“1”代表“图书馆学”;“2”代表“情报学”;“3”代表“文献学”。例如:“I-1”前一个“I”代表文献通过FCM聚类后分在第一类中，而后一个“1”表示文献现实中被归为图书馆学。从表1(见附录II)中我们可以看出: (1)文献中哪些属于交叉学科范畴。当一部分文献通过原子特征词被聚为同一类时，说明这些文献研究或探讨的内容有相同或相似的方面，在这一类中的文献如果现实中属于不同学科时，那么说明学科之间有交叉的部分，其中一些文献属于交叉学科。从原子特征词中，我们可以进一步看出学科之间共同关注的课题。 (2)如果某个原子特征词分别在不同学科中出现，那么从中我们可以很明显地看出该原子特征词被哪些学科同时关注。例如第八行的原子特征词“编目”通过FCM聚类被分为同一类，但在现实中同时出现于“图书馆学”、“情报学”、“文献学”三门学科。从中我们可以看出，这三门学科正在同时研究“编目”这个方面。 (3)通过原子特征词的统计频次，我们可以进一步看出某个原子特征词的关注度。如果某个原子特征词在某些学科中同时多次出现，那么可以肯定地是这个原子特征词是不同学科研究的热点问题。例如:“检索”在图书馆学中出现地频次为7，在情报学中出现地频次为98，在文献学中出现地频次为11，而且是被聚为同一类中。从中可以看出，三门学科在“检索”方面属于交叉学科范畴，而且它在三门学科中的关注度很高。 2. 统计分析 (1)聚类结果的学科类别统计分析表4 聚类结果的学科类别统计表文献数图书馆学情报学文献学合计 11 类别 I 63 20.3% 154 49.7% 93 30% 310 II 106 75.2% 32 22.7% 3 2.1% 141 III 207 90% 21 9.1% 2 0.9% 230 合计 376 207 98 681 从表4中统计的结果可以看出，聚类结果的第I类主要是由情报学(占49.7%)和文献学(30%)组成，图书馆学占20.3%，因此第I类中可以分析出情报学与文献学、情报学与图书馆学之间的交叉关系;第2类中主要是由图书馆学(占75.2%)和情报学(占22.7%)组成，因此第II类的结果可以分析出情报学与图书馆学之间的交叉关系;第III类主要由图书馆学(占90%)组成，包含9.1%的情报学有可能成为研究的新的增长点。图5是三个类别中学科分布情况。以上是对三个学科类别总体情况的分析，下面将作更为详细的分析。第I类别,学科分布状况图书馆学:20.3% 文献学:30% 123 情报学:49.7% 第II类别,学科分布状况文献学:2.1% 情报学:22.7% 12 3 图书馆学:75.2% 12 第III类别,学科分布状况文献学:0.9% 情报学:9.1% 1 2 3 图书馆学:90%图5 三个类别学科分布状况 (2)学科研究热点分析综合上述的统计情况，类别I是三个学科的交叉，类别II、III主要是图书馆学为主，因此，按以下思路分别对三个类别进行统计分析来研究各个学科的研究热点: 1)从第I类中，按情报学中原子特征词频次降序排列后，排在前10位的( 数据如下: 原子特征词图书馆情报学文献学总计情报 0 115 0 115 检索 7 98 11 116 竞争 0 71 0 71 信息 19 65 0 84 数据 8 63 9 80 资源 27 52 20 99 数字 12 43 11 66 知识 14 43 0 57 参考 7 32 5 44 期刊 13 30 6 49 (2)从第I类中，按文献学中原子特征词频次降序排列后，排在前10位的数据如下: 原子特征词图书馆情报学文献学总计文献 4 8 42 54 资源 27 52 20 99 编目 7 2 19 28 查新 0 7 15 22 分词 0 0 15 15 标引 0 3 13 16 著录 4 0 13 17 藏书 2 0 12 14 检索 7 98 11 116 数字 12 43 11 66 (3)从第III类中，按图书馆学中原子特征词频次降序排列后，排在前10 13 位的数据如下: 原子特征词图书馆情报学文献学总计图书 295 0 2 297 图书馆 292 0 2 294 数字 97 0 0 97 知识 53 16 0 69 资源 39 11 0 50 馆员 27 0 0 27 社区 25 0 0 25 评价 23 0 0 23 信息 17 0 0 17 社会 17 0 0 17 (4)研究热点汇总将三张表的结果进行汇总得到每个学科研究的热点如下表: 研究热点研究热点学科图书馆学数字图书馆、知识管理、信息资源、信息评价、社区图书馆等情报学情报检索、竞争情报、知识管理、信息资源管理、信息数字化等。文献学文献资源管理、文献检索、文献查新、数字文献、藏书等 (3)学科交叉分析从三张表中字体为黑斜体的数据统计出三个学科之间的交叉情况如下表: 图书馆学VS情报学数字图书馆、知识管理、信息资源等情报学VS文献学文献检索、编目、文献、信息资源等文献学VS图书馆学编目、文献、信息资源、知识管理等文献学VS图书馆学VS情报学检索、数据、资源、参考、期刊、编目等 (4)新的学科增长点分析为了研究新的学科增长点，我们从第III类中提取了情报学文献进行研究，由于该类别中绝大部分属于图书馆学，尽管其中只有21篇文献既属于图书馆学又属于情报学研究内容，因此该类别中这种学科交叉点有可能成为情报学新的增长点。具体数据如下图: 14 图6 第III类中情报学文献数据从数据中可以看出，其中“数字图书馆”涉及较多，当然它也是05年图书情报研究的热点，这是一个显性的知识;而其中的“语义Web”、“本体”、“知识”等词的出现，应该成为我们必须关注的信号，因为它们可能在若干年后成为图书情报学研究的新的增长点。为了验证我们的结论，我们从中知网的数字出版物超市 >> 中国学术文献网络出版总库 >> 学科学术热点，从中检索“本体”关键字的结果如下表: 相关国研究序热点主题所属热度值文献研究人主要知识点家课题机构号主题学科名称 ? 数员数数数语义网;知识服务;本体;web服图书情语义务;xml;知识管理;万维网;高校图书报与数字网;知馆;rdf;元数据;网络检索;图书馆;图书馆;5 识服 10149 178 25 273 127 图书馆员;本体映射;智能检索;图书计算机软务;本馆服务;知识地图;知识服务系统;数件及计算体; 字图书馆建设;语义web; 机应用; 语义网;本体;web服务;数字图书语义互联网馆;万维网;rdf;xml;文献标题;搜索网;本技术;计引擎;网络检索;元数据;知识服务;6 体;信算机软件 7959 146 28 226 104 智能检索;圆周率;本体论;知识表息组及计算机示;信息检索系统;ibase数据织; 应用; 库;ontology;本体语言; 从表中可以检验我们通过对05年数据挖掘的结果在09年得到验证。五、结论本次建模的主要目标是通过文献聚类发现学科交叉和学科热点等隐藏在数据背后的学科知识。在建模中，我们选取了05年图书情报学的681篇文献作为统计建模的数据，由于采用了系统抽样的方法，因此研究的数据具有一定的代表性。通过数据的采集和预处理、模型的建立、实验仿真、结果的统计分析和结果检验等各个环节，我们比较顺利地完成了本次建模任务。经检验，模型是科学的，结果是正确的。主要的创新点:(1)在设计的模型中，我们提出了一种新的相似度加权模型，从而使得FCM聚类所得的结果更加合理和准确。(2)设计了学科交叉表。从学科交叉表中可以一目了然地看出哪些学科在哪些方面交叉，同时还可以看出哪些课题是学科之间的热点及新的增长点。这样研究人员、学者就可以在第一时间很清楚地了解到交叉学科的热点及增长点，不仅节省花在查找方面的时间与精力，更为重要地是，可以时刻掌握先机，抢占科学前沿。该模型还需改进的方面有:(1)模型只考虑了摘要词对关键词的贡献度，还可以考虑标题词对关键词的贡献度，以进一步加强文献间相似度的精确性;(2)由于FCM是一种没有聚类结果无交叉的算法，因此在该模型中可以引入模糊理论，使得聚类的结果有重合，对于研究学科交叉将更为直接。 15 参考文献 [1]林春燕，朱东华.科学文献的模糊聚类算法.计算机应用，2004. [2]蒋澄,马范援,蒋思杰.中英文WWW搜索引擎的信息处理[J].计算机工程,1999,25(4):37-38. [3] 严威,赵政.开发中文搜索引擎汉语处理的关键技术[J].计算机工程,1999,25(6):5-6. [4] 胥桂仙,苏筱蔚,陈淑艳.中文文本挖掘的无词典分词的算法及其应用[J]. 吉林工学院学报,2002,23(1):16-18. [5] 牛正雨,柴佩琪.文语转换系统中的中文姓名识别[J].计算机应用研究,2001,(1):25-26. [6]魏建香，苏新宁. 基于关键字和摘要相关度的文献聚类研究. 情报学报，2009，28(2). [7]金华. 分级聚类与平面划分结合方法在网页分类中的应用. 计算机工程与应用, 2004. [8]胡宁静，王靖. 基于模糊c均值算法文档聚类问题的研究. 长沙电力学院学报, 2004. 16 附录I: FCM算法(Matlab) function [center，U，obj_fcn]=FCMClust(data，cluster_n，options) %FCMClust.m采用模糊c均值对数据集data聚为cluster_n类 if nargin~=2 && nargin~=3， %判断输入的函数参数个数只能是2个或3个 error('Too many or too few input arguments!'); end rows=size(data，1); %求出data的第一维(rows)数，即样本个数 columns=size(data，2); %求出data的第二维(columns)数，即特征值长度 default_options=[2;100;1e0;1]; %默认操作参数隶属度矩阵U的指数最大迭代次数隶属度最小变化量迭代终止条件每次迭代是否输出信息标志 if nargin==2， options=default_options; else if length(options)<4， tmp=default_options; tmp(1:length(options))=options; options=tmp; end nan_index=find(isnan(options)==1); options(nan_index)=default_options(nan_index); if options(1)<=1， error('The exponent should be greater than 1!'); end end expo=options(1); max_iter=options(2); min_impro=options(3); display=options(4); obj_fcn=zeros(max_iter，1); U=initfcm(cluster_n，rows); for i=1:max_iter， [U，center，obj_fcn(i)]=stepfcm(data，U，cluster_n，expo); if display， fprintf('FCM:Iteration count=%d，obj.fcn=%f\n'，i，obj_fcn(i)); fprintf('data_n=%d\n'，size(data，1)); fprintf('in_n=%d\n'，size(data，2)); end if i>1， if abs(obj_fcn(i)-obj_fcn(i-1))

                    本文档为【基于文献聚类的数据挖掘模型设计与实现】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于文献聚类的数据挖掘模型设计与实现

你可能还喜欢