首页 基于结构的社会网络分析

基于结构的社会网络分析

举报
开通vip

基于结构的社会网络分析 第35卷 第4期 2012年4月 计  算  机  学  报 CHINESE JOURNAL OF COMPUTERS Vol.35 No.4 Apr.2012   收稿日期:2011-01-11;最终修改稿收到日期:2012-01-04.窦炳琳,男,1980年生,博士研究生,主要研究方向为社会网络分析与社区识 别.E-mail:binglin.dou@gmail.com.李澍淞,男,1980年生,博士研究生,主要研究方向为舆论动力学和复杂系统仿真.张世永,男,1950 年生,教授,博士生导师,中国计算...

基于结构的社会网络分析
第35卷 第4期 2012年4月 计  算  机  学  报 CHINESE JOURNAL OF COMPUTERS Vol.35 No.4 Apr.2012   收稿日期:2011-01-11;最终修改稿收到日期:2012-01-04.窦炳琳,男,1980年生,博士研究生,主要研究方向为社会网络分析与社区识 别.E-mail:binglin.dou@gmail.com.李澍淞,男,1980年生,博士研究生,主要研究方向为舆论动力学和复杂系统仿真.张世永,男,1950 年生,教授,博士生导师,中国计算机学会(CCF)高级会员,主要研究领域为计算机网络、信息安全、无线通信、移动计算. 基于结构的社会网络分析 窦炳琳 李澍淞 张世永 (复旦大学计算机科学技术学院 上海 200433) 摘 要 互联网的发展和社交网站的流行为研究社会网络提供了大规模的实验平台.主要使用DBLP和Facebook 数据集构建网络,采取角色连接轮廓方法从结构上进行划分,发现它们属于外围串类型;验证了社会网络的一些统 计性质,比如无标度分布、稠化定律和直径缩减等;发现社会网络中存在紧密连接且直径较小的核心结构,规模中 等的社区主要呈现星型结构;基于事件框架研究了社会网络中社区结构的进化,发现社区间的融合很大程度上取 决于社区间直接连接的节点所构成网络的聚类系数,而社区的分裂则与该社区的聚类系数相关. 关键词 复杂网络;网络分类;网络性质;社区进化;社会网络 中图法分类号 TP393   DOI号:10.3724/SP.J.1016.2012.00741 Social Network Analysis Based on Structure DOU Bing-Lin LI Shu-Song ZHANG Shi-Yong (School of Computer Science,Fudan University,Shanghai 200433) Abstract  The development of Internet and the popularity of social sites provide the large-scale experimental platform for researching the statistical properties and structure evolution of social networks.This paper mainly uses DBLP and Facebook datasets and built the social networks. We classify these networks by using role-to-role connectivity profiles and found that they belong to stringy-periphery class.We confirm that they have these properties,such as free-scale distri- bution,densification law and shrinking diameter.We discover there is a small core with high con- nectivity in social networks,and observed that many middle-scale communities are composed of stars.We research the evolution of community structure based on event framework and revealed that the community merge depends largely on the clustering coefficient of the graph composed of nodes which are directly connected between communities and the community split is related to its clustering coefficient. Keywords complex networks;network classification;network property;community evolution; social networks 1 引 言 社会网络是由节点和链接这些节点的边组成的 复杂结构,节点表示人,边表示人与人之间的各种社 会关系.像共作者网络、电子邮件网络和互联网社区 等都是社会网络的例子.随着Internet的快速发展 和各种社交网站的出现,许多大型社会网络的数据 可以从运营商或互联网上获得,而在此以前的调查 统计手段则对此显得力不从心.根据不同社会网络 的功能,可以简单地将它们划分为交友网络(如 Facebook、Myspace等)、媒体分享网络(如Youtube、 Flickr等)、博客网络(如LiveJournal、Twitter等)、 即时通信网络(如 MSN、QQ等)和BBS论坛网络 (如天涯社区)等等.这些网络的注册用户数少则几 十万、多则几千万甚至上亿,为研究社会网络的结构 和性质提供了丰富的平台. 20世纪60年代,美国哈佛大学社会心理学家 Milgram提出了“六度分割”(six degree of separa- tion)推断,也就是说世界上任何两个人之间的平均 距离为6[1].这被认为是社会网络的理论基础.随着 计算设备能力的大幅提升、网络的迅猛发展以及不 同学科的相互渗透,人们可以处理和比较规模巨大 且类型不同的实际网络数据以揭示网络共有的结构 特性.以1998年 Watts和Strogatz建立小世界网络 模型[2]、1999年Barabsi和 Albert建立无标度网 络模型[3]为标志,人们对复杂网络的研究进入发展 和繁荣时期,也吸引了来自数学与系统科学、统计物 理、生命科学、信息科学、社会科学、经济金融等多个 领域的研究人员的关注.使用复杂网络理论对社会 网络进行分析主要关注个体间相互关联和作用的拓 扑结构,这也是理解社会网络性质和功能的基础.就 计算机领域而言,关于社会网络研究的文章在近几 年已经频繁出现于 VLDB、KDD、WWW、IMC、IC- DM、WI等国际会议上,一些针对社会网络的专题 研讨会也有举行,比如 WOSN(ACM SIGCOMM Workshop on Online Social Networks)、SNS(ACM EuroSys Workshop on Social Network Systems)等. 社会网络的研究主要从两个方面考虑:社会网 络的静态性质和动态特征.对于它的静态性质研究 包括拓扑分析[4-5]、社区挖掘[6-7]、关键节点发现[8-9] 等.随着时间的推移,社会网络中新节点会不断地 加入,节点间的链接也会形成,从而使得社会网络 具有动态特性.对于这方面的研究主要集中在社 会网络形成和社区进化[10-11]等方面.另外,社会网 络拓扑与其上动力学的相互作用也被人们所关注, 比如社会网络中的信息传播[12-13]等.本文主要的贡 献包括: (1)关于社会网络的类型.目前,通过同配性系 数对不同类型的网络进行分类,人们普遍认为社会 网络具有同配特性.然而,我们发现一些实际的社会 网络却是异配的.我们利用角色连接轮廓方法能够 对本文所研究的数据集进行一致划分,它本质上反 映的是网络内部结构特征. (2)关于社会网络的性质和结构.我们验证了 本文所研究数据集的度幂律分布、网络直径缩减以 及网络稠化的性质,发现这些网络中的社区大小服 从幂律分布,中等规模的社区主要呈现星型结构.另 外,我们发现社会网络中存在紧密连接且直径较小 的核心结构. (3)关于社会网络的进化.我们基于事件框架 研究了社会网络中社区结构的进化,使用神经网络 方法来判定主导社区间事件产生的结构条件.我们 发现社区间的融合很大程度上取决于社区间直接连 接的节点所构成的网络的聚类系数,而社区的分裂 则与这个社区的聚类系数相关. 本文第2节介绍相关工作和基本概念;第3节 介绍角色连接轮廓方法并对本文所使用的数据集进 行研究;第4节验证社会网络的一些性质并给出社 会网络的结构特征;第5节研究社会网络中社区进 化的结构条件和因素;最后给出本文的结论. 2 相关工作和基本概念 2.1 相关工作 大体上来讲,复杂网络要研究的是各种看上去 互不相干但其实密切关联的形形色色网络之间的共 同属性和处理它们的普适性方法[14].人们已经提出 了许多描述网络拓扑的统计特征,包括度节点、平均 路径长度、聚簇系数、介数、同配系数等[15].许多研究 也发现了网络上的一些重要性质,比如度分布的幂律 特征、社区结构的存在、网络上的小世界现象等等[16]. 研究网络的社区结构能够使人们理解系统的层 次和功能特性,有利于揭示出网络内部错综复杂的关 系.目前人们已经开发了大量的社区结构发现的方 法,可以参考文献[14,17].这里简单介绍 Newman 等人在社区发现领域中的贡献.Girvan和Newman 提出了一种发现社区的GN算法[18],该算法已经成 为社区结构分析的标准算法.但是该算法在社区数 目未知的情况下不知道在哪一步终止分解.为了解 决这个问题,Newman等人引入模块度(modulari- ty)[19]的概念来作为衡量网络划分质量的标准.鉴 于它独立于社区发现算法本身,之后人们利用各种 启发式方法对模块度进行优化,比如采用贪婪算法、 模拟退火算法、极值优化等.另外,GN算法具有较 高的时间复杂度,Newman在GN算法的基础上提 出了一种快速算法(FN算法)[20].它实际上是基于 贪婪算法思想且与GN算法操作相反的一种凝聚方 法(agglomerative method).之后,Clauset、Newman 和 Morre三人[21]在FN算法基础上采用堆数据结 247 计  算  机  学  报 2012年 4 高亮 4 高亮 4 高亮 4 高亮 4 高亮 4 高亮 构来计算和更新模块度(CNM 算法),该算法的复 杂度已接近线性.本文采用该方法进行网络的社区 划分. 网络的形成是一个动态的过程而且是一直不断 变化的,对于它的研究有助于揭示网络性质的起源 并能够对其发展进行预测.因此,人们对网络结构演 化过程中展现出来的特性给予了极大的关注.Lesk- ovec等人[22]发现网络中边的数目相对于节点的数 目以超线性速度增长 (稠化定律,densification laws);在许多情况下网络的有效直径随着网络的增 长是减小的(直径缩减,shrinking diameters).Mis- love等人[5]对多个在线社会网络进行了大规模的测 量研究和分析.Leskovec等人[4]研究了社会网络中 社区结构的统计属性.Shi等人[23]研究了不同论坛 的数据集中用户行为的模式和产生这种模式的特征 因素.Falkowski等人[24]对社会网络中社区进化行 为进行了可视化分析.Asur等人[25]提出了个体和 社区在网络演化中的事件框架,研究了随时间增量 计算的个体稳定性、社会性、影响力以及社区流行性 的测量方法.与上述研究不同的是,本文在事件框架 的基础上探讨社区间相互作用的结构特征. 2.2 基本概念 通常情况下,在由代表实体的节点以及它们之 间交互的边构成的社会网络中,所有的节点和边都 来自于整个数据收集周期.这种方式导致节点出现 和个体交互时序信息的丢失.这里,我们给出一个社 会网络的动态模型,它是分时图的离散时间序列.而 分时图由特定时间点所观察到的节点以及它们交互 的边所构成.形式化的定义如下: 令Gt=(Vt,Et)表示时间点t的分时图,其中, Vt表示在时间点t出现的节点集合,Et表示在时间 点t 出现的边的集合,则分时图序列 GR 由G1, G2,…,GT构成;若G′i=(V′i,E′i)满足V′i=∪ i k=1 Vk且 E′i=∪ i k=1 Ek,则G′1,G′2,…,G′T称为累时图序列GA.令 G=G′T,称为终图. 图1 分时图与累时图示意 对于网络结构的刻画人们已经提出了许多统计 特性,这里我们介绍3个基本的概念,包括平均路 径长度、聚类系数(clustering coefficient)和度分 布[14].网络中两个节点i和j之间的距离dij定义为 连接这两个节点的最短路径上的边的数目,网络平 均路径长度L则定义为任意两个节点之间距离的 平均L= 11 2N (N+1) ∑ ij dij;节点i有ki个邻居节 点,这ki个节点之间实际存在的边数与其最多可能 存在的边数ki(ki-1)/2之比定义为节点i的聚类 系数,即Ci= 2ei ki(ki-1) ,则整个网络的聚类系数为 C=1N∑i Ci;节点i的度为ki,网络中节点的度的分 布函数P(k)表示一个随机选定的节点的度恰好为 k的概率. 3 社会网络的类型 3.1 数据集 本文主要使用的两个数据集来自 DBLP计算 机科学文献库和Facebook社交网络. (1)DBLP数据集 DBLP① 提供在主要国际期刊和会议上公开发 表的计算机类文章的检索功能,它在学术界有着较 好的声誉和权威性.目前,DBLP收录的各类刊物达 到140多万种,并将XML格式的数据公开给研究 人员使用.本文选择从1986年到2006年发表在80 种计算机各领域重要期刊上的所有文章作为基本数 据.将每一个作者作为一个节点,如果两个作者出现 在同一篇文章中则相对应的两个节点间存在一条无 向边.通过这种方式由在这21年中所有出现的点 (83943个节点)和边(190 342条边)构成DBLP共作 者网络.文中以年为单位构建DBLP分时图序列. (2)Facebook数据集 Facebook是一个著名的在线交友社会网络,注 册用户达5亿.本文使用的Facebook数据来自文献 [26],他们收集了Facebook的New Orleans区域中 的朋友关系网络.我们使用从2007年1月1日~ 2008年12月31日之间所涉及的60 567位用户和 583 766条连接来构建Facebook网络.文中以月为 单位构建Facebook分时图序列. 另外,文中用到的Enron数据集被美国联邦能 源监管委员会公开,由SRI的CALO项目收集并处 理,卡内·基梅隆大学的Cohen为其建立了网站以 3474期 窦炳琳等:基于结构的社会网络分析 ① http://dblp.uni-trier.de/ 方便研究使用①.这个数据集中包含了50万封电子 邮件.将邮件的地址作为节点,如果两个地址间有任 一电子邮件存在则建立一条无向边,这样构成的网 络有36 692个节点以及367 662条边.Youtube数 据集来自文献[5],我们从中取2007年1月1日~ 2007年1月15日的数据来构建网络,由35 468个 节点和261 191条边组成. 3.2 社会网络的类型 Newman将现实中的网络根据其自身的特性粗 略地归类为生物网络、技术网络、信息网络和社会网 络[16].网络的度相关性研究网络中给定具有特定度 的节点的邻居节点平均度分布情况,它可以用同配 性系数[27](Assortativity Coefficient)加以刻画,即 r= M -1∑ijiki- M -1∑i12(ji+ki[ ]) 2 M -1∑i12(j 2 i+k2i)- M -1∑i12(ji+ki[ ]) 2, -1r1. 其中,ji,ki分别表示第i条边连接的两个节点的度, i=1,…,M,M 表示网络中的总边数.当r>0时表 示网络有正的度关联,即网络是同配的;当r<0 时表示网络有负的度关联,即网络是异配的.如果网 络中节点间的度不具关联性,则有r=0.相关研究 表明,技术网络、生物网络和信息网络通常是异配 的,社会网络一般是同配的.然而,我们发现对于 一些在 线 社 会 网 络,比 如 瑞 典 的 婚 恋 交 友 网 Pussokram(r=-0.048)[28]、韩国最大的在线交友 网Cyworld(r=-0.13)[29]等,具有异配性.其原因 可能在于在线社会网络中每个人都有机会和具有较 高人气的角色建立联系.Hu等人[30]的研究进一步 指出一些在线社会网络随着时间发展会从同配性过 渡到异配性,同样也存在度关联特征不随时间变化 的社会网络.这主要取决于社会网络所涉及的领域、 功能等自身特征.Szell等人[31]也观察到了网络从同 配性到异配性的变迁过程.本文所使用的数据集 DBLP、Youtube、Facebook和Enron的同配系数分 别为0.372、-0.033、0.177、-0.11. 网络的度相关性同度分布、平均路径长度、聚簇 系数一样反映了网络的全局性质.这并不能体现出 网络内部的结构特性.人们普遍认为社会网络内部 存在有模块(模块(Module)、社区(Community)、组 (Group)等表述在不引起歧义的情况下,本文将不 加区别地使用)结构[18,32-33],也就是说,模块内部节 点相互连接密集而模块间节点相互连接稀疏. Guimera等人[34-35]根据节点在模块内外的连接模式 将其分类为不同的角色,并在此基础上利用角色连 接轮廓(Role-to-role Connectivity Profiles,RCP)将 具有模块性质的网络分为两种:串类 (stringy- periphery class)和多星类(multi-star class),两者的 主要区别在于Ultra-peripheral节点(节点角色R1) 间以及Connector hubs节点(节点角色R6)间的链 接模式不同.在串类网络中这些链接模式是高于平 均值的而在多星类网络中则相反.Guimera等人对 新陈代谢网络、蛋白质交互网络、航空交通网络以及 自治系统级别的Internet网络进行分析和归类.然 而,我们还不清楚社会网络所表现出来的内部特征, 因此划分社会网络的类别对于理解它们的拓扑结 构、功能属性具有十分重要的意义. 为了得到网络的RCP需要采取以下3个步骤: (1)划分网络的模块结构. 目前,人们已经开发出多种网络模块划分的方 法[17].Guimera等人在文献[34]中采用模拟退火 (Simulated Annealing,SA)算法来优化网络模块性 评价Q函数.由于SA算法本身的特性,导致他们的 这种方法对初始参数非常敏感,且收敛速度缓慢.为 此,本文采用Clauset、Newman和 Moore三人[21]提 出的基于快速 Newman算法和堆数据结构的新的 贪婪算法(CNM算法),它具有接近线性的复杂度O (nlog2 n).利用该算法,他们分析了具有超过400 000个节点和2 000 000条边的Amazon购书推荐网 络.用NM表示网络的模块数目. (2)指定每个模块的节点角色. Guimera等人利用两个参数z和P 来决定模块 内每个节点的角色.节点i的z参数 zi= kjsi-〈k j si 〉j∈si 〈(kjsi) 2 j∈si-k j si 〉2j∈s槡 i , 其中:kjsi表示节点i到其所在模块s内其它节点的 连接数,si表示节点i所属的模块,〈…〉j∈s表示对模 块s内所有节点的计算均值.节点i的P 参数Pi= 1-∑ NM s=1 kis K( )i 2 ,其中Ki=∑ s kis是节点的度.z参数表 示某节点与模块内其它节点的连接情况,P参数则 表示该节点如何连接到其它模块.根据节点参数z 和P 的取值范围来确定节点的角色,如图2所示. 需要注意的是角色R4与R7在现实世界的网络中几 乎是不会存在的. 447 计  算  机  学  报 2012年 ① http://www-2.cs.cmu.edu/~enron/ 图2 z-P 坐标上的角色划分及其含义(角色划分的理论依据及其鲁棒性问题可以参考文献[34-35]的补充信息①)   (3)计算不同角色的节点间连接数目的Z-Score. 为了更好地统计不同角色间的连接数目,使用 节点数、边数、每个节点的度、网络的模块以及模块 间的连接数目都与实际网络相同的随机化网络来衡 量.将 Markov-chain Monte Carlo交换算法[36]应用 到实际网络的模块内部以及模块与模块的节点之 间,来产生随机网络集合0.该算法重复随机选择连 接对(a,b)和(c,d)并交换它们的一端成为(a,d)和 (c,b).它使得节点的角色在随机化网络中保持不变. 令rij和Rij分别表示实际网络与随机化网络中角色i 与j之间的连接数目,则有zij= rij-〈Rij〉0 〈R2ij〉0-〈Rij〉2槡 0 . 根据所有角色对间的Z-Score 便可得到网络的 RCP图. 我们利用上述方法分析了 DBLP、Youtube、 Facebook和Enron等4个数据集,如图3所示. 图3 4个数据集上的Z-Score((a)、(b)引自文献[35],分别属于串类和多星类.(c)、(d)、(e)、(f)都属于串类) ① 相关文献补充信息的链接地址:http://www.nature.com/nature/journal/v433/n7028/suppinfo/nature03288.html;http://www.na- ture.com/nphys/journal/v3/n1/suppinfo/nphys489_S1.html 5474期 窦炳琳等:基于结构的社会网络分析   区分两种不同类型网络的关键在于它们角色连接 模式的差异,主要涉及到连接类型R1 -R1 和R6 -R6. 空中交通网(a)与自治系统层的Internet拓扑(b)属 于技术网络,度关联具有异配性.但是从角色连接 模式来看,它们有着显著的不同.图3(a)中,角色 R1 之间连接R1 -R1 的Z-Score(ZaR1-R1)高于平均水 平(ZaR1-R10),角色R1 与R2 之间连接R1 -R2 的 Z-Score(ZaR1-R2)低于平均水平 (Z a R1-R2 0),这 导致较长的节点链.而图3(b)中R1 -R1、R1 -R2的 Z-Score则与图3(a)相反,ZbR1-R10且Z b R1-R20. 这意味着网络中存在较多的星型结构.同时,考察 图3(a)与图3(b)中心节点角色R6 间的连接模式有 ZaR6-R60而Z b R6-R60,与这两种网络的实际情况是 相符的.Internet的分层结构使得一个自治系统到 其它自治系统间存在较少的连接;对于空中交通网 络而言,一个国家或地区的交通枢纽则可能会存在到 其它国家或地区多个交通枢纽的多条航线.因此,将 空中交通网归为串类而Internet自治系统网络则属 于多星类. 考察图3中(c)、(d)、(e)、(f)的连接类型R1 -R1、 R1 -R2 和R6 -R6,可以发现它们具有与图3(a)相似 的特征,即它们的ZR1-R10,ZR1-R20,ZR6-R6>0(其 中,ZcR6-R6=0.96,Z e R6-R6 =2.01).可以确定这些社 会网络属于串类(我们也研究了Flickr、LiveJour- nal、Orkut、Wikipedia等社会网络,发现它们也表现 出了串类的性质,限于篇幅不再一一列出).同时,利 用RCP可以看到社会网络内部丰富的结构形式,这 与不同社会网络本身的功能有关.例如,共作者网络 DBLP有ZcR5-R5>0和Z c R5-R6>0,这是因为有影响 力的作者更愿意与自己水平相当的人合作;而视频 分享网络Youtube有ZfR5-R5<0和Z f R5-R6<0,则说 明那些用户更多的是上传而不是分享视频. 4 社会网络的性质和结构 4.1 社会网络的性质 近年兴起的复杂网络理论主要研究的内容之一 是揭示刻画网络系统结构的统计性质并给出度量这 些性质的合适方法.人们已经发现网络具有小世界、 无标度等特征,并利用度分布、平均路径长度、聚类 系数等统计手段[15].这里,我们从复杂网络的角度 来探讨DBLP和Facebook的性质.无标度分布广泛 存在于物理学、地球与行星科学、计算机科学、生物 学、人口统计学与社会科学、经济与金融学等众多领 域[37],它形式化地表示为P(k)=ck-α,其中k表示网 络某特征的变量,c为常数,α为幂指数.对于网络中 节点的度分布而言,其幂指数多在2~3的范围[38]. 首先,考察两个数据集的度分布性质.需要说明 的是这里的网络是无向的,而且遗失某时间点之前 的数据对网络本身性质的影响可以忽略[22].从图4 中可以看到,DBLP网络的度分布呈现幂律特征,幂 指数为2.732,拟合精确度 R-Square 为0.9967; Facebook网络的整体度分布介于指数分布和幂律 分布之间,而其尾部幂律特征较为明显(幂指数为 2.905,拟合精确度为0.9896).另外,使用CNM 算 法对DBLP和Facebook划分社区并对其大小情况 进行统计,发现幂律分布同样存在,如图5所示. 图4 度分布 其次,研究两个网络平均距离随时间的变化,利 用有效直径(effective diameter)[22]的概念进行度 量.至少90%的相互连接的节点对的距离最多不超 过d,它的最小值即为有效直径.从图6中可以看 到,随时间的增加网络直径逐渐减小.在 DBLP网 络中,由于人为选择特定的刊物作为数据源以及计 算机各研究领域刚处于起步时期,导致网络的有效 直径在1990年以前有较大的变化而之后它呈现逐 647 计  算  机  学  报 2012年 渐下降趋势.在Facebook网络中,这种特性从一开 始就很明显.网络有效直径减少的现象与网络中边 与节点的密度和增加速度相关.为此,我们讨论网络 中节点和边随时间变化的问题.从图7中可以看到, 网络中边E相对于节点N 呈现非线性增长,这意味 着网络平均度的增加.形式上,它服从幂律分布 (E∝Nβ).DBLP网络中有β=1.285,R 2=0.9998; Facebook网络中有β=1.626,R 2=0.9987.因此,对 于上述两种性质,即社会网络的稠化定律(densifi- cation laws)和直径缩减(shrinking diameters),我 们在DBLP和Facebook网络中给予了验证. 图7 网络稠化 4.2 社会网络的结构 在上一节中我们研究了社会网络的宏观性质, 它的微观结构将在本节中讨论. 首先,考察构成网络的社区规模随时间变化的 情况.利用CNM算法对DBLP和Facebook网络的 多个时间点的累时图分别进行社区划分,并统计不 同大小的社区在网络中所占比重,如图8所示.图中 底部表示小规模的社区(几个节点),中间部分为中 等规模的社区(几十到几百个节点),顶部为较大规 模的社区(几百到几千个节点).从网络的形成过程 来看,我们发现中等规模的社区所占比重在逐渐减 少,大规模的社区的情况与之相反;而小规模社区所 7474期 窦炳琳等:基于结构的社会网络分析 占比重则基本保持不变.另外,计算中等规模社区的 同配性系数发现它们几乎都是负相关的,这说明在 这些社区中度较大的节点倾向于与度小的节点连 接;同时,对它们进行RCP分析发现有90.3%的社 区属于多星类.因此,这两个网络中中等规模的社区 大多数具有明显的星型结构特征. 图8 随时间变化的网络社区规模 其次,研究网络中是否存在具有较小直径且紧 密连接的核结构.我们首先从网络中移除所有度小 于1的节点,然后移除网络中所有度小于2的节点, 依次类推直到移除度小于某一设定值的所有节点. 通过这种方法来观察网络有效直径以及边 -节点比 值的变化,如图9所示.图9(a)中显示DBLP的有 效 直 径 下 降 了 28.94%,Facebook 则 下 降 了 21.85%;与之相反,图9(b)中显示它们的边 -节点 比分别增长了3.28倍和1.88倍.这也就是说随着 外围节点或结构的移除,网络中节点间的有效距离 减少而网络中的边更加密集.我们也考察了在这一 过程中网络聚簇系数的变化,DBLP的聚簇系数由 0.3774上升到了0.5196,Facebook的聚簇系数则 由0.4108达到0.6215.因此,可以认为有这样的核 结构存在于网络中,但是随着移除节点数目的增加 它变得不稳定,这一过程最终会导致核结构分解为 多个互不连通的社区.另外,我们考虑社区结构的传 导性(conductance)问题.它可以定义为一端在集合 内而另一端在集合外的连接数目与该集合所有连接 数目的比值.那么,获得大小为k且具有最小传导性 的集合是一个较为困难的问题.我们使用 NCP (Network Community Profile plot)方法[4]来考察 DBLP和Facebook网络中具有不同k值社区的传 导性,如图10所示,图中曲线表示不同规模的社区 847 计  算  机  学  报 2012年 所具有的最小传导性.从图中可以看到 DBLP和 Facebook中具有较好传导性的社区规模大致在 10~100个节点间而当社区规模较大时其传导性能 会变差.通过找到那些最小传导性的社区可以发现它 们多数位于网络边缘且与其它社区具有很少的连接. 5 社会网络的进化 对复杂网络不仅要研究网络的统计性质而且要 建立合适的模型来阐明它们产生的原理并预测网络 的行为.Barabsi和Albert建立的BA无标度模型 利用增长(growth)和优先连接(preferential attach- ment)机制来解释网络连接度所具有的幂律形 式[3].然而,它并不能反映实际网络的一些非幂律特 征,如指数截断(exponential cutoff)、小饱和变量 (saturation for small variables)等[14].随后,人们对 BA模型进行了扩展,提出了适应度模型[39]、局域世 界模型[40]、权重演化模型[41]等.除了优先连接机制 外,自组织临界理论也可能是揭示幂律分布的动力 学原因之一.人们提出了一些自组织模型能够涌现 出网络的无标度结构[42-43].然而这些模型并不能反 映网络具有的等级和模块化结构,为此,科研人员研 究了像“拷贝”模型(copying model)[44]、JGN(Jin, Girvan,Newman)模型[45]等网络社区生成和进化的 方法. 近年来,对于大规模社会网络的研究,人们发现 了它所具有的许多性质并开发了相应的模型.Lesk- ovec等人给出一个称之为“森林火灾”模型(Forest Fire Model)来反映社会网络的社区结构、直径缩减 和稠化定律[40].随后,他们基于对几个社会网络时 序数据的观察,根据节点和边进入网络的时间顺序 构造了“微观进化”模型(Microscopic Evolution model)[10].Zheleva等人[46]在微观进化模型的基础 上提出了社会网络及其社区结构“共进化”模型(Co- evolution model).另外,McGlohon等人[47]研究了 网络中连通组件的进化特征并提出了“蝴蝶”模型 (Butterfly model). 就社区结构的研究而言,学界主要集中于两个 方面:一是网络中社区结构的发现,目前已经有大量 的方法可以借鉴[14,17];二是网络中社区结构的形成 与进化,主要关注网络中成员与社区之间的各种关 系[23,48],而对于社区与社区的相互作用,就我们所 了解的知识而言,这方面研究还很少.Asur等人提 出了一个事件框架(Event-Based Framework)用于 刻画社区间的各种关系,然而他们的工作主要关注 个体的社会性、稳定性、影响力以及社区的受欢迎程 度等[25].与他们的工作不同,基于该框架本文侧重 于研究社区间的相互作用及结构影响. 5.1 事件框架 事件是当前图Gt中社区间的相互作用在邻接 后续图Gt+1中的反映.文献[25]中的基本事件包括 社区的融合(Merge)、分裂(Split)、形成(Form)、消 失(Dissolve)和保持(Continue).本文着重研究影响 社区融合和分裂的结构特征.另外,本文根据社区中 成员数量的变化来判定各类事件的产生,不涉及具有 相同成员的社区在不同时间点它们之间关系的变化. 假定 图 Gt = (Vt,Et)划 分 成 m 个 社 区 {C1t,C2t,…,Cmt},其中第i个社区Cit=(Vit,Eit)且 有VitVt,EitEt.使用|·|表示集合的基,阈值φ 取0.5. 如果图Gt中的社区Cit与Gt+1中的社区Ckt+1满 足Vit=Vkt+1,则称社区保持. 如果图Gt中不存在任何社区Cit满足|Vit∩ Vkt+1|>1,则有社区形成;如果图Gt+1中不存在任何 社区Ckt+1满足|Vkt+1∩Vit|>1,则有社区消失. 如果图Gt中社区Cit、Cjt与Gt+1中的社区Ckt+1 满足 | (Vit∪Vjt)∩Vkt+1| max(|Vit∪Vjt|,|Vkt+1|)>φ 且有|Vit∩Vkt+1|> |Cit| 2 ,|Vjt∩Vkt+1|>| Cjt| 2 ,则称社区Cit与Cjt产生了 融合. 如果图 Gt中社区Cit与Gt+1中的社区Cjt+1 和Ckt+1 满足 | (Vjt+1∪Vkt+1)∩Vit| max(|Vjt+1∪Vkt+1|,|Vit|)>φ 且有 |Vjt+1∩Vit|>| Cjt+1| 2 ,|Vkt+1∩Vit|>| Ckt+1| 2 ,则社区 Cit产生了分裂. 5.2 社区进化的结构特征 研究社区动力学是社会网络分析的目标之一, 什么样的结构特征会影响社区的进化是我们关注的 焦点.本文使用的结构特征如下: 特征1.社区间的平均距离,指社区间所有节点 对最短路径和的均值; 特征2.社区间直接连接的节点数目以及它们 所构成的图的聚类系数; 特征3.每一社区中与另一社区直接连接的节 点数目以及它们所构成图的聚类系数; 特征4.社区中节点的数目和它的聚类系数. 9474期 窦炳琳等:基于结构的社会网络分析 为了判断哪些结构特征在社区进化中起主导作 用,我们将这些数据输入BP神经网络来进行评估. 把一段时间内社区进化中发生的事件划分为训练样 本和检验样本,通过控制不同结构特征的输入建立 多个神经网络,根据不同神经网络的预测精度决定 这些结构或它们的组合在社区进化中的影响力.我 们使用 Matlab 7.8作为神经网络实现的工具,实验 环境为Intel CPU 3.2GHz主频、4GB内存、Win- dows 7操作系统.所有神经网络都具有相同的三层 结构,学习算法使用LM算法.神经网络的输入层包 含9个神经元,对应于上述不同的结构特征;输出层 有1个神经元,传递函数使用线性函数.隐含层传递 函数使用sigmoid,并根据经验公式H= I+槡 O+α 来确定隐含层神经元的个数,其中 H、I、O 分别为 隐含层、输入层和输出层的神经元个数,α为1~10 之间的常数.据此,神经网络隐含层的节点数可取 5~14,经反复实验后确定为11,如表1所示(由于 训练网络达到目标误差所需的次数与初始权值有 关,表中给出的是10次重新初始化权值后训练次数 的均值).采用50 000个样例训练这样的神经网络 所需的平均时间为455.2s,这对于文中的实验从效 率上讲是可行的. 表1 隐含层节点数的选择 隐含层节点数 训练次数 隐含层节点数 训练次数 5  55.3  10  46.1 6  54.8  11  42.9 7  52.2  12  45.5 8  50.9  13  48.2 9  48.6  14  53.7 为了评估不同神经网络的预测能力,我们使用 受试者操作特性(Receiver Operation Characteris- tic,ROC)曲线[49],它能兼顾灵敏度(sensitivity)和 特异性(1-specificity)要求,以该曲线下面积(the Area Under ROC Curve,AUC)作为量化指标可以 直观有效地帮助比较不同分类器的性能.我们主要 讨论产生社区融合与分裂事件的特征条件.对于 DBLP和Facebook的数据集而言,我们得到了一致 的结论.限于篇幅,我们在下文中只具体讨论DBLP 数据的实验结果. 5.2.1 融 合 考察DBLP中从1996年到2006年间的数据, 符合条件|Vit∩Vkt+1|>| Cit| 2 和|Vjt∩Vkt+1|>| Cjt| 2 的社区共计5722对,其中有768对社区产生了融 合.我们计算得到这些社区的特征数据,并使用 4000(包含550对产生融合的社区)对社区数据作为 神经网络的训练样本,其余数据作为检验样本,构造 了4个神经网络进行预测.这些特征对社区融合的 预测精度如图11(a)所示. 图11 不同社区结构特征的ROC曲线及其AUC值 从图11(a)中可以看到,使用不同的特征对于 社区融合预测有较大差异.特征4、3、2的ROC曲线 下面积分别为0.5563、0.6922和0.7150,而使用所 有特征进行预测的准确度则达到0.8349.也就是说 ROC曲线越凸,其下面积也就越大,对系统的灵敏 度和特异度兼顾性越好,那么对应的网络结构预测 性能就越高.由此,我们可以认为特征2在社区融合 的过程中扮演着重要的角色.为了进一步验证特征2 对社区融合的影响,我们在DBLP数据的5722对社 区中找到有直接连接的社区共计3751对,其中产生 融合的社区有409对.计算社区间直接连接节点和 边所构成的图的聚类系数,统计它们分别位于0~1 平均划分的10个区间内的对数以及产生融合的社 区的对数,近似地将两者之比作为社区融合的概率. 从图12(a)中我们可以看到社区间的聚类系数增 加,则它们产生融合的机会越大.对Facebook数据 采用同样的方法进行考察可以得到同样的结果,如 图11(b)和12(b)所示. 057 计  算  机  学  报 2012年 图12 聚类系数对社区融合概率的影响 5.2.2 分 裂 从1996年到2006年间的DBLP数据中,符合 条件|Vjt+1∩Vit|>| Cjt+1| 2 和|Vkt+1∩Vit|> Ckt+1 2 的 社区共计3811对,其中有475对社区由同一社区分 裂产生.同样使用神经网络对社区分裂进行预测,训 练样本为2500对(其中包含300对社区由同一社区 分裂而产生),其余数据作为检验样本. 表2 不同社区特征的AUC值 DBLP AUC  Facebook AUC 特征2  0.5138  0.6447 特征3  0.6229  0.6123 特征4  0.6710  0.7394 所有特征 0.7451  0.8016 从表2DBLP AUC列中可以看到,使用特征4 对社区的分裂进行预测有较高的精度.我们计算 DBLP数据中475个产生分裂社区的聚类系数,观察 聚类系数与社区分裂的关系.从图13(a)中可以看到 社区的聚类系数越高,它产生分裂的可能性就越小. 同样,Facebook数据的实验结果在表2Facebook AUC列和图13(b)中给出,可以看到其社区分裂也 与该社区的聚类系数密切相关. 图13 聚类系数对社区分裂概率的影响 6 结 论 本文研究了社会网络的类型、性质和社区进化 的结构特征.本文主要使用DBLP和Facebook数据 集构建网络,采用角色连接轮廓方法从结构上将它 们划分为外围串类型;本文验证了社会网络的无标 度分布、直径缩减和稠化性质,发现社会网络中社区 大小服从幂律分布,规模中等的社区主要呈现星型 结构;发现社会网络中存在紧密连接且直径较小的 核心结构;本文基于事件框架研究了社会网络中社 区结构的进化特征,发现社区间的融合很大程度上 取决于社区间直接连接的节点所构成网络的聚类系 数,而社区的分裂则与该社区的聚类系数相关.本文 的进一步工作是提出新的社区进化分析方法,深入 挖掘影响社区进化的结构特征,并建立相应的演化 模型. 社会网络是以人为中心构建的网络,与它相关 的研究成果对人们的工作生活有着潜在的影响.互 联网的发展和各种社交网站的出现也为我们提供了 实验平台,并为计算机相关学科的研究带来了新的 挑战和机遇.社会网络所表现出来的各种性质是如 何形成的,是否存在一个理论模型能够解释在个体 与个体交互中涌现出来的这些特征?不同的网络拓 1574期 窦炳琳等:基于结构的社会网络分析 扑结构与个体的行为如何相互产生影响?如何刻画 和控制信息在社会网络上的传播?等等,这些是需要 我们研究和解决的问题. 参 考 文 献 [1] Milgram S.The small-world problem.Psychology Today, 1967,2(1):60-67 [2] Watts D J,Strogatz S H.Collective dynamics of‘small- world’networks.Nature,1998,393(6684):440-442 [3] Barabsi A L,Albert R.Emergence of scaling in random networks.Science,1999,286(5439):509-512 [4] Leskovec J,Lang K J,Dasgupta A,Mahoney M W.Statis- tical properties of community structure in large social and in- formation networks//Proceedings of the 17th International Conference on World Wide Web(WWW).Beijing,China, 2008:695-704 [5] Mislove A,Marcon M,Gummadi K P,Druschel P,Bhatta- charjee B.Measurement and analysis of online social net- works//Proceedings of the 7th ACM SIGCOMM Conference on Internet Measurement Conference (IMC).San Diego, California,USA,2007:29-42 [6] Wakita K,Tsurumi T.Finding community structure in mega-scale social networks//Proceedings of the 17th Interna- tional Conference on World Wide Web (WWW).Banff, Alberta,Canada,2007:1275-1276 [7] Kwak H,Choi Y,Eom Y H,Jeong H,Sue M.Mining com- munities in networks:A solution for consistency and its eval- uation//Proceedings of the 9th ACM SIGCOMM Conference on Internet Measurement Conference (IMC).Chicago, Illinois,USA,2009:302-314 [8] White S,Smyth P.Algorithms for estimating relative impor- tance in networks//Proceedings of the 9th ACM SIGKDD In- ternational Conference on Knowledge Discovery and Data Mining(KDD).Washington D.C.,USA,2003:266-275 [9] Li Y M,Lai C Y,Chen C W.Identifying bloggers with mar- keting influence in the blogosphere//Proceedings of the 11th International Conference on Electronic Commerce(ICEC). Taipei,Taiwan,China,2009:335-340 [10] Leskovec J,Backstrom L,Kumar R,Tomkins A.Micro- scopic evolution of social networks//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Dis- covery and Data Mining(KDD).Las Vegas,Nevada,USA, 2008:462-470 [11] Lin Y R,Chi Y,Zhu S,Sundaram H,Tseng B.Analyzing communities and their evolutions in dynamic social networks. ACM Transactions on Knowledge Discovery from Data (TKDD),2009,3(2):1-31 [12] Tang J,Sun J,Wang C,Yang Z.Social influence analysis in large-scale networks//Proceedings of the 15th ACM SIGK- DD International Conference on Knowledge Discovery and Data Mining(KDD).Paris,France,2009:807-815 [13] Kimura M,Saito K,Motoda H.Blocking links to minimize contamination spread in a social network.ACM Transactions on Knowledge Discovery from Data(TKDD),2009,3(2): 1-23 [14] Wang Xiao-Fan,Li Xiang,Chen Guan-Rong.Theory and Application of Complex Networks.Beijing:Tsinghua Uni- versity Press,2006(in Chinese) (汪小帆,李翔,陈关荣.复杂网络理论及其应用.北京:清 华大学出版社,2006) [15] Costa L da F,Rodrigu
本文档为【基于结构的社会网络分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_212563
暂无简介~
格式:pdf
大小:1MB
软件:PDF阅读器
页数:13
分类:互联网
上传时间:2013-10-09
浏览量:75