基于增量爬虫与微博的视频资源推广技术研究

基于增量爬虫与微博的视频资源推广技术研究基于增量爬虫与微博的视频资源推广技术研究分类号学号 M200972449 学校代码1 0 4 8 7 密级硕士学位论文基于增量爬虫与微博的视频资源推广技术研究学位申请人:刘慧学科专业:计算机应用技术指导教师:陆枫副教授答辩日期:2012 年1 月12 日 A Thesis Submitted in Full Fulfillment of the Requirements for the Degree of Master of Engineering Design and...

基于增量爬虫与微博的视频资源推广技术研究分类号学号 M200972449 学校代码1 0 4 8 7 密级硕士学位论文基于增量爬虫与微博的视频资源推广技术研究学位申请人:刘慧学科专业:计算机应用技术指导教师:陆枫副教授答辩日期:2012 年1 月12 日 A Thesis Submitted in Full Fulfillment of the Requirements for the Degree of Master of Engineering Design and Implementation of Microblogging System Based on Incremental Crawler for Video Resources Candidate : Liu Hui Major : Computer Application Technology Supervisor : Associate Prof.Lu Feng Huazhong University of Science & Technology Wuhan 430074, a January, 2012 独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名: 日期: 年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本论文属于保密?，在年解密后适用本授权书。不保密?。 (请在以上方框内打“?”) 学位论文作者签名: 指导教师签名: 日期: 年月日日期: 年月日华中科技大学硕士学位论文摘要近年来，互联网上的视频资源激增至了一个前所未有的水平。巨量增长的视频资源耗费着大量的服务器存储与带宽资源。然而，在线视频资源的利用率依然不高，视频资源提供商回报率低。对于无目的用户浏览，新兴的社交网络能发挥显著作用，具有一定热度的视频资源均能通过群体智慧得到传播。通过充分利用增量爬虫、微博模型、微博标注等一系列互联网资源的采集与推广技术，研制相应的视频资源推广策略，尽可能多地将各类视频推送给用户，满足时新性、多样性、热门等技术要求，提高视频资源的利用率。首先，为提供最新最热的视频资源，针对现有爬虫技术普遍存在的刷新代价大和数据冗余等问题，研制了适用于视频资源采集的刷新策略，基于信息周期理论,利用效用值上下边界确定该刷新策略，以较小刷新代价获得较好的视频资源时新度，也就是保障能以最小的刷新次数尽快获取最新的视频资源。其次，通过整合视频播放服务与微博模式，利用微博基于信任的传播链帮助增加用户粘性，并借助群体智慧采集视频精彩时间点标注信息，形成良性循环。最后，基于研制的推广策略，开发了一套基于微博的视频资源推广网站――微亮点。实验证明，经过改进的基于效用值上下边界方法更适用于视频资源的采集，能很好的平衡时新度以及刷新代价。微亮点在上线后，运行稳定，获得较好的用户体验。通过视频统计证实其确实能在页面的首页推荐最热视频，从而帮助进行微博分享传播，增加视频资源的利用率。关键词:微博，爬虫，刷新策略，群体智慧 I 华中科技大学硕士学位论文 Abstract Driven by the age of internet generation and the advent of near-ubiquitous broadband internet access, online delivery of video content have surged to an unprecedented level. The explosive growth in content has given rise to the need of developing effective information retrieval service which can help users discover meaningful and interesting videos. As search engines primarily rely on the query inputs, web based push technology can help to provide active information services. The 'one-to-many' broadcasting offered by microblogging is thought to increase video coverage. In this paper, we design a promotion strategy involving incremental crawlers, microblogging to increase the utilization ratio of video resources. Crawling has become a promising method to achieve online information. Besides how pages change, incremental crawlers often integrate change frequency, change extent, and document quality for each page to determine its relative order as well as its download frequency. But there are rarely dedicated crawlers focused on video collection. In order to provide fresh videos, we develop recrawl scheduling policies characterizing the longevity of information found on video sharing sites. And we make combination of both video display and microblogging for promotion of video transmission. And we take advantage of collective intelligence in video annotation. In this way, it will increase user stickiness and inspire users to take notes of video wonderful clips. As we show via experiments over real web data, our refresh policies obtain better freshness at lower cost, compared with previous approaches. And the microblogging system can improve he utilization ratio of video resources. After published for couple months, the microblogging system achieves good stability. Key words: Microblogging, Crawler, Refresh Policy, Collective Intelligence II 华中科技大学硕士学位论文目录摘要............................................................................................................... I Abstract ............................................................................................................II 1 绪论 1.1 课题背景和研究目的、意义............................................................... 1 1.2 国内外研究概况................................................................................... 3 1.3 本文主要内容及章节安排................................................................... 7 2 基于信息周期的视频资源增量爬虫研究 2.1 爬虫刷新策略的基础概念................................................................... 8 2.2 信息周期与页面刷新策略................................................................. 10 2.3 基于上下效用值边界的视频资源重爬技术..................................... 13 2.4 本章小结.............................................................................................. 16 3 视频整合平台与微博系统的结合 3.1 Web 视频资源描述信息..................................................................... 17 3.2 微博系统的基本功能......................................................................... 17 3.3 视频整合平台与微博系统的功能结合............................................. 18 3.4 本章小结.............................................................................................. 21 4 系统设计与实现 4.1 系统目标.............................................................................................. 22 4.2 增量爬虫相关技术............................................................................. 22 4.3 微博相关技术...................................................................................... 27 4.4 总体设计.............................................................................................. 30 III 华中科技大学硕士学位论文 4.5 视频资源采集模块............................................................................. 31 4.6 视频微博系统模块............................................................................. 36 4.7 本章小结................................................................... ........................... 39 5 系统测试与分析 5.1 增量爬虫测试与分析......................................................................... 40 5.2 微博测试.............................................................................................. 46 5.3 本章小结.............................................................................................. 49 6 全文总结................................................................................................ 50 致谢................................................................... ........................................... 51 参考文献................................................................... ................................... 52 附录 1 (攻读硕士学位期间发表论文目录)......................................... 55 IV 华中科技大学硕士学位论文 1 绪论 1.1 课题背景和研究目的、意义课题背景随着网络设施性能的逐步提升以及网络应用的普及，网络用户逐年提升，网络信息已由传统文本信息发展到图片、视音频等多媒体，人们已经逐步开始从传统电视转移到从网络中获取视频信息，接受网络作为人们获取、发布、传播信息的首要渠道。形式上，早期网络视频发布主要形式为官方发布GPC (Government Published Content )。近年来，web 2.0 的发展催动了用户生成内容UGC (User Generated Content ) 的发展。更多的视频来源加速了网络视频的数量增长，而web 2.0 模式以其便捷的用户互动、高效的信息传播赢得了用户的青睐。自视频分享网站YouTube 在2006 面世开始，世界范围内的视频分享类网站发展迅速，2006-2011 年美国网络视频用户占整体网民比例呈快速增长趋势，从 2006 年的62.8%跃升为86.6%。comScore 发表报告称，2011 年10 月美国在线视频网民数达到了 1.84 亿，每位用户观看时长平均为 21.1 个小时。该月YouTube 用户数为 1.61 亿，用户观看的视频数达到209 亿，Facebook 、VEVO 紧随其后，用户数分别为5980 万和5700 万。图 1.1 中国网络视频行业近几年发展状况国内也大量出现视频发布分享网站，Alexa 中文网站流量排名显示，前20 的站点中有至少10 家涉及视频发布、分享传播服务，排名前5 的专业视频分享网站是优酷、土豆、爱奇异、56、酷6 。根据iResearch 报告，2010 年中国使用过在线视频服务的用户总数达到3.27 亿人，同比增长41.7% ，2011 年9 月在线视频网站播放覆盖 1 华中科技大学硕士学位论文人数近3.7 亿，如图 1.1 所示，2007-2010 年形成了一个明显的用户增长高峰。根据网民连续用户行为研究系统iUserTracker2010 年数据显示，在线视频月度覆盖人数比例已超过85%，在互联网各项服务中排第三位，排在搜索服务和社区交友之后。2010 年市场规模为31.4 亿元，同比增长78.1% 。据不完全统计，从2010 年 1 月至2011 年2 月，在线视频行业的投资案例共有7 起，总金额达2.4 亿美元，融资企业数量及融资金额都高于2009 年。虽然投资视频网站存在短期亏损问题，不过投资市场仍然看好视频行业未来的盈利能力。目前在线视频网站视频资源的利用率还处在较低的水平，YouTube 网站80%的视 [1] 频播放集中在10%的热门视频上，剩下的90%的视频资源只有很少的播放点击量，平均每天只有40% 的视频被播放超过10 次。而国内视频分享站点优酷的这一数字更 [2] 悬殊，80%的视频播放集中在 5%的视频资源上。可见视频推广技术还需进一步发展，以提高视频资源的利用率。研究目的和意义巨量增长的视频资源耗费着大量的服务器存储带宽资源，但在线视频资源的利用率依然不高，大量的视频点击集中在少数的热点视频上，视频资源提供商回报率低，因此需要研制视频推广策略解决该不对等现象，推广视频资源的根本途径是争取用户，也就是解决用户在面临海量的视频资源时的选择问题。对于无目的用户浏览，新兴的社交网络发挥了更显著的作用，热门视频资源能通过群体智慧(Collective Intelligence )得到爆炸式的传播。将微博基于信任机制的传播链方式引入到视频网站中以提高视频资源的利用率目前尚未引起学术和商业界的广泛重视。这里存在以下问题:1)如何从众多在线视频网站上获得这些“热门”视频的入口，并保证采集到的这些视频最新最热，保证视频时新，也就是当下本地备份的页面与Web 页面内容一致，如何获取其“顶”“踩”信息，反应其热门度。并将当前最热门视频自动推送进微博系统，开始进行社交分享;2 )如何借助微博系统更好的帮助视频资源的传播、分享以及采集用户对于视频资源的喜好，帮助进行个性化服务等后续研究。并且在这个过程中怎样借助群体智慧挖掘视频的内容信息，以进行精彩视频片段的社区分享。为了更好提高视频资源利用率，进行视频资源整合服务，借助增量重爬技术，结合微博系统整合在线视频资源，帮助解决在线热门视频资源发现、传播等问题，研制一整套的视频资源推广策略，作为一个视频分享播放平台，尽可能的将各类视频推送给用户，满足时新性、多样性、热门等技术要求，提高视频资源的利用率。用户能通过该平台 “一网打尽”不同视频网站的热门视频，点播、分享、传播自己感兴趣的视频。 2 华中科技大学硕士学位论文 1.2 国内外研究概况提高视频利用率的方法视频资源的快速增长对相关信息服务，如视频搜索、浏览、传播、推荐等提出了新的挑战，以提高视频资源的利用率。各大在线视频网站都有提供视频资源展示页面，例如主页展示最新热门视频，分类列表展示不同类别的视频，热门视频排行展按特定时间段内的视频播放量展示最新视频。这种方式最简单，其视频资源是第一手的，由于在线视频网站的独立性，用户很难在一个站点获得其他网站的最新视频信息。帮助用户查找热门视频，提高视频资源利用率最直观的方法是搜索引擎。2007 年2 月百度视频搜索上线，次年5 月成为一项主流服务，这期间其搜索流量一直高速增长，2008 年其视频搜索流量占到整个百度流量的2% ，超过百度新闻搜索。随后， Google 视频搜索、搜库等视频搜索服务也相继上线。通用搜索引擎面临着索引规模大、页面冗余、更新不及时和个性化需求等多方面的挑战，适应特定主题和个性化 [3] 搜索的主题网络爬虫(topical crawler )，或称聚焦爬虫(focused crawler )应运而生。与通用引擎不同，它仅采集与预设主题相关的网页，页面利用率高，代价相对小，可以帮助更好的聚焦采集需要的网页信息，提高爬取的覆盖率，减少无关网页信息带来的冗余与噪声，为帮助视频整合服务提供了便利。视频搜索需要用户键入关键词，属于用户主动浏览，无法解决用户无目的视频浏览需求，也就是说用户需要别的途径来解决获取热门视频资源的需求。为了主动推荐视频，减少用户的查询关键词输入，方便流畅的点击查看，针对视频的相关视频推荐以及个性化推荐服务也成为研究热点，比如针对Myspace video[4] 以及YouTube[5] 的视频推荐研究。目前这一领域的发展很快，但个性化推荐理论还在 [6] 努力解决冷启动、稀疏性、特征提取等问题。除了在线视频网站自身，近几年发展较快的的社交分享网站也涉及视频分享传播服务，如新浪微博、人人网等，在美国Facebook 正在成为继YouTube 之后，最重要的视频入口，国内很多视频网站从微博中引入的流量大约是 10%-15%。可以看出，社交网络的迅猛发展给视频行业带来了新的活力。微博和SNS 用户大量传播视频内容，对提高视频行业用户渗透率作用显著。学术界也开始研究如何利用社交模式增 [7-8] 加基于好友的视频分享。增量爬虫技术在线视频整合服务需要采集最新的视频资源，需要使用爬虫技术。爬虫工作时从 3 华中科技大学硕士学位论文一些种子页面开始，抽取这些页面中的链接，根据这些链接向前爬行，将获取到的 [9] URL 加入URL 序列中，依次下载这些页面，直到达到爬取目的。万维网网页信息每天都在巨量增加以及动态更新变化，采集到的信息随着时间不断“老去”，这就需 [10] 要爬虫制定策略重新进行采集，刷新过时的页面，保证采集信息时新。爬虫一般 [11] 采取两种方式更新本地采集到的页面，固定时间全部重爬的爬虫以及增量爬虫。前者周期性的重复整个站点的从头完备采集，而增量爬虫依据一定策略刷新已有的页面，用更重要页面取代已有的非重要页面。指数增加的页面数量和有线的带宽硬件资源，增量爬虫显然更具效率和时新性。扫描 (scan ) 排序模块剔除 (discard ) (Ranking Module ) 刷新模块存储 (Collection ) (Refresh Module ) 删除添加 Pop Push 更新爬取 CollURIs AllURIs 采集模块增加URIs (Crawl Module ) 图 1.2 增量爬虫的典型框架简单增量爬虫的框架见图 1.2，它含有三个主要的模块:排序模块负责预测网页变化并对需要爬取的URL 进行某种策略的排序，生成URL 列表;刷新模块负责判断页面是否已经变化;爬虫模块。页面刷新策略和待采集URL 排序是其中较重要的研究点，页面刷新策略通常含有如下几个重要任务:快速总结出网页更新规律，预 [12] 测下一次进行本地刷新的时刻。增量爬虫的页面刷新可有如下三种思路。 1 基于网页页面更新信息网页服务器通常都会记录一些更新信息，比如最后修改时间等信息，使用这些更 [13] 新信息是最直接也是最简单的方法。Brandman 等人提出利用站点元数据进行更新的策略。网页服务器保存该服务器上所有URL 以及最后修改时间为元数据文件，爬虫就可以先下载该文件，依据最后修改时间选择性的刷新本地页面。虽然这种方法选择性更高，只需对网页服务器做简单扩充，但是实用情况下，爬虫很难支持各种 4 华中科技大学硕士学位论文 [14] 非统一的元数据格式。Schonfeld 等人致力于更方便于智能爬取的网页元数据格式 sitemap 。Google、百度、雅虎等搜索引擎都推出了站点地图协议，Google 推出的协议采用XML 格式，包含的关键标签包括链接地址、更新时间、更新频率和索引优先 [15] 权。Xu 等人根据UGC 模式提出使用内容提供者的显式反馈进行刷新，划分不同级别的用户，根据未能及时刷新带来的负面影响计算优先级，从而确定刷新次序。显然，如果用户不能提供需要的反馈信息，其性能将受到影响。 2 通过历史先验信息制定刷新策略 [16] [17-18] 很多研究显示网页变化大约呈现泊松分布，可以为网页建立刷新模型，预测下次更新时间。对于爬虫在本地建立索引来说，如果用户还没有访问某个页面， [19] 无论它是否老化，都可以认为这些页面是当下时新的。Wolf 等人为降低本地索引过期速度，减少用户访问过期页面的频率，将用户访问本地页面的概率作为评价网页重要性的权值。不过此方法计算量庞大，很难满足实时计算的需求。Pandey 等人 [20]提出了以用户为中心的刷新策略，利用历史刷新以及最近一次刷新时间来确定刷新的优先级，其目标也是降低用户访问过期网页的频率。另一方面，根据历史先验信息制定刷新策略比较主流的方法是根据网页更新频率来计算预测刷新频率。 [21] Edwards 等人根据网页更新频率进行分组，将爬取过程分为很多个不同权重的采集周期，在周期的最后时刻估算每组中过期网页的数量。根据这种方法进行刷新频率 [22] 的分配。Cho 等人利用前述的泊松过程建立网页更新模型，验证表明固定更新频 [23] 率和资源的分配能够获得更好的时新性。Cho 等人提出不同角度的刷新策略，基于监测到的网页未变化次数而非变化次数，通常网页保持不变的可能性通常大于变 [24] 化的。Coffman 等人视网页权重正比于更新频率，借助这种正比关系做轮询刷新。这种方法直观容易理解。但是也存在许多问题，比如初期的更新频率不容易确定也不可靠，使用0 和 1 表示页面是否更新，没有反正网页页面局部更新等更丰富层次的变化。通常网页页面包含一定特定的分区，比如导航栏、广告、正文、链接等，这些分区生存周期、更新频率都不同。其中有些快速变化的分区，比如广告，实时 [25] 天气预报等，而正文则相对稳定。Olston 等人根据上述现象计算网页页面的有效值(utility )，并对该值设定某个特定的阈值T 来决定页面是否需要刷新。 3 根据采样样本确定刷新时刻。上述基于历史信息的刷新策略需要大量的历史轨迹数据，在实用过程中需要花费较大时间和存储空间。不同类型的站点更新速度有一定的规律性，比如商业性的网 [26] 站变化速度快，政策类的则慢很多。Cho 等人利用该差异进行采样判断分配不同 [27] 的刷新频率。基于这种站点的采样粒度比较粗糙，Tan 等人提出分组采样的策略， 5 华中科技大学硕士学位论文抽取表征网页变化的特征，比如网页内容、链接PR 等。目前已发表的增量爬虫系统包括IBM Almaden 研究中心开发的 Web Fountain [28] [29] Crawler、智利大学的增量爬虫系统、北京大学开发的天网增量搜集系统。除了 [30] [31] 上述的刷新策略，采集网页质量还受到URL 排序、网页噪音等问题的影响。微博的发展现状微博客(Microblogging or Microblogs )是一种新型的社交系统，基于用户关系的信息分享、传播以及获取，允许用户通过web 、wap 以及各种客户端软件以较短篇幅 [32] 进行文本信息更新、图片发布、多媒体转载，现在还出现了语音微博、视频微博帮助用户直接将UGC 信息上传到微博系统，实现即时发布分享。从2006 开始，以 Tumblr 和Twitter 为代表的微博系统流行，2007 年5 月统计得到全世界有111 家微博站点，截止到2011 年4 月2 日，Twitter 拥有1.75 亿注册用户。围绕微博系统，大量服务以及应用发布。国内第一家带有微博色彩的饭否网于2007 年上线，2010 年是国内微博集中爆发的一年，四大门户网站均开设微博。iResearch 的研究中心 iUserTracker 发表数据显示，2011 年7 月中国微博服务月度覆盖人数首次超过社交网络，达到2.6 亿人左右。微博能在短期内获得如此的推广度，因为它满足了现今人们的信息服务需求:互动与分享。它是一个高度社会化的信息传播平台，主要集中我们熟悉的三种传统沟通方式:电子邮件、多媒体以及即时通信。而微博也在提供各种 API 实现开放，激励各种第三方应用的开发，帮助用户根据需求定制不同的服务。微博主要含有以下特点:便捷，关注(follow )式的交互方式，原创性。对着移动网络的大发展，用户很容易就通过各种移动设备进行信息的发布，降低了内容发布门槛，这种编辑性的简短信息更能帮助用户方便快速的记录生活，发表感想，任何人都可能成为信息的发布、转发者。而对于感兴趣的对象，采取关注的方式订阅别人的微博，增加用户的互动性以及为信息热点的大规模快速传播提供了可能。这种互动性就隐含了信任机制，是典型的社会网络人际圈的延伸，这种人际圈保证了信息的传播是基于信任链的。微博平台的迅速发展也为商业推广营销带来了新的渠道，研究表明商业推广类的微博比普通用户的微博更活跃，约有15%拥有超过2000 的关注量，而这种关注量在整个Twitter 中只占0.29% 。而微博的便捷性给原创新闻的发布传播带来了便利，如 2008 年中国四川汶川发生特大地震，在不到10 分钟的时间内Twitter 就发布了这一震撼的消息，其信息的传播速度已远远超过传统的新闻媒体。此外，微博还能帮助进行名人对话、舆情监测、互动活动、危机公关等应用。 6 华中科技大学硕士学位论文 1.3 本文主要内容及章节安排由以上分析可知，为了更好提高不同站点视频资源利用率，需要研制一整套的视频资源推广策略，作为一个视频分享播放平台，尽可能的将各类视频推送给用户，满足时新性、多样性、热门等技术要求。这种服务一方面要采集在线视频网站的视频资源作整合服务，以便为用户提供最新最全面的视频播放资源，另一方面需要为用户提供基于信任链的传播途径，使用户融入其中，分享视频增加视频的传播面。为此，论文进行以下工作: 1. 研究适用于视频资源采集的增量爬虫方法，利用已有的理论结合视频资源的特点，研制更适合视频资源采集的刷新策略，使系统能利用较小的刷新代价获取最新最热门视频，并通过实验测试其性能。 2. 构建实用的在线视频采集模块，一方面长期稳定获取最新热门视频，另一方面维护这些视频资源的最新描述信息，以真实的反应视频热度，帮助视频整合系统进行展示。 3. 将视频播放与微博系统结合，研制视频微博系统，既要满足通用微博系统的所有功能，并要有较好的稳定实用性，还要能满足视频播放，传播以及分享的需求。 4. 利用群体智慧帮助进行视频精彩时间点的标注工作，并将之成为信息分享传播的对象。本文各章节安排如下: 第 1 章为绪论，主要说明课题背景，研究目，意义以及国内外研究概况，最后说明本文主要内容。第 2 章围绕增量爬虫的刷新策略介绍相关基础概念，然后引入页面的信息周期理论，在其基础上详细制定了针对视频资源采集的基于上下效用值边界的刷新策略。第 3 章针对视频整合平台与微博系统结合存在的问题展开讨论，详细说明解决方案。第4 章对整个系统进行总体设计，介绍需要使用到的关键技术。第5 章详细说明系统各个模块实现过程，讨论其中的关键点。第 6 章给出推广系统的测评。证实基于效用值上下边界的刷新策略更适合视频资源的采集，能以较小的刷新代价获得更好的页面时新度，从而保证视频采集最新最热。微博系统能稳定进行视频播放、视频微博发布、微亮点收集等，通过视频统计证实其确实能在页面的首页推荐最热视频，从而帮助进行微博分享传播。第7 章对全文进行总结，并对进一步的研究进行展望。 7 华中科技大学硕士学位论文 2 基于信息周期的视频资源增量爬虫研究要整合网上的视频资源需要借助爬虫工具，爬虫有两个任务:1)采集新页面; 2 )保持本地采集到的页面副本时新，也就是说当网页进行更新时，能预测到该更新，刷新本地页面副本与网页同步。增量爬虫技术就是利用特定的页面刷新策略保证页面副本的时新性。对网页的变化规律的研究一般有两种方法:一种是对Web 中的网页进行采样，根据样本的变化规律从而估计整个Web 的变化规律，预测下一次刷新的时间;另一种就是期望从理论的角度为网页的变化建立数学模型，通过实验验证模型的有效性，同样预测下次变化的时间。本章将讨论基于信息周期的视频资源增量爬虫技术。 2.1 爬虫刷新策略的基础概念网页变化模型以及网页质量评价尺度 vv v v v :页面更新(page modified ) | :页面访问(page accessed ) ?:页面刷新(page refresh ) ? ? ―:时间轴图 2.1 网页变化示例如图 2.1 约定几个概念:(1)对于每次Web 页面的改变，称之为“Web 页面更新”(web page modified )，web 页面的一系列更新操作成为“网页变化”;(2 )对于用户或其他应用需要访问爬虫采集到的本地页面副本，称之为“本地页面访问”(local page accessed );(3 )增量爬虫对于某个本地已有的页面进行重爬操作，称之为“本地页面刷新”(local page refresh )，只有当进行本地页面刷新操作时才能检查到Web 页面的更新。显然，本地页面刷新是落后且少于web 页面更新的。通过大量研究发现，网页的变化一般被视为泊松过程，因此可以据此获得网页变化的理论模型:从某个时刻0 开始，用X t 表示某个页面p 在时刻t 变化的次数，页面的每次变化都 ? 是独立且分布的，这种变化的频率表示成，根据泊松过程的定义: k ?t t Pr Xpt Xpk ek, 0,1,... 2-1 k! T 设网页下次更新的时刻为，其概率密度函数为 ? t ?e ,t ?0 f T t ? 2-2 0,t ?0 ? 8 华中科技大学硕士学位论文假如某时刻，本地网页备份与Web 中的网页内容完全相同，则本地网页备份是时新的。据此可以评价采集到的网页的质量，表征某时刻某个网页的时新度的定 t e i [33] 义如下 : 1,ifeisup-to-dateattimet ? i Fet ; ? 2-3 i 0otherwise， ? [33] 另外一种表征时新度的方式是网页的年龄 : 0, if e is up-to-date at time t ? i Aet ; ? 2-4 i t?LMTe , otherwise ? i 是指本地网页在时刻之前最后的刷新时间。根据公式 2-3 2-4 可以 LMT e ei t i n 定义由个网页组成的集合的平均时新度和年龄: P 1n 1n FPt , FetAPt , , , Aet , 2-5 ? ? i1 i i1 i n n 假设Web 网页的平均变化频率为λ ，由公式 2-1 可知在时间区间I 0,t 内发生 i 更新的概率是: t t t t i i 2-6 Pr Tt? ftdt ?edt1?e T i ? ? o 0 对单个网页而言，结合公式 2-3 2-4 计算平均时新度和平均年龄期望值: t EFet[ ; ]0Pr Tt 1 1Pr T?t e i ? i ? t ? 1?e i ? ? 2-7 EAet[ ; ] t 1 i ? ? ? ?t ? i ? ? 由此得出网页更新的基本数学模型，定义了评价增量爬虫网页质量的两个指标: 时新度和年龄。并可以根据网页变化模型获得网页集合在特定时间区段内的平均时新度以及平均年龄。网页变化预测网页变化的预测是增量爬虫的重要工作任务，根据前述的网页变化模型，需要 ? 获得变化频率并预测下一次网页更新的时刻。实际网页采集过程中，很难获取Web 中每个网页的变化时刻，爬虫在采集某个页面之前，很难知道这个页面究竟是否更新了，只有当采集这个页面之后，才能知道页面是否刷新，因此只能对变化频率进行估计。在特定的应用场景中，可以直接估算Web 网页的变化频率，或是将网页分成多个不同的变化频率。 ? T 计算Web 网页变化频率最简单的方法是用变化的总次数除以时间间隔。 X ? ? ? f 如果用估测值表示估测频率与采集频率的比值: r 9 华中科技大学硕士学位论文 ? ? 1 X X ? ? ? r ? ? 2-8 f f T n ? ? 是该时间间隔内爬虫采集的次数。公式 2-8 存在偏差，随着时间的推进，爬 n T 虫会“错过”更多的网页变化，且不具备一致性。第二种类型是对网页变化频率进行分类，如按每周或每月变化次数区分快慢，通常可以使用贝叶斯方法进行估测。网页价值变化网页价值变化，或称重要性变化直接影响着刷新策略的制定，假设页面A 充满不断变化的广告，页面B 则是政府发布的政策通知，变化频率要小很多，显然对多数用户来说，页面B 更有价值。在这种场景下，如果爬虫工具只关注网页的时新度就会花费大量的资源用于重爬页面 A ，这是不符合用户需求的。网页的重要性可以通过其在某个时刻的流行度来度量，通常可以使用网页的权值作为其流行度。具体计算方法包括基于全局链接分析的 PagePank 算法、基于局部链接分析的 HITS (hypertext induced topic selection )算法、基于用户查询与网页内容相似度的 IR (information retrieval )等。在爬虫采集的过程中，可以采取不同的方法计算网页的权值，根据它估算网页在未来某个时刻的价值，来决定其采集的优先程度，也就是怎样分配资源的问题。 2.2 信息周期与页面刷新策略通常爬虫通过上述的网页变化频率以及网页变化程度来制定刷新策略。Olston 等 [25] 人提出根据信息周期，也就是网页不同区域产生到消亡的生命周期来制定刷新策略。真实环境中的网页常常有着不同的生命周期的片段(content fragments )，这里查看两个页面，页面A 含有小部分的静态内容以及大部分的快速变化内容，这部分是由同一个组织动态产生的广告。页面B 是属于一个烹饪网站，滚动展示最新的食谱，这些食谱大概30-60 天更新一次，它还包含静态内容、动态广告。如图2.2 所示，页面B 的片段拥有相对而言更长的信息周期。爬虫应该更关注那些有着较长生命周期的片段，因为类似于广告栏的片段，其价值不大，用户对其的关注也比较少，而类似于实时天气预报之类的片段，虽然用户也关心，但是由于其生命周期较短，当用户检索其在本地的网页备份时，它通常已经不是时新的。该研究通过实验证明网页信息周期与变化频率并没有明显的相关性。因此并不能通过变化频率来度量网页信息周期。既然无法使用变化频率度量网页信息周期，就需要找到其他方式反映其大小，并借助一定的刷新策略凸显出那些用户会更关心、信息周期更长的页面。借鉴 Olston 等人的研究成果，讨论适用于视频资源采集的爬虫刷新策略。 10 华中科技大学硕士学位论文图 2.2 两网页页面片段的信息周期比较页面差异度量假设爬虫采集到了本地页面集合，任一页面从首次采集后都经历了一系 P p ?P 列更新，使得本地页面偏离Web 页面。这里定义一个页面差异度 ? 来描述Web D p, p 页面和本地页面的差异，在结束每一次重爬时，? ?于是 ? 。而当 p p p p D p, p 0 Web 页面发生更新时， ?于是 ? 。 p ? p D p, p ?0 通常网页页面会包含很多不同的片段，比如静态logo、导航栏、动态广告栏、正文等。在计算页面间差异度时，需要区分上述片段，使用表示组成页面的片 F p p 段集合，使用Jaccard 公式描述差异度: ? ? |Fp Fp | Dpp , 1 ? 2-9 |Fp Fp | 这里需要一个健壮却相对简单的算法执行上述计算，将页面视作连贯的片段组 [34] 成，每个片段都视作连续的词汇，选取super-shingle 算法计算上述差异度。显然，差异度也是表征时新程度的一个度量，只是它将页面分区考虑进去，并对这种时新做了内容上的度量。在特定时刻本地缓存的网页的总差异度为: 1 ? 2-10 D P ?Wp D p, p | P | p ?P W 表示页面的价值，可以使用页面权值算法 PageRank ，或页面尴尬程度 p p [19] (embarrassment coefficient ) 。对于给定时间间隔 t ,t : 1 2 t 1 2 ? 2-11 DPtt ,, WDptptdt , ? 12 ? p tt 1 |P| pP? 11 华中科技大学硕士学位论文网页效用值爬虫刷新策略需要在允许的刷新代价下维持尽量低的页面过期程度 (staleness )。这里刷新代价(refresh cost )指刷新页面需要的资源，这里将所有页面刷新操作视作相同资源占用，于是可用给定时间间隔里发生的刷新次数来描述这种刷新代价。假设对于任一页面，差异度的计算仅和最后一次刷新的时间有关，并假设某此刷新 t p 操作之后差异度不会下降(虽然可能存在Web 页面复原到某个版本的情况，但这种 * * 情况比较少，在此模型中忽略)。在该假设下 ? ，D ? 为单调 Dptpt , Dtt p p p 函数。根据拉格朗日乘法，得到 t * * Ut tDt ?Dxdx 2-12 p p ?p 0 称为效用值(utility )，表征在给定时间间隔 (从页面最后一次刷新的时 Up t t p 刻开始计算)里页面的页面过期程度，也就是说效用值表示“页面过期程度×时 p [35] 间”。根据这个效用值，可以得到刷新策略 :给定一个效用阈值，在时刻，刷 T t [25] 新那些阈值大于的页面，文献给出一个例子说明该刷新策略与信息 T U t ?t ? T p p * 周期的联系。对图2.2 中的两个网页绘制效用值(如图2.3 )，这里D ? 假设为线性 p 函数，图中阴影部分表示时刻为30 时的效用值。在时刻0 以后，Web 页面独立的发生更新，使得本地页面与之的差异度变大。页面B 在任意时刻的效用值大于A 的，正好匹配前面的描述，页面B 有着相对较长的信息周期，并对用户而言更有价值。对于上述刷新策略而言，如果对页面A 和页面B 使用相同的效用阈值T，那么页面 B 更容易超过这个阈值，爬虫相对无法“容忍”页面B 的改变，表明这种刷新策略更“重视”信息周期相对较长的页面，帮助用户凸显这些更需要关注，不容易流逝的页面。图 2.3 两页面的效用值比较 12 华中科技大学硕士学位论文 2.3 基于上下效用值边界的视频资源重爬技术在确定了基于网页效用值，也就是网页信息周期的基本策略后，下一步的问题是，爬虫在下载页面之前是无法获知Web 页面更新信息的，也就无法计算这种实际效用值。实用增量爬虫的应用中，不容易获得页面变化的先验信息，需要根据一定的本地采集样本制定刷新策略。这里论文借鉴上下效用值边界的方法，提出适用于视频资源采集的增量爬虫刷新策略。在线视频资源的定义以及网页变化轨迹在整合在线视频资源的特定环境下，爬虫也有不同于通用爬虫的任务。通用爬虫主要任务是下载Web 页面到本地以帮助搜索引擎等建立索引查询这些页面。整合在线视频资源则需要从网页上爬取视频资源，这里的视频资源是指含有视频播放源的某个网页，以在线视频分享网站优酷为例，每一个视频播放页面就是一个视频资源，它可以表示成一个视频资源元(id，videoUrl ，title ，description，)，如图 2.4 所示，需要采集的是6>HTML 页面中的视频播放页面videoUrl ，也就是图中方框显示的和 /id_XMzMyNTYwNzAw.html ，因为实际网络中，该视频的描述信息也许会改变，但是这个视频本身不会改变，videoUrl 唯一。爬虫的大致过程就是从特定的种子页面出发开始下载，每下载一个页面，抽取其中视频播放页面 videoUrl 存入数据库，获取该页面中的所有链接，经范围测试后选择部分加入待爬取url 队列，然后从url 队列中取出链接，重复上述内容。还要根据该videoUrl 获取播放页面内容并爬取视频资源元的其他内容。在采集样本的过程中，需要对每一个页面维护一个变化轨迹(change profile )， C t ,0 t 页面的变化轨迹表示一系列时刻-差异度对，它有一个起始状态，代表 p B B 这个变化轨迹的开始时刻。所有后续本地刷新都依照该起始状态计算。举例来说有变化轨迹如下: 10, 0 , 12, 0.2 , 15, 0.2 , 23, 0.3 ，那么这个页面的刷新时刻为10， 12，15 和23 ，则后续刷新页面与起始页面的差异度为D p 10 , p 12 0.2 ，D p 10 , t p 15 0.2 ，D p 10 , p 23 0.3 。每当一次本地页面刷新发生时，根据起始时刻产 B C 生一个新的p t ，并通过添加 t, D p t , p t 刷新变化轨迹。在线爬虫刷新策略 B 需要为每个页面维持一个最大为 h 的变化轨迹，这需要动态的改变初始状态，该变化状态表示一个页面变化的历史轨迹。 13 华中科技大学硕士学位论文图 2.4 在线视频网站页面示意适用于视频资源爬虫的super-shingle 改进算法这里描述计算网页差异度D p tB , p t 需要用到的 super-shingle 算法。 super-shingle 来源于shingling 算法，其主要用途是网页查重。 shingling 主要用来发现大致相同的页面，两个页面A 和B 之间的相似度介于0 和 1，1 表示完全相同。它将页面看作词汇组成的序列，忽略一些微小的细节，如格式、HTML 标签、大小写等，将它们分析成标志(token )序列，得到这些标志的子串，相邻的子标志串称为 S w shingle，子串的集合表示为，对于一个给定页面，中所有大小为的唯一shingle p p 的集合为S p,w 。利用Jaccard 公式计算两个页面的相似度r A, B 。对于页面标志集合 a, rose, is, a, rose, is, a, rose ，它的S p,4 为 a, rose, is, a , rose, is, a, rose , is, a, w w rose, is 。推而广之，固定一个值，设为所有大小为的shingle 的集合，推而 A W 广之，可以为数值的集合。需要找到的某个子集， : A A W ? A the set of the smallest s elements in W, if |W|s? ? MINW ? 2-16 s W,otherwise ? s 为一个特定的参数，最小是指中元素的数值顺序，并且定义MOD W 为集 A m W m ? :A ?A 合中所有可以被整除的元素的集合。让为U 的选定统一随机排序，对于页面p FpMINSpVpMODSp , ? ? 2-17 s m 可以选择一个随机排序，为每个页面保存一个sketch，它只由F p 和 V p 组成。这样就不需要保存原始页面，只需要保存这些sketch 。对于采集视频资源的实际环境中，只关心页面中播放页面videoUrl 的改变，因此生成表征页面的sketch 的方法如下: p 14 华中科技大学硕士学位论文 1 抽取页面中包含的所有视频播放资源videoUrl ，并做一定处理去掉域名以 p 放大其表征视频资源的能力，这些视频资源就是页面标志(token )表示为 videoToken ，显然这些视频资源标志是唯一无歧义的; [36] w 2 设定具体的shingle 大小，得到页面的shingle 集合 ; p S p [37] 3 用32 位Rabin fingerprints 函数生成所有shingle 的指纹; m 4 选择一定的值，求模取余的方法选择shingle 。通常一个页面的sketch 很小，其计算效率比较高，时间上和页面中包含的视频播放资源成线性关系。因此计算一个页面的不同版本间的差异度也与这两个版本sketch 的大小成线性。基于上下效用值边界预测刷新间隔 ) e c n e g r e v i d ( 度异差 tR t1 刷新时刻 t2 图 2.5 上下效用值边界对于页面的变化轨迹，利用上下效用边界值来预测下一次的刷新间隔，参 p ? p t 考时刻为，那么下一次刷新时刻为t 。当爬虫检查到当前时间已经超过上述 R R p t 刷新时刻，它就将设为当前时刻，重复前述过程。计算刷新间隔的策略如下: R a 确立上下差异值边界。对于爬虫系统来说，无法预知Web 页面确切的刷新时 t t 刻，假设爬虫在时刻和发生本地刷新(也就是重爬)，无法知道Web 页面更新的 1 2 在究竟发生在时间区间[t ,t ] 内的哪个时刻，对于D p t , p t 有而言，就无法确知 1 2 B t t 的值。这里有两种极端假设 (如图2.5 ):Web 页面更新发生在后的一瞬间，对于 1 一个网页变化轨迹来的某个版本来说，可以获得它与初始版本的最大差异值;反之 t Web 页面更新发生在之前的一瞬间，可以获得最小差异值。 2 15 华中科技大学硕士学位论文 h b 根据最大为的变化轨迹获得所有的上下差异值边界，并求得它们的平均值。 c 在时间间隔上求得上述平均上下差异值边界和。 [tR ,t ] Umin U d 动态调整刷新周期 tt 2,ifU?T ?R ? ?:? p ?/2,ifUT?，重置参考时间 :t t ? p min R ? 该刷新策略表明，如果效用值上界小于效用值阈值，就说明时间间隔 t ?t 比 T R 最佳刷新间隔短，这就需要拉长刷新时间间隔，这里采取的调整策略是将刷新时 ? p 间间隔调整成 t ?t 的两倍;反之，当效用值下界大于效用值阈值时，说明时间间 T R 隔 t ?t 长于最佳刷新间隔，所以需要重置一个新的参考时间，并调整为稍短的刷 R 新时间间隔，然后根据这个参考时间设置新变化轨迹的起点进行记录。总之，需要动态调整刷新时间间隔使Umin ? T ?U 。对爬虫而言，新页面的爬取与旧页面的刷新共享宽带，计算等资源，因而爬虫系统需要在页面整体时新度以及在线网页的覆盖率之间做资源分配。只有当刷新旧页面能带来较好的时新度时，才进行刷新操作，否则尽量采集新的页面。 2.4 本章小结本章主要介绍了爬虫刷新策略的基本概念以及基于信息周期的刷新策略。网页上的不同区域有特定变化频率以及价值，通常用户会更关注那些更持久，这些内容也会是网站希望更多用户能点击的内容，使用页面周期来描述这种特性，并给出了公式化的方法，使用效用值来描述这种与时间有关的网页度量。效用值是网页更新不同版本间差异程度与时间间隔的乘积，效用值能区分不同生存周期的页面，给定相同的计算时间间隔，那些相对将长生存周期的区域有更大的效用值。如果对刷新策略给定某个效用阈值，那么这些生存周期较长的页面将更容易超过这个阈值，也就是说刷新策略将会更“重视”这些页面。爬虫只能检查刷新的改变，却无法知晓页面更新的确切时间，很难准确描述页面差异程度，对于实用的刷新策略，通过假设极端情况计算页面变化轨迹的上下效用值边界来制定刷新策略。 16 华中科技大学硕士学位论文 3 视频整合平台与微博系统的结合在完成了在线视频源videoUrl 的采集后，下一步的工作就是整理这些视频源并通过一定的方式展现给用户。借助微博系统的社交圈能够帮助视频资源的快速传播，这种传播是基于用户信任链的。本章将讨论如果将采集整合到的视频整合到微博系统中，也就是如何发起这个用户的传播链。 3.1 Web 视频资源描述信息由于在线视频资源网站的特定结构，在获取视频源videoUrl 时，无法立即获取这个视频的相关描述信息，也就是无法补足视频资源元(id ，videoUrl ，title ， description，)，这需要在线播放页面 videoUrl 的内容，获取其中的视频资源描述信息，如图3.1 举例说明优酷和土豆两个视频播放页面的视频描述信息，通常描述信息存放于元信息标签中。除了这些信息还包括视频的分类信息，不同视频网站对视频都有分类，可以抽取共有的类似分类信息作为视频的描述信息。这里采用HTML 解析器jsoup 分析网页生成DOM 对象，获取这些描述信息。图 3.1 视频资源描述信息示例 3.2 微博系统的基本功能微博的核心是用户可以通过发布信息，通过“关注”这种方式分享给关注自己的其他用户，接收自己关注的其他用户的信息。它虽然没有完全统一的结构，但是 17 华中科技大学硕士学位论文多数都包含以下基本功能。 1 关注:关注是一种单向、无需对方确认的关系，当你发现感兴趣的人和内容后，就可以关注对方。添加这种关注后，系统将您所关注的人发的微博内容，即时的现在你的微博首页中，借助于此可以了解对方的动态。关注自己的其他用户也会在第一时间看到自己发布的微博内容。你“关注”的人越多，获取的信息量越大，相对的，“关注”您的用户越多，表明你的微博会被更多人看到。 2 发布:用户可以发表140 字以下的文字信息或是多媒体信息，比如图片、视音频播放连接、话题、投票应用等。 3 话题:发布信息时，用户可以在两个#号之间插入一个特定的话题，比如#天宫一号# ，它会变成一个话题链接。任何用户看到这条微博之后，点击这个链接将自动搜索微博上所有的包含有“天宫一号”的相关微博。在这个话题页面，用户可以展开讨论，实现了信息的聚合。 4 转发:用户可以将自己喜欢的内容转发到自己的微博中，这个功能是对 Twitter RT 的改良，保留原帖，避免在传播过程中被篡改。转发时可以添加上自己的评论内容，所有关注自己的用户都可以看见这条转发的微博，并也可以选择再转发，如此循环开来，信息就实现了传播。 5 评论:用户可以对任何一条微博作评论，这个是基于中国用户习惯而设置的特殊功能，之后Yahoo Me 和Google Buzz 也都有了该功能。评论本身也可以选择是否作为一条微博发布。 6 收藏:收藏喜欢的微博，集中到“我的收藏”中。 7 @功能:在微博里它表示“向某某人说”，只要在微博用户昵称前加上一个@，并在昵称后加空格或标点断句，这个对象用户就能在页面“@提到我的”里看到这些特定微博。 8 私信:默认情况下，所有关注我的用户，都可以给他们发私信，进行私密的交流， 9 其他应用:除了以上基本功能，微博系统通常还有很多可选的应用，比如日志、群组、相册、活动等。很多微博都开放 API 鼓励更多的开发应用加入微博系统中。 3.3 视频整合平台与微博系统的功能结合作为视频整合平台，需要包含的基本功能是: 1 首页:展示采集到的最新最热的在线视频，用户登陆/注册入口; 2 分类检索:根据视频的分类信息进行检索展示; 18 华中科技大学硕士学位论文 3 视频播放:以用户熟悉的方式进行视频播放，显示视频描述信息; 4 视频评论，收藏等。下面讨论如何从功能设置的角度将上述要点与微博系统结合起来。功能整合设计图 3.2 Web 视频播放页面布局示例由于在线视频网站的播放页面基本一致(如图 3.2)，为了使用户适应视频资源的整合服务，使用独立的播放页面，采用类似的布局，同时也保留在用户微博列表中播放视频的方式。视频播放与微博结合的方式如下: 1 发布评论与发布微博统一，也就是说在视频播放页面上做评论等于发表一篇视频微博。在播放页面，它将直接显示在播放页面的评论列表中，而关注自己的“粉丝”的微博主页上会增加一条微博显示，并且自动附加上视频截图以及播放器，如图3.3 。这里使用的是我们自己的播放器，它能自动解析在线视频资源的链接，获取播放源进行网页播放，还可以选择下载p2p 加速器进行加速下载。 2 增加匿名用户权限。目前微博系统都是基于用户注册的，匿名用户基本上无法获得信息，因为微博需要靠“关注”建立传播链，这种关注是长期存在的，需要依靠用户有注册 id 。而在线视频系统为扩大视频点击量，视频播放行为是不需要用户id 的。这里，将两种方式结合，匿名用户可以进行视频浏览，视频播放等接收信息行为，只有发送信息行为才需要进行用户登录，如微博转发，视频评论，关注用户等。这样既保障了匿名状态下地视频浏览、播放服务，又能在用户需要的时候加 19 华中科技大学硕士学位论文入社交圈。 3 热门视频展示。通过爬虫可以采集到的在线视频资源是巨大的，增量爬虫每天也会更新视频量，这些视频仅有很少的部分能被用户观看，并进入微博传播链。作为视频整合网站，也需要将采集到的视频有区分的展示给用户，通常这种区分可以按照分类信息或按照热门度。在线视频网站通常有评价热门度的标准，比如点播数、顶、踩、收藏数等，这些数值都是变化的。对于视频资源而言，其描述信息一旦采集到后不会改变，但其热门度评价数值却在改变。为了这些热门度评价数值进行所有视频的重爬显然费时费力也无实际意义。为此，需要为视频展示页面维护一个热门度列表，定时刷新这个列表

                    本文档为【基于增量爬虫与微博的视频资源推广技术研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于增量爬虫与微博的视频资源推广技术研究

你可能还喜欢