首页 从无到有建立一个影视剧情网站的心得体会_

从无到有建立一个影视剧情网站的心得体会_

举报
开通vip

从无到有建立一个影视剧情网站的心得体会_ 想了解更加精彩的内容请添加我们的交流 QQ 群:131716631 验证:学 习,对加群的伙伴我们将免费赠送 3套网络营销实战课程。 从无到有建立一个影视剧情网站的心得体会从无到有建立一个影视剧情网站的心得体会从无到有建立一个影视剧情网站的心得体会从无到有建立一个影视剧情网站的心得体会 影视剧情介绍方面的网站属于数量泛滥,但是缺乏精品的一类。 内容原创的网站不多,更多是收集各地分散的影视资源加以汇总。尤其是电视 剧介绍,经常是分集连载方式,这就使得站长需要不断关注正在更新的剧集, 一集一集补充上去,难以...

从无到有建立一个影视剧情网站的心得体会_
想了解更加精彩的 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 请添加我们的交流 QQ 群:131716631 验证:学 习,对加群的伙伴我们将免费赠送 3套网络营销实战课程。 从无到有建立一个影视剧情网站的心得体会从无到有建立一个影视剧情网站的心得体会从无到有建立一个影视剧情网站的心得体会从无到有建立一个影视剧情网站的心得体会 影视剧情介绍方面的网站属于数量泛滥,但是缺乏精品的一类。 内容原创的网站不多,更多是收集各地分散的影视资源加以汇总。尤其是电视 剧介绍,经常是分集连载方式,这就使得站长需要不断关注正在更新的剧集, 一集一集补充上去,难以一步到位。维护影视剧情网站更是偷懒不得,必须保 持更新,否则内容很快过时。 本人运行影视剧情站一段时间就遇到这个问题,一部电视剧的介 绍前前后后更新多次,尤其是热播剧,不断追加内容直至完整。 建站初期为了尽快充实全站内容,需要收集整理大量的影视介绍 文字,除了人工整理编辑之外,也尝试过一点内容采集,然后进行二次编辑修 改,这样就可以为用户提供足够丰富完整的电影与电视剧内容,这个过程也是 费了点头脑,简要叙述一下吧。 浏览学习大量同类网站以后,发现 tvmao 在影视剧情搜索方面的 排名非常好,毕竟是百度open的名站,内容也相当丰富,二话不说,先从 tvmao借鉴些内容。 tvmao的影视剧情部分算是比较容易采集,页面 模板 个人简介word模板免费下载关于员工迟到处罚通告模板康奈尔office模板下载康奈尔 笔记本 模板 下载软件方案模板免费下载 固定、正文 内容没有干扰,看起来没有任何防采集处理。实际采集过程略微一波三折,总 体说来采集障碍不大。 说下采集 tvmao 的经过,我的网站使用美国空间,tvmao应该是 浙江电信的空间。第一阶段我是直接在国外的空间上运行采集工具(远程采 集),最直接的采集然后数据入库,因为国外连国内,速度不算很快,不过还比 较稳,大约采集了一两千部电视剧剧情,遭遇第一次杯具:服务器的 IP 被 tvmao封了。 服务器 IP 被对方封禁以后迟迟不见解封,应该是 tvmao 对这个 IP 永久屏蔽了,更换服务器 IP肯定是行不通,总不能封一次换一个,于是想到 本地执行采集,然后远程写入服务器的数据库,前提是数据库允许远程访问。 随后的实践证明这种采集(本地采集+远程入库) 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 比较可行,但是也会有点遗 憾,因为我的服务器在国外,而我在国内采集到的内容要远程写入国外的数据 库,会发现远程写入的速度比较慢,因为写入过程实际包括了查询、插入、更 新、删除的多个数据库操作过程,这些过程都通过远程访问执行就导致整个采 集过程变慢。更严重的是远程操作数据库过程中不定时出现数据库连接进程超 时之类的问题,导致写入失败。 如果我的服务器在国内,访问速度够快,也许上述方案可行,先 留作备用方案吧。 静下心来又学了一点采集原理,实施了第三套方案(远程采集 +http 代理),还是在国外的服务器上执行采集,只是对采集工具做了一点伪 装:使用http 代理,伪造文件头、访问来路等等。随后的采集过程中发现,真 正起作用的是http 代理,在采集工具中设置http 代理,选用电信 IP 的代理, 因为 tvmao的网站使用电信空间,这样采集下来发现速度比第一套无代理的采 集更快,感觉真是痛快。 第三套方案采集一两千部电视剧以后又发现问题,http代理的 IP 也会被 tvmao屏蔽,但并非永久屏蔽,猜测应该是 tvmao的网站程序作了一 些处理,就是发现一个 IP 短时间内访问的页面太多,就会屏蔽一段时间,即使 我采用了几十个代理随机轮换采集,仍然在一段时间以后会出现采集不到的情 况。后来还不定时地发现采集内容不完整,例如 tvmao的电视剧分集介绍每页 3集,假设每集有十几句话,实际采集到的只有每集一句话,晕,怎么会这 样????或者一部电视剧 30集,采集回来发现漏掉好多集,给这部电视剧重新采 集一遍,能够弥补几集,仍有遗漏。 所以第三套(远程采集+http 代理)方案在采集 tvmao 的时候最终 遭遇了不能完整采集页面的问题,作为猜测,或许是代理服务器的问题,也或 许 tvmao采取了一些反采集措施,首先 tvmao不可能完全屏蔽这些代理服务 器的 IP,否则搜索引擎的爬虫也会遭遇同样问题,因此针对采集者 IP返回不完 整的页面内容,而这几乎不影响搜索引擎对页面基本内容的抓取,因为 tvmao 的权重很高,它的页面只需要一个 title,甚至不需要任何正文内容,就能占据 很好的搜索排名(这仅仅是猜测,也许 tvmao 不会这么小气)。 而且使用http 代理的另一个问题是并非每个代理都 100%可用, 随时可能不稳定,同时我使用的并非匿名http 代理,对方可以很容易查到我的 服务器 IP,还是比较容易被屏蔽或防范的。 实施第四套采集方案,本地采集+本地入库,然后在把本地库打包 上传到网站空间,导入。这也是不得已的办法,本地采集可以随时更换本机 IP,所以不担心 IP被封,实际操作时也发现这样采集到的页面内容 100%完 整,不再出现上一方案丢三落四的情况(所以我始终不明白为什么远程+代理的 采集会有时候采集不到完整内容),而且采集速度最快。 最终就是通过第四套(本地采集+本地入库)的方式完成了 tvmao 影视剧情的采集,1万 1千多部电视剧,接近 20 万分集介绍,以及接近4万部电影的介绍,还有n多的演员表。 总结一下这段采集经历, 1,远程采集、无代理,这种方案最直接,适用于完全不设防的目 标网站; 2,本地采集+远程入库,勉强可行的方案,如果网站空间访问速 度够快,比如国内的空间,同时数据库支持远程访问,应该也是非常好的办法 (本人没有亲测)。 3,远程采集+http 代理,可用于防采集措施相对简单的网站,实 际上即使用了http 代理,考虑到通常不是匿名代理,因此网站空间的真实 IP 仍然会被对方检查到,略加技术处理就可以防采集。如果采集量不大、采集不 是很频繁,这种方式不错。 4,本地采集+本地入库,单单从采集速度与采集效果来看,这是 针对 tvmao采集的最好手段。因为采集速度快,访问目标网站的频率很高,如 果目标站严格限定同一 IP 的访问频率,例如 10秒钟访问 10张网页,99.9%的 真实用户访问网页不会这么快,所以快速采集实际上很容易被发现并且屏蔽。 庆幸的是采集与搜索引擎的爬虫机理相似,使得对方顾忌误杀爬虫所以就给了 采集者机会。可以这么说,能够被搜索引擎顺利爬取的网站都比较容易采集。 网站内容初步丰富以后就是后续不断更新完善,电影部分比较简 单,一次整理好就基本OK,电视剧部分需要关注一些尚未完整的剧集,做下 记录,定时进行补充直至完善。 前段时间新闻一直在说国家大力促进文化产业繁荣大发展,电影 与电视剧行业必将发展更快,关注影视内容的用户将越来越多,希望我的剧情 站能够跟上这一波潮流从而获得不错的人气。 新站还说不上更多心得与经验,仅是一点分享,自我感觉水平非 常有限,期待与更多有这方面爱好的朋友交流学习,期望遇得高人指点,本人 qq 1559648233,希望与各位站长朋友多多交流:-) 从无到有建立一个影视剧情网站的心得体会
本文档为【从无到有建立一个影视剧情网站的心得体会_】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_845009
暂无简介~
格式:pdf
大小:299KB
软件:PDF阅读器
页数:0
分类:互联网
上传时间:2012-04-13
浏览量:23