关闭

关闭

封号提示

内容

首页 搜索引擎中文分词技术 .pdf

搜索引擎中文分词技术 .pdf

搜索引擎中文分词技术 .pdf

上传者: 武汉七草 2012-11-03 评分1 评论0 下载22 收藏0 阅读量74 暂无简介 简介 举报

简介:本文档为《搜索引擎中文分词技术 pdf》,可适用于IT行业分析领域,主题内容包含武汉七草网络营销培训中心wwwqicaoitcomQQ学习序言错过网络营销你错过的不是一次机会而是一个时代!一、比尔盖茨:二、马云:不做电子商务五年符等。

武汉七草网络营销培训中心wwwqicaoitcomQQ学习序言错过网络营销你错过的不是一次机会而是一个时代!一、比尔盖茨:二、马云:不做电子商务五年后你会后悔的!三、百度CEO李彦宏:“年后不会再有互联网公司因为所有的公司都在用互联网!”互联网即将迎来第四波浪潮即搜索引擎的时代“所有企业都在利用网络营销”。四、网络营销案例:成立仅三年的凡客诚品借力网络营销年销售额高达亿元!!!七草网络助你借力网络营销:高薪就业零成本创业公司业绩飙升!武汉七草网络营销培训中心wwwqicaoitcomQQ学习搜索引擎的中文分词技术本教程由武汉七草网络营销培训中心(wwwqicaoitcom)教程制作组整理作者:武汉七草网络营销培训中心制作者:武汉七草网络营销培训中心教程制作组制作时间:年月制作网站:武汉七草网络营销培训中心wwwqicaoitcom版权:武汉七草网络营销培训中心使用说明继上次推出搜索引擎优化基础教程有一段时间了上本教程介绍的都是些SEO最基本的知识而此次推出的教程介绍的是高级优化技巧对于SEO优化更加实用如果您看了上一本书(搜索引擎优化基础)后再看本教程的话会有更好的效果。本电子书的内容来源于网上搜集的资料以及一些SEO相关的教程。制作组人员把搜集的相关的资料进行了整理“去其糟粕取其精华“把SEO最基本的内容、最基本的知识以最简便的方式展现给大家。本电子书为PDF格式为了方便您浏览我们为电子书制作了书签。可以用两种方式来导航:点击左侧的书签标志打开书签点击书签的内容就可以转到对应页面使用本电子书的目录点击可进入相应页面。您也可以利用PDF的搜索功能来快速查找您需要的内容。本电子书是我们推出的第二本电子教程由武汉七草网络营销培训中心教程组制作虽然是对收集的资料进行整理但是教程制作组人员为此也付出了的辛勤的汗水所以请勿私自将全部或部分用于商业用途。转载书中内容请注明出处。本电子书由武汉七草网络营销培训中心(wwwqicaoitcom)制作武汉七草网络营销培训中心wwwqicaoitcomQQ学习搜索引擎的中文分词技术中文自动分词是网页分析的基础。在网页分析的过程中中文与英文的处理方式是不同的这是因为中文信息与英文信息有一个明显的差别:英文单词之间有空格而中文文本中词与词之间没有分割符。这就要求在对中文网页进行分析之前先要将网页中的句子切割成一个个的词的序列这就是中文分词。中文自动分词涉及到许多自然语言处理技术和评价标准在搜索引擎中我们主要关心中文自动分词的速度和准确度。分词准确性对搜索引擎来说十分重要但如果分词速度太慢即使准确性再高对于搜索引擎来说也是不可用的因为搜索引擎需要处理数以亿计的网页如果分词耗用的时间过长会严重影响搜索引擎内容更新的速度。因此搜索引擎对分词的准确性和速度都提出了很高的要求。目前中文自动分词比较成熟的技术是基于分词词典的机械分词方法。这种方法是按照一定的策略将要分析的汉字串与词典中的词条进行匹配。根据匹配策略的不同机械分词方法又有如下几种算法:正向最大匹配算法、逆向最大匹配算法、最少分词算法等。这种方法的优点是分词的速度快准确度有一定的保证但对未登录词的处理效果较差。实验结果表明:正向最大匹配的错误率为左右逆向最大匹配的错误率为左右。另一种比较常用的中文自动分词方法是基于统计的分词方法这种方法是对语料中的字组频度进行统计不需要切分词典因此也称为无词典分词方法。但该方法经常把不是词的常用字组当成词对常用词的识别精度较差时空开销也比较大。在搜索引擎领域的实际应用中一般将机械分词方法与统计分词方法相结合先进行串匹配分词然后使用统计方法识别一些未登录的新词这样既发挥了匹配分词速度快、效率高的优势又利用了统计分词中新词自动识别和自动消除分词歧义的特点。分词词典是影响中文自动分词的一个重要因素其规模一般在万条词左右词典太大或太小都是不合适的辞典太小有些词切分不出来辞典太大切分过程中起义现象将大大增加同样影响分词的精度。因此分词词典中词条的选择是非常严格的。对于不断出现新词的网络领域仅仅使用万条词左右的分词词典是不够的但随意向分词词典中加入新词将导致分词精度下降一般的解决方法是使用辅助词典其规模在万词条左右。另外中文自动分词的难点在于分词歧义的处理和未登录词的识别如何处理这两个问题一直是该领域研究的热点。、歧义处理歧义是指可能有两种或者更多的切分方法。例如:“表面的”这个词组因为“表面”和“面的”都是词那么这个短语就可以分成“表面的”和“表面的”。这种称为交叉歧义。像这种交叉歧义十分常见“化妆和服装”可以分成“化妆和服装”或者“化妆和服装”。由于没有人的知识去理解计算机很难知道到底哪个方案正确。交叉歧义相对组合歧义来说是还算比较容易处理组合歧义就必须根据整个句子来判断了。例如在句子“这个门把手坏了”中“把手”是个词但在句子“请把手拿开”中“把手”就不是一个词在句子“将军任命了一名中将”中“中将”是个词但在句子“产量三年中将增长两倍”中“中将”就不再是词。这些词计算机又如何去识别即使交叉歧义和组合歧义计算机都能解决的话在歧义中还有一个难题是真歧义。真歧义意思是给出一句话由人去判断也不知道哪个应该是词、哪个应该不是词。例如:“乒乓球拍卖完了”可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”如果没有上下文其他的句子恐怕谁也不知道“拍武汉七草网络营销培训中心wwwqicaoitcomQQ学习卖”在这里算不算一个词。对歧义现象的处理方法一般采用类似于动态规划的算法将歧义问题的求解转化为一个优化问题的求解。在求解过程中一般使用词频或概率等辅助信息求得一个最大可能的分词结果这个结果在某种意义下是最佳的。、未登录词处理未登录词就是分词词典中没有的词也称为新词。最典型的是人名、地名、专业术语等。例如人可以很容易理解句子“王军虎去广州了”中“王军虎”是个词因为是一个人的名字但要是让计算机去识别就困难了。如果把“王军虎”作为一个词收录到字典中去全世界有那么多名字而且每时每刻都有新增的人名收录这些人名本身就是一项巨大的工程。即使这项工作可以完成还是会存在问题例如:在句子“王军虎头虎脑”中的“王军虎”还能不能算词?未登录词中除了人名以外还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题而且这些又正好是人们经常使用的词因此对于搜索引擎来说分词系统中的新词识别十分重要。目前对未登录词的处理一般采用统计的方法首先从语料中统计出出现频率较高的字组然后按照某种规则把它们作为新词添加到辅助词典中。目前中文自动分词技术在搜索引擎中已经得到广泛应用分词准确度已经达到以上但是在对大规模网页进行分析处理的时候现有的中文自动分词技术还存在许多不足例如上面提到的歧义问题和未登录词的处理问题等。因此国内外的科研院校如北大、清华、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都一直关注并研究中文自动分词技术这主要是因为网络上的中文信息越来越多对网络上的中文信息的处理必将成为一个巨大的产业和广阔的市场存在无限的商机。但是中文自动分词技术要想更好地服务于网络中文信息的处理并形成产品还要在基础研究方面和系统的集成方面做许多工作。搜索引擎面临的挑战目前的搜索引擎不可能做到“博大精深”这是因为它们是矛盾的两个方面不可兼得。随着互联网信息的急剧增长关于搜索引擎的“博大”越来越难实现从利用信息的角度也完全没有必要“精深”反而是人们越来越重视并追求的指标。另外多层次的搜索服务体系远远没有建立起来传统搜索重导航作用、轻精准信息服务就像行人问路行人需要的不仅仅是方向还要知道具体的路标指示。现在人们经常谈论下一代搜索引擎那么下一代搜索引擎与第二代搜索引擎有什么不同?又有什么关系?它应该包括哪些功能?这些都是应该回答的问题但答案是众说纷纭。也许下一代搜索引擎融入了更强劲的智能化、人机交互等方法来改善相关度的计算也许下一代搜索引擎不仅仅运行在大规模服务器上更有可能的是运行在共享计算资源的个人电脑集群上或者植入“搜索芯片”中也许其索引库的边界已经模糊、也许更加清晰也许当下搜索巨头通过资金、品牌等人为地不断树立的商业壁垒终究抵挡不住创新搜索技术的颠覆正如当初Google将Altavista无声地瓦解一样。一、搜索引擎的技术流派搜索引擎的技术流派可以分为三类:第一类是利用计算机程序自动进行信息处理的自动化派其典型代表是Google以及Ghunt等第二类是以人工进行信息分类处理为主的人力加工派这方面的典型代表是早期的Yahoo正在兴起的Web、网摘等社区化搜索是这一流派的新发展第三类是强调智能化人机交互、协同的融合派目前英文Yahoo的搜索引擎在发展这方面的技术MSNLive也显示出其更加重视融合性的技术联索IFACE专业搜索融入了用户知识和机器学习方法可以看做是融合派在中文搜索引擎方面的典型代表。如果按照网页库的容量、相关度计算技术、用户搜索体验以及商业模式等方面来划分到目前为止搜索引擎的发展大约经历了两代。第一代搜索引擎(年~年)的索引网页量一般都在数百万量级左武汉七草网络营销培训中心wwwqicaoitcomQQ学习右采用全文检索技术和分布式并行运算技术但极少重新搜集网页并去刷新索引而且其检索速度较慢一般都要等待秒甚至更长的时间同时承受的检索请求也受到很大限制商业模式处于探索期并且尚未成型。第二代搜索引擎(年至今)大多采用分布式协同处理方案其网页索引库一般都在数千万个网页量级甚至更多采用可伸缩的索引库架构每天能够响应数千万次甚至数以亿计的用户检索请求。年月当时最先进的几个搜索引擎宣称能建立亿数量级的网页索引。以Google为代表的第二代搜索引擎通过链接分析和点击分析(网页流行度)方法来计算(网页权威性)相关度取得了巨大的成功。另外以自然语言进行问题解答的搜索引擎在某种程度上改善了用户体验更重要的是第二代搜索引擎奠定了目前搜索引擎普遍采用的成熟商业模式如Google、Overture、百度等收费搜索服务均受益于此商业模式。二、相关名词解释全文搜索引擎是由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息由索引器为搜集到的信息建立网页索引数据库由检索器根据用户输入的查询条件检索索引库并将查询结果返回给用户。服务方式是面向网页的全文检索服务。目录索引搜索引擎主要以人工方式搜集信息由编辑人员查看信息之后人工形成信息摘要并将信息置于事先确定的分类框架中。信息大多面向网站提供目录浏览服务和直接检索服务。用户完全可以不用关键词(Keywords)进行查询仅靠分类目录也可找到需要的信息。元搜索引擎是指在统一的用户查询界面与信息反馈的形式下共享多个搜索引擎的资源库为用户提供信息服务的系统。元搜索引擎是借助于其他搜索引擎进行工作没有自己的索引库它是将用户的查询请求同时向多个搜索引擎递交将返回的结果进行重复排除、重新排序等处理后作为自己的结果返回给用户。自动分类技术是计算机根据分类标准自动将文档归类到已经存在的类别体系(或者主题)下的某一个具体类别中。目前自动分类并不能完全代替人工所做的相关工作只是提供了一个花费较少的可选择方法。文本聚类技术是利用计算机将已经存在的大量文本(很多文档)进行分组的全自动处理过程。聚类可以提供对一个大的文本集内容的概况了解可以识别隐藏的共同点可以便捷地浏览相近或相关的文本网文摘录又称网摘它具有对内容页的收藏、分类、摘录、加注标签、保存到信息库、信息库共享等功能主要是为了满足用户阅读网络内容和信息知识积累的需要。搜索引擎爬虫程序一、什么是搜索引擎爬虫程序网络爬虫(又被称为网页蜘蛛网络机器人更经常的称为网页追逐者)是一种按照一定的规则自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁自动索引模拟程序或者蠕虫。这些处理被称为网络抓取或者蜘蛛爬行。很多站点尤其是搜索引擎都使用爬虫提供最新的数据它主要用于提供它访问过页面的一个副本然后搜索引擎就可以对得到的页面进行索引以提供快速的访问。蜘蛛也可以在web上用来自动执行一些任务例如检查链接确认html代码也可以用来抓取网页上某种特定类型信息例如抓取电子邮件地址(通常用于垃圾邮件)。一个网络蜘蛛就是一种机器人或者软件代理。大体上它从一组要访问的URL链接开始可以称这武汉七草网络营销培训中心wwwqicaoitcomQQ学习些URL为种子。爬虫访问这些链接它辨认出这些页面的所有超链接然后添加到这个URL列表可以称作检索前沿。这些URL按照一定的策略反复访问。二、爬虫程序的种类以及分辨搜索引擎派出他们的爬虫程序去访问、索引网站内容但是由于搜索引擎派爬虫程序来访会在一定程度上影响网站性能。在你的服务器日志文件中可见每次访问的路径和相应的IP地址如果是爬虫程序来访则useragent会显示Googlebot或MSNBot等搜索引擎爬虫程序名称每个搜索引擎都有自己的useragent以下分别列出国内主要的爬虫程序。百度baiducomBaiduspiderhttp:wwwbaiducomsearchspiderhtm谷歌googlecomGooglebothttp:wwwgooglecombothtml雅虎yahoocomYahoohttp:miscyahoocomcnhelphtml有道yodaocomYodaoBothttp:wwwyodaocomhelpwebmasterspider搜搜sosocomSosospiderSosoimagespiderhttp:helpsosocomwebspiderhtmhttp:helpsosocomsosoimagespiderhtm搜狗sogoucomsogouhttp:wwwsogoucomdocshelpwebmastershtm微软msncommsnbothttp:searchmsncommsnbothtm搜索引擎如何看待SEM工作记年百度联盟锋会李彦宏:“每个企业都应该有SEM部门”。一搜索引擎会对自然排名(serp)人工干预吗?搜索引擎会采取人工的方式降低某些网站的权重甚至删除某些网站。但多数的人工干预是基于对象网站有明显的作弊行为而这些行为暂时还没有归入搜索引擎的判断序列。同时对违反国家法律以及影响社会不安定因素进行删除处理。二开展搜索引擎优化(seo)工作违法吗?SEO并不神秘写好页面标题、把动态网址改成静态的这些就已经是在使用一些SEO原理了。在SEO这个概念出来以前大家其实早就已经使用了其中的理念只是大家没有意识到它而已。事实上SEO跟网站技术是同行的。那些称SEO工作违法的公司自己都已经使用了部分SEO技术了。而且几乎所有的搜索引擎公司都在其自身的网站上公布了什么样的网站是它们容易理解和受欢迎的部分搜索引擎左侧排名还针这个行业特别推出了相关帮助。在互联网最为发达的美国搜索引擎优化已经成为企业网络营销战略的基本组成主要部分很多公司都使用了搜索引擎优化服务。在日本像索尼和松下这样的大型企业也使用搜索引擎优化服务来提升企业网站在搜索引擎的表现从而推广其线上业务。国内目前也有非常多的公司实施了SEO工程越来越多的网络公司开始提供商业化的服务。各种主流的IT站点也开始纷纷开有专栏介绍搜索引擎优化的相关技术。但是任何时候内容才是SEO工作的基础也是SEO成功与否的必要条件而非充分条件也即是说内容本身并不能保证网站能够在搜索引擎占据有利的地位。信息爆炸的时代酒好也怕巷子深的。不能把SEO完全理解为纯技术性工作。武汉七草网络营销培训中心wwwqicaoitcomQQ学习在线客服QQ:客服:客服:客服:预约电话:蔡老师地址:武汉市洪山区街道口珞珈山大厦A座室第一网络营销论坛:wwwwlyxcom官方网址:http:wwwqicaoitcomSEO资源站:http:wwwwhseopxcomSEO培训课程网络营销培训课程武汉网络营销培训武汉SEO培训首选七草网络营销培训中心元即可参加系统的网络营销实战训练和多位实战专家一对一交流实现您的创业梦想!重在分享更多精华文章请访问以下链接:现在加群即可获赠价值元的电子书课程讲义(联系群武汉七草网络营销培训中心wwwqicaoitcomQQ学习主领取)免费到群共享下载大量的学员实战分享经验电子书学习交流超级QQ群:

类似资料

该用户的其他资料

市场营销“微力”(1).pdf

网络地震究竟震到了谁.pdf

网络营销.pdf

事件营销.pdf

思路决定出路,细节决定成败(1).pdf

职业精品

精彩专题

中秋节除了赏月,你还想怎么过?

“仰头望明月,寄情千里光”,算算你有多久没回家了。庆幸这个中秋节赶上了国庆节,不用悲伤“故乡再无春夏,只有秋冬”,独自一人赏月,8天长假,回家一趟,妥妥的!

用户评论

0/200
    暂无评论
上传我的资料

精选资料

热门资料排行换一换

  • 生物化学代谢总图.pdf

  • 宣化上人讲经之01大方广佛华严经…

  • 人类简史:从动物到上帝.pdf

  • 历年考研数学一真题及答案(198…

  • lecture1.pdf

  • 杜威:我们怎样思维 经验与教育 …

  • 內功真經全本全書(内功四经).p…

  • 打开易经的钥匙.pdf

  • 易经讲义.pdf

  • 资料评价:

    / 8
    所需积分:1 立即下载

    意见
    反馈

    返回
    顶部