首页 《信息检索原理》双语课件:引言

《信息检索原理》双语课件:引言

举报
开通vip

《信息检索原理》双语课件:引言nullThe Principle of Information RetrievalThe Principle of Information RetrievalDepartment of Information Management School of Information Engineering Nanjing University of Finance & Economics 2011I About this courseI About this courseWhy does he say this?Why ...

《信息检索原理》双语课件:引言
nullThe Principle of Information RetrievalThe Principle of Information RetrievalDepartment of Information Management School of Information Engineering Nanjing University of Finance & Economics 2011I About this courseI About this courseWhy does he say this?Why does he say this?If your page is not indexed by Google, your page does not exist on the Web S. Olsen, 2009Google相关Google相关2011年8月16日,谷歌发布了一款叫做“谷歌相关”的新产品,旨在无须搜索即能找到信息。这个插件可以安装在Chrome浏览器上,在浏览网页时,自动提供相关的地图、评论和新闻等信息 建议 关于小区增设电动车充电建议给教师的建议PDF智慧城市建议书pdf给教师的36条建议下载税则修订调整建议表下载 基本上符合在搜索前得到答案的要求,也暗合了佩吉上任后首先将搜索团队改名为“知识”(Knowledge) 谷歌产品中的、地方商业、广告、视频、社交、浏览器,以及知识,这7个产品的负责人,直接向CEO佩吉汇报nullnull1 Introduction1 IntroductionCourse goalsCourse goals采用双语模式, 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 给出完整的中英文对照 理论与实践结合,从Web搜索引擎的角度来谈现代信息检索的原理与实现How prepared are you?How prepared are you?Database principle Data structure Programming language Web Information scienceHow to learn from this course?How to learn from this course?阅读文献 掌握如何研究和学习的 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 掌握信息检索课程的基本内容 检索活动的实践——Google 检索系统的开发——Lucene, JavaHow to use course materials?How to use course materials?Teaching material Introduction to Information Retrieval Reference Web site http://www.njcie.com/bbs To get the most out of the course, you should Read related documents Validate and test what you learn through practice Ask question Participate in the discussions and exercisesnull2 课程的安排2 课程的安排按照大纲进度介绍课程内容 讲解检索练习 以Google等搜索引擎公司为例,结合案例介绍现代信息检索的发展现状课程内容课程内容Chapter 1 Introduction to information retrieval Chapter 2 Basic information retrieval Chapter 3 Index Chapter 4 Vector space model Chapter 5 Evaluation in information retrieval Chapter 6 Relevance feedback and query expansion Chapter 7 Web search and search engine Chapter 8 Advanced information retrieval Chapter 9 Data mining in information retrieval学科性质学科性质信息检索科学属于情报科学的范畴 学科性质 周智佑在1986年的《情报科学的发展》中谈到情报科学的性质时指出:“情报科学是一门交叉学科,但它不是自然科学内一门学科与另一门学科间的交叉,而很大程度上是社会科学与自然科学这两大门学科之间的交叉”相关研究领域1-8相关研究领域1-8图书情报学(Library & Info. Science) 数据库管理(Database Management) 人工智能(Artificial Intelligence) 自然语言处理(Natural Language Processing) 机器学习(Machine Learning)相关研究领域2-8相关研究领域2-8图书情报学(Library and Information Science, LIS) IR最初起源于LIS LIS主要关注IR中的用户方(人机交互、用户界面、可视化) LIS关注人类知识的高效分类 LIS关注文献的引用分析(citation analysis)和文献计量(bibliometrics) 近年来数字图书馆方面的工作使得LIS和IR日益融合信息检索在认知中的地位信息检索在认知中的地位用户知识信息检索Citeseer科学文献数位图书馆Citeseer科学文献数位图书馆http://citeseer.ist.psu.edu/nullnullGoogle ScholarGoogle Scholarhttp://scholar.google.com/nullnullnullLIILIIKaren G. Schneider is the director of Librarians' Internet Index Her article explains what she and her staff look for when looking for quality credible resources to add to the LII LII is a high quality directory aimed at librarians Most other directories, especially those which have a paid inclusion option, hold lower standards than selected limited catalogs created by librariansnullInternet Public LibraryInternet Public LibraryThe Internet Public Library is another well-kept directory of websitesnull相关研究领域3-8相关研究领域3-8数据库管理系统(Database Management, DM) DM主要面向关系表中的结构化数据而非自由文本 DM主要集中于高效解决形式化语言(如SQL)定义的查询 DM中不论是查询还是数据都具有明确的语义 近年来半结构化的XML数据的出现使DM和IR逐渐融合相关研究领域4-8相关研究领域4-8人工智能(Artificial Intelligence, AI) AI关注知识的表示、推理和智能行为 AI中知识的形式化表示 一阶谓词逻辑(First Order Predicate Logic) 贝叶斯网络(Bayesian Networks) 近年来Web本体及智能信息Agent方面研究使得IR和AI相互融合相关研究领域5-8相关研究领域5-8自然语言理解(Natural Language Processing, NLP) NLP关注自然语言文本的语法(syntactic) 、语义(semantic)及语用(pragmatic)分析 NLP可以分析短语结构和语义,使得IR可以在短语上、或者从语义上进行处理,而不是仅仅基于单个关键词 NLP和IR天生就是融合的nullnullnullnullAskAsknull相关研究领域6-8相关研究领域6-8自然语言理解(Natural Language Processing, NLP) 通过上下文词义消歧(word sense disambiguation)来确定一个词在某个特定上下文的语义 通过一些NLP方法来获得文档中的一个语言片断(information extraction) 通过NLP方法可以从文档集合中返回一些问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 的答案(question answering)Google SetsGoogle Setshttp://labs.google.com/setsnullnullnullnullnullnull相关研究领域7-8相关研究领域7-8机器学习(Machine Learning, ML) ML关注通过对 经验 班主任工作经验交流宣传工作经验交流材料优秀班主任经验交流小学课改经验典型材料房地产总经理管理经验 的学习来提高计算机系统的性能 从标注好的例子中学习相关概念,然后进行自动分类(有监督的学习,supervised learning) 将未标注的例子自动聚集到有意义的不同集合中(无监督的学习,unsupervised learning).相关研究领域8-8相关研究领域8-8机器学习(Machine Learning, ML) ML和IR融合的方面 文本分类(Text Categorization) 自动层次分类(如Yahoo目录) 自适应过滤或推荐(Adaptive filtering/recommending) 垃圾过滤(Spam filtering) 文本聚类(Text Clustering) IR结果的自动聚类 层次型类别体系的自动构建(如Yahoo!目录)3 阅读资源3 阅读资源3.1 Introduction to Information Retrieval3.1 Introduction to Information RetrievalCSLI(The Center for the Study of Language and Information) C.D. Manning, P. Raghavan, H.Schütze. Cambridge UP, 2007 Focuses on algorithms and mathematical foundations without neglecting practical issues in building search systems. Equal coverage of classical IR and newer topics like XML, machine learning techniques and web search engines. Ref: http://www-csli.stanford.edu/~hinrich/information-retrieval-book.htmlIntroduction to Information RetrievalIntroduction to Information Retrieval信息检索导论信息检索导论nullnull3.2 Modern Information Retrieval3.2 Modern Information RetrievalR. Baeza-Yates(理查多·巴埃斯-耶茨), B.Ribeiro-Neto(里韦罗-内托). Addison-Wesley, 1999. Currently the most widely used and cited Ref: http://www.ischool.berkeley.edu/~hearst/irbookRicardo Baeza-Yates Berthier Ribeiro-Neto Ricardo Baeza-Yates Berthier Ribeiro-Neto nullnullModern Information Retrieval 2rdModern Information Retrieval 2rdhttp://www.mir2ed.org/3.3 Information Retrieval : Data Structures & Algorithms 3.3 Information Retrieval : Data Structures & Algorithms Bill Frakes and Ricardo Baeza-Yates Ref: http://www.dcc.uchile.cl/~rbaeza/iradsbook/irbook.htmlnullnull3.4 Information Retrieval 3.4 Information Retrieval C. J. van Rijsbergen(莱斯贝尔亨). Butterworths, 1979. The classic almost 40 years old, but still worth reading Ref: http://www.dcs.gla.ac.uk/Keith/Preface.htmlnull3.5 Information Retrieval: A Survey3.5 Information Retrieval: A SurveyEd Greengrass. 2000. Good survey of classical IR, but little or no coverage of recent work (e.g., language models, PageRank, VSMs). Ref: http://www.csee.umbc.edu/cadip/readings/IR.report.120600.book.pdfnull3.6 Information Retrieval3.6 Information RetrievalT. van der Weide. 2004. Introduction to IR and hypertext. Ref: http://osiris.cs.kun.nl/iris/web-docs/edu/ir1/null3.7 Managing Gigabytes: Compressing and Indexing Documents and Images3.7 Managing Gigabytes: Compressing and Indexing Documents and ImagesIan H. Witten, Alistair Moffat, and Timothy C. Bell Ref: http://www.cs.mu.oz.au/mg/null深入搜索引擎:海量信息的压缩、索引和查询深入搜索引擎:海量信息的压缩、索引和查询3.8 Lucene In Action3.8 Lucene In ActionA guide to the Java search engineLucene IN ACTION中文版Lucene IN ACTION中文版3.9 搜索引擎—原理、技术与系统3.9 搜索引擎—原理、技术与系统Search Engine: Principle, Technology and Systems 李晓明 闫宏飞 王继民(北大天网)搜索引擎:原理技术与系统搜索引擎:原理技术与系统nullnullhttp://sewm.pku.edu.cn/book/LxmYhfWjm_v1.0.pdf null3.10 Web Data Mining 3.10 Web Data Mining Web Data Mining Exploring Hyperlinks, Contents and Usage Data Bing Liu, Springer, December, 2006 Ref: http://www.cs.uic.edu/~liub/WebMiningBook.htmlnullWeb数据挖掘Web数据挖掘刘兵 伊利诺伊大学芝加哥分校(TNC)教授 Web挖掘研究领域的国际知名专家,在Web内容挖掘、互联网观点挖掘、数据挖掘等领域有非常高的造诣3.11 Emerging Technologies of Text Mining: Techniques and Applications3.11 Emerging Technologies of Text Mining: Techniques and Applicationsby hercules Antonio Do Prado (Editor), Edilson Ferneda (Editor) null3.12 Mining the Web_ Discovering Knowledge from Hypertext Data3.12 Mining the Web_ Discovering Knowledge from Hypertext DataSoumen Chakrabarti Morgan-Kaufmann Publishersnull3.13 信息检索系统导论3.13 信息检索系统导论刘挺 哈尔滨工业大学计算机研究所副所长,信息检索研究室主任 主要研究方向为信息检索和自然语言处理3.14 Search Engines Information Retrieval in Practice3.14 Search Engines Information Retrieval in Practice搜索引擎:信息检索实践3.15 Google API大全——编程•开发•实例3.15 Google API大全——编程•开发•实例书籍对几十种Google常用API进行了梳理和介绍,辅以行之有效的代码实例3.16 More3.16 MoreRecommended Reading for IR Research Studentsnullnull4 研究资源4 研究资源Conferences Journals Others4.1 Conferences4.1 ConferencesTREC SIGIR SIGMOD VLDB ICDE ICDT4.1.1 TREC4.1.1 TREChttp://trec.nist.gov/ nullnullnull4.1.2 SIGIR4.1.2 SIGIRhttp://www.sigir2006.org/ http://www.sigir2007.org/nullnullnullnull4.1.3 SIGMOD4.1.3 SIGMODnull4.1.4 VLDB4.1.4 VLDBnull4.1.5 ICDE4.1.5 ICDEnull4.1.6 ICDT4.1.6 ICDTnull4.2 Journals4.2 Journals国外 ACM Transactions on Information Systems (TOIS) Information Processing and Management (IP&M) 国内 情报学报 现代图书情报技术 中文信息学报 情报杂志 情报科学nullnullnullnullnullnullnullnull4.3 Others4.3 Others4.3.1 国际著名研究机构和代表人物4.3.1 国际著名研究机构和代表人物国际著名代表人物1-5国际著名代表人物1-5美国康奈尔大学Salton(1927-1995) 现代信息检索的奠基人 SMART的完成人 第一任Salton奖得主,ACM Fellow国际著名代表人物2-5国际著名代表人物2-5英国剑桥大学Sparck Jones (1935-2007) 概率检索模型的提出者之一 NLP和IR中的先辈 曾获ACL(自然语言处理领域会议)终身成就奖和Salton奖国际著名代表人物3-5国际著名代表人物3-5W. B. Croft 美国UMass(University of Massachusetts Amherst) CIIR ACM Fellow 基于统计语言建模IR模型的提出者和倡导者 和CMU共同开发了Lemur工具 Salton奖得主nullnull国际著名代表人物4-5国际著名代表人物4-5英国Glasgow大学Rijsbergen ACM Fellow 信息检索逻辑推理学派的提出者和倡导者 现在试图用量子物理的方法解决IR问题 Salton奖得主国际著名代表人物5-5国际著名代表人物5-5英国微软剑桥研究院、伦敦城市大学Robertson 概率检索模型的倡导者 开发了OKAPI Salton奖得主国际著名研究机构国际著名研究机构美国CMU Carnegie Mellon University 卡内基梅隆大学 美国UIUC University of Illinois at Urbana-Champaign 伊利诺伊大学,厄巴纳-尚佩恩 微软研究院 IBM研究院 Google研究院nullnullGoogle LabGoogle LabSearch experiments http://labs.google.cn/nullnullnullnullnullnullnullnullnullnullnull4.3.2 国内著名研究机构4.3.2 国内著名研究机构哈尔滨工业大学信息检索研究室 http://ir.hit.edu.cn/ 北大计算机网络与分布式系统实验室 http://net.pku.edu.cn/ 中国科学院计算技术研究所中文自然语言处理开放平台 http://www.nlp.org.cn/nullnullnullnullnullnullnull4.3.3 一些活跃的华裔学者1-24.3.3 一些活跃的华裔学者1-2加拿大蒙特利尔大学聂建云教授 跨语言检索 IR模型 美国UIUC Chengxiang Zhai博士 IR模型 美国CMU Yiming Yang教授 文本分类一些活跃的华裔学者2-2一些活跃的华裔学者2-2台湾中研院简立峰 号称“中文搜索”第一人 加入Google研究院4.3.4 著名商业成功人士4.3.4 著名商业成功人士Larry PageSergey Brin李彦宏下一代搜索下一代搜索智能搜索 个性化搜索 移动搜索 社交搜索nullnullnullnull
本文档为【《信息检索原理》双语课件:引言】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_119000
暂无简介~
格式:ppt
大小:12MB
软件:PowerPoint
页数:0
分类:其他高等教育
上传时间:2013-12-14
浏览量:19