首页 自然语言处理-课件1

自然语言处理-课件1

举报
开通vip

自然语言处理-课件1自然语言处理导论孙栩信息科学技术学院xusun@pku.edu.cnhttp://klcl.pku.edu.cn/member/sunxu/index.htm“自然语言处理导论”课程(2015)讲义课程信息、内容、规划自然语言处理简史、任务简介自然语言处理的目标、难点、对策2课程信息04831780《自然语言处理导论》任选,2.0学分,36.0总学时1~16周每周周二5~6节三教504教师:孙栩(主讲)、詹卫东助教:文吉、许晶晶选课学生信息学院中文系部分以计算机为...

自然语言处理-课件1
自然语言处理导论孙栩信息科学技术学院xusun@pku.edu.cnhttp://klcl.pku.edu.cn/member/sunxu/index.htm“自然语言处理导论”课程(2015)讲义课程信息、 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 规划 污水管网监理规划下载职业规划大学生职业规划个人职业规划职业规划论文 自然语言处理简史、任务简介自然语言处理的目标、难点、对策2课程信息04831780《自然语言处理导论》任选,2.0学分,36.0总学时1~16周每周周二5~6节三教504教师:孙栩(主讲)、詹卫东助教:文吉、许晶晶选课学生信息学院中文系部分以计算机为第二专业的学生课程信息学习基础相差比较大3自然语言处理又叫做“计算语言学”,涉及到计算、语言两方面的知识所以我们安排2位老师讲课各有侧重点,分别侧重讲解计算、语言两方面的内容教师1(主讲)孙栩信息学院,研究员邮箱:xusun@pku.edu.cn电话:62753081-103主页:http://klcl.pku.edu.cn/member/sunxu/index.htm教师2(讲7次课)詹卫东中文系,教授邮箱:zwd@pku.edu.cn主页:http://ccl.pku.edu.cn/doubtfire课程信息4课程信息助教信息助教1文吉邮箱wenjics@pku.edu.cn电话18810335257理科1号楼8楼计算语言学研究所助教2许晶晶邮箱jingjingxu_jjx@foxmail.com电话18801060140理科1号楼4楼计算语言学研究所遇到问题请联系老师或助教。5自然语言处理是通过建立形式化的计算模型来分析、理解和处理自然语言什么是自然语言:指人类使用的语言,如汉语、英语等语言是思维的载体,是人际交流的工具语言的两种属性-文字和声音人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上其它术语计算语言学(ComputationalLinguistics)自然语言理解(NaturalLanguageUnderstanding)人类语言技术(HumanLanguageTechnology)自然语言处理是什么?6自然语言处理(natural language processing,NLP)或称自然语言理解(naturallanguageunderstanding)是人工智能研究的重要内容自然语言处理就是利用计算机为工具对人类特有的 关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf 面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。-冯志伟《自然语言的计算机处理》自然语言处理是什么?人工智能(AI)机器学习、模式识别机器视觉,等等自然语言处理(机器对人类语言的理解)7强人工智能、弱人工智能?如何判断计算机系统的智能?计算机系统的表现(act)如何?反应(react)如何?相互作用(interact)如何?与有意识个体(人)比较如何?图灵(Turing)设计的“模仿游戏”,即图灵测试(Turingtest)自然语言处理是什么?8科学是什么?为什么?从哪儿来?到哪儿去?技术目标是什么?怎么实现效果好?自然语言处理既是科学、又是技术自然语言处理是什么?9自然语言处理是一门交叉学科需要多个学科的知识概率统计基础孙栩语言学基础中文系詹卫东教授具体应用孙栩课程规划10课程的目标对自然语言处理关键概念的理解部分实际能力的培养例如,能开发一个具体的自然语言处理系统作业/项目2个小作业/项目1个期末大作业/项目选课说明虽然没有期末考试,但是作业/项目有足够的难度,需保证足够的学习时间,要求会比较严格 课件 超市陈列培训课件免费下载搭石ppt课件免费下载公安保密教育课件下载病媒生物防治课件 可下载高中数学必修四课件打包下载 教学网课程规划11课程内容安排NLP的概率统计基础(4-5周)一个小作业孙栩NLP的语言学基础(6-7周)一个小作业中文系詹卫东教授NLP的具体应用(4-5周)一个大作业孙栩课程规划121:NLP的概率统计基础(4-5周)1.1:NLP的总体介绍简要历史研究目标,研究内容,难点大体的方法、具体应用1.2:概率论/信息论基础概率、条件概率、贝叶斯法则二项分布、期望、方差最大似然估计、梯度下降方法、信息论基础1.3:Ngram统计语言模型Ngram统计语言建模数据稀疏问题Zipf定律、平滑基础、回退方法1.4:统计机器学习基础简单分类问题感知器模型支持向量机模型课程规划132:NLP的语言学基础(6-7周)语言学知识(I)——理论分析:构词、词类、句法、语义语言学知识(II)——实例分析:语料库与知识库具体计划2.1:构词法与文本自动分词具体内容:(1)汉语构词法(2)中文文本自动分词基本方法与问题2.2:词类与词性标注具体内容:(1)汉语的基本句法结构、词类系统(2)词性标注的基本方法2.3:句法规则与结构分析具体内容:(1)上下文无关文法(2)句法结构歧义(3)基本的句法分析算法2.4:语义分析具体内容:(1)语义的聚合分析和组合分析(2)特征结构与合一运算2.5:语料库与知识库课程规划143:NLP的具体应用(4-5周)3.1:序列标注问题线性结构典型问题:分词、词性标注、实体识别典型模型:HMM,结构化感知器3.2:句法分析树状结构上下文无关句法、PCFG模型依存句法、依存句法分析模型3.3:机器翻译概论机器翻译的目标机器翻译的难点、方法简介具体实现简介课程规划SNPVPJohnVNPlikedthedoginthepen15课程信息、内容、规划自然语言处理简史、任务简介自然语言处理的目标、难点、对策161940年代末—1960年代中期乔姆斯基理论(NoamChomsky)规则方法为主1966年:发展的停顿ALPAC语义障碍1970年代中期—1980年代人工智能AI的繁荣机器翻译产品如Fujitsi、Hitachi、Siemens简史171980年代—1990年代前期欧盟Eurotra计划日本Mu系统以及ODA计划1990年代-2010统计、算法的进步:IBM统计机器翻译模型、高效率搜索算法等机器学习技术的进步:结构化分类、图模型等目前的研究解决更核心的问题:知识库自动构建、数据大规模化自动知识库抽取等大规模自然语言处理模型、算法更多的现实应用、更好的效果Googletranslate、Bingtranslate、语音输入法、iPhoneSiri语音问答等基于网络大数据的自然语言理解成为新热点:信息提取、自动文摘、情感分析、观点挖掘、主题跟踪等简史18自然语言处理期刊ComputationalLinguistics(CL,计算语言学季刊)TransactionsonAssociationofComputationalLinguistics(TACL)(包括自然语言处理的)综合期刊JournalofAIResearch(JAIR,人工智能研究月刊)ACMTrans.onInformationSystems(TOIS)InformationProcessing&Management(IPM)JournalofMachineLearningResearch(JMLR)国内主办的相关期刊中文信息学报计算机学报软件学报相关学术期刊19自然语言处理会议AnnualMeetingoftheAssociationforComputationalLinguistics(ACL,计算语言学会的年会)EmpiricalMethodsonNaturalLanguageProcessing(EMNLP)InternationalConferenceonComputationalLinguistics(COLING)(包括自然语言处理的)综合人工智能会议InternationalJointConf.onArtificialIntelligence(IJCAI,国际人工智能联合会)AAAIConferenceonArtificialIntelligence(AAAI)相关学术会议20机器翻译人机对话信息检索、信息提取情感分析、舆论分析、知识发现自动抽取知识库具体的自然语言处理任务简介21目标是研制能把一种自然语言翻译成另外一种自然语言的计算机软件系统。相关研究始于四十年代末计算机诞生不久目前市场上有不少翻译产品已经具有较强实用价值,例如googletranslate等机器翻译222001: A space odyssey:Dave:Openthepodbaydoors,HAL.HAL:ImsorryDave,IamafraidIcantdothatDave:Whatstheproblem?HAL:IthinkyouknowwhattheproblemisjustaswellasIdo.市场上有不少实用的人机对话系统,比如iPhone的Siri等人机对话23Google、百度基于语义的搜索检索中的自动摘要检索优化QuerycorrectionQueryexpansionQuerysuggestion信息检索24信息检索25比如命名实体识别信息提取26情感分析、舆论分析、知识发现27课程信息、内容、规划自然语言处理简史、任务简介自然语言处理的目标、难点、对策Outline28语言障碍人-人之间的语言障碍人-机之间的语言障碍人本身的语言障碍为什么要自然语言处理?29人-人之间的语言障碍机器翻译自动摘要人-机之间的语言障碍信息提取知识抽取机器阅读(machinereading)人自身的语言障碍写作辅导(writingassistance)为什么要自然语言处理?30终极目标研制能理解并生成人类语言的计算机系统彻底解决语言障碍问题AI-complete问题当前目标研制出具有一定人类语言能力的计算机文本或语音处理系统部分解决语言障碍问题现实的商业和应用价值自然语言处理的研究目标31表象原因:自然语言中有大量的歧义现象无法象处理人工语言那样,写出一个完备的、有限的规则系统来进行定义和描述。自然语言的规则很少没有例外此外,还有大量的噪音甚至错误表达自然语言处理的难点是什么?32原因:自然语言中有大量的歧义现象歧义举例:Theboysawthegirlwithatelescope.自然语言处理的难点是什么?33本质原因:知识体系的缺乏自然语言的理解不仅和语言本身的规律有关,还和语言之外的知识(例如常识)有关语言处理涉及的常是海量知识,知识库的建造维护难以进行场景/背景的建立问题自然语言处理的难点是什么?34两个原因的联系歧义是知识缺乏的表现形式如果有全局知识/上下文知识支持?Theboysawthegirlwithatelescope.自然语言处理的难点是什么?35由于歧义/知识缺乏等因素的存在,自然语言处理常采用下面的对策建立“已知知识”比如使用训练数据减少“未知知识”比如对领域进行限制常见对策36对策一:建立“知识”规则方法(rule-basedmethods)通过语言学知识编写规则通过规则引入知识经验方法(empiricalmethods)训练数据+机器学习通过训练数据引入知识,通过机器学习消岐规则和经验方法的结合交互式处理人机互助进行处理常见对策37对策二:减少“未知知识”限定语言限定领域限定处理文本的领域限定任务限定复杂度限定语言的词汇和句法,降低复杂度常见对策38规则驱动的方法(符号主义)1.研究人员(例如语言学家)对语言的规律进行总结,形成规则形式的知识库。2.研制语言处理算法,利用这些规则对自然语言进行处理。3.研究人员根据处理结果,调整规则,改进处理效果。4.如此反复具体方法39规则方法举例例如:SNP+VPNPDET+NNPNP+PPVPVP+PP….具体方法40用上述规则分析句子“the boy saw the girl with a telescope”具体方法41All grammar leak (Sapir 1921)对于自然语言而言,不大可能写出一部完备的规则集,语言规则有很强的伸缩性。规则系统的普遍问题不完备规则本身的歧义理论不够严谨(ad-hoc)规则调整和更新很复杂维护困难具体方法42数据驱动的方法(经验方法、统计学习方法)1.建立可以反映语言使用情况的训练数据2.利用统计学习技术,基于训练数据学习到一个参数模型3.基于学习到的模型,对目标自然语言数据进行处理4.根据处理效果改进模型,提高处理性能。具体方法43在数据驱动的方法中,语言模型通常体现为一组参数,这些参数通常表示某个语言形式发生的概率值。例如:具体方法44参数训练过程是一个数值优化过程,例如:可以通过梯度下降等方法对参数进行优化、学习具体方法45问题:数据驱动的方法忽视了语言的深层结构训练数据的建设往往花销比较大结果不好分析、解释具体方法46融合规则驱动和数据驱动的方法规则驱动、数据驱动的优劣不能简单评价两种方法往往优缺点互补已经提出了一些策略,但须进一步探索目前数据驱动的方法占主流具体方法47目前,数据驱动的方法是主流1992:24%1994:35%1996:39%1999:60%2001:87%2010:>90%效果评测?自然语言歧义多、关于语言处理方法和系统的评测也需要解决相关的歧义问题1,规避语言学争议、制定 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 测试集2,看应用效果具体方法48NLP的概率统计基础、具体应用《统计自然语言处理》宗成庆编NLP的语言学基础《自然语言处理综论》冯志伟/孙乐译“学有余力”的同学还可以看以下参考书《PatternRecognitionandMachineLearning》Bishop,ChristopherM.,Springer-Verlag,2006参考书49什么是自然语言处理?自然语言处理和人工智能的关系?自然语言处理的难点?目前自然语言处理有哪些主流方法?复习思考题50谢谢!QUESTION?51
本文档为【自然语言处理-课件1】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥14.0 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
韶松
人民教师
格式:pdf
大小:1MB
软件:PDF阅读器
页数:0
分类:工学
上传时间:2019-06-04
浏览量:1