首页 基于中国哲学的计算机语义学1227

基于中国哲学的计算机语义学1227

举报
开通vip

基于中国哲学的计算机语义学1227null基于中国哲学的计算机语义学基于中国哲学的计算机语义学 鲁鹏一 lupengyi@gmail.com 北京大学哲学系博士生 2011-12提纲提纲一,为什么想做这个工作。 二,为什么说某个层面的语言是确定的 三,机器如何理解这种确定的语言 四,为什么只有从哲学出发,才能处理语义。 五,初步的方案设想。 第一部分:为什么想做这个工作第一部分:为什么想做这个工作1.为什么想到这个问题1.为什么想到这个问题出发点是中国哲学的宇宙论和心灵论,我做王夫之的博士论文,发现哲学家们用统一的理论描述了全...

基于中国哲学的计算机语义学1227
null基于中国哲学的计算机语义学基于中国哲学的计算机语义学 鲁鹏一 lupengyi@gmail.com 北京大学哲学系博士生 2011-12提纲提纲一,为什么想做这个工作。 二,为什么说某个层面的语言是确定的 三,机器如何理解这种确定的语言 四,为什么只有从哲学出发,才能处理语义。 五,初步的 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 设想。 第一部分:为什么想做这个工作第一部分:为什么想做这个工作1.为什么想到这个问题1.为什么想到这个问题出发点是中国哲学的宇宙论和心灵论,我做王夫之的博士论文,发现哲学家们用统一的理论描述了全部的宇宙和心灵。 就想到了计算机语义学(siri):既然这个框架描述了世界,那么应该也可以描述语言,而且是统一地描述语言。而有了统一的描述,那么也就可以进行运算处理了。 最后,大致的思路是:类似于解析几何,把词、句子的语义解析成统一的“某时空中某物的某活动”形式。而“某”是由数学关系表达的种种差异。 2.对计算机语义学的简单反思2.对计算机语义学的简单反思计算机作为运算工具,前提是对研究对象的准确理解。已有的成熟软件,其对象属性、数据结构、任务需求是很明确的。 一般认为人类语言是无规则的,或者说有无限增加的规则,所以不可能程序化。 所以,现在的计算机语言学,主要通过统计和语法规则来靠近人类语言,而对语言表达的意义关注很少,从而限制了真正的应用。3面临的困难3面临的困难仔细想下去,才发现有很多的问题。下面就讲一下几个重要的困难。 1,如何理解语言?维特根斯坦认为语言是无规则的。本文通过分析宇宙、人、心灵、语言、哲学、科学等方面,说明了语言有些是不确定的,但有些是确定的。而这些确定的部分,可以整体地解析出来。不过,这不是规则的方式,而是解析的方式。 2,与现有的统计和规则非常不同,这是新的解析方式。计算机方面不用说,而且与语法学不同,所以需要从哲学的角度来做。但是,西方哲学没有关注中国哲学的宇宙论和心性学,中国哲学则还没有处理实际问题的思路,所以一直没有人从这个思路来尝试。 续上续上3,CD模型等方法都试图通过叠加词义来获得句子的语义。但本文的关键是使用统一的方法来描述语义。所以,使用词义来叠加句子的语义,只是外在的形式。实际进行运算的是统一描述这种逻辑。所以,需要事先编辑基础库和根据基础库而来的字词库,这个工作量很大。 而且,与知网等知识库根据关系来编辑语义不同。本文对字词的语义进行最终的解析,从而使得每个字词都能用基本的“时空质点心灵”来表示,这样才能进行数学运算。 4,作为一种新的尝试,需要有一个证明。 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 在寒假写出基础库,然后试验一些句子样本。从而验证这种尝试是否能够做出了。 4解决困难以及提出本文的方法4解决困难以及提出本文的方法为了回应上述困难,下面分别解释: 二,为什么说某个层面的语言是确定的 三,机器如何理解这种确定的语言 四,为什么只有从哲学出发,才能处理语义。第二部分:为什么说某个层面的语言是确定的第二部分:为什么说某个层面的语言是确定的1科学所使用的方法1科学所使用的方法科学的处理对象主要是物质世界,以及少量的可程序化的人类活动,比如财务软件。 科学的出发点。原子原则,设定封闭的条件;这样才有了数学的表述,保证重复性。(程序化的人类活动也是如此。) 而我们现在试图直接处理人类的心灵世界,主要从语言开始。但是,心灵世界、人类语言不能原子化,其基本属性就是“整体性”,所以被认为无规则。2哲学所使用的方法2哲学所使用的方法哲学与科学的区分,在于哲学从整体上考虑问题,所以是没有 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 的。科学从具体框架中考虑问题,所以是有标准的。 哲学可以有多种,各自有自己的标准。但一种哲学内部是自洽的(即使实际是错误的),这样就有了对一个整体的描述系统。既然心灵和语言也是整体性,那么,从哲学的方式出发,就可以对人类心灵有整体性的描述。 注:所以,本文提供的整个解释、以及编辑的语词框架,可能有很多错误、争议的地方。但从可行性来说,只要其内部能够自洽,能够较好地完成目标效率,那么就是可以接受的。3宇宙与心灵的整体性?3宇宙与心灵的整体性?首先,宇宙具有整体性。虽然现在还没有非常完整的统一场论,但近似地可以达成某种统一。采用宇宙论的方式,从时空质点出发,力、运动等可以推演出来,进而所有的事物都可以描述出来。这样,我们可以说一般语言理解的宇宙是统一的。 其次,心灵具有整体性。本文采取的这一种哲学:认为心灵具有与宇宙类似的一种时空,所有的精神活动都是心灵时空的活动。那么,人类世界的复杂现象,都可以表述成在心灵时空中的各种活动。 (如何表述,后面再具体说。这里首先明确,这是一种整体,而科学并不会处理整体的东西。)4人与心灵是如何形成的?4人与心灵是如何形成的?人是从宇宙发展中产生出来的,人与宇宙整体是“连续”在一起的。 心灵是人在与宇宙的连续中,通过表象事物、并加工表象而形成的“新的时空”。 心灵一方面与实际事物是连续的,另一方面没有事物所受到的时空的限制。而且,心灵有自由意志和推理能力,可以产生新的东西。 所以,心灵产生了非常复杂的世界,人心深不可测(即使没有宇宙那样广大)。5语言的不同层面5语言的不同层面本文认为语言是心灵的产物,不是维特根斯坦认为的“语言是由各种语言游戏组成的异质类聚物。” 之所以这样认为,是基于宇宙、生命、人、心灵这样的进化过程来说的。语言也是从这个发展过程中来的,是有源而生的。那么,心灵就是语言的推动者。 从生成论上分解来看,语言有两个层面:一个是表象某事物的词。一个是心灵组织成的表意的连续句子。续上续上从语境来说,语言可以切割成三个层面。一是交流时传递的句子,这有公共的语义,这是有限的固定的。二是说话者听话者都对这个句子有自己的理解。三是我们再来看这句话,又可以有自己的理解。 基于计算机语义学的目标,主要处理第一个层面的语言:表象某物的词,以及有共同语义的单一句子。而认为其他层面的语言是人类心灵附加的处理能力,计算机是不可能处理的。 这样,我们界定了那些语言是确定的。6排除心灵的复杂性6排除心灵的复杂性虽然心灵有很强的推理和发展,但如果只是明确的心灵活动,那么至多是更为复杂的宇宙而已。实际上,心灵的复杂性主要表现在未知性上。 绝大多数情况下,我们不知道自己心灵想的什么,所以用语言表达出来,是模糊混乱的表达,这样就导致了心灵的复杂性。这是与心灵在时空中的自由意志和推理前进直接相关,我们对过去的已知的事情总是有更好的理解。 如果排除了心灵的未知性性,只处理明确的公共传递的东西,那么就不是那么复杂了,也就可以更好地理解心灵与语言的关系了。7心灵与语言7心灵与语言认知科学中有具身性(embodiment)的观念,即语言是在心灵参入其中、并且动态变化的过程中所产生的。这样,心灵既当运动员又当裁判员的状态,使得我们认为语言是无法解析的东西。 但是,这种具身性的出发点是参入者个人自身的角度。那么,能否可以从“包括所有事物整体的观察者”出发? 从维特根斯坦开始,这种被认为是形而上学的整体观一直被认为是不正确的。但是,基于计算机语义学的目标,我们只需要得到“可以公共性”的东西;即使知道这只是有限的,还有更丰富的东西没有处理。这样,这种整体性的理解方式就是可以接受。第三部分:机器如何理解这种确定的语言第三部分:机器如何理解这种确定的语言1人的整体性1人的整体性整体性、统一性是人所特有的。计算机所基于的数学,是严格形式化的封闭系统是从几个公理推导出来的。人的统一性如何适合于计算机表示?所以,我们要界定人与机器的根本不同。 这就如同哲学与科学一样,是整体性与部分性的不同。而且,部分与整体有着根本的鸿沟,部分的加总不等于整体,整体有着各部分之外的整体逻辑与推理能力。2机器处理整体性的问题2机器处理整体性的问题要让计算机处理人类世界的问题,我们不能从部分开始,从基础公理推导来得到。而是从整体性开始做减法,找到如何能够在有限的程度上把整体的东西表述出来。 第二部分讨论了有可以确定的语言。这是通过减去无法确定的东西之后得到的语言,所以,这就是计算机能够处理的对象。 但是,部分不可能真正表述整体,也不会具有推理能力。而人输入的句子,恰恰带来了整体性和推理能力。因此,即使是计算机语义学,人也是具身性(embodiment)地参入其中。3人的逻辑形式3人的逻辑形式再从逻辑形式上考虑,可以有三元与二元的不同。(庞朴老师观点,杜维明先生的体知也与之相关) 数理逻辑的系统基于矛盾律,从几条公理出发,逐步推理而增加到复杂的逻辑形式。这样的推理是演绎推理,不会增加新的东西,是封闭的系统。因为矛盾律,称之为二元的方式。 人类是从整体出发,相对于各部分的因素而高一层地考虑问题。因为是高一层的整体角度,可以对部分的两者加以推理,从而统一成新的东西。这是一种三元的逻辑。主要就是有了新的东西,而不是封闭的系统,这是人心灵的特有能力。4推理与三元逻辑4推理与三元逻辑一般理解,演绎推理可以是形式化的自动推理。但是,实际上演绎推理也是需要人在推理之外来设定大前提小前提,这个过程是机器无法做到的。所以,所有的推理都是三元逻辑,只是有的是封闭的,有的是开放的。 机器不可能有三元逻辑,不可能有任何的自动推理。这个判断让我们明确:需要合理地安排那些是机器来做的事情,那些是人来做的事情。 我们解析词的语义时,这是模仿人类语言的三元逻辑,所以编辑的语义库是连贯的,开放的。5机器在什么程度上理解了语义?5机器在什么程度上理解了语义?如果计算机准确地把句子转换到“某时空中某物进行某运动”这样的普遍形式以及其变种,那么,为什么说计算机理解了语义了呢? 我们的编程给计算机输入了空间、时间、质点、心灵等基本的元素,只要能够用这些元素以及“某某某”来表达出不同句子的不同的语义。那么,1,计算机就能区分这些语义有什么不同(识别的问题)。2,计算机能够根据语义的信息执行相应的指令,因为这些语义是形式化的语义了。 这也是人类理解语义的两方面结果:一是分辨每一个句子。二是能够接受这个句子的信息。 语义并不复杂!第四部分:为什么只有从哲学出发,才能处理语义第四部分:为什么只有从哲学出发,才能处理语义1计算机语言学发展的历史1计算机语言学发展的历史语言学的发展历史悠久,有复杂的理论诉求和解决办法。但计算机语言学的历史并不是很久。 计算机的普及本来就是80年代之后的事情。计算机语言学开始时用规则来描述,但是80年代之后主要就是统计的方法为主。 从实际需求来说,计算机语言学真正的发展是互联网的兴起,信息检索、机器翻译、数据挖掘是主要的推动力。 计算机语义学从来就没有正面地被关注过。2对语义的追求2对语义的追求当然,所有的语言学都希望能够得到语言的语义。 75年左右,大家对乔姆斯基式的仅仅基于规则就能理解语言的理论不再接受,而是认为语言是与自己、与社会相互交互而产生的复杂现象,产生了认知语言学。 既然是交互的复杂性,直接理解语言就不被接受,像神经网络语言学、机器学习等受到关注。 实用上,基于大语料库的统计方法更有效用,尤其是信息检索、机器翻译等很大程度上不依赖语义。3,73年的概念从属(CD)模型3,73年的概念从属(CD)模型历史上对语义的尝试主要是70年代的工作。比如CD模型,他有三个层面: (1) 概念依赖层面:动作基元,包括:物理世界的基本动作={抓,移动,传递,去,推,吸收,撞击}。精神世界的基本动作={心传,概念化,心建}。手段或工具的基本动作={闻,看,听,说}。 (2) 剧本:描写常见场景中的一些基本固定的成套动作(由动作基元构成,由六种概念范畴来结合) (3) 计划:其每一步由剧本构成(由概念从属关系来结合) 计算机按照这样的概念关系,处理输入的句子。 这是最简单的连接方式,肯定不够。 4从语法或逻辑能理解语义吗4从语法或逻辑能理解语义吗CD模型这类简单的方式理解语义不够,而计算机统计的方式也根本不会关注语义。那么,从语法的角度能够理解语义吗? 语法学有很多应用,可以提供分词、标注、句法分析等等。但是,一方面,语义是先于语法的,语法是对表达语义的句子进行分析而得出的,所以很难追溯到语义。另一方面,语法学是研究规则的,而语言的整体性确实很难用规则来处理。 与语法学一样,逻辑是形式系统,是一套规则系统。这样也难以描述整体性的人类语言。 5我们特别需要语义学吗5我们特别需要语义学吗回顾计算机语言学的历史,真正的需求是互联网的兴起,以前确实并没有可行的需求。但到了现在,搜索结果的精确性、数据挖掘的精确性,虽然从统计上可以有很多的发展,但如果有了语义,即使是有限的语义,也可以增加精确性。 语义与规则不同,规则不容易与统计同时使用。但是,语义可以使用统计之后的结果,再进行一次加工来提高精确性,两者是直接的无缝结合。 有了语义,可以产生新的领域,这是未来的想象了,人机交互、机器人、新的计算机网络都会可能。6从语言的表意功能开始反思6从语言的表意功能开始反思这是第一部分已经进行的工作。我们去理解语言如何形成的?他是如何运行的?为什么导致我们认为他无法理解。 从宇宙、人、心灵这样分析下来,可以看到语言的表意功能需要从整体性的角度才能理解,并且需要从整体中排出不确定的东西,才能被解析为计算机能够处理的统一形式。 但是,整体性的方法论已经被科学排除了。7从哲学出发的可能性7从哲学出发的可能性如果我们从已经习以为常的科学主义走出来,看到整体性的哲学方法论,也是可以处理似乎只有“严格的逻辑科学”才能处理的领域。那么,这如何可能? 因为计算机语义学需要有“重复性”,这样才有实际的效用。而这正是科学排除其他方法论的根本:只有逻辑科学才能够有重复性。 根据上文,从整体性中做减法而得到确定的东西。这样就保证了:虽然是整体性的问题,但已经控制到确定的东西上了。 续上续上但是,这种确定的东西依然是非常复杂的,需要找一种办法,能够把这些零碎多变的东西解析到统一的序列中,这样才能运算。就像解析几何一样。 这些零碎多变的东西,是人们对自己知道的宇宙和心灵所有事物的描述。为了找到统一的东西,可以借鉴物理上的统一场论,而直接的资源则是康德的理性认识论和中国哲学的心灵理论。 也就是说:只有建立一种统一描述宇宙与心灵的系统,才能处理表达宇宙与心灵的语言的语义。 要建立这样的系统,当然是哲学的工作。8哲学提供的一种思路8哲学提供的一种思路1宇宙和心灵的内容都是基于时空质点心灵的各种活动,这提供了统一性。 2,物理地描述时空质点心灵等元素、数学地描述力运动图形等关系、心灵地描述各种概念关系。这构成了三个基础的库。 3,然后使用这三个库编辑常用的字词的语义。因为都是用基础库来表示,是统一的形式化的,所以就能够进行运算。 4,对于输入的句子,计算机按照范畴关系以及字词之间的关系,经过多次运算而得出句子的语义。 9两个备注9两个备注1,开始就提到过,哲学没有标准,可以有多种哲学系统,只要是内部自洽的。上述的一种思路,是我自己的选择,完全可以有另外的系统描述。就像为同一事件编程,不同的人可以提供不同的程序,差别只是程序的好坏而已。 2,宇宙物理对宇宙的解释是统一的,不会有不同的系统。但对于语言的描述,站在不同的角度就可以有不同。本文是从哲学的整体性出发,而认知语言学从个体的具身性参入出发,两者对语言的理解肯定不同,而这两者都是正确的,可行的。 第五部分:初步的方案设想(未完成)第五部分:初步的方案设想(未完成)1设计物理元素的基础库1设计物理元素的基础库空间,时间 质点 生命 心灵 计算机不能理解物理元素,尽可能地提供计量的描述来指出这些元素的性质。 2设计数学关系的基础库2设计数学关系的基础库集合物。 力的关系 运动 图形 序列 也就是从时空和质点所能推导出的所有关系 3设计心灵关系的基础库3设计心灵关系的基础库能够、可能等情态词, 因果、但是、而且等连词, 进行、在、以及等助词, 改变、看、听、思考、想起等基本的动词 所有的情态词、关系词、语助词,都是范畴关系的结果,都是心灵逻辑的结果。 如果说数学关系就是时空质点的推导,那么心灵关系就是时空质点心灵的推导。 4编辑常用的字词的语义4编辑常用的字词的语义1,只能使用基础库的字词来表述。 2,有严格的前后顺序和形式。 比如,管理=前一物能够改变后一物。 3,有两部分,一个是用基础库表示的语义。一个是上下词之间的关系,这是语言内部的联系。 4,可以使用低一级的词来帮助思考,但最后还要转换成基础库的字词表述。 比如:民族=某个“社会”在长期的时间过程中,形成的一种时间维度的“组织”。 5设计范畴关系。5设计范畴关系。这与语义的普遍形式“在时空中某物进行某活动”是相通的,是普遍形式的各种变种。 我们可以借鉴哲学家的研究,康德提出了十二范畴,牟宗三提出了四个格度。 这些范畴关系是针对句子的,与心灵关系的基础库中的那些关系不同。 6简单的处理 流程 快递问题件怎么处理流程河南自建厂房流程下载关于规范招聘需求审批流程制作流程表下载邮件下载流程设计 6简单的处理流程1,输入一个句子,首先分词,找到词对应的可能语义,会有多个。 2,两两进行消词结合,得出词组的语义,并排除不能消词组合的。 3,对于这些词组组合,分别判断符合什么样的范畴关系,符合的就进行句子的消词连接,得出可能的语义。 4,再把语义放到基础库中,看这个句子的每部分语义,根据数学关系和心灵关系,是否矛盾。7验证没有矛盾就是正确的语义7验证没有矛盾就是正确的语义比如“看到了声音”,“声音”可以找到数学关系中的力,“看”可以找到心灵关系的“看”,看的对象在库中有说明,是可见的光,而不是声波这种力,这样,就可以看到两者是矛盾的。 比如“火车两分钟从北京到了上海”。根据语义,涉及到时间和距离,在数学关系库中有关于速度的设定,所以要有一个速度的验证。由此,判断出超过了火车的速度,从而认为矛盾。 8隐喻的问题8隐喻的问题与验证矛盾正好相反,隐喻是要验证相似性 9语言的倒装、省略、指代等9语言的倒装、省略、指代等这些语言现象,都是为了语义的需求。 可以在范畴关系中试错地调整。 可以使用语法规则来帮助处理
本文档为【基于中国哲学的计算机语义学1227】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_758621
暂无简介~
格式:ppt
大小:368KB
软件:PowerPoint
页数:0
分类:互联网
上传时间:2011-12-27
浏览量:7