化学文献数据库的网络应用及化学物质名称自动识别的研究（可编辑）

化学文献数据库的网络应用及化学物质名称自动识别的研究（可编辑）化学文献数据库的网络应用及化学物质名称自动识别的研究（可编辑）化学文献数据库的网络应用及化学物质名称自动识别的研究引言摘要数据库的网络应用是一项应用较为广泛的技术,它可以消除数据应用地域性的差异,最大效应的发挥数据库的作用。但是,如何提高数据库的检索效率、以及如何实现相关数据库的数据交流是摆在数据库应用中的一个重要的问题。其中数据库间的数据交互是提高数据库应用效果的核心问题, 也是数据库应用的发展方向。本文以化学文献数据库的网络应用为例详细的介绍了数据库网络应用中提高检索效率的方法,同...

化学文献数据库的网络应用及化学物质名称自动识别的研究（可编辑）化学文献数据库的网络应用及化学物质名称自动识别的研究引言摘要数据库的网络应用是一项应用较为广泛的技术,它可以消除数据应用地域性的差异,最大效应的发挥数据库的作用。但是,如何提高数据库的检索效率、以及如何实现相关数据库的数据交流是摆在数据库应用中的一个重要的问题。其中数据库间的数据交互是提高数据库应用效果的核心问题, 也是数据库应用的发展方向。本文以化学文献数据库的网络应用为例详细的介绍了数据库网络应用中提高检索效率的方法,同时为了实现化学文献数据库同其他相关化学数据库的数据交流功能,本文还着重对化学文献数据库化学物质名称的自动识别技术进行了研究和探讨。本文首先从化学文献数据库的应用背景以及用户的需求谈起,指出化学文献数据库的网络应用能够更加有效的发挥其化学领域巨大的参考、应用价值;同时指出如果能够实现化学文献数据库的检索结果同相关化学数据库的信息进行交流,将能够大大方便用户的使用以及提高数据库价值,而这二者也正是单机版化学文献数据库应用中的不足。本文在论述化学文献数据库的设计中分析了各种应用方案选择的依据,提出了能够适应化学文献数据库的应用,并能够提高开发的效率以及降低维护难度的应用方案。在数据库设计中本文还讨论了关于数据库元数据建立的问题,指出元数据的建立是实现数据集成、数据库二次开发和利用的关键,数据库元数据的建立是网络数据库应用中不可缺少的一步。本文在化学文献数据库的应用部分中,详细的介绍了数据库检索所采用的技术,以及优化的方法。检索是数据库应用中最为重要、关键的部分,考虑到化学文献数据库用户的需求,在检索中采用支持组合检索的技术??即采用逆波兰的检索技术来实现。在逆波兰检索应用中,本文讨论了一种新的用来处理逆波兰检索表达式的方法,以降低网络应用时系统的开销;在对数据库检索处理中, 本文探讨了提高大数据量(百万级)检索速度的方法??全文索引和簇索引技术,并对比了全文检索方法同常规检索方法的效率,提出全文索引的优化方法。本文还探讨了如何实现数据库间信息的交互这一数据库应用中的重要问题。要实现化学文献数据库的检索结果同相关化学数据库信息的交互,需要有一个数据库间的参照表,而在化学领域,这个参照表的内容就应该是化学物质名称。因此,为了实现数据库间的信息交互,必须将化学文献数据库中的化学物质名称标识出来,而采用人工的方法显然是不可取的。这里本文用较大的篇幅探讨了化学文献数据库化学物质名称自动识别技术的方法和应用。化学物质名称的自动识别技术实际上是自动抽词技术在化学领域中的应用。本文首先从化学家进行人工识别化学物质名称的方法入手,得出基本规律,同时研究了化学名词的构词法,结合两方面的特点,探讨出应用计算机技术对化学物质名称自动识别的可行性以及实现的基本方法;接着, 讨论了应用自动抽词技术的前提条件??抽词词典的建立。因为,抽词词典的完善以及准确与否, 是实现自动识别的关键。本文详细的介绍了抽词词典中数据的获得以及词典建立的方法和过程;随后,探讨了化学物质名称自动识别技术的算法??单个化学名词的自动识别算法以及实现可跨越的识别算法;本部分还探讨了关于自动识别技术的自学习功能,使得自动识别能够不断的更新。最后,本文进行了化学文献数据库的网络应用情况、自动识别功能和自学习方法的演示。关键词:化学文献数据库,数据库检索,全文检索,自动抽词,自学习 2 引言 Abstract The database network application is a very important technology, which can avoid the regional difference of data, and let database be more efficient. How to improve the retrieval efficiency and how to realize the communication among related databases are the two of the most important problems in database network application. In this paper, based on the network application of chemical literature database, the author introduces the some methods on how to resolve the above-mentioned two questions in details. The paper also discusses the technology on how to extract the chemical substance automatically with computer technology There are five parts in this paper. Firstly, this paper analyzes the application background of chemical literature database and the users’ needs, and put forward that the network application of chemical literature database can show its enormous reference value in chemistry field. In the other hand, the paper also points out that it will be very convenient for users to realize the communication among related databases. And these two points also are the main shortages of the PC database Based on the analysis on many schemes of database design, the author puts forward a scheme, which can adapt to the application of the chemical literature database, improve the develop efficiency and reduce the difficulty in maintenance. In database designing, the paper also discusses on how to set up the metadata of database, and indicates the importance of the metadata establishment In the part three, the author introduces a tec hnology---reversed polish algorithm on database retrieval in details. Based on the reversed polish algorithm, the author discusses a new method to reduce the load of server on network. Besides, the author also put forward two methods---full text index and cluster index to improve the retrieval efficiency of large database with million data. Compared with the full text retrieval method and general method, in the end of the part, the author also points out how to optimize the full text indexThe paper also discusses the data communication among databases. In order to realize the data communication among deference databases, there needs a reference, which is chemical substance in chemistry field. So it is very important to mark these chemical substances in chemical literature databaseIn this paper, the author discusses the algorithm on how to extraction of the chemical substance automatically with computer technology, which also is the main point of this paper The technology on how to automatic extraction of the chemical substance is the automatic extraction of terms application in chemistry field. The author analyzes the rules on how to mark the chemical substance by chemists, and studies naming rule for chemical substances. Based on these two points, the author puts forward the methods on how to extract the chemical substance by computer. At the end of this part, the author also discusses the self-learning function for extraction of the chemical substances, which can make the algorithm on how to extract the chemical substance by computers more perfectlyFinally, the paper shows these functions in actual applicationKEY WORD: Chemical Literature Database, Database Retrieval, Full Text Retrieval, Extraction of Terms, Self-learning3 引言目录引言本人工作章节安排第一章化学文献数据库的背景介绍以及需求、背景介绍、化学资源的网络化应用、数据资料及技术、客户的需求第二章化学文献数据库应用方案的选择以及数据库设计、方案的选择、具体实施方法、软件环境、组合检索的方法、数据库设计、数据库元数据的建立、数据流分析、数据库结构设计、数据库的安全性第三章化学文献数据库数据检索、化学文献库检索途径和方法、逆波兰算法、对逆波兰表达式进行检索操作的改进、改进后检索算法描述、大数据库的检索、常规检索与全文检索的效率、全文检索的维护和优化、检索结果同相关化学数据库信息的交互第四章化学文献数据库的化学物质名称的自动识别、自动抽词、实现此功能的意义、国内外关于此种方法的研究及现状、化学物质名称的自动识别技术在化学文献数据库中的应用、化学物质名称的自动识别的可行性、人工判断化学物质名称的方法、化学词汇的构词法、化学物质名称自动识别的可行性、前期准备(构建字典) 、化学物质名称的自动识别算法、单个化学词汇的自动识别、可跨越算法的设计、数据字典查询的优化 4 引言、自学习功能的探讨、自学习功能的必要性、自学习功能基本方法的探讨、自学习功能的算法描述、算法描述、算法演示、不足以及需要改进的部分、结果判断的合理性、运行的效率第五章系统实施情况、中国化学文献数据库网络应用、化学文献数据库的检索应用、化学文献数据库同相关数据库信息的交互使用情况演示、化学物质名称自动识别的应用演示、化学物质名称自动识别的演示、自学习功能演示结束语附录附录《科学数据库元数据标准讨论稿》简表附录全文索引的自动维护附录逆波兰运算符的处理函数代码参考文献致谢研究生期间的研究成果5 引言引言化学是一门实验性的科学,积累了大量的文献和数据,这些文献和数据对化学及同化学有关研究领域有巨大的参考、应用价值。中科院有机化学研究所的化学文献数据库和化学核心期刊数据库的光盘版一直在使用中,但光盘版在应用中有它的不足,例如: 更新速度较慢、无法实现数据的共享等等。在信息时代,网络提供了一个跨地域和跨平台的应用环境,它使得信息的共享成为可能。化学文献数据库的网络应用可以提供面向全社会和行业的服务,用户可以方便的通过浏览器访问数据库,消除了数据访问的地域性的差异,最大效应的发挥化学文献数据库的作用。同时,实现化学文献数据库以及化学核心期刊数据库的检索结果同其他相关的化学数据库进行信息交互式,不仅能够增强了化学文献数据库和化学核心期刊数据库的数据参考价值,还能够最大效应的方便用户的使用。本文将以中科院上海有机化学研究所的化学文献数据库、化学核心期刊数据库的网络应用为例,介绍化学文献数据库网络应用的方案设计、实施、化学文献数据库同相关化学数据库的信息交互以及化学文献数据库的化学物质名称的自动识别的研究和应用。本人工作本人从年月开始负责化学文献数据库和化学核心期刊数据库的网络应用开发,同时为了实现两个数据库的检索结果同相关化学数据库信息的交互还探讨了在化学文献中实现计算机对化学物质名称自动识别的研究。在这些研究中碰到了诸如如何提高检索效率、如何实现自动识别即自动抽词以及如何能够使自动抽词具有自学习功能等一些疑难问题,本人在参阅了大量的相关技术文档以及相关研究资料后,探讨出提高大数据量的检索效率和实现计算机对化学物质名称自动识别的方法,并成功的实现了化学文献数据库和化学核心期刊数据库的网络应用以及化学物质名称自动识别的应用。章节安排本文按以下的方式组织: u 第一章:介绍了化学资源网络应用的情况、化学文献数据库的数据资源以及应用现状,以及用户在应用化学文献数据库的需求。提出应该实现化学文献数据库的检索结果同相关化学数据库信息进行交互的观点。 u 第二章:介绍了化学文献数据库的开发时方案的选择,设计并构建了数据库。同时提出数据库元数据的建设时数据库应用的一个重要组成部分。 u 第三章:介绍了化学文献数据库检索的实现方法。并对逆波兰算法在处理检索结果的方式进行了改进,同时提出了如何提高大数据量检索效率的方法??全文索引。 u 第四章:介绍了利用计算机是实现化学文献数据库化学物质名称自动识别的方法。通过对化学家人工识别一个化学物质名称以及化学名词构词法的研究, 总结出一种方法,并最后实现算法。同时为了实现自动抽词的可扩展性,本章还探讨了关于自学习的算法。 u 第五章:对系统的实施情况进行了演示。 6 第一章化学文献数据库的背景介绍以及需求第一章化学文献数据库的背景介绍以及需求、背景介绍、化学资源的网络化应用 Internet是全球范围的信息资源库,在大大小小的站点上各种信息资源几乎应有尽有,其中化学信息资源也是丰富多彩。 Internet上的化学信息资源从年代初开始发展, 特别是在最近三四年的进展日新月异。这种信息媒体的革命已经开始对化学及同化学相关的研究人员的日常工作方式产生深刻的影响。研究人员可以通过 Internet化学资源导航系统、化学虚拟社区、Internet上出版的化学杂志 E-journals and E-publishing等媒介在 Internet上浏览各种化学资源,同时,Internet上召开学术会议也已经成为获得相关化学资源的一种有效手段。这些上化学信息资源的兴起,以及技术的发展为各种化学数据库、化学软件的远程服务和网络环境下的有机集成提供了现实的可能性,并为化学研究人员提供前所未有的“虚拟科研环境”。网络特有的跨地域和跨平台的应用环境,使提供数据库应用面向全社会和行业的应用服务成为可能。网络信息自动获取和推送技术的发展,也使得向化学研究人员自动地提供全球范围的、特定的化学信息资源将逐步成为现实。、数据资料及技术目前,中科院上海有机化学研究所的化学核心期刊文献数据库光盘和中国化学文献数据库光盘收集了大量的化学领域的论文。其中化学核心期刊文献数据库光盘精选了多种国际上化学化工领域最重要的期刊,包括了年以来国际上主要化学化工期刊中的论文摘要,达到近万条文献;中国化学文献数据库光盘则收录了年以来中国作者在化学领域发表的论文的摘要。庞大的信息资源提供了较完整的化学文摘、化学全文的资料,并且每年还不断的进行季度累积更新,使用户能够及时、准确的查询到最新的化学文献信息,这些数据资源为化学文献数据库以及化学核心期刊数据库的网络化提供了数据信息基础。一些相关的化学数据库(如分子结构数据库、光谱数据库等),也已经建设完成并投入使用,使得化学文献数据库同相关数据库的信息交互成为可能,这也为化学文献数据库同其他相关数据库的信息交互提供了数据上的保证。另外,Browser\Server的三层结构的技术已经较为成熟,基于 Browser/Server数据库的构建和检索方法的建立的方法也有很多的探讨,这些也为化学文献数据库的建设提供了一个技术基础。、客户的需求化学文献数据库保存了大量化学及同化学有关的文献资料,是化学领域较为权威和 7第一章化学文献数据库的背景介绍以及需求全面的信息资料库,它的应用对许多化学及化学相关领域的研究提供了信息的参考依据。在这一领域中美国的 CA数据库是最为完整的化学文献数据库,它收录了多种化学著名期刊,同时也包含了个国家和两个专利组织 EPO和 WIPO的专利资料,是目前化学化工领域中最重要的研发资源。近几年国内一些科研机构在基于网络环境下的化学数据库的建设方面进行了一定的研究,并且有一些相应的数据库产品面向社会服务。例如:清华同方、万方提供了包括各专业的非常全面(全文、文摘)的数据库,但由于这些数据库是综合数据库,分专业查找较为复杂。另外,国内的一些化学专业的数据库只提供了篇名检索而无全文检索功能,如要查全文要到相关的馆藏中去查找。这样对用户应用相关的数据库进行查询就显得不是很方便。考虑到用户的这方面的需求,如果有一个能够对化学化工领域的资料收录较为全面,能够提供各种关键词、文摘以及全文检索的数据库将大大的方便用户的使用,也能够最大效应的发挥化学文献数据库的信息参考依据的作用。化学是一门研究性很强的学科,客户往往需要对查询到的相关信息进行全方位的了解,例如:化学家以及化学相关工作的研究人员在得到一篇化学文献的同时可能还想进一步的了解该文献所讨论的化合物的分子结构以及光谱等相关的信息。然而,传统的数据库应用只局限于单一数据库信息的使用,没有提供相关数据库间的数据信息共享的功能,如文献数据库只能查找关于化学文献的信息,而不能通过文献的内容查找相应的诸如文献中出现的化合物的信息等。因此,数据库间的信息交互成为用户的一种需求,实现化学文献数据库同其他相关数据库的信息交互使用能够满足客户的多方面的需求。中科院上海有机化学研究所的化学文献数据库能够提供即时、全面的化学文献信息,还能够使用户在查到相关文献的同时能够更好的了解到该文献中的所包含的其他化学信息,如所论述的化合物名的分子结构图等等。 8 第二章化学文献数据库应用方案的选择以及数据库设计第二章化学文献数据库应用方案的选择以及数据库设计、方案的选择、具体实施方法考虑到化学文献数据库网络应用的情况,系统采用 Browser/Server(下面简称 B/S) 结构的应用。用户的客户端只要安装IE或者Netscape Navigator即可方便的访问数据库。 B/S结构具有分布性特点,可以随时随地进行业务处理。业务扩展简单方便,通过增加网页即可增加服务器功能;维护简单方便,只需要改变网页,即可实现所有用户的同步更新。开发简单,共享性强。系统的设计采用三层结构设计的方法,即客户端层、逻辑处理层和数据库检索层,保证了系统高效性以及安全性。在客户端层,用户可以通过 Internet登陆到数据库系统,在 Web浏览器中输入检索表达式并选择查找数据库(如:化学文献数据库或化学核心期刊数据库)。在逻辑处理层(应用 IIS信息服务器),系统要完成对用户身份的鉴定、输入表达式规范性的检查、检索表达式的分析、用户检索情况的跟踪等工作。并根据不同的用户级别对用户的检索表达式进行相应的处理,将分析结果送到数据库服务器。在这部分中,应用微软公司的 COM组件的技术,提高了事务处理的效率。在数据库服务器端,系统应用 SQL Server数据库的存储过程进行业务处理, 将检索的结果返回给中间组件。应用存储过程进行数据处理不仅可以提过数据检索的速度, 同时还可以进行存取权限的设定,增强了数据库的安全性。下图为系统的具体实施结构图。系统结构图(图一) 、软件环境 ( )、数据库方面的选择当前,应用最广的网络数据库开发工具有两种:SQL Server数据库和 Oracle数据库。这两种数据库在企业级的网络数据库应用中占有很高的比率。考虑到化学文献数据库的实际情况,系统采用了 SQL Server数据库作为后台存储数据库。首先,系统拟采用 Windows 操作系统作为服务器操作系统,由于数据库在 Windows 操作系统下较高的性能和兼容性,能够更好的发挥两种软件的特性。相比较而言, Oracle数据库同 Unix系统的兼容性更好;其次,由于化学文献数据库以及核心期刊数据库的数据加起来不到万条记录 ,属于中等规模的数据量,这也较为适合应用 SQL 9第二章化学文献数据库应用方案的选择以及数据库设计 Server数据库。而 Oracle数据库是一个大型数据库,它的优势是在处理大型、超大型数据才能充分体现出来;再次,两种数据库的价格也是一个不容忽视的方面。 ( )、前端开发工具以及 COM组件开发工具的选择化学文献数据库的前段开发工具采用网站建设工具,COM组件采用 Visual Basic 进行开发。 ASP、IIS4.0、SQL Server数据库的结合是目前开发网络应用较为流行的工具,它具有微软应用软件易用性、高效性、稳定性等特点,是用于快速构建网络应用的首选工具。虽然另一种快速网站建设工具 JSP同 ASP具有相同的功能,但从易用性以及开发效率上,ASP更为适合。在中间件的开发中我们采用Visual Basic 6.0作为COM组件的开发, Visual Basic 是目前最为流行的软件快速开发工具之一,它同 ASP、IIS4.0及 Windows 的紧密结合,保证了系统的兼容性和稳定性。同时,Visual Basic 同其他一些应用程序开发工具(C++、Java)相比具有快速开发性、易于维护性以及对系统硬件的要求较低等特性。 ( )、其他工具另外,系统开发过程中还应用了计算机辅助软件工程(ERWIN)技术进行数据库系统设计和开发,确保数据库系统的规范化、可移植性、可靠性,提高了系统开发的效率。、组合检索的方法化学文献数据库以及化学期刊数据库应用的用户大多数为一些化学领域及与化学有关的相关研究机构的研究及工作人员,这些研究人员在进行相关检索时经常要进行较多的条件限定。因此,考虑到这些用户的特殊需求,系统在检索设计时采用了逆波兰的算法,支持复杂的检索表达式,提供复杂组合检索(多个检索项同时支持组合检索)和简单组合检索(只支持单个检索项的组合检索)相结合的方法,以满足不同用户的需求。、数据库设计数据库设计是建立数据库及其应用系统的核心和基础。它是根据用户的需求,设计数据库的结构和建立数据库的过程。在这个过程中要对指定的应用环境构造出较优的数据库模式,建立数据库及其应用,使系统能有效的存储数据,并满足用户的各种应用需求。化学文献数据库的数据库设计分为若干个阶段,它们包括:数据库元数据的设计、数据流分析、数据库的物理、逻辑设计以及数据库安全设计等。、数据库元数据的建立随着各行各业对数据需求量的迅速增加,产生了大量的、各种类型的数据库。由于数据库的建设是由不同领域、不同开发者完成的,因此数据库在内容、格式、说明等1 张效详等,计算机科学技术百科全书, 清华大学出版社 1998年10第二章化学文献数据库应用方案的选择以及数据库设计方面存在着很大的差异。如果数据库的开发人员不能提供一个规范的、标准的数据说明文档,不仅仅使用户就连后继的开发人员面对这些不同领域、不同类型的数据库时也会常常感到无从入手,这样的数据不能被很好的应用,也就失去了它应有的功能。为了方便数据的交换、更新、检索以及数据库的集成、数据的二次开发、利用等,在数据库的建设过程中,不仅要求数据的内容、格式、说明等要符合一定的规范和标准, 还应当能够提供大量的引导信息以及由纯数据得到的推理、分析和总结等,而这一切都需要通过数据的元数据系统来实现。化学文献数据库更加强调同相关的数据库进行数据的共享与沟通,有时不同领域的数据还要进行联合查询甚至数据交流,例如,经常要通过文献查找到相应化合物的结构图及相应的图谱或核磁方面的信息。因此,元数据的建设在科学数据库中就显得很重要。元数据是关于数据的描述性数据信息,英文形式为“ metadata”。从定义上来讲,元数据是关于数据的数据,或者说是关于数据的结构化数据。它应当尽可能多的反映数据集自身的特征规律,以便于用户通过元数据库可以检索、访问数据库,可以更有效的利用数据资源,以促进数据库的高效利用和充分的开发。化学文献数据库元数据的建设是基于《科学数据库元数据标准讨论稿》(见附录一),使用了八个元数据字段类别,即数据库名称,数据库简介,数据字段格式, 数据库描述,数据库访问,数据库联系人,元数据作者,关键词及附注,共有个字段组成。、数据流分析通常用数据流程图反映了系统中数据信息流的分析。数据流程图表示求解某一问题的数据通路,同时规定了处理的主要阶段和所用的各种数据媒体,它能表达系统各功能和信息的关联情况。数据流程图是从“数据”和“处理”两方面来表达数据处理过程的一种图形化的方法,图中的“处理”抽象的表达系统的功能要求,每一步功能都可以分解为若干的子功能,这些子功能就描述了系统数据处理的过程。图二从“数据” 和“处理”两方面描述了化学文献书库的数据处理过程。2 《元数据》吴建中主编上海科学技术文献出版社年月第一版上海 3 国家技术监督局,中华人民共和国国家标准 GB1526?89 ISO5807?1985 ??信息处理?数据流程图、程序流程图、系统流程图、程序网络图和系统资源的慰问件编制符号及约定。11第二章化学文献数据库应用方案的选择以及数据库设计化学文献数据库数据流程图(图二) 该流程图实际上是对图一的细化,它分别描述了系统在三层结构中的不同功能。在应用端,系统接收到用户的登陆输入,系统将鉴定用户的身份以及该用户的系统使用权限;对于合法用户,系统将进入逻辑处理层,这部分由 COM组件对用户的输入进行标准检查,同时作相应的逻辑处理,完成基本的数据处理的工作。逻辑处理层起到同用户进行交流的功能,不仅要将用户的检索输入进行处理,还要将检索的结果返回给用户;数据库业务层完成的是将逻辑层传送的数据处理结果送到数据库中进行检索,这部分大多由数据库的存储过程来完成。、数据库结构设计 ( ) 数据库的概念设计数据库的概念设计是指数据库对信息需求的概念结构,即概念模型。这个模型是不依赖于计算机系统和具体的数据库系统(DBMS)的。概念设计方法采用的是著名并且非常实用的“实体?联系法”,即 E-R图描述法。这种方法统一应用属性、实体以及实体之间的联系来描述信息的结构。图三显示了化学文献数据库的图(部分) 12第二章化学文献数据库应用方案的选择以及数据库设计化学文献数据库图(部分) ( ) 数据库的逻辑设计逻辑设计是把概念结构转换为某个所支持的数据模型上的结构表示。即将概念模型(E? R图)导出到特定的数据库系统( DBMS)可以处理的数据库的逻辑结构。这些模式在功能、性能、完整性、一致性约束及数据库可扩充性等方面可以满足数据库系统的设计需求。为了确保数据库系统的规范化、可移植性、可靠性,并且提高系统开发的效率,在数据库的逻辑设计中采用数据库统一建模软件进行逻辑设计,然后利用 ERWIN 软件先进的导出功能,将数据库结构导出到 SQL Server 7.0数据库中。下图显示了在 SQL Server 7.0数据库中的化学文献数据库的结构图。化学文献数据库结构图(SQL Server 7.0 diagram)(图四)4 唐世渭、杨冬青,INFORMIX关系型数据库系统,中国计算机软件与技术服务总公司培训部,1993年13 第二章化学文献数据库应用方案的选择以及数据库设计、数据库的安全性安全性问题是所有计算机系统都有的问题。由于数据库系统集中存放了大量的数据,而且是多用户共享,这就使得安全问题显得更为重要。化学文献数据库采用了系统处理的安全方式。下图显示了数据库的安全模型。安全模型(图五) 在系统的安全性方面,化学文献数据库采用了以下的一些措施: n 在该系统中,当用户进入系统时,首先要进行用户身份的鉴定,系统根据用户输入的用户名和密码确定用户的身份和级别(在本系统中,不同级别的用户具有不同的访问权限。例如:不同权限的用户拥有查看不同年限的文献的权利)。 n 采用三层的结构框架,通过中间件来对数据库进行操作,保证数据库的安全。在逻辑处理层中,对用户输入的检索表达式进行分析,并且对一些非法的语句进行过滤(如:用户可能在浏览器地址栏中输入对数据库进行非法操作的 SQL 语句,逻辑处理层可以滤掉一些诸如 delete等对数据库有危害的操作语句)。 n 进入系统的用户,SQL Server 7.0数据库还要进行存取控制。这一步是为了控制用户对数据库对象存取的操作,以保护数据的完整性、安全性。化学文献数据库大量的采用了视图、存储过程的应用,有效的限制了非法用户对数据对象的访问,保证了系统的安全。 n 为了防止由于病毒或者意外操作所造成的数据库的破坏及数据丢失等情况,对化学文献数据库及日志文件定期进行数据的备份,并保留有备份的后备副本, 在出现异常现象时,可以及时的进行数据恢复。 n 另外,为了防止来自网上对数据库系统的恶性攻击,在系统设计时也作了一些相应的措施,对数据库中一些可能被攻击者利用的系统存储过程进行了相应的处理,如:删除 x_cmdshell,sp_addlogin等系统存储过程; n 将数据库的端口重新设定,以防止来自网络上的对数据库的非法探测。 14第三章化学文献数据库数据检索第三章化学文献数据库数据检索检索信息是数据库系统最为重要的功能,也是数据库系统构建时的核心任务。化学文献数据库为了满足用户的需求采用组合检索的方法,并且由于数据库中的信息量较大,对检索效率方面的要求较高,因此对数据库的检索系统的设计以及优化就成为化学文献数据库系统的关键性问题。、化学文献库检索途径和方法考虑到化学文献数据库要满足用户组合检索的需求,系统在检索应用中运用了经典逆波兰的算法。在实际应用中,为了简化检索的操作及降低系统的开销,在对逆波兰表达形式进行检索操作时,进行了一点小小的改变,降低了用于存储检索结果的工作区个数,以适应网络环境下的应用。下面将简单的介绍逆波兰算法的实现过程以及实际应用的方案。、逆波兰算法逆波兰算法是传统倒排文档对检索表达式进行处理的一种方法。下面从逆波兰表达法、提问表达式的逆波兰变换处理、将逆波兰的表示形式翻译成检索指令三方面简单的介绍一下逆波兰算法。 ( ) 逆波兰表达法通常在书写算式表达式时,总是把运算符放在两个运算项的中间,如“A加上 B 后再乘以 C”可以写成“A+B*C”。对于这种表达式,执行运算时一般是从左向右进行,遇到括号时,先做括号内的运算,后做括号外的运算,并对不同的运算符规定了不同的运算优先次序。这种表达法对括号内运算项的运算次序有一定的限制,但在大多数情况下,书写表达式时括号无法去掉,所以计算机将检索表达式翻译成机器所熟悉的表达式就会有一定的困难。年波兰的一位逻辑学家卢卡西维兹( Jan Lucasiewicz)首先提出了逆波兰的表达式法,它将上面的表达式变成 AB+C*,这种方法将运算符放在运算项的后面,并去掉了括号,简化了表达式的书写。逆波兰表达法有两了优点:?保持运算符的个数不变;?运算项个数不变,且前后顺序也保持不变。此外,逆波兰表达法的处理更加简单方便,符合常规的执行顺序: 只需要从左向右扫描表达式,遇到运算项时,就把它保存起来,遇到运算符时,就取出其前面紧接的两个运算项进行运算处理,并把结果当作一个新的运算项保存起来, 在继续向右检查表达式的其它符号,直至结束。由于逆波兰表达式的上述特点,它便成了计算机程序设计中翻译表达式时常用的一种内部形式。提问逻辑式采用逆波兰表示,其道理也在于此。 ( ) 提问表达式的逆波兰变换处理为了实现提问式的逆波兰变换,首先应设置三个工作区:逆波兰输出区;算子栈; 检索词表。逆波兰输出区是为了存放经变换处理后提问式的逆波兰形式而设置的区域; 算子栈是一个“先进后出”的表,它是形成逆波兰表示过程中不可缺少的临时堆栈,5 赖茂生、王延飞、赵丹群编著,计算机情报检索, 北京大学出版社15第三章化学文献数据库数据检索主要用它来重新排列运算符,以便确定运算顺序;检索词表是将提问式中的检索词列成表,这样在逆波兰输出区中可以使用检索词表中的地址来代替作为运算项的检索词。逆波兰变换过程中运算符的处理是通过各自的优先级来控制的。下面将有关运算符的优先级列于表中(优先级大小按数值记)。各有关算符的优先级(图六) 逆波兰变换处理可依照下述规则进行: ?从左向右逐个扫描提问式的字符,然后予以适当转换。 ? 如果是检索词(运算项),则将其置入检索词表中,并将相应的词表地址送入逆波兰输出区中。 ?如果是运算符,,则将它与算子栈栈顶的那个运算符按优先级进行比较: 如比栈顶算符优先级高,则把它压入栈内,若相等或低于栈顶算符的优先级,则取出栈顶算符,转送入逆波兰输出区,然后再与新的栈顶算符比较优先级,以此类推。 ?如果是左括号“(”,由于其入栈时优先级为,最高,应将其无条件置入栈内, 进栈后其优先级变为最低,为。 ?如果是右括号“)”,则表示该“)”及与之匹配的“(”之间的所有运算都可以执行了。这时应从算子栈中按“后进先出”次序将这对括号内的算符依次弹出,移入逆波兰输出区,而“(”本身也由栈内清除掉。 ?若为逻辑式结束标志“ ”,则将留在算子栈中的算符依“后进先出”次序全部移入逆波兰输出区中,最后将“”亦置入其中。例如:提问式( ) 的逆波兰变换处理过程及结果以及用到的工作区之间的相互关系见下图。 16 第三章化学文献数据库数据检索逆波兰变换处理示意图(图七) ( ) 将逆波兰的表示形式翻译成检索指令在提问逻辑式展开成逆波兰表示形式之后,还不能用于对数据进行检索,这一步仅仅是将检索表达式变换成便于计算机处理的表达式,接下来还要将逆波兰展开加工或翻译成适当的检索指令。在这个加工或翻译过程中,除了用到原来的逆波兰输出区和检索词表外,还需要设置一个检索指令表,来放置由逆波兰形式转换而来的检索指令。另外,为了存放某个检索词的命中内容的 ID号集合,以便它们进行逻辑运算以及放置运算的结果,一般还需要设置一批工作区,工作区的个数,一般设置个。下面介绍一下检索指令表及将逆波兰表达式翻译成检索指令的过程。检索指令表由一系列检索指令组成。每条检索指令的构成形式如下:检索指令表(图八) 按检索指令的功能,共有种检索指令(操作),它们的详细叙述及操作形式见下 17 第三章化学文献数据库数据检索图: 检索指令一览表(图九) 检索指令表的形成,遵循以下处理顺序和规则: 从逆波兰输出区的第一行开始逐行扫描,同时按以下顺序给出检索指令。 ?遇到检索词地址(运算符):找出可用的工作区 Wi将词表地址作为第一操作数, Wi作为第三操作数,做出“输入指令”,置入检索指令表中。 ?遇到算符:取出两个运算次序最高的(及最近被占用的)工作区号码,依次占用先后分别作为第一、二操作数,按算符性质做出“或”、“与”、“非”检索指令,并将指令下推进检索指令表。需注意的是:当执行完该逻辑操作指令后,有第三操作数所确定的工作区“被占用”,而由第一、二操作数所确定的工作区则释放,为“为被占用”。 ? 当描述到结束符“ ”时,说明逆波兰输出区已扫描完毕,且必定只有一个工作区“被占用”。这时,将此工作区的号码作为第一操作数,最终工作取得号码作第三操作数,做出“存储指令”,并送入检索指令表中。 ?紧接着“存储指令”之后,便做出“终止指令”,并下推进检索指令表。、对逆波兰表达式进行检索操作的改进网络环境有别于单机环境,由于要处理多用户的同时访问,因此对系统的开销也就较大。逆波兰算法对检索表达式进行检索操作时用于保存结果的工作区共有个,当有多个用户同时访问系统时,对系统的压力较大,容易造成系统响应速度的下降,影响用户的检索效率。在实际的应用中,我们对逆波兰算法对检索操作的过程进行了一 18第三章化学文献数据库数据检索些改变,减少了工作区的数目,从传统的个减少到个,大大的减少了由于多用户访问可能造成的系统开销过大的问题,也提高了算法的执行速度。在这个改变中采用的具体方法是:将逆波兰输出区的结果逆向输出,改变运算的次序,这样仅使用两个工作区来保存检索结果。下面通过对两个检索表达式: A+B*C+D 和? B*C+D*E+A*C的具体处理过程的来描述两种方法的差异。 ( )、逆波兰检索算法的方法 ?检索表达式:A+B*C+D,需要个工作区来存储检索指令和检索结果根据逆波兰表达式的变换方法,它的逆波兰输出形式为:“AB+CD+* ”。按照图九所示的检索处理方法对这个逆波兰的表达形式翻译成检索指令,共需要个工作区: 两个用来保存 A和 B或者 C和 D的检索表达式;两个用来存放 A和 B或者 C和 D的逻辑“或”运算的结果;第五个工作区用来存放最终的结果,即 A和 B的逻辑“或” 运算的结果与 C和 D的逻辑“或”运算的结果再进行逻辑“与”运算的结果。 ?检索表达式:? B*C+D*E+A*C,需要个工作区来存储检索指令和检索结果这是一个较为复杂的检索表达式,根据逆波兰表达式的变换方法,它的逆波兰输出形式应该为:“BC*-DEA+*C*+ ”,这时,对该逆波兰表达式进行检索所需的用于保存结果的工作区将更多,是个工作区(参照图九以及上一个检索表达式的处理方法)。 ( )、改变后的方法下面,再看一下逆波兰输出区逆向输出时对检索结果的保存所需要工作区的数目的影响。 ?检索表达式:A+B*C+D,需要个工作区来存储检索结果根据逆波兰表达式的变换方法,它的逆波兰输出区的逆向输出的形式为: “*+DC+BA ”在进行检索查询时,先设定两个用于输出结果集的工作区 Work1和 Work2。检索结果集的保存过程见下面的图表。 AB+CD+*逆波兰表达形式逆向输出 *+DC+BAC和 D进行+运算,将结果保存到 Work1中 *Work1+BAA和 B进行+运算, 将结果保存到 Work2中*Work1Work2工作区中的纪录进行*运算 Work1示意图(图十) 该方法先将逆波兰的输出区逆向输出,然后从左向右完成检索表达式的转换。以上图为例,系统先对 C的 D进行逻辑“或”运算,并将结果存放在工作区(即 Work1) 中,然后再对 A和 B进行逻辑“或”运算,并将结果存放在工作区(即 Work2)中, 最后对工作区和工作区进行逻辑“与”运算,并将结果保存在工作区中,工作 19 第三章化学文献数据库数据检索区中的内容即为检索的结果。 ?检索表达式“? B*C+D*E-A*C”,需要个工作来存储检索结果该检索表达式的逆波兰表达形式为:BC*-DEA+*C 。它的工作区的使用情况见下图: BC*-DEA+*C*++*C*+AED-*CB +*C*Work1D-*CB +*CWork1-*CB +Work1-*CB +Work1-Work2 +Work1Work2 Work1 示意图(图十一) 取出工作区 Work1中的纪录集,就是要检索的结果。从这个例子中我们也可以看到,不管表达式有多复杂,我们都只需要两个工作区即可完成逆波兰表达式的检索, 节省了系统的存储空间,同时也降低了多用户的情况下系统的开销。该算法的具体描述见下节“检索算法描述”的内容。、改进后检索算法描述下面将详细的介绍化学文献数据库检索系统中检索算法的流程图。 20第三章化学文献数据库数据检索算法示意图(图十二) 该方法首先对经过变换而形成的逆波兰表达式进行逆向输出,然后将遵循下面的方法。算法规则: ?应用程序从左向右扫描表达式。 ?当遇到运算符“ ”,“ ”时查看该运算符后面连续两个单元是否为非运算符的内容,即是否为运算项或工作区标识(Work1或 Work2)。如果为非运算符的内容,则进行相应的逻辑“与”或逻辑“或”运算。对于非运算项的操作包括以下三种情况。 n 两个运算项为简单的检索表达式这一步对应着算法示意图中的“只包含单个算子或检索表达式”。如果两个非运算项的内容不包含工作区标识且工作区 Work1中为空,则对两个运算项进行检索查找, 并将检索结果存放到工作区 Work1中,若工作区 Work1中不为空,则将结果存放到工作区 work2中。 n 两个运算项是工作区号这

                    本文档为【化学文献数据库的网络应用及化学物质名称自动识别的研究（可编辑）】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

化学文献数据库的网络应用及化学物质名称自动识别的研究（可编辑）

你可能还喜欢