首页 面向关系型数据共享的数据网格中间件研究

面向关系型数据共享的数据网格中间件研究

举报
开通vip

面向关系型数据共享的数据网格中间件研究面向关系型数据共享的数据网格中间件研究 中国科学院计算技术研究所 博士学位论文 面向关系型数据共享的数据网格中间件研究 姓名:南凯 申请学位级别:博士 专业:计算机系统结构 指导教师:阎保平 20060501摘要 数据资源是信息社会中最宝贵的资源之一;科学数据是.活动的重要基础。 关系型数据通常是经过认真设计和仔细整理的数据,具有更高的价值。大量用户通过网 络共享大量关系型数据的重要意义不言而喻,然而,由于资源发现、异构性、安全性等 多方面的困难,目前用户一般无法通过/直接访问关系型数据库管...

面向关系型数据共享的数据网格中间件研究
面向关系型数据共享的数据网格中间件研究 中国科学院计算技术研究所 博士学位论文 面向关系型数据共享的数据网格中间件研究 姓名:南凯 申请学位级别:博士 专业:计算机系统结构 指导教师:阎保平 20060501摘要 数据资源是信息社会中最宝贵的资源之一;科学数据是.活动的重要基础。 关系型数据通常是经过认真设计和仔细整理的数据,具有更高的价值。大量用户通过网 络共享大量关系型数据的重要意义不言而喻,然而,由于资源发现、异构性、安全性等 多方面的困难,目前用户一般无法通过/直接访问关系型数据库管理系统中 的数据,现有技术的不足限制了大范围的关系型数据的共享。在科学研究领域,这方面 的需求尤其突出。 本文的主要研究目标是如何通过近年来发展的数据网格中间件技术解决上述关系 型数据共享中的困难。除了一般的资源共享问题所要考虑的因素之外,这个问题具有以 下四个特点或约束:用户只需要读取数据,不涉及数据更改和管理;有着长久价值并被 广泛共享的数据一般不会频繁更新,特别是科学数据;不同用户所能够得到的数据在范 围和内容上可能是不同的,需要对大范围、种类复杂的用户进行权限管理;数据共享的 方式以系统的资源复制为主,片段式的查询为辅,要求高效的海量数据传输能力。 针对以上的目标定义,本文重点研究了三个关键问题:如何找到数据,如何取得数 据,如何对数据授权。如何找到数据意味着如何让用户从大量的关系型数据库中找到存 有或可能存有他所需要的数据的那张表;如何取得数据意味着如何让用户以标准、 便捷的方式取得他可以理解和使用的数据;如何对数据授权意味着如何让大量跨管理域 的、无序的用户通过简便、灵活的机制获得合理的权限来共享数据。 本文所取得的主要成果如下: 提出了面向关系型数据共享的数据网格体系结构?。符合面向 服务的体系结构并进行了扩展,给出了数据模型、数据资源标识方法、服务 模 型、以及数据网格中间件体系结构。比现有 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 增加了索引机制,通过代理授权 加强了权限管理,使得能够更好地解决关系型数据资源发现的难题,并能适应和 支持网格环境中大量跨组织用户,具有可扩展性。资源发现、数据访问、权限管理是 中的三项关键技术。 , 研究了基于元数据的注册机制,提出了基于关系型数据全文索引的搜索机制, 并集成二者设计了数据资源发现服务。在网格环境中基于索引进行关系型数据 资源发现是这部分工作的主要创新点,给出了索引的数据模型、索引构造方法、搜索算 法与排序算法、资源权值评价与摘要生成方法,等等。将索引机制和注册的元数据结合, 可以大大提高资源发现的效果和易用性。针对数据共享活动中的数据访问需求,设计了数据共享服务,定义了 数据共享查询语言,设计了包含查询、浏览、下载三种操作的共享服务接口、 索引源接口等。一方面简化了标准,以降低复杂性和提高性能;更一方面丰富 和完善了共享的功能,并通过索引源接口为中的索引服务提供关键性支持。 提出了适合于数据共享的权限管理模型,给出了权限表示、授权策略和凭证 管理的方案,通过代理授权和间接授权机制大大提高了用户和权限管理的能力,能够服 务大规模的网格用户群。提出了针对关系型数据的增强访问控制机制及一个中的 实现框架,可以对数据进行字段和记录级的细粒度访问控制,支持特殊的数据变换,通 过插件方式可灵活扩展。 综合上述几方面的研究成果形成了一个比较完整和系统的关系型数据共享解 决方案。部分研究成果已经在项目中实际应用并取得很好盼效果。 关键词:数据网格;数据共享;关系型数据;网格体系结构;资源发现;数据访问; 权限管理 . . ., . ., ,,, , 衄 .. ,. ? , . , : , ;, ; ; , ,. ,. : , ,” / ” . ” ’’ . ”. ” ? . , : ? . , , , ,. . . . , 八 , . 也 .. 。, , 曲曲 . . 也 ? . ,, ?, , ,. , ; , ., .。 ., ..; ; . .. .: ; ; ; ; ; ; 图目录 图.网格的层次体系结构模型及沙漏模型??. 图.面向服务的体系结构 、、的关系及演化图. 的新体系结构 图. 加入索引机制的服务体系结构图. 图. 数据共享网格体系结构??.. 的描述??.?.??. 图. 图. 核心规则集??. 的服务模型 图. 图.资源发现和数据访问的交互过程. 图. 通过获得授权然后访问数据的过程??. 图. 数据网格中间件体系结构? 图 结构的设计? 图. 图 界面图.用定义的语法规范 的定义。 图. 图.关系型数据的增强访问控制框架? 图.科学数据网格的软硬件资源。 图.科学数据网格软件包的体系结构?. ?表目录 表. 国际上一些主要的网格项目. 表. 的基本接口描述 表. 的基本接口描述 表. 的基本接口描述片段? 表. 的命中字段权值??。 表. 表. ?的取值表?. 表. 相关度柚的权重参数? 表. 资源权值因子溶?例?. .? 表. 主流支持标准的情况??.. 的接口定义 表. 鹤支持的关系型数据库?.. 表. 表.?。 的应用模式?. 声 明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得 的研究成果。就我所知,除了文中特别加以标注和致谢的地方外,论文中 不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 日期:口口占.币.,;. 作者签名: 南刎 关于论文使用授权的说明 中国科学院计算技术研究所有权处理、保留送交论文的复印件,允许 论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、 缩印或其它复制手段保存该论文。 ?名:两新繇闯叶嗍训咖,多第一章绪论 .研究背景 信息社会中信息和数据量呈现爆炸性的增长,互联网上的信息资源浩如烟海.据 年中的统计和测算,互联网上可搜索的网页总数约亿张,、 、 等主流搜索引擎都可以搜索几十亿张网页,百度可以搜索 亿张中文网页。信息和通信技术飞速发展,计算、存储能力不断增强,网络传输速度成 倍地提高。今天一台普通的计算能力超过上个世纪年代的超级计算机,级的 存储系统随处可见,光通信技术带来的网络带宽甚至还远超过计算和处理能力的增长速 度,跨大洋的几十的网络连接已经在日常使用。 在这样的环境下,新技术的推广和应用又促进了更先进的技术的萌芽。网格技术 以基于互联网的大范围的资源共享和协同工作为目标,推动着新的 信息基础设施的出现和形成。另一方面,交叉学科新领域的研究、 大规模的信息服务和复杂商业应用,都在不断提出新的技术要求和挑战. 在近年来网格技术和应用的发展过程中,特别是在科研领域日益普遍的全球性科研 活动中,数据获取,处理、应用的重要意义越来越受到重视,数据网格 的 研究取得重要的进展.数据共享是最有代表性、需求最迫切的资源共享方式之一.数据 网格的一项重要功能是为海量的数据资源在大范围的用户中共享提供支持. 本文就是在这样的背景下,针对网格环境中关系型数据共享的问题进行研究,并力 图给出这一特定问题的较为系统的解决方案。本节接下来介绍相关的发展趋势、国内外 重要研究计划,以及本文研究工作的课题来源。 .. 与科学数据共享 大概从开始,“.”这个前缀就在不断地渗透到人们生活中的方方面面. ,顾名思义,是信息时代的科学活动。 当前,人类对客观世界的探索与认识不断向新的深度和广度拓展,科学研究的闯题 日益复杂化。传统的科学研究方法和手段已经暴露出其明显的不足,一方面,小范围的、 ./一...?? ’ ........:/../..。....................? ‘百度,?://?.. ’.一:. .中国科学院博士学位论文??面向关系型数据共享的数据两格中间件研究 封闭式的科学研究活动,造成信息不能快速流动和充分共享,造成重复劳动、效率低下 的问题,延长了重大科研成果产出的时间.另一方面,传统的观测实验、理论 分析的科 研手段,在面对很多复杂问题时已经显得无能为力,迫切需要对大规模数据的处理分析、 计算模拟和仿真等新的科研方法的支持。随着计算、通信、信息技术的发展,基于先进 的信息化基础设施,构建新型的信息化科学研究环境,已经成为可能。 英国科学家 提出“是关于在重要的科学领域中的全球性合作, 以及使这种合作成为可能的下一代基础设施.意味着科学研究越来越多地通过 因特网进行分布在全球的合作并充分利用极大规模的数据、万亿次规模的计算资源和高 性能的可视化设施”【。美国科学基金会年的一份 报告 软件系统测试报告下载sgs报告如何下载关于路面塌陷情况报告535n,sgs报告怎么下载竣工报告下载 中也明确指出 “?是一种新的科学研究环境,在这种新的研究环境中研究人员能够通过高性能 的网络进行先进计算、协同工作、实现数据获取和管理的服务”】。 中国科学院。十五”信息化建设工作中提出了的目标,将解释 为“科研活动的信息化”。在中国科学院“十一?五”信息化规划的草案中, 是年信息化工作的主线. 数据在中有着重要的基础作用.现代科学活动往往是在大量数据的基础 上,以大规模数据处理作为主要手段之一来开展的。科学活动中数据和知识提取的重要 性正在不断增长,例如在生物信息、地学、天文、药物、气象和粒子物理等学科领域中, 正面对着越来越庞大和复杂的数据。的一个重要挑战就是如何有效地共享,分 析和表达这些数据,充分地探究这些数据的内涵。 基于科学数据对科学活动的重要意义和作用,实现科学数据共享的意义就不言自 明。而且,科学数据是信息时代一种可增值的资源,只有被充分共享和广泛使用才能实 现科学数据的最大价值。美国关于科学数据共享有完善的法律和 制度 关于办公室下班关闭电源制度矿山事故隐患举报和奖励制度制度下载人事管理制度doc盘点制度下载 ,长期起来有效地 推行科学数据共享,这对美国的科技进步发挥了重大的作用.年月第次香 山科学会议上专题讨论了我国在科学数据共享方面的问题,随后由国家科技部牵头启动 了“科学数据共享工程”。这项工程现在发展为“国家科技基础条件平台”中的“科学 数据共享平台”。科学数据共享不仅需要有制度和政策上的指导和保障,先进技术手段 的支持也具有重要的意义和作用。 ..网格 计算机领域的网格的概念从二十世纪九十年代末提出以来,迅速引起广泛 的关注和响应,成为学术界的一个研究热点。其影响也很快扩展到产业界, 并和产业界 所主导的相关技术 经过一段竞争性的发展而逐渐走向融合。网格无疑 第一章绪论 已经成为一个重要的技术发展方向。 网格也引起了不少的争议.网格的首倡者们把网格描述成类似于电力网格 的一种信息基础设施,能够为用户提供类似插上插头就可以用电的方式来使用计 算资源.或许这在一段时期内还有点过于理想,或许是鼓吹者们使人们产生了太高、太 急的期望,在刚刚过去的两三年里,也不断有人对网格提出怀疑和批评的意见。确实, 至今,除了个别特定的学科领域之外,在广泛的大众用户眼中,描绘中的网格还多少停 留在描绘中,人们在互联网上天天使用、实际获得的最首要的服务还是和。 不管怎样,今天在世界各国,有数以百计的与网格有关的科研项目在进行中如表 .中列出国际上一些主要的网格项目,市场上也有冠名网格的重要软件产品’, 网格在继续发展,并为越来越多的人所了解.本文就是在网格的方向上,结合项目实践, 尝试去裁剪、提炼了一种网格的类型和场景,并针对这样一种特定类型和范 畴的问题开 展了研究,试图给出一个面向特定问题域的、易于实用的网格中间件解决方 案。 表. 国际上一些主要的网格项目:.. ://./ 瞰 ://.../,//.仃 町 【:../ ://..// 虹 ://../ :://..///:// ://...// ://...// ://.删.,://. ?仕://../ ?舡 ://../ :../ ’如的。”指。鲥?中国科学院博士学位论文一面向关系型数据共享的数据 网格中问件研究 :../ 阻 ://.., ://.. :://../ ://../ ://../ ://../ ://../门/ 虹 ://.../ ://.. :../. ://../ :..?./ ://..吖 强 ://.?./ ://.../一/ :../ ://... :../:.../ :/.. :/.. ://.. ://.., 仕:.. :../ ://../ ://../ 队眦 ://../ 第一章绪论 纠 :..//.们’ :../. ..国内外重要研究计划 这里简要列出国内外与本论文工作相关的几个有代表性的重要研究计划的 情况。美国国家科学基金会组织的计划于年启动,以国家超级计 算应用中心、圣地亚哥超级计算中心、匹兹堡超级计算中心 和德克萨斯先进计算中心为主节点,现已扩大到个节点,支持以? 为代表的一批网格技术的研发和以高速网络互连的基础设施环境建设.年, 得到为期五年一亿五千万美元的新资助,继续完善和提升的运行 和服务,推动将其建成一个能为科学家提供稳定可靠、可持续的服务的新一 代信息化基 础设施。是为开放的科学研究建立的世界上最大、最全面的分布式数字基础 设 施.通过高性能网络连接,集成了全美一批重要的高性能计算机、数据资源和 工具以及高端实验设施。 英国计划总经费.亿英镑,是多年来英国政府支持的最大的研究计划。 核心研究计划主要支持基础中间件开发、中心和英国网格建设,促 进技术辐射和国际合作。第一阶段年到年核心研究计划建设了个 中心和个优势中心,有超过个企业参与了核心研究计划.第二阶段 年到年中将突出网格中间件和网格的建设。为了加强运行管理,成立 一个网格支持中心,对网络提供统一服务.另外,成立开放中间件基础设施研 究所 【,专门从事网格中间件的研究、开发和工程化. 英国项目比传统的高性能计算应用更重视数据访问和数据集成,英国网 格中间件主要工作集中在这个领域。三个英国中心:, 和一直与开发团队以及公司和公司紧密合作,开发数据 访问和集成的网格中间件. 正.....................日..........?? ..... 基塑盥卫錾曼血 邺 眦.生.. ? ...中国科学院博士学位论文一面向关系型数据共享的数据网格中间件研究 英国计划将在年结束,从年起,英国将把它作为一种常规内 容列入各个研究理事会的科研计划,扩大在各个科学领域的应用. ?/ 项目从年月启动,为期年,投入万欧元.该项目 由欧洲粒子物理研究中心领导,包括了来自个欧盟国家的个合作组 织,涉及多名科学家和研究人员。正在建设的大型强子碰撞机是有 史以来最强大的粒子加速器,能够产生巨大数量的相互作用数据。将提供存储 和处理这种巨量数据的解决方案。它采纳了一种多层计算模型,支持研究机构间的数据 和计算资源共享。第层中心位于,通过高速网络连接至?大约个主要的第 层数据处理中心,这些中心进一步将数据分发给更多的小的处理中心..项目。 在的基础上,欧盟构建了 网格项目由欧盟委员会资助,汇集了超过个国家的专家。项目的目标是基于 网格技术取得的最新进展,开发一个欧洲的服务网格基础设施,可供科学家全天小 时使用.该网格获得欧盟万欧元的资助,是同类网格项目中最大的一个。 项目于年月日结束,后续项目于年月日启动。 ? “是英 国计划中的一个项目,其产品是当前一款重要的数据网格中间件。 与本文的研究工作有较密切的关系,将在..节进一步讨论。中国国家网格 ,是国家科技部支持的我国有代表性 的网格项目.“十五”期间,得到科技部计划重大专项“高性能计算机及其 核心软件”的支持,取得的主要成果包括建立了分布在北京、上海、长沙、 合肥、西安、 香港等地的个网格节点,开发了网格中间件,以及在多个领域中的个应用网 格系统. ..课题来源 本文的研究工作得到以下课题的支持: 中国科学院“十五”信息化建设专项“科学数据库及其应用系统”,课题号 .. ” 吼?.?. “ . ”?.? . 第一章绪论 ; 科技部计划“科学数据网格”,课题号 科技部计划“科学数据应用网格研究”,课题号是前一个项目 的滚动支持项目; 自然科学基金重大项目“网络计算环境综合试验平台”,课题号 科技部国家科技基础条件平台科学数据共享平台项目。基础科学数据中心及 其共享 网”,课题号,。 .研究现状 ..数据库技术与信息获取 数据库技术从世纪年代. 博士提出关系模型以来,形成 了坚实的理论基础、成熟的商业产品和广泛的应用领域。随着信息管理内容的不断扩展 和新技术的层出不穷,数据库技术也面临着前所未有的挑战。面对新的数据形式,提出 了丰富多样的数据模型层次模型、网状模型、关系模型、面向对象模型、半结构化模 型等,同时也提出了众多新的数据库技术数据管理、数据流管理、数据集 成、数据挖掘等。随着时代的到来,在大背景下的各种数据管理问题成为人 们关注的热点. 文献提出了“泛数据”的观点.所谓“泛数据”是相对原本人们所关注的企业 业务数据而言,“泛数据”研究“泛”在两个方面: ?: , ,: , ,// 以下这些领域是目前数据库技术研究中的一些热点方向:信息集成、数据流管理、 传感器数据库技术、半结构化数据与数据管理、网格数据管理、自适应管 理、移动数据管理、微小型数据库、数据库用户界面等。 早在本世纪年代,当计算机被图 信息获取或信息检索, 书馆等部门用于存储和管理文档时,就作为一个研究领域而诞生.到年代, 信息获取领域已经在文档内容表示、索引模型、匹配策略等方面取得了丰硕 成果,并成 功地开发了一些系统,例如:大学的系统和大学的 中国科学院博士学位论文??面向关系型数据共享的数据网格中间件研究 系统等。的出现为信息获取提供了一个前所未有的实验环境和应用 情景,许多信息获取系统应运而生,后来发展为搜索引擎。今天,象、 百度这样的搜索引擎已经成为人们浏览时不可缺少的工具。 .. 与 近年来,随着电子商务的迅速崛起,应用从局部化发展到全球化,从集中式发 展到分布式。 作为一种新兴的应用模式,是一个新的分布式计算模型, 是上数据和信息集成的有效机制.从电子商务应用领域来看,复杂的应用连 接和 程序代码造成了电子商务应用的高维护代价和更新代价,而 正好能够解决 这一问题,成为目前应用环境中最为合理的解决方案。 .的基本构架,包括 提供者 、服务请求者 和服务代理 以及它们之间的通信、格式的消息传递机制等。 是一种新兴的基于对等网络的架构,是计算机系统的结构从传统的集中式发 展 为浏览器/服务器/数据库服务器的新模式。具有如下的特征:结点之间通过 直接的交互而实现资源共享;资源分布在各个结点中,而不是集中在一个服务器中 管理;节点具有动态性和即时性;纯粹的系统没有任何集中控制机制,系 统中各结点运行的系统软件功能相同,各结点之问的交互对称. ..网格与数据网格 网格的概念起源于电力系统。在供电网格中,各个网格节点之间的电力资 源可以任意互相调配。对用户而言,他并不关心供电网格复杂的结构,只是通过一个非 常简单的接口插座,就可以以近乎随心所欲的方式使用电力. 计算机科学领域中技术的提出最初是面向超级计算机等高性能计算资源的共 享,目标是希望将分布在各超级计算中心的超级计算机连接起来,形成统一的计算环境, 用户可以以简单一致的方式使用所有的资源,各资源之间还可以自动地根据负载情况进 行调配。在这一阶段,也将这种技术称为元计算【,由多个分布式 的结点组成的计算环境也称为元计算机。 随着网络技术的快速发展,以及基于的大范围的资源共享与协同工作等应 用需求的日益迫切,技术的研究受到越来越多的重视。年左右,技术趋 第一章绪论 于成型,所要解决的问题和主要的技术路线逐渐有了比较清晰和统一的定义。由 等人给出的所谓“问题”的定义是:“如何在一种动态的、多单位参与的虚 拟组织中实现资源共享与协同工作.”这个定义指出了问题的三个关键点:其一, 资源共享。这里的资源是广义的,包括计算机、存储设备、网络信道、传感器,甚至科 学仪器,等等;而且,共享是有条件的,必须符合一定的约束,如信任关系、策略、费 用、等等。其,协同工作.不仅能够为使用者提供资源,而且能够支持在资源共 享的基础上进行的协同工作.为了满足这个要求,传统的/模式是不够的。 其三,所面对的是一种特殊的用户群体,即动态的、多单位参与的虚拟组织。这种 虚拟组织的成员可以跨越现实中的多个单位,既可以是固定的,也可以是变化的。 技术发展的早期主要集中在对计算资源的关注,后来,对数据资源的共享以及 在此基础上的协同工作也成为一个重要的领域,即数据网格 。由于众多的 科学研究活动都涉及到大量数据,例如生物、地学、高能物理等学科,所以,数据网格 对于科学研究具有更为突出的意义。 综上所述,技术已经成为综合运用分布式计算技术、网络安全技术、协同工作 技术,资源组织与发现技术等等,来满足人们科研生产活动需要的一种技术,其具体的 实现形式通常是一些中间件软件或开发工具集,如。这些软件也被有的人称为“网 格操作系统”.一个实际的网格系统通常由若干网格结点构成,各种资源分布在各个结 点,通过安装在各结点的相应的网格软件,实现了一个能满足前面提出的问题的 计算环境。对最终用户而言,他们通过针对网格计算环境开发的应用系统来使用网格中 的资源和服务,从而完成现有计算机和网络系统中无法实现或难于实现的功能。 .本文研究的目标和内容 ..问题定义 数据资源是信息社会中最宝贵的资源之一;科学数据是活动的重要基础。 关系型数据通常是经过认真设计和仔细整理的数据,具有更高的价值.大量用户通过网 络共享大量关系型数据的重要意义不言而喻,然而,由于资源发现、异构性、安全性等 多方面的困难,目前用户一般无法通过/直接访问关系型数据库管理系统中 的数据,现有技术的不足限制了大范围的关系型数据的共享.在科学研究领域,这方面 的需求尤其突出。 本文的主要研究目标是如何通过近年来发展的数据网格中间件技术解决上述关系 中国科学院博士学位论文??面向关系型数据共享的数据网格中同件研究 型数据共享中的困难。除了一般的资源共享问题所要考虑的因素之外,这个问题具有以 下四个特点或约束: ?用户只需要读取数据,不涉及数据更改和管理; ?有着长久价值并被广泛共享的数据一般不会频繁更新这里的频繁更新是指数 据库内容在几小时到一天这样规模的时间范围内有显著的改变,典型的例子像 联机事务处理的数据库常常每分每秒都在变化,特别是科学数据的内容通常具 有稳定性的特点; ?不同用户所能够得到的数据在范围和内容上可能是不同的,需要对大范围、种 类复杂的用户进行权限管理; ?数据共享的方式以系统的资源复制为主,片段式的查询为辅,要求高效的海量 数据传输能力. 针对以上的目标定义,本文重点研究了三个关键问题:如何找到数据,如何取得数 据,如何对数据授权。如何找到数据意味着如何让用户从大量的关系型数据库中找到存 有或可能存有他所需要的数据的那张表;如何取得数据意味着如何让用户以标准、 便捷的方式取得他可以理解和使用的数据;如何对数据授权意味着如何让大量跨管理域 的、无序的用户通过简便、灵活的机制获得合理的权限来共享数据。 ..研究内容 本文首先重点研究面向关系型数据共享的数据网格中间件的体系结构问题,包括数 据模型、资源标识、服务模型、中间件软件体系结构等.然后,根据体系结构的研究成 果,将资源发现机铝?、数据共享服务、权限管理模型和访问控制机制等作为关键技术问 题进行深入的研究。这些研究工作与本文的项目背景“科学数据网格”密切结合,在项 目成果的基础上做了进一步的提炼、挖掘和研究. 资源发现机制研究了基于注册的查询机制和基于索引的搜索机制,前者在项目中已 有实现,后者是对关系型数据在互联网上进行资源发现的新探索.在基于全文索引的搜 索机制方面,主要研究索引的数据模型、索引构造方法、搜索算法与排序、资源权值评 价、摘要生成等问题。 数据共享服务研究基于面向服务的体系结构的关系型数据共享方法,根据数据共享 的需求和特点,简化操作,提高性能,完善方式。主要研究了为数据共享需求定制的数 据查询语言,定义了服务接口,讨论了服务实现。 第一章绪论 权限管理与访问控制是数据共享问题中需要重点研究和加强的环节。研究了支持代 理授权和间接授权的数据共享权限管理模型,提出用户标识方法.权限标识模型、授权 策略、凭证检查算法,并讨论了性能和记账等问题.在访问控制方面提出关系型数据的 增强访问控制机制,设计了访问控制的实现框架和若干关键模块。 本文最后讨论了数据共享网格体系结构的应用模式,并介绍了相关项目中实现和应 用的情况。 ..本文的主要贡献 本文的主要贡献如下: 提出了面向关系型数据共享的数据网格体系结构。符合面向 服务的体系结构并进行了扩展,给出了数据模型、数据资源标识方法、服务模 型,以及数据网格中间件体系结构.比现有方案增加了索引机制,通过代理授权 加强了权限管理,使得能够更好地解决关系型数据资源发现的难题,并能适应和 支持网格环境中大量跨组织用户,具有可扩展性.资源发现、数据访问、权限管理是 中的三项关键技术. 研究了基于元数据的注册机制,提出了基于关系型数据全文索引的搜索机制, 并集成二者设计了数据资源发现服务。在网格环境中基于索引进行关系型数据 资源发现是这部分工作的主要创新点,给出了索引的数据模型、索引构造方法、搜索算 法与排序算法、资源权值评价与摘要生成方法,等等。将索引机制和注册的元数据结合, 可以大大提高资源发现的效果和易用性。 针对数据共享活动中的数据访问需求,设计了数据共享服务,定义了 数据共享查询语言,设计了包含查询、浏览、下载三种操作的共享服务接口、 索引源接:等.一方面简化了标准,以降低复杂性和提高性能;更一方面丰富 和完善了共享的功能,并通过索引源接口为中的索引服务提供关键性支持。 提出了适合于数据共享的权限管理模型,给出了权限表示、授权策略和凭证 管理的方案,通过代理授权和间接授权机制大大提高了用户和权限管理的能力,能够服 务大规模的网格用户群。提出了针对关系型数据的增强访问控制机制及一个中的 实现框架,可以对数据进行字段和记录级的细粒度访问控制,支持特殊的数据变换,通 过插件方式可灵活扩展。 综合上述几方面的研究成果形成了一个比较完整和系统的关系型数据共享解 决方案.部分研究成果已经在项目中实际应用并取得很好的效果。中国科学院博士学位论文??面向关系型数据共享的数据网格中间件研究 .论文的组织 本文包括八章,组织结构如下: 第一章绪论,介绍本文工作的研究背景和研究现状,分析和定义了研究的目标和内 容。 第二章研究数据共享网格体系结构,是全文的纲.下面三、四、五章分别 研究所定义的几项关键技术. 第三章研究数据资源发现机制,讨论了基于元数据的注册机制,提出基于全 文索引 的搜索机制,提出集成上述两种方法的数据资源发现服务?。 第四章研究数据共享服务,简化了数据访问操作和查询语言,完善了共享 方式。的索引源接口是支持的一个关键条件。 第五章研究权限管理与访问控制,提出了数据共享权限管理模型和关系型数据的增 强访问控制机制。权限管理服务与密切相关,本章讨论的一些算法实际 在的有关模块中实现。 第六章归纳讨论了的应用模式,分别从用户、资源所有者和网格管理人员的 角度介绍了如何应用及所能带来的好处。 第七章介绍“科学数据网格”项目和科学数据网格中间件,阐述了与科学数 据网格中间件的关系,给出科学数据网格中间件设计、实现、部署、应用的有关情况。 第八章结论,总结本文的工作并提出一些下一步的设想。第二章数据共享网格体系结构 体系结构的研究是解决网格环境中关系型数据共享问题的基础和核心。本章通过对 现有网格体系结构的研究和分析,针对关系型数据共享的四个特点和三个关键问题,提 出了数据共享网格体系结构 ,。.节介绍和分析 了网格体系结构的代表性成果及发展趋势,.节提出的总体框架,的数 据模型、资源标识方法、服务模型、数据网格中间件的体系结构分别在.至. 节给 出。 .网格体系结构 网格技术近年来经历快速的发展,网格体系结构的研究也在不断前进.年等人出版了第一本专门关于网格的书籍《 : ,随后发表了“ ”和“ ”【】等论文,对网格进行了分析和定义,在网格体系结构研究方面取得里程碑式 的进展.这些工作成为网格的一些经典认识,被广泛接受和引用。年以后,面向服 逐渐和服务曲 务的体系结构成为网格的重要方向,网格服务 融合。 本节重点介绍了网格的层次体系结构和面向服务的体系结构,然后介绍和分析了以 为代表的数据网格中间件的体系结构,最后指出了上述这些体系结构对本文 所研究的关系型数据共享问题的不足之处和需要加强的地方. ..网格的层次体系结构 年前后,学术界提出了许多网格体系结构和分类方法,其中最具代表性的工作 是的五层结构,它是一个以 协议 离婚协议模板下载合伙人协议 下载渠道分销协议免费下载敬业协议下载授课协议下载 为中心、基于。沙漏模型”的层次结构,如图. 所示【】。该模型将网格协议分为构造层、连接层、资源 层、汇聚层、应用层,并与协议层次进行了类比.中国科学院博士学位论文??面向关系型数据共享的数据网格中同件研究 篱蕊笺黧筏圈喜 重 臣圃 量 丽习 ‘。。.。。。。.。。.。... 苫 圈芒召等一圣《一厶笛?岂一 图. 网格的层次体系结构模型及沙漏模型 ?构造层 主要实现本地资源的控制,并向上层提供访问接口,其基本功能包括资源状态的查 询以及资源能力的管理与分配。构造层所集成的资源类型非常广泛,计算设备包括工 作站、服务器、超级计算机等、存储系统、日录系统、网络资源、代码库,以及联入 网络的仪器设备等。根据资源种类的不同,构造层的控制机制和控制目标也各不相同。 ?连接层 通过网络互连构造层的分布资源,并利用扩展的协议和互操作机制如网格安全基 础设施等保证构造层资源实体问的相互通信和安全. ?资源层 建立在连接层的通信和认证协议之上,通过定义信息协议和管理协议向汇聚或应用 层提供一致的资源状态获取机制和资源能力访问机制,实现对单个资源的共享,并按照 具体资源的管理接口对资源进行初始化、状态 检测 工程第三方检测合同工程防雷检测合同植筋拉拔检测方案传感器技术课后答案检测机构通用要求培训 、参数控制以及审计和计费等其他增 值功能。 ?汇聚层 协调多个资源如资源目录、协同分配以及代理服务等的能力共享。汇聚层可进 一步划分为通用服务和应用特定的服务两个功能子层,前着实现一些网格应用的共性需 求如网格信息服务、资源代理服务等,而后者为面向特定应用场景或应用模式提供 服务支撑. ?应用层 由大量网格应用构成,它们通过调用下几层中的服务来求解应用问题. 网格中间件的工作集中在五层的中问三层:连接层提供标准通信方法和数据 传输格 第二章数据共享网格体系结构 式等实现构造层各类异构平台之问的互通,并提供安全架构的支持;资源层处理单个资 源管理和控制,实现单个资源的共享;汇聚层协调多个资源,实现大范围的资源协同使 用. 针对数据共享问题来看五层模型。重点是在第三层资源层,即如何将数据资源在网 格环境中以标准方式提供访问和共享,相关的从大量资源中查找定位的问题涉及到汇聚 层中的通用服务子层,数据共享中的访问控制需要用到连接层的安全机制的支持. 在网格环境中与数据有关的一个重要问题是数据集成,这应属于 汇聚层.由于数据的语义相关性非常突出,在通用服务子层实现数据集成困难很大,或 实用性不强,因此应在应用特定服务子层进行数据集成。本文所研究的数据共享问题将 不涉及数据集成。 ..面向服务的体系结构自开放网格服务体系结构 ,【】提出以来, , 服务与网格技术走向融合,基于面向服务的体系结构 的网格成为网格体系结构的研究热点。 是在分布式环境下建立松耦合软件系统的一种典型的体系结构如图.所 示,提供了按功能组织服务的模式,每一个服务都提供一组定义良好的功能集合,而 基于的应用可被视为一组相互交互的服务,这种基于服务的形式功能描述为系统 的灵活性、可扩展性和开放性提供了基础,有效地支持系统透明性、动态升级和演化。 图. 面向服务的体系结构 ?服务请求者 即服务的消费者,根据所要执行的功能选择并定位服务。它可以是一个独立的 客户端代理,也可作为服务提供者向其他服务请求者提供高层次的服务。 ?服务提供者中国科学院博士学位论文??面向关系型数据共享的数据网格中间件研究 为服务请求者提供符合服务的语法和语义约定的服务,并按照指定的语法格式 将服务描述信息注册到服务注册表. ?服务注册表 作为一类特殊的服务,遵循约定的服务接口,存储由服务提供者所发布的服务 描述信息,执行服务请求者提出的服务发现请求.对于一个规模较大的分布 式 系统,由于所提供的服务种类与数量众多,往往需要多个注册表服务形成一定 的拓扑结构并按照一定的信息交换和管理协议进行协同工作. 服务提供了一种在广域网络上共享数据和功能的方法。它采用一套完全开放且 独立于实现平台及程序设计语言的交互机制,形成了较为全面的协议族,其中、 、以及上层面向服务组合的等构成了服务协议族的核心。 提出了在网格系统中一切都是网格服务 的思想,也开始了网 格技术与服务技术的不断融合。网格服务可被视为一种特殊的 ,其特 殊性主要体现在状态性、生命周期、通知机制和动态性等方面。为了确保网格服务的这 些特性,通过规范给出了网格服务的一些特定接口的定义,例如, 为支持状态性,定义了 的概念与操作接口,并定义了接口实现网 格服务实例的创建,提供对网格服务生命周期特性的支持;为支持通知机制,定 义了接口;为支持网格服务的动态性,定义了接口。 此外,为了支持多个网格服务的服务注册和发现,还定义了接口。 的提出也直接和 的状态性相关.在曲技术研究中一 直有两种观点存在,一是认为曲不存在状态的概念,而另一种观点认为状态 性是以 为基础的分布式计算应用中所必需的,对状态性的支持必须由 来解决。中提出的 所持的是第二种观点。实际上基于第一种 观点,也可以解决应用中所遇到的状态性问题,只是把状态性的问题放在了 的具体实现中来解决,其结果是难以对状态性的操作提供统一的标准,导致 不同 之间的互操作性较差。 等概念脱 尽管规范对状态性进行了比较好的定义,但其定义的 离了现有的 规范.是对这两种观点的一个折衷,它承认状态性,但 认为 本身没有状态概念,状态性存在于 背后的? 中。代表有状态的资源,它表现为遵循特定类型定义的文档,具有 唯一的标识和生命周期,类型的定义在文档中进行.进一步,可以将. 看作 运行的上下文环境,其中保存了资源的状态信息. 第二章数据共享网格体系结构 图. ,、的关系及演化 图.给出了、和的相互关系及演化过程】。总的来说, 不具备状态性因而无法满足网格的需 提出了服务的状态性的问题,并认为 要,因此产生了。但是,未能得到足够广泛的支持,相反地, 的支持者提出了来实现状态性。最终演变的结果是在的架构下,使用 作为实现规范. 面向服务的体系结构是近年来分布式计算的一个重要发展方向,特别是年以 来,基于的企业计算以 为代表和网格计算以为代表 呈现融合的趋势,这一方向逐渐成为普遍认可的主流。并且,面向服务的概念 也扩展到 更广阔的领域,受到重视甚至推崇,新近在上发表的一篇题为。 ”的文章【】反映了这种趋势。 面向服务的体系结构及其实现也存在着未完全解决的问题,如目前已经引起 关注的 问题有; 的实现和规范越来越复杂,基于服务的实现方式效率不够高,等 等。 ..数据网格的体系结构 数据网格 的概念很早就被提出,但实际发展中未象以计算为中心的技 术框架那样有清晰的定义和广泛认可.和等在年提出数据网格是 一种对大规模科学数据集进行分布式管理和分析处理的体系结构。在,】 中讨论了数据网格的演化以及数据网格与数字图书馆 、持久保存 等概念的关系,但是,大多这方面的研究还是把数据作为计算过 程中的一个从属性的部分,尚未有专注从数据的视角建立的比较权威的数据 网格的定义 和体系结构. 中国科学院博士学位论文??面向关系型数据共享的数据网格中间件研究 相对来说,是以数据访问为出发点的“专门的”数据网格中间件,是当 前这方面影响最大的之一,有一定的代表性.一直与密切合作, 也作为中有关数据的一个模块. 在不断的发展和演进中,图.是其年末新提出的体系结构】。 崮 图. 的新体系结构 数据姿源 ,在中定义为能够提供数据或接收数据 的任何实体。目前支持的数据资源包括种关系型数据库管理系统,种 数据库管理系统,文件系统和索引文件.还提供一种扩展框架使得数 据资源不仅仅是一个单独的物理资源,也可以是一个复杂的虚拟资源,例如 由多个物理 的数据资源联合成的一个虚拟数据资源。 数据服务 ,是用户访问数据资源的入口。一个数据服务可以提 供多个数据资源.的服务实现支持多种平台或规范,如、。 还提供客户端编程工具,如果用户使用客户端编程接口来开发应用盼话,只 需按照的客户端接口,就可以访问不同类型的数据服务. 活动和任务是中进行数据操作和处理的机制,具 ,是数据服 有好的灵活性和扩展性。任务与数据文档 ,将 务与用户交互的信息格式,通常数据服务处理收到的请求文档第二章数据共 享网格体系结构 返回给用户。 结果用响应文档 .的体系结构中还包括了会话、事务等方面的 内容,与本文关系不是很密切,这里从略。 提出的数据资源、数据服务等概念,基本可以说是采用面向服务的体系 结构的自然选择,值得讨论的几个问题是: ?的数据资源包括虚拟化的资源,也就是包括了数据集成的内容.将 多个物理资源集成为一个虚拟资源的复杂性和难度可能甚至超过现 在的整个框架,而目前对虚拟数据资源如何实现、在什么样的层次 上集成等并未给出方案或解释。从网格层次模型来看,这样的设计将 跨越在资源层和汇聚层,无论从结构的清晰、简洁,还是从实现的复杂性上来 看。都有可能带来不利的因素. ?为数据服务提供了客户端编程工具,但是应该注意避免由于客户端 工具的引入而影响数据服务的开放性和标准化。数据服务是一个服务,期 望的用户使用方式应该是用户根据服务描述如利用通用的服务 开发工具在任何平台上都可以开发调用该服务的应用。客户端工具支持的开 发 平台必然有限目前只提供,因此客户端工具的意义不大。 ?计划支持事务等复杂的数据处理和管理功能,在网格环境中实现这 些功能的复杂性和效率值得考虑。 总的来说,面向服务的体系结构是当前的大势所趋,在此基础上已有一些网 格体系 结构的设计和相关的一些网格系统的实现。但是,从数据出发、将数据作为 问题的核心 而不是计算的附属,这样的数据网格体系结构还比较欠缺。特别是对于本文 所研究的关 系型数据共享问题来说,已有的网格体系结构不能满足要求,至少在以下方面需要补充 或改进: ?在数据处理上只有一些简单的框架和原则,偏重于比较简单的文件型数据,在 关系型数据的处理上需要补充和加强; ?需要针对共享问题的特点进行细化: ?资源发现的能力薄弱,特别是对关系型数据; ?缺少能够适应大范围用户的可行的权限管理和访问控制方案,可扩展性是关键 问题,细粒度的访问控制也是一个重点. 中国科学院博士学位论文一面向关系型数据共享的数据网格中间件研究 .数据共享网格体系结构 面向关系型数据共享的问题,在体系结构方面的研究所要解决的主要问题有数据模 型、资源标识方法、服务模型、数据网格中间件的体系结构等。 ?数据模型 建立基于数据网格的数据资源的模型。这种数据模型要能够准确反映问题特点,抽 象出核心概念.关系型数据有其自身的特点,在网格环境中如何建立这样一种模型,能 够为资源发现、数据访问以及权限管理等问题提供良好的基础。 ?资源标识方法 基于数据模型,给出一种统一的资源标识方法。 ?服务模型 本论文的工作遵循面向服务的体系结构,服务是整个体系中的基本要素, 资源发现、数据访问、权限管理等都是以服务的形式表现,服务模型中应给出几种核心 服务的主要接口,各服务之间的相关关系等。 ?数据网格中间件的体系结构 数据网格中间件是由一系列软件模块构成的有机整体,若干软件功能模块处于不同 层次,相互有机合作完成一个全局的任务.在上述数据模型和服务模型的基础上,提出 数据网格中间件的软件体系结构,给出软件模块划分和相互接口等. 根据.节描述的关系型数据共享问题的四个特点和三个关键问题,新的体系结构 要解决的首要问题是如何找到资源,通过引入新的机制增强数据资源的发现能力;其次, 是如何解决向大规模用户授权和提供服务的问题,需要新的机制和手段提高体系结构的 成长性:最后,可以结合这个问题的一些特点和约束,对现有的结构进行简化和优化, 以达到提高效率、易于实现和部署的目的.本节提出和阐述了数据共享网格体系结构,。 ..数据资源的索引 为提高资源发现的能力和效率,根据数据资源的特点,在经典的面向服务的体系结 构图.的基础上,提出了为数据资源建立索引的机制,如图.。第二章数据共享同格体系结构 图. 加入索引机制的服务体系结构 对一般服务而言,服务提供者向服务注册表注册服务的有关信息,然后服务请求者 通过查询服务注册表来发现所需要的服务。服务注册表中所要注册的信息内容概括和涵 盖了服务的主要特征,结合服务通常的类别划分等,以这样的方式发现用户需要的服务 可能是可以的.这是经典的 的方法. 但是,当服务是对数据资源的封装这里称之为“数据资源服务”,一个数据资源 服务代表一个或多个数据资源的时候,这种注册和发现的机制就显得薄弱,无法满足需 要。通过注册所能提供的信息有限,常受一定格式的限制,而数据资源的内容是非常丰 富和难以尽述的。要想对资源进行尽可能详尽的描述,就意味着注册的信息 量大,而且 一般是要求人工著录的,如资源描述型的元数据.这样的著录工作是费时费力,并且难 以保证质量,在现实中推行有很大的困难。另外,数据量的增长很快,这种依赖人工建 立注册信息的方式显然难以跟上数据增长的速度,不具有大范围内的可扩展性。再考虑 数据更新的因素,注册信息的同步更新就更困难了,在现实中往往是出现注册信息与数 据内容脱节. 因此,通过自动的方式为服务形式的资源建立描述信息,进而在这些描述信息的基 础上进行更准确和有效的资源发现,是一种必然的发展方向.对于数据资源来说,建立 索引是一种自然的想法。如图.所示,服务注册表这里是数据资源目录向服务提 供者这里是数据资源服务抽取数据资源的特定部分建立索引,这将大大提升数据资 源发现的能力,并使得整个系统具有可扩展性。 建立索引的思路虽然简单,在搜索引擎中对网页建立索引也已经取得了良好 的效果,但对关系型数据而言还有很多问题需要解决,例如如何获取建立索引的源数据, 如何在索引中利用和发挥关系型数据的特点,等等.本文第三章将重点讨论这个问题, 并给出一种结合注册和索引方法的数据资源发现机制. 中国科学院博士学位论文一面向关系型数据共享的数据网格中间件研究 ..权限管理的基础设施 在网格环境中提供数据共享服务的新挑战是如何适应前所未有的用户规模,并能够 有一种可成长、可扩展的体系结构.传统的模型中由服务提供者各自处理用户的权限管 理,不能满足这样的要求。特别是在大规模数据共享的场景中;大量资源服务提供 者和大量用户参与共享活动;一令实体具有用户和资源服务提供者双重身份是普遍 的情况;这些实体之问不存在组织上的有序的关系,而且具有参与和退出的动态性.这 种情况下,用户管理和权限管理不可能纳入单个系统的框架,也不可能由多个系统各自 独立地完成,必须建立这方面的基础设施,为整个网格环境提供服务。 在图.的基础上进一步扩展了权限管理服务,形成了数据共享网格体系机构 如图.。 图. 数据共享网格体系结构 虚拟组织 ,是网格环境中进行资源共享的重要组织 方式,也是有关网格的一个重要概念。在数据共享的问题环境中,权限管理服 务是实现 虚拟组织的一种核心机制。权限管理服务独立于服务提供者或请求者,可以 为网格环境 中的多个实体提供服务,这些实体可能来自一个或多个虚拟
本文档为【面向关系型数据共享的数据网格中间件研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_963767
暂无简介~
格式:doc
大小:70KB
软件:Word
页数:0
分类:工学
上传时间:2017-11-25
浏览量:61