关闭

关闭

关闭

封号提示

内容

首页 数据网格技术研究.pdf

数据网格技术研究.pdf

数据网格技术研究.pdf

上传者: down 2010-12-18 评分 0 0 0 0 0 0 暂无简介 简介 举报

简介:本文档为《数据网格技术研究pdf》,可适用于IT/计算机领域,主题内容包含年第期微电子学与计算机数据网格技术研究ResearchonDataGridTechnology中国科学院计算技术研究所软件室何戈徐志伟(北京)‘摘要符等。

年第期微电子学与计算机数据网格技术研究ResearchonDataGridTechnology中国科学院计算技术研究所软件室何戈徐志伟(北京)‘摘要:数据网格是网格环境下共享和管理存储资源和分布式数据资源的大规模、可扩展的框架结构它适应数据密集型应用对网格环境下数据共享和处理的需要给用户提供了透明访问远程异构数据资源的机制。文章首先分析了数据网格的研究背景和设计原则并深入研究了数据网格的关键技术最后对现有几个较成功的数据网格研究项目进行了分析和比较。关键词:网格数据网格数据密集型计算数据共享数据网格简介高速网络的发展为收集、组织、存储、分析、可视化和分发大容量数据对象提供了新的实现方法和技术。典型的数据密集型计算应用包括:大规模气象预报、地球科学研究、物理和天文学研究、医学和生物学等。它们的共同特点是:一方面待处理的数据总量大、数据源广域分布、且存储系统的类型多另一方面其研究工作是通过若干个地域分布的科研团体和科研人员协作进行的。具体来说它需要大规模的协作处理管理大容量的数据缓冲实现广域网上高速的数据传输。协作调度数据处理过程和数据传输过程良好的性能监控和评价以最大化使用存储、网络和计算资源等。总之这种计算应用模式需要高性能、大规模的数据管理、访问和存储的支持。这给数据管理和存储体系结构带来了巨大的挑战。传统的基于单机或是集中式的存储管理结构已不能适应这种大规模数据密集型应用的复杂性和性能要求。因此必须通过开发专门的存储管理体系结构来对这些广域分布的资源和数据进行管理和协同工作。数据网格(DataGrid)就是根据这种需求提出的一种数据管理和存储架构。数据网格的概念来自网格(Grid)。它是网格技术在数据管理方面的应用和实现。即是为了建立网格环境下透明访问异构数据资源的新的体系结构。网格【技术的研究目标是实现网络虚拟环境下高性能资源的共享和协同工作以解决一致使用各种分散资源的问题。数据网格是为了解决数据密集型计算应用中方便高效使用分布式数据资源的问题其研究内容主要集中在广域、异构、分布环境下如何对数据进行管理:如何从地理分布的各种异构数据资源中获取数据并通过地域分布的协作和处理从数据源中获取有用信息。从这个角度。数据网格可以理解为是应用程序、用户等同底层存储系统收稿日期:一l基金项目:国家自然科学基金资助项目(之间的中间件。它对应用程序提供一致的管理和使用存储系统的界面。对用户屏蔽广域操作的复杂性和广域网络上存储系统的异构性。数据网格的标准化工作是由GridForum囝的DataGridGroup制定和建立的。该工作组定义DataGrid为:一个有效结合数据和计算资源的分布式系统。目前。数据网格已成为网格技术研究的热点和主要内容之一。GridForum将网格主要分为七个方面:Peertopeer、安全、调度、性能和信息服务、体系结构、数据管理、应用和编程模型。数据网格设计的一般原则从体系结构上来讲数据网格有以下特征:()异构性(Heterogeneity)。数据网格可以包含多种异构的数据资源。其构成的数据源有多种类型不同类型的数据源在体系结构、数据访问方式、应用程序接口等多个层次上可能有不同的结构。f)可扩展性(Scalability)。数据网格的规模可以变化从只包含少量数据资源的局域系统发展到包括成千上万数据资源的跨洲际的广域大数据网格。由此可能带来的一个问题就是随着数据网格资源的增加、地域分布的更广泛而弓起的性能下降及网络传输延迟。数据网格必须能适应这种变化。()自适应性(Adaptability)。在广域系统中有很多数据和存储资源。这些资源发生故障的概率很高因此数据网格必须能对用户和应用程序屏蔽这些故障并动态地适应这些情况此外数据网格资源因地域分布和系统复杂使其整体结构经常发生变化。数据网格应能适应这种不可预测的结构。f)多级管理域。由于构成数据网格的资源和存储系统通常属于不同的机构或组织。并使用不同的安全机制因此需要各个机构或组织共同参与.以解决多级管理域的问题。根据上述特点及应用的实际情况.在设计数据网格时要根据以下原则进行。维普资讯http:wwwcqvipcom微电子学与计算机o年第期与底层实现机制无关性。数据网格的结构应该与底层实现机制无关包括与数据存储方式、元数据访问方式等无关。系统可以定义一些界面或接口。以封装不同存储系统在数据存储、目录管理、数据传输算法等方面的异构性。与应用策略无关性。数据网格结构在设计中.应将与性能相关的二一些重要功能的实现方式留给用户或是应用程序来选择而不是由系统封装执行。这样既保证了用户实现策略的灵活性又提高了应用系统的性能。如数据移动和复制文件目录管理是数据网格的一个基本功能而建立在其上的复制策略应由用户或应用程序来决定。与网格框架兼容。网格作为广域异构分布资源互联的基础设施.为上层系统提供了许多基础服务.如:认证、资源管理、信息服务等。数据网格的设计应基于网格框架。并与底层网格机制相兼容。一致的信息结构。在网格中用户以一致的方式访问资源的结构信息和状态信息。同样在数据网格中.用户也要能以一致的方式访问数据网格中的各种信息如元数据、复制文件目录等。数据网格的关键技术在数据网格的应用环境中。用于构建高速、广域分布数据访问和管理系统的技术、中间件服务、体系结构等构成为数据网格的关键技术。.数据访问和元数据访问服务数据访问和元数据访问是数据网格中的两个基本服务。数据(Data)~存储在存储系统中由应用程序进行处理和分析的数据:而元数据(Metadata)$是与数据相关的信息如数据的大小、位置等。数据访问服务提供了访问、管理和第三方传输数据等的机制。元数据访问服务则提供了访问和发布元数据的机制。将数据与元数据的概念分开是为了提高数据网格实现的灵活性:而在存储系统的具体实现中可以将二者有效地结合起来。..数据访问服务存储系统是数据网格的基本构件。它最终实现文件的建立、删除、读、写、控制等功能。其属性包括名称、存储容量、访问限制条件等。通常情况下用户通过API来访问存储系统和文件。这里API的概念应比传统的概念有所扩展.如要支持远程文件读写功能等。存储系统在具体必须与安全策略相结合应用程序要给存储系统提供访问模式、网络性能等信息以使存储系统可以优化其服务质量存储系统也应检测和确定其性能并提供给用户以供用户优化访问策略另外存储系统在设计中还要考虑容错和健壮性等问题。..元数据访问服务元数据可根据其所描述的内容分为以下几类:应用元数据(ApplicationMetadata)。描述文件的内容或对处理该文件的应用程序有用的信息。复制管理元数据(ReplicaMetadata)。用于数据对象的复制管理。包括文件到存储系统位置的映射信息等。系统配置元数据fSystemConfigurationMetadata)。描述数据网格自身的结构如网络互连、存储系统的细节.如容量、使用策略等。每一类元数据在使用范围、更新机制、与其他网格组件的逻辑关系等方面都有其自身的特性。元数据访问服务需要提供一致的使用方法、单一的使用界面等来发布和访问这些不同类型的元数据。应用程序通过元数据服务来获取所需文件。元数据服务维护一个元数据仓库或目录当应用程序提交所需要数据的某些特性后元数据服务将这些特性与某逻辑文件相关联。该逻辑文件应有一个全局唯一的名称.在物理上.可能包括一个或多个文件。一旦元数据服务将逻辑文件与某个应用所需的属性相关联复制文件管理器将使用复制管理元数据来定位该逻辑文件的物理位置以供访问。在大规模数据网格环境中。元数据的管理较为复杂。首先不同的系统可能采用不同的方法来存储和表述元数据.因此元数据管理既要能管理这种异构性又要保证在分布式环境中元数据访问的效率。在目前的数据网格已有的实现中通常对不同的应用采用了不同的元数据格式如:在高能物理应用中采用了一种专门的索引结构还有一些采用XML来表示应用元数据等。其次元数据管理要适应数据网格的可扩展性它要能支持大规模组织中的各种信息源。另外元数据服务要保证一定的健壮性。通常情况下。元数据服务被设计成一种分层结构的分布式服务。该结构的优点包括:提供了可扩展性、避免了单一故障点等。这种分布式结构的效率问题。可以通过充分利用元数据服务自身的分层属性来弥补。目前在数据网格的大多数实现中使维普资讯http:wwwcqvipcom年第期.数据复制管理..数据复制的必要性在数据网格中实现数据复制功能是为了获得更好的数据访问效率及容错性能。在数据密集型的大规模分布式协作应用中一方面数据的用户群广域分布.另一方面数据也分布存储在不同位置上。如在欧洲原子能研究组织所进行的高能物理的研究中.其计算模式就是使用一个分布式网络连接各地的研究中心.每个中心都有其自己的计算和数据存储设备.这些设备通过广域网络互连。在这种网格环境中.众多的物理科学家分布在网格的不同位置.并使用各自位置的仪器设备来获取数据并进行计算和分析。这样在某位置进行的计算可能需要其他位置所存放的数据。为了减少计算时通过网络访问数据的时间.可以先从别的存储位置复制一部分数据在本地机器上:或在多个位置存放某一数据.当某个计算节点需要这些数据时.可以从访问时间最短的存储节点上获取所需数据。这些都产生了份数据在整个系统中的多个拷贝。数据复制管理服务包括:产生一个数据包的全部或部分数据的拷贝:将新的拷贝注册到复制文件目录中:用户或应用程序查询复制文件目录.以获取某个文件或文件组的所有物理拷贝:根据网格信息服务所提供的信息。基于存储和网络性能预测.选择最合适的复制文件供用户或应用程序访问。数据复制方法给系统带来的特殊复杂性包括:需要安全服务以认证用户和控制对存储系统的访问由于数据包通常都很大因此用户只希望复制数据中他感兴趣的子数据包多个复制文件的数据一致性问题。..文件复制和数据对象复制数据复制可以以不同的方法和在不同的粒度层次上实现.如在文件层次或是数据对象层次上来实现。数据对象是指与某种应用相关的一组数据.这组数据可能存放在一个或多个物理文件中。文件复制是指在现有文件粒度上的数据复制:数据对象复制是指在数据对象粒度上对数据进行复制。通常数据对象复制时需要首先在源节点上将所需复制的数据对象拷贝到一个新的文件中.再将该新文件传送到目的节点。数据对象复制在实现中比文件复制要复杂一些但在某些情况下.其效率较高。通常使用复制文件管理器来生成或尉除一个复制文件。若某新的存储位置能对某些位置提供更好的访问性能或更高的可用性.则可以生成一个新的复制文件:一个复制文件可能因为要释放所占用的存储空间或其它原因而被删除。通常在实现时复制文件是只读文件.这样会简化数据网格设计中的复杂性.也符合大部分应用程序的实际情况。复制文件管理器维护一个复制文件目录。以提供文件或文件组的逻辑名到其物理存储位置的映射关系。因此复制文件目录包含有三类信息:逻辑文件组、逻辑文件和物理位置信息。逻辑文件组是用户定义的一组文件以使用户能方便和直观地把一组文件作为一个整体来注册和管理.同时又能减少复制文件目录中的被管条目.和对复制文件目录的操作数:物理位置信息包含映射一个逻辑文件组到其物理文件上所需要的所有信息如主机名、端口号、访问协议等逻辑文件则是有着全域唯一名称的实体它可能对应存在一个或多个物理文件。一个数据网格可能包含有多个复制文件目录.一般是按照类目录结构的分层结构来实现。..复制文件选择和数据过滤应用程序在访问所需数据资源时.首先根据所需要数据的特性查询元数据库以找到该数据资源对应的逻辑文件标识.再根据复制文件目录即可得到该逻辑文件对应的所有物理文件位置。这时就需要从所有的物理文件中选择一个最优访问性能供应用程序访问。复制文件选择服务是根据复制文件的位置信息和用户或应用程序的需要。从存储在不同存储系统中的复制文件中。选择一个性能最优的复制文件供应用访问的过程。在选择时。系统要收集一系列的信息包括应用程序的要求、网络服务质量、存储系统的性能特性等。应用程序的要求包括:访问速度、延迟、安全性等网络的服务质量包括:网络传输带宽、维持网络带宽的能力等:存储系统的特性包括:最大访问带宽、访问延迟、安全策略等。这些信息一般是通过网格信息服务(GIs)来获取。根据数据复制管理策略.若一个新的复制文件的访问性能会高于对现有文件的访问性能.复制选择过程可能会启动一个产生新复制文件的过程一个更高效的选择服务会考虑用户对一个文件子数据包的访问要求。如在科学实验中通常会产生很大的数据文件而某些应用程序可能只处理维普资讯http:wwwcqvipcom微电子学与计算机年第期这些数据中的部分子数据。这时复制文件选择服务应只给应用程序提供原始数据文件中的部分子数据文件以减少网络传输的数据量。该功能已在某些数据管理系统中实现如STACS系统在高能物理应用中就采用了这种从大文件中提取子数据包的方法。该功能在实现时需要数据过滤或抽取程序它能理解数据文件的结构并从中产生出应用需要的子数据包。抽取出来的子数据包被存成文件并有自己的元数据和物理特性这些信息最终交给复制文件管理器。数据抽取功能在实现时需要能够重新组织数据、提取子数据包、并实现数据类型的转换等功能。.数据传输技术及协议研究’在数据网格环境中通常需要较大量的网络数据访问和传输。同时数据网格中存在多种存储系统它们有自己的协议或API函数供用户访问而这些协议或API往往是不同或不兼容的。因此在访问不同的存储系统时必须采用多种访问方法这降低了在不同存储系统之间传输数据的效率并增加了用户使用的复杂性。为了实现数据在网格环境中安全、可靠、高效的传送需要一种通用网格数据传输协议(GridFTP)。GridFl'P应兼容现有的F.I协议的实现并按照数据网格环境下数据传输的特殊要求进行扩展。数据传送协议还应提供以下功能:。()支持网格安全框架(GSI)。在传输和访问文件时健壮和灵活的认证、完整性和机密性都是很关键的。Grid~FP必须支持GSI和密钥认证同时用户要能设置不同的数据完整性和机密性级别。(支持第三方控制数据传输。为了管理大规模分布的数据需要提供第三方控制的在不同存储系统之间的数据传输功能。()并行数据传输。利用多TCP流来提高总的传输带宽。()数据分割传输。通过多个服务器分割传输数据可以极大的提高总的数据传输带宽。()部分文件传输。许多应用只需要某文件中的部分数据因此只传输应用需要的该部分数据可以减少总的传输量。由于标准的FrP协议在传输数据时需要传输整个文件因此Grid肿需要采用新的方法来实现部分文件的传输。()自动调整TCP缓冲及窗口大小。采用优化设置TCP缓冲及窗口大小可以较大的影响数据传输性能。GridFYP应当扩展标准F’P命令集和数据通道协议以支持手工设置或自动调整TCP缓冲大小以适应较大文件和大容量的文件集。()支持可靠数据传输。应对用户屏蔽数据传输中发生的错误采用出错重传等方法来实现透明的网络故障等。标准兀P协议中已经包括了基本的出错重传等容错方法但在具体的兀P实现中并没有得到广泛的实现Grid兀P应当扩展并加强该功能。.存储资源代~(StorageResourceBroker)SRB圈是由美国SanDiego超级计算机中心提出并开发的一种数据网格管理技术是一个基于C/S结构的中间件用于提供对不同类型存储设备的一致访问界面。它给用户提供了一组的API以供用户访问广域网络上互连的各种异构数据资源。除了文件传输语义之外SRB还给应用程序提供了根据数据特征来查找所需数据的功能。图l是一个简单的SRB结构它主要包含三个通过网络互连的组件:元数据目录服务器(MCAT)、SRB服务器、SRB客户端。MCAT存储元数据SRB用于管理用户和资源。MACT服务器处理来自SRB服务器的请求包括信息查询、产生新的元数据、元数据更新等。用户元数据/应用图存储资源代理结构图应用程序通过一组API向SRB服务器发出请求和接收响应。SRB服务器执行用户的任务请求包括:与MCAT服务交互执行I/O操作等。客户使用相同的API访问由SRB管理的所有存储系统.这样SRB服务器屏蔽了用户与各种类型的存储系统、操作系统、硬件结构等交互的复杂性。SRB服务器的设计是基于Client/Server模型的它主要包含两种类型的服务:SRBServer和SRBMaster。SRBMaster守护进程用于不问断监听端口等待客户端请求的到来。一旦从客户端的连接请求建立并得到确认它将复制并执行一个SRBServer的拷贝这里称作SRBAgent来进行服务。连接建立后客户端将和SRBAgent通过另一介端口继续通信SRBMaster继续监听原来的端口。客户端应用程序与SRBAgent通过TCPSocket使用一组API进行通信。(<维普资讯http:wwwcqvipcom年第期微电子学与计算机在SRB的具体实现中使用一组分布协作的sRB服务器来对客户请求进行响应。采用这种服务器组的实现方式是基于以下原因的:()系统整体结构的需要。不同的存储系统运行在不同的主机上这种分布式的环境需要采用分布式的SRB服务器。(提高了系统整体性能。单一的SRB服务器可能成为分布式系统的瓶颈。(提高了系统的可靠性和可用性。数据可以在不同的存储系统和不同的主机之间复制和备份。通过与数据分割功能相结合SRB可以实现远程数据过滤的功能。在最新的SRB客户端函数库中已经增加了个实现数据分割功能的API函数。.数据分割(DataCutter)技术DtaCutte是由美国Maryland大学计算机系提出并开发的一种技术。其目的是在数据网格环境中实现对远程数据包中子数据包进行访问。在数据网格环境下存储系统中的数据文件可能非常巨大.而异地用户可能只对该大文件数据中的某一部分子数据感兴趣。DataCutter通过从大数据文件中选择并过滤出用户真正需要的部分数据。并实际只传输该部分子数据包从而大大减少网络上数据的传送量进而提高数据网格系统的整体性能。具体来说。它能够通过多方面的范围查询、用户定义的过滤操作、以及面向应用的聚合而将一个大容量的科学数据包划分成子数据包并支持用户对该子数据包的访问。DataCutter提供了一组服务供用户使用.也可与其它数据网格服务如元数据管理、资源管理、认证服务等相结合以实现更完善的网格服务。为在DataCutter框架内高效利用分布的共享资源DataCutter将应用程序结构分解成一组进程称作“Filters”。并利用这些分布的进程来执行列查询和应用级数据传送如图所示。客户查询数据结果数据结果分隔信息图DataCutter系统结构图DataCutter作为一组模块化的服务来实现。客户界面服务提供了客户API。数据访问服务提供了访问存储器的底层I/O支持。Filtering服务和索引服务利用数据访问服务从存储系统中读取数据和索引信息。索引服务管理DataCutter中的索引和检索方法。Filtering服务管理Filters以实现应用级的数据操作。Maryland大学已利用C/C实现了DataCutter服务的原型。该原型中数据访问服务提供了与HPSS和Unix文件系统的接口索引服务使用Rtree作为默认的检索方法。在最新的SRB系统中也给用户提供了支持DataCutter功能的API函数。.数据网格体系结构设计数据网格体系结构设计就是考虑如何将各种数据网格服务组织起来成为一个高效的系统并以怎样的方式或界面供用户或应用程序来使用。、数据网格在进行体系结构设计时。必须考虑与一般网格框架之间的关系。这是由于数据网格作为网格环境中数据管理功能的实现要建立在一般的网格框架之上即一方面数据网格的功能要利用其它一些网格服务来实现如安全服务、资源调度服务、性能与信息服务等:另一方面某些网格服务的实现也要利用数据阿格服务所提供的功能。在目前的研究项目中数据网格都是按照分层结构来实现的。在底层主要考虑对底层资源和中间件的管理考虑如何高性能的实现数据访问等基本功能而不过多地考虑某个专门的应用策略。如在实现数据移动功能时系统底层只考虑如何高速的实现数据移动并给上层提供一些系统接口。包括出错处理接口等而并不过多的考虑存储系统出错的情况。系统结构的高层建立在底层机制之上主要考虑面向应用的实现策略并支持不同类型的使用。如考虑应用中可能出现的不同的编程模型和不同的访问方法。总之这种分层结构是由一系列相关的、相互独立或相互依赖的服务所组成的。每一个服务实现一个专门的功能并且在实现时可能要依赖于其他服务。数据网格研究实例.GlobusDataGridGlobus是目前最成功的网格研究项目。它开发了一系列的协议、服务、软件库、工具包等用于构建并实现一个网格环境平台。Globus数据网格r】结构如图所示。Globus数据网格从整体结构上分为两层:核心服务层和高层服务层其中高层服务层建立在核心服务层之上并使用核心服务服务层提供通用的底层机制维普资讯http:wwwcqvipcom微电子学与计算机年第期高层服务复制文件选择复制文件管理回回核心服务存储系统ll元数据仓库。。’’’’。资源管理l安全服务l仪器设备l。。。。。。。。。。‘‘。一DPSSHPSSLDAP一MCATLSF一一DIFFSERVKerberosNWS一Nedogger数据网络特有的服务普通网络服务图Globus数据网络结构图的存储系统。以供高层服务和应用通过一致的方式来访问这些系统。其核心服务包括:()存储系统和数据访问。提供异构存储系统的基本数据访问和管理机制包括创建、删除、读取和修改远程文件。可以支持Unix、HPSSfHighPerformanceStorageSystem)。或其它复杂的系统如SRB。f】元数据访问。提供访问和管理元数据的机制。系统高层服务主要为复制文件选择和复制文件管理。复制文件管理服务提供在某个具体的存储系统中创建和删除复制文件的功能。并维护复制文件位置地址的目录。应用程序可以使用复制文件选择服务来从复制文件目录中选择一个文件。Gloubs数据网格项目也开发了GridFTP协议。它是对标准FTP协议的扩展。并支持网格环境下数据的安全、高效传输。.EuroDataGrid欧洲数据网格is项目的最终目标是开发适应下一代科学研究要求的科研环境。该项目的研究人员认为下一代科研工作的特点包括:需要很高的计算性能需要处理和共享大规模的数据(T甚至P字节容量)跨广域的分布式科学团体协作等。这些要求目前已经在许多科学领域的研究工作中表现出来了包括物理学、生物学、地球科学等。这些研究工作中所用资源的分布性特点、研究团体的分布属性、数据库的大容量、有限的可用带宽等都使得资源共享变得更为复杂。该项目建立在现有的计算网格技术(如Globus)之上。其长远目标包括:()建立一个试验床(Testbed)以研究和开发建立全球域数据网格所需要的技术。()通过开发和实际用户参加的应用试验。论证这种新技术的有效性。()采用低代价的通用设备构建数据密集型计算机群以论证构建、互联和高效管理大规模数据网格的可行性。从技术角度。该项目要实现的目标主要包括:计算资源管理。包括网格框架。本地计算组件管理和大容量存储器管理。数据网格服务。提供工作负载调度。数据移动和网格监控服务等。利用现有的科学研究应用进行测试和评价。包括三个主要的应用领域:高能物理、地球观测和生物学研究。EuroDataGrid分五个子项目:工作负载管理、数据管理、监测服务、底层设备管理、大规模存储管理。每一个子项目都实现网格中间件的某些功能。其试验床连接了跨越欧洲的几个主要实验室.从而为应用提供了一个大规模的实验环境。现有的三个学科的应用软件将根据数据网格软件进行相应的修改。并用于对实验床的测试。包括测试系统的功能、性能和质量。图说明了Eruopean数据网格的数据管理机制。中间层服务I数据动器、’f数据访问器Il数据定位器IlII.存储理器卜\效据臂理器lII本地文件系统I其它大规模存储管理系统图European数据网格的数据管理结构图复制文件管理器管理文件和元数据在分布、分层的数据缓冲中的多份拷贝。它使用数据移动器来实现文件在不同存储系统之间的传输。数据移动器使用数据访问器和数据定位器将文件的逻辑标识映射到物理标识。数据访问器给用户提供了访问界面以屏蔽本地文件系统和其它存储系统的细节。数据定位器使用元数据管理器来确定文件的具体位置。查询优化和访问模式管理根据元数据信息。对一个给定的查询请求。产生最优的迁移和复制文件执行计划。数据访问的粒度可以是文件级的或是数据集级的数据集指一系列逻辑相关的文件。.GridPhysicsNetworkProjectGridPhysicsNetwork(GriPhyN)tg是建立一个数据网格以协作处理各种物理实验的所获数据。目前主要是为处理从CMS和ATIAS实验获得的数据这些试验主要来自于LHCfLargeHlIdmnCollider)、UGO(LaserInterferometerGravitationalObservatory)和SDSS(SloanDigitalSkySurvey)。维普资讯http:wwwcqvipcom年第期微电子学与计算机该项目的最终目标是建立一个大规模、广域的PVDG(PetascaleVirtualDataGrids)以适应跨全球域、集合了成千上百科研人员参加的数据密集型应用研究的需要技术特点包括:()虚拟数据技术。采用一种新的方法以分类、标示、确认和归档软件组件实现虚拟的数据处理。f)数据和计算资源的策略驱动请求和调度策略。包括采用基于策略的资源发现技术。()在广域范围的虚拟组织上实现事务管理和任务执行满足用户对性能、可靠性和代价的要求。目前。该项目已开发了与应用无关的“虚拟数据工具包”它是一组虚拟数据服务和工具包以供用户构建数据网格。该工具包的结构如图所示。应用工具包服务基础设备与其它系统结合以提高应用级性能图GriPhyN的虚拟数据工具包结构图该工具包通过一组虚拟数据服务对用户封装了底层细节和具体的硬件结构。开放性是该工具包的一个重要特点.它可以与其它在某些方面性能更优的网格工具包(如Condor、GlobusToolkits等)结合使用以实现更高效的其他网格服务如存储管理、并行Io、高速数据移动、策略表述、数据库访问、认证和授权、可扩展对象技术等。.EarthSystemGmEarthSystem。l数据网格是由四个DOE实验室(ANL、LANL、LBNL、UL)及NSF和两个大学(Uni.versityofWisconsin、UniversityofSouthernCalifornis)合作建立目的是为了支持对远程分布式大规模气候模型数据库的高速访问。该数据网格建立在现有的技术(DPSS、Globus等)之上以开发一个新的“智能化”的中间件实现分布式数据管理、高性能数据传输、计算组件的远程执行等。EarthSystem数据网格的原始数据主要分布在磁盘缓冲和磁带系统中。为了跟踪数据的物理位置系统采用了元数据目录和一个分布的缓冲管理系统。应用程序需要数据时向本地的代理(称查询监视器发送数据请求。查询监视器首先访问本地的元数据目录如果所需数据不在本地它将广播该数据请求到所有的其他元数据目录。由所需数据的元数据目录将响应该查询监视器。查询监视器通过查询Globus网络服务获得当前网络信息.并确定从那个物理位置获取所需数据。如果数据不在磁盘缓冲中。系统首先将数据从磁带传送到磁盘缓冲中。图为该数据网格的数据管理服务结构图。图EarthSystemGrid中数据臂理服务EarthSystem采用DPSS来实现数据传输功能:采用SRB的全局命名方法来标识数据资源:采用GSI的安全和访问控制机制来保证系统的安全:采用GASS的数据迁移机制来实现高效的数据迁移。该系统的一个特色是提供了远程计算的机制。包括:定位合适的计算机和数据源:判断其可用性和性能特性定位、构建和传送远程可执行环境初始化远程计算在组件之间传输数据等。在实现该服务时使用了Globus的安全、资源管理、计算管理和通信等服务。结束语数据网格除了上面论述的功能之外。还应包括其他一些功能如:资源保持和协作机制f端对端的资源性能保证)关键资源的性能测量与评估可视化的数据网格使用界面和工具包:知识管理和资源发现远程数据管理等。传统的集中式计算模式正逐步发展成为能聚集更多计算和数据资源的网格计算模式。而数据网格作为网格环境下数据管理和共享的新型体系结构正逐渐成为网格研究中的重点之一。参考文献【l】IanFoster,CarlKesselmAnTheGrid:strum,foraNew(下转簟瑟页)~骚维普资讯http:wwwcqvipcom年第期微电子学与计算机的工作是把被校验水表安装在校验台上确认系统正常后.按“检验开始键”通知技术人员。结束语本校验系统采用了嵌入式Web服务器技术系统的稳定性、可靠性大大提高远程管理端的计算机不需要应用软件只要通过浏览器就可以实现远程管理和设置包括软件升级也不会受到计算机病毒的危害。系统的软件和硬件都采用了模块化结构功能扩充和裁减都比较容易具有较强的适应能力。系统的测控卡不用做硬件修改在软件结构和功能上适当修改.就可以用在注水站或集油站充当基于Web的智能计量仪表还可用到任何使用涡轮里流量计的场合。该系统投入运行以来运行情况良好.根据初步统计可以提高工作效率%保证了校验质量.节省了时间和送检费用取得了较好的经济效益。参考文献】DouglasEComer美】著张娟等译.用TCP/IP进行网际互联(第二卷).电子工业出版社.】雷震甲.计算机网络.西安电子科技大学出版社.】DOSLnternetProgrammingAPIs.http://drhe.topeoo.net/programm/net/inetlibe.him】PPP&InternetApplicationsforDOS.http://www.tropinet.com/ppp.htmlHEPengju。CHENMing。CHANGYanrongLWANGWancheng。‘(NorthwesternPolytechnicalUniversityXi’an)。(FactoryofChangqingOilCompanyYinehuan)Abstract:emainfunctionandprincipleofcheckingwatermeterwhiohusedinoilfieldsisintroducedandthetttruculreofthechecksystemisalsogiven.andhowtou辩embeddedWebservercompletedcheckingtheinjectingwaterm魄erintheremoteplacearedescribed.Keywords:Injectingwatermeter,AutomaticcheckRemotecontrol。EmbeddedWebserver何鹏举陈明常颜荣王万诚西北工业大学自动化控制系博士研究生。西北工业大学自动化控制系博士生导师。长庆油田公司第三采油厂总工程师。西北工业大学计算机系博士研究生。(上接第页)ComputingInfrastructure.SanFranciscoCA:MorganKaufmann..】GlobalGridForum.http:llwww.gridforumorg】AnnChervenakIanFoster,CarlKesselmaneta.edatad:Towardsanarchitectureforthedistributedmanagementandanalysisoflargescientificdatasets.JournalofNetworkandComputerApplications():.】HeinzStockinger,AsadSamar,IanFoster.FileandObjectReplicationinDataGrids.Proc.thInt.Symp.OnHishPerformanceDistributedComputingIEEEPress.】http:llwww.npaci.edu/dice/srb】DataCutterProject.http://www.CS.umd.edu/projects/hpsPre.serachareaa/datacutter.htm】GlobnsProject.http:llwww.globus.org】EuroDataGridProjecthttp:llwww.cern.ch/grid】GridPhysicsNetworkProject.http://www.griphyn.org】EarthSystemGrid.http://www.scd.near.edu/css/esgl】BillAllcockJoeBester,JohnBresnahanhnFoster.Se.cureEfficientDataTransportandReplicaManagementforHishPerformanceDataintensiveComputing.HeGeXUZhiwei(SoftwareDivisionInstituteofComputingTechnologyChineseAcademyofScienceBeijingO)Abstract:Datadarchitectureprovidesalar学e}caksealableinfrastructureforthemanagementofstoragel~gomanddatathataredistributed~rogdenvironments.BasedontherequirementtodatasharingandmarIagiIlgofdataintensivecomputingapplicationitprovidesthemeckmi栅陷fornj嘲唧岍enflyremoteaccessingtoheterogeneousdataresoul~os.Thispaperanalysistheresearchbackground,principlesfollowingindevelopingadesignforthedatadarchitecturefirstly,thendeeplystudiesthekeytechnologieswhendesigningadatafinallyanalysisandcomparesseveralsuccessfuldatadresearchproject.Keywords:GridDatagridDataintensivecomputing,Datasharing何戈男()博士研究生。研究方向为高性能计算与网格计算技术。徐志伟男()博士研究员博士生导师。研究方向为网格计算技术、机群操作系统、高性能服务器体系结构和安全操作系统。一}维普资讯http:wwwcqvipcom

用户评论(0)

0/200

精彩专题

上传我的资料

每篇奖励 +2积分

资料评价:

/8
1下载券 下载 加入VIP, 送下载券

意见
反馈

立即扫码关注

爱问共享资料微信公众号

返回
顶部