Griddaen数据网格系统的设计与关键技术实现.doc

上传人:精*** 文档编号:837771 上传时间:2023-09-08 格式:DOC 页数:15 大小:395.12KB
下载 相关 举报
Griddaen数据网格系统的设计与关键技术实现.doc_第1页
第1页 / 共15页
Griddaen数据网格系统的设计与关键技术实现.doc_第2页
第2页 / 共15页
Griddaen数据网格系统的设计与关键技术实现.doc_第3页
第3页 / 共15页
Griddaen数据网格系统的设计与关键技术实现.doc_第4页
第4页 / 共15页
Griddaen数据网格系统的设计与关键技术实现.doc_第5页
第5页 / 共15页
点击查看更多>>
资源描述

1、摘要:科学计算领域中的科学数据呈现爆炸式增长,未来的科学计算将以数据为中心,数据网格计算技术成为解决复杂海量科学数据的访问和管理的一种有效技术。我们设计和实现的Griddaen数据网格系统,可以管理多个分布异构的存储资源的数据,为用户提供统一的数据访问。本文重点介绍了我们设计的数据网格系统体系结构,以及系统的设计原则和目标,并讨论了系统主要关键技术的实现。关键字 网格、Griddaen,数据网格,GridOppenKeywords: Grid Computing, Griddaen, DataGrid, GridOppen1. 1. 前言由于技术的发展,现代大型科学工程研究、信息服务和数字媒体

2、应用中的数据呈爆炸式增长,应用数据从几十个Terabyte到Petabyte,而且还在持续高速的增长,数据已经成为一个重要的资源,例如:全球气候模拟、高能物理、生物计算、战场仿真、核模拟,数字地球、电子商务、电子政务、数字媒体等应用,它们的数据量将达到几十个TeraByte至PetaByte的级别,地理上广泛分布的用户都希望能够访问、分析和使用这些庞大的分布数据,而他们的分析方法往往是计算复杂和计算量大,这种结合海量数据集合、地理上分布的用户和资源,以及计算密集型的分析处理应用导致了现有的数据管理体系结构、方法和技术已经不能满足高性能、大容量分布存储和分布处理能力的要求,如何存储、分发、组织和

3、管理、高性能处理、分析和挖掘海量分布数据成为许多应用的首要问题。数据网格技术1的发展为解决这个问题提供了一条有效的技术途径,它通过开发能够集成网络上分布的多个数据集等资源,形成单一虚拟的数据访问、管理和处理环境,为用户屏蔽底层异构的物理资源,建立分布海量数据的一体化数据访问、存储、传输、管理与服务架构。Griddaen 是我们设计和实现的Gridoppen网格系统中支持数据网格功能的系统部分,它集成各种数据文件存储系统,提供一个分布数据的统一无缝访问方式。Griddaen 采用分布多域联邦服务器和高可用技术,支持虚拟文件集合和数据集合,支持系统的数据副本和Cache机制,以提高分布异构存储系统

4、数据的访问性能。文章第二部分介绍数据网格发展现状和相关工作,第三部分介绍Griddaen 数据网格系统的结构和框架,第四部分给出其主要设计策略和关键技术实现,第五部分给出系统的应用实例和使用界面,在最后对各个数据网格项目的分析和比较,并描述了系统的状态和将来的工作。2. 2. 相关工作数据网格系统技术的发展非常迅速,对科学数据的访问和管理成为众多项目的研究目标。欧洲数据网格2的目标是以欧洲粒子中心(CERN)从Terabyte到Petabyte规模数据为中心,为世界范围内分布的科研团体提供的数据分布存储、传输和计算密集型分析处理的能力,以进行科学研究,开展面向高能物理学、地球观测、生物信息学等

5、应用的研究工作,研究内容主要包括:数据访问、数据副本管理、元数据管理、数据安全、查询优化、资源调度和管理等,采用Globus、面向对象数据库、网格数据库服务系统等技术,构建一个包括软硬件的网格环境。SpitFire3是其数据库访问接口ODBC的Grid service的实现,OGSA-DAI正在讨论网格和数据库系统,特别是联邦数据库系统技术的结合。美国GriPhyN4系统提出应用虚拟数据的概念和语言,描述如何通过计算获得并使用派生信息和数据,这是为系统访问远程数据还是通过计算获得,或者获取他人计算处理过程符合自己需求的数据等情况提供决策依据,为数据的自动生成和再生成提供较完整的系统方法。SDS

6、C的SRB5提高了一套在分布环境下统一访问异构存储系统上的数据的中间件系统,包括文件系统、数据库、文档系统等,为上层应用/用户提供透明的数据服务,SRB采用了集中式的元数据目录MCAT服务广域的数据访问和管理,最初并不支持网格环境下使用,为了支持数据网格的特点,已经进行了改进,正在进行分布设计和实现,对多域管理环境进行支持,主要以对文件的访问为主。Punch Virtual File System(PVFS)6采用代理机制接受NFS Client的请求,经过处理分析,访问NFS系统的服务端数据,实现了多个NFS系统的数据统一访问。Globus7系统使用了标准的协议实现了文件数据的移动和远程访问

7、GASS7和数据的高速传输Gridftp8基本机制,在此基础上实现数据复制元数据目录的管理和复制的选择,为数据网格系统提供了一个较好的底层系统开发平台。Avaki9数据网格系统采用了面向对象的方式实现对多个域环境下的NFS文件系统的数据进行访问,提供了统一的安全认证,支持数据复制管理。Griddaen 和SRB系统、Avaki的数据网格系统的目标基本一致,实现了系统的全局命名、统一文件数据访问、单一登录等,系统元数据采用多层次分布结构和独立服务机制,可以较灵活的配置,整个系统采用分布联邦多域服务器技术和请求优化技术,具有可扩展性和高可用性,采用复制和Cache机制最大限度减少用户访问数据所需的

8、性能开销,采用了基于角色和多层次别访问控制,实现系统的全局管理。3. 3. Griddaen系统结构和设计Griddaen 数据网格能够集成广域网环境下异构的各种存储资源,例如Linux、Windows等单机文件系统、NFS等网络文件系统以及数据库系统等,并将它们统一组织起来,通过系统提供的数据访问和管理服务屏蔽底层存储资源异构性和多个管理域,为用户提供直观、一体化的文件视图和方便、规范的访问和操作方法。系统的服务逻辑功能如图1所示:Griddaen 数据网格作为系统中间件,是一个三层结构,第一层是各种面向具体存储资源的访问接口,直接面向底层的数据存储资源和元信息资源,包括各种文件系统和数据库

9、系统,采用各个存储系统支持的访问和驱动协议和方法访问和使用这些系统中的数据;第二层是数据网格系统管理多个数据源进行统一访问管理提供的各种核心服务,主要包括资源聚合器、数据服务、元数据服务、安全和系统管理;第三层是数据网格面向用户提供的数据服务使用界面和接口。其核心是第二层的服务层。资源聚合器主要面向计算、设备等资源的接入、监控和调度管理,支持计算网格所需功能,这里不重点描述;数据服务模块主要提供数据的访问优化、调度和服务,管理分布异构存储资源上的数据为一体,提供数据的统一访问,允许数据的高速传送、复制操作和副本管理,以及虚拟数据管理;元数据服务为系统提供全局资源的信息服务,提供数据的定位和属性

10、查找,数据的注册和发布,系统资源信息的查询和维护,安全和授权信息和用户元信息的访问和管理,副本信息的管理和选择,为用户和系统提供一个元信息的访问接口和访问协议。安全服务主要支持单一登录认证和多层次的访问控制和授权机制。系统管理主要实现网格系统用户的建立和删除,系统的配置和部署,以及全网格系统状态的监控。Griddaen主要由DRB服务和元数据服务器MDS等组成,见图2。DRB(data Request Broker)服务为用户提供数据访问、存储和管理的功能,它采用分布式结构设计,每一个SITE管理域有一个DRB服务器独立地提供数据访问服务,当用户请求时,DRB Master产生DRB Prox

11、y为用户提供各种数据操作服务。分布的DRB之间可以协同工作联合提供数据服务。DRB对用户的应用请求进行分析并调度到合适的存储资源,启动相应存储点的DRB进行数据服务,为用户提供数据操作和管理服务,DRB获取数据以后,采用高速的数据传输协议直接向客户端发送数据, MDS(MetaData Server)元数据服务器是一个层次式分布服务结构,由局部元信息服务器和中央全局元信息服务器组成,各个局部元数据服务器负责所对应本地的资源和数据元信息服务,提供元信息服务的访问,中央服务器建立各个局部元信息的索引和数据缓冲,为DRB实现统一的访问接口和全局数据视图提供元信息支持。MDS和DRB是相互独立设计和实

12、现的,通过系统的部署和配置建立服务关系。Unix, NTDB2, Oracle, HPSS, UniTree, DMF 存储资源DB2, Oracle, Sybase, SQLServer安全服务认证授权用户映射计费元数据服务数据元信息访问与管理用户管理系统信息访问与管理数据服务访问分发远程数据访问数据传输与操作数据缓冲复制系统管理系统配置管理系统监控统一操作接口和全局操作视图文档系统访问接口文件系统访问接口数据库访问接口元信息访问接口客户副本管理与选择资源和数据代理计算资源聚合器资源信息服务联合调度分配资源访问接口资源描述接入数据注册发布管理Unix, NTDB2, Oracle, HPSS

13、, UniTree, DMF 存储资源DB2, Oracle, Sybase, SQLServer安全服务认证授权用户映射计费元数据服务数据元信息访问与管理用户管理系统信息访问与管理数据服务访问分发远程数据访问数据传输与操作数据缓冲复制系统管理系统配置管理系统监控统一操作接口和全局操作视图文档系统访问接口文件系统访问接口数据库访问接口元信息访问接口客户副本管理与选择资源和数据代理计算资源聚合器资源信息服务联合调度分配资源访问接口资源描述接入资源聚合器资源信息服务联合调度分配资源访问接口资源描述接入数据注册发布管理图1Griddaen系统总体功能服务逻辑图图2 Griddaen系统结构图从应用需

14、求出发,面向广域的异构环境Griddaen 数据网格系统的设计要达到以下几个目标:l l 命名的透明性:网格中的数据单元成千上万且地理上分布,Griddaen采用三种命名空间对数据资源进行命名,允许用户使用一种单一的全局名字机制访问和操作数据,而不需要用户直接使用底层物理存储资源命名、发现和访问机制,。l l 数据分布协同服务:多个DRB之间协同工作,用户可以请求任何一个联邦多域服务器DRB,给出某个特定数据集的标识,Griddaen 调度到合适的DRB提供数据访问操作服务,并能够协调其它DRB联合提供服务,以方便用户访问和使用位于不同节点上的多个数据资源。l l 全局统一视图和一体化操作界面

15、:系统支持各种异构的资源和数据的全局命名和统一的视图,用户通过GUI界面所见都是虚拟的数据资源,系统对资源和数据进行统一命名,并将底层的异构性完全屏蔽。用户只需通过一个标准的API接口,l l 统一的数据访问:抽象存储访问接口,屏蔽底层的存储协议和格式,选择合适的访问协议和接口来实现用户统一的数据访问请求;l l 可扩展性和高可用性:网格系统中数据可以分布在系统中任何一台机器上,Griddaen采用分布设计结构,系统能够支持数据动态的扩展而保持系统的性能,一个Site的DRB和局部元信息服务都可以独立服务,若其出现故障,不会导致系统中其它DRB系统的服务崩溃,此外如果一个节点上的数据不可用,系

16、统可以自动找到包含其副本的其它节点,实现系统高可用性和容错;l l Cache和副本管理机制:Griddaen支持数据的拷贝和移动,缓冲或复制数据,使得从不同访问点的访问可以根据系统状况从最近的节点获取数据,减少数据访问的时间,防止单个数据资源成为瓶颈,实现系统的负载平衡,尽量提高网格中远程数据访问的效率;: l l 安全:保证多系统的安全访问控制策略,实现系统的单一登录;l l 跨域的管理:支持对多域系统的数据和资源在保持局部自治情况下进行统一的全局系统管理、统一的配置和部署。4. 4. 关键技术实现Griddaen主要使用Java语言实现,使用了Globus系统中的一些功能,采用关系型数据

17、库系统作为元数据服务存储。4.1. 4.1. 全局统一视图为了实现对多个管理域下分布文件数据的全局视图,需要有一个全局的命名空间,对系统中的数据文件进行统一命名。这可以将文件的物理特征与逻辑视图独立开,使物理层次上的变化不会对逻辑层次产生影响,逻辑层上的变化不会影响物理层次的变更。系统对数据采用三种命名空间,即用户逻辑文件名、内部永久文件名和物理文件名,永久文件名是一种只在系统内部使用的文件名,由它完全代表该文件在系统内部进行管理、操作、访问、属性建立和查询等活动,该文件名全局唯一。l l SFN(Site File Name):物理文件名,即在文件实际存储系统上用来标明该文件的唯一标示符,在

18、某个独立文件系统上(如NTFS、exe2等)为该文件的完整路径,在网络文件系统上(如NFS、HPSS等)为可对该文件进行访问的系统路径。l l IPFN(Internal Persistent File Name):内部永久文件名,是在本系统内部使用的文件名称,具有全局唯一性。每个IFN唯一对应一个SFN,它在数据实体的整个生命周期中保持不变。l l UFN(User File Name):用户逻辑文件名,指面向用户、在用户的逻辑视图中所使用的文件名称。它们之间的关系可以用下面的框图来表示:图3文件名字空间的组成这种命名方式带来的好处是用户名或者物理名的更改互相不影响对方。此外,系统允许用户把

19、具有相同或相似属性的分布异构存储系统下的数据组合成为另外一个数据实体虚拟数据集(Collection),虚拟数据集和普通数据一样命名,那么无论用户名和物理位置发生变化,它都不影响Collection的实际组成。这种方法也方便了数据集的实现。同时,为了配合文件的统一命名,同样也对资源和用户进行类似的设计,进行统一命名,这里不再敷述。4.2. 4.2. 统一访问接口Griddaen数据网格为应用开发和网格用户提供一套统一的访问API函数和软件包,这套API将Griddaen数据网格内部数据结构的复杂性和操作的复杂性掩藏起来。数据使用者采用类似于NFS文件系统的访问接口对各种异构存储系统进行访问,系

20、统则根据数据存储特性采用相应的数据访问协议代理用户对底层存储资源数据进行操作,通过这套接口可以对数据进行访问,进行各种管理。也可以进行应用开发。其访问过程为:l l 数据使用者数据访问API向DRB提出数据请求,例如Open,read,Write,move等;l l DRB监听请求后,派生Proxy线程,对该请求进行解析和处理l l Proxy查询元信息服务器,获得数据的存储信息和相应访问方式的元信息l l Proxy根据返回信息调用对应的访问接口获取数据,将结果返回给数据使用者多个DRB之间还能组合成为联邦DRB,形成一个功能更加强大的数据服务器来响应外界的数据服务请求。用户请求可以发送到任

21、何一个DRB,只要给出某个特定数据集的标识,Griddaen 就会从该DRB调度到某个合适的DRB上,在该DRB上生成Proxy提供数据访问操作服务,并能够协调其它DRB联合提供服务。这中机制比单DRB服务可靠性更好、功能更强,更容易实现系统的扩展。4.3. 4.3. 复制管理机制系统或者用户在访问活动中有可能建立不同的副本,不同用户则出于不同考虑,可能要求使用不同位置的副本获取数据,原则是使访问时间尽可能短。这样既增强数据资源的可用性,防止单个数据资源成为瓶颈,又能减少数据访问时间,提高系统整体性能,还能实现系统的负载平衡。我们的复制管理服务包括以下四个方面作用:l l 复制定位(Repli

22、ca Locating):将系统上层使用的逻辑文件定位到某个具体副本上l l 复制创建(Replica Creating):根据用户的访问活动或系统管理命令新建副本l l 复制选择(Replica Selecting):为某个具体用户选择离自己最近的副本,加快访问时间以提供位置透明性并提高时间透明性l l 复制维护和管理(Replica Maintenance & Management):系统对数据的不同副本进行统一管理,处理负载平衡。复制管理的整体结构如图所示。复制选择复制维护复制定位复制管理网格用户/应用复制管理服务图 4 Griddaen 数据网格复制管理框架复制元信息由复制信息表存储。

23、整个元信息服务是一个两层的分布式结构。中央元信息服务器保存全局复制元信息;而局部服务器则保存本域内的局部元信息。这样设计既解决了单点失效问题并增强可扩展性,又避免了在多级结构中需要进行多层次查找降低效率的问题。用户可以向系统中任意复制信息服务查询复制的有关信息,无需通过中央服务。在当前复制信息表服务中查找不到时,系统自动重定向到中央服务器上,从Cache和中央复制信息表中获得所有副本的信息关于副本一致性问题,我们采用的策略是:当一个副本发生改变时,需将该副本作为新的数据资源发布或者作废其它数据副本,未来系统将采用定时自动更新所修改的部分,副本本身也是一个重要的甚至是永久性数据资源。4.4. 4

24、.4. Cache管理机制Cache是根据访问的局部性原则把远程的数据复制到就近位置的磁盘上,提高对某数据进行连续操作的效率。Cache 中的数据由系统自动决定在必要时有选择地删除,以让出空间进行其它数据的缓冲。需要注意的是,与副本数据不同,Cache中的数据不在复制信息表中进行登记,副本主要缓冲一个完整的数据文件,而CAHCE可能只缓冲一个数据文件的一部分。Griddaen数据网格中为了提高数据的访问速度,在系统中引入Cache机制,如图1所示。在DRB服务器和客户端上为应用保留了专门的Cache空间,并部署有专门的Cache管理模块,负责Cache的添加和删除等问题。4.5. 4.5. 网

25、格安全机制一般情况下,由于构成网格系统的各种资源通常属于不同的机构或组织,并且使用不同的安全机制,因此需要各个机构或组织共同参与解决多级管理域的问题。Griddaen 数据网格软件实现方案中采用现有网格安全标准GSI和Globus的安全软件包,在系统中建立全局统一的CA中心,采用代理和证书完成系统内的安全认证。GSI基于PKI机制,采用X.509认证和Secure Socket Layer(SSL)通信协议,并对它们进行了一定的扩展,支持双向认证,委托(delegation)和单点登录。在Griddaen 数据网格中,考虑的安全策略包括:l l 用户登录系统需要身份的验证,并为该用户产生一个具

26、有时限的用户代理证书l l 物理资源加入到系统中需要赋予身份,并产生一个代表其身份的资源代理证书l l 用户使用某个物理资源,双方必须交换证书进行相互认证;它们之间的通信也必须以加密机制来保证通信安全l l 系统用户将最终映射为物理资源上的一个本地用户,此本地用户使用该物理资源的控制权限由其本地安全策略确定票证则是由系统合法用户A生成的一个附带权限和时间期限的随机标识符,它可以在系统内部传递给其它用户例如B,使得B可以在规定的时间期限内使用A的权限访问系统。票证机制主要是解决暂时性访问的安全认证问题。4.6. 4.6. 层次访问控制机制Griddaen数据网格系统采用基于角色的分层次访问控制机

27、制(Role-Based Access Control, RBAC)。所谓角色是指与特定操作活动相关的一组动作和权限集合。系统管理员只需根据应用特点,依据某些授权原则建立相应的角色。对于具体的网格用户,系统管理员根据需要对其授予某个或者某些角色,使其获得该角色所定义的操作。这种机制自主性适中,且便于权限的发放与回收。访问控制分为两层。在网格全局用户映射到局部用户之前,系统需要对全局用户的授权进行验证,只有拥有合法权限的用户才能映射到数据资源所在局部系统。局部系统还必须使用它自身的局部访问控制机制对授权再次进行验证。只有完全通过这两步验证才能对数据进行访问操作。4.7. 4.7. 用户的使用界面

28、当数据请求者提出访问请求后,系统会进行一系列工作保证最快地将数据返回。如果不考虑错误处理和例外,一个详细的过程是这样的:图 5 Griddaen访问流程图图6:用户操作界面和视图Griddaen的最终使用界面将包括Windows和Linux下的命令行工具以及使用Java编写的可移植客户端访问GUI工具、服务器端管理工具,见图6。5. 5. 总结及将来的工作Griddaen由国防科大计算机学院GridLab负责设计和实现GridOppen网格系统中的一部分。目前该系统已初步实现了一个原型系统,支持NFS、CINF、Http等存储系统下的数据操作和访问,在局域环境中进行了测试,系统在数据一致性维护

29、、储存类型和系统稳定性等方面有待近一步的完善,特别缺乏广域范围的测试和实验,我们目前正和国家高性能计算环境组成员讨论广域范围的实验。参考文献1 1 A. Chervenak, I. Foster, C. Kesselman, C. Salisbury, and S. Tuecke. The data grid: Towards an architecture for the distributed management and analysis of large scientific datasets. Journal of Network and Computer Applications,

30、 1999.2 2 Wolfgang Hoschek1,3, Javier Jaen-Martinez1, Asad Samar1,4,Heinz Stockinger1,2, and Kurt Stockinger1, Data Management in an International Data Grid Project ,2, 2000,http:/www.eu-datagrid.org/3 3 William H. Bell1, Diana Bosio,Project Spitfire - Towards Grid Web Service Databases, Global Grid

31、 Forum 5, Edinburgh, Scotland, July 21-24, 20024 4 Jens-S. Vckler Mike Wilde Ian Foster, The GriPhyN Virtual Data System, Technical Report GriPhyN-2002-025 5 C. Baru, R. Moore, A. Rajasekar, and M. Wan. The sdsc storage resource broker. In CASCON98,Toronto,Canada, December 1998, http:/www.npaci.edu/

32、SRB. 6 6 R. J. Figueiredo, N. H. Kapadia, and J. A. B. Fortes. The punch virtual file system: Seamless access to decentralized storage services in a computational grid. In Proceedings of the Tenth IEEE International Symposium on High Performance Distributed Computing. IEEE Computer Society Press, Au

33、gust 2001.7 7 J. Bester, I. Foster, C. Kesselman, J. Tedesco, and S. Tuecke. GASS: A data movement and access service for wide area computing systems. In Proceedings of the Sixth Workshop on Input/Output in Parallel and Distributed Systems, pages 7888, Atlanta, GA, May 1999. ACM Press.8 8 Gridftp: Ftp extensions for the grid. Grid Forum Remote Data Access group, October 2000.9 9 The Avaki Data grid:Easy Access,Less Administration,More Science,10 10Ian Foster, Carl Kesselman and Steven Tuecke, The Anatomy of the Grid: Enabling Scalable Virtual Organizations, IJSA 2001.

展开阅读全文
相关资源
相关搜索
资源标签

当前位置:首页 > 学术论文 > 毕业设计

版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如有侵权请立即联系:2622162128@qq.com ,我们立即下架或删除。

Copyright© 2022-2024 www.wodocx.com ,All Rights Reserved |陕ICP备19002583号-1 

陕公网安备 61072602000132号     违法和不良信息举报:0916-4228922