1、基于Dspace构建甘青特有少数民族数字资源保存与服务系统保存与服务系统 中国科学院资源环境科学信息中心中国科学院国家科学图书馆兰州分馆纲要n系统概况系统概况n关键需求分析关键需求分析nDspace的特点nDspaceDspace在甘青特有少数民族数字资源保存与服在甘青特有少数民族数字资源保存与服务系统中的应用和改进务系统中的应用和改进1甘青特有少数民族数字资源保存与服务系甘青特有少数民族数字资源保存与服务系统概况统概况n甘青特有少数民族数字资源保存与服务系统是一个集少数民族数字资源的保存、管理和服务保存、管理和服务为一体的信息系统。n系统将对甘青地区特有的东乡族等少小民族的相关历史、文化、经
2、济、资源、环境的多媒体信息资源进行组织整理和发布,从而达到利用现代信息技术保存、传播和开发利用少数民族历史、文化、社会、经济、自然资源、地理环境信息,为少数民族研究提供基于网络的信息获取和交流平台,为民族地区区域可持续发展研究和决策提供信息支持,服务于民族地区的小康建设和可持续发展的目标。n本系统研究开发以中科院资源环境科学信息中心为主,参加者包括兰州大学、西北民族大学、甘肃省民族委员会、甘肃省图书馆等单位或相关人员。2项目关键需求分析项目关键需求分析n数字资源长期保存数字资源长期保存n需需要要从从利利于于长长期期保保存存的的角角度度考考虑虑数数字字资资源源的的描描述述语语言言、遵遵循循标准、
3、数字对象存储格式、数字对象的标识符等。标准、数字对象存储格式、数字对象的标识符等。n多类型资源的集成揭示多类型资源的集成揭示l信信息息类类型型众众多多,有有:图图书书、图图书书章章节节、期期刊刊论论文文、照照片片、录录音、录像等视听资料、报告、表格、地图、口述访谈等,音、录像等视听资料、报告、表格、地图、口述访谈等,l主主题题复复杂杂,包包括括历历史史源源流流、哲哲学学宗宗教教、民民俗俗习习惯惯、文文化化艺艺术术、资源环境、社会事务等,资源环境、社会事务等,l所所收收录录资资料料的的主主题题和和所所涉涉及及的的民民族族之之间间的的关关系系又又有有二二维维交交叉叉关系;同时民族的分布又具有一定的
4、地域特征。关系;同时民族的分布又具有一定的地域特征。l因因而而不不仅仅需需要要符符合合一一定定标标准准的的方方式式对对各各种种类类型型的的资资源源进进行行描描述述,同同时时对对于于民民族族数数字字资资源源的的语语义义组组织织管管理理来来说说,资资料料的的揭揭示示必必须须从从文文献献主主题题、文文献献类类型型、民民族族、地地域域等等多多方方面面立立体体地地展开,并提供多途径交叉的浏览导航功能。展开,并提供多途径交叉的浏览导航功能。2项目关键需求分析(续)项目关键需求分析(续)n数字资源分布式协作管理数字资源分布式协作管理 甘甘青青特特有有少少数数民民族族数数字字资资源源系系统统项项目目成成员员来
5、来自自不不同同的的单单位位,形形成成了了一一个个分分布布式式的的虚虚拟拟组组织织,其其数数字字资资源源的的组组织织管管理理要要求求基基于于WEB进进行行分分布布式式管管理理和和协协作作,要要求求这这些些空空间间上上分分布布而而工工作作上上又又相相互互依依赖赖的的多多个个协协作作成成员员及及其活动有机地组织起来其活动有机地组织起来,以共同完成某项任务。以共同完成某项任务。n基于工作流和用户角色权限的质量控制基于工作流和用户角色权限的质量控制 为了保证搜集、保存的信息资源的质量,有必要根据不同的用户组设置为了保证搜集、保存的信息资源的质量,有必要根据不同的用户组设置不同的权限,比如具有超级用户权限
6、的系统管理员、对栏目信息进行组不同的权限,比如具有超级用户权限的系统管理员、对栏目信息进行组织管理的栏目管理员、对元数据编辑审核的审核员、数据录入员、研究织管理的栏目管理员、对元数据编辑审核的审核员、数据录入员、研究级用户、一般用户等。工作流的支持一方面利于分布式的协作,另一方级用户、一般用户等。工作流的支持一方面利于分布式的协作,另一方面也利于保证数据的质量控制。面也利于保证数据的质量控制。2项目关键需求分析(续)项目关键需求分析(续)n开放获取和信息聚合开放获取和信息聚合n通过开放获取和信息聚合手段,围绕特定的学科或主题领域对分散的机构知识库中的信息进行再发现、再组织和集成,可以更加快速地
7、建立起符合科研人员获取和利用学科信息习惯的数字知识库系统,同时也将使信息资源库的内容被更广泛地发现和利用。目前我们的项目主要围绕甘青特有少数民族展开,我们相信会有更多的有关各个少数民族的内容管理系统提供开放的信息服务功能,因而从系统长期持续发展的角度考虑,应该支持开放获取和信息聚合。应用层统计工具Web用户界面OAI-PMH数据服务导入/导出工具媒体过滤器METS导出Dspace 公共 API 业务逻辑层 核心工具(配置、登录)搜索引擎历史纪录用户/用户组管理浏览工具内容管理管理工具Handle服务器存储插件Handle管理器提交工作流管理授权存储API 存储层RDBMSJDBCPostgre
8、SQLOracle比特流存储管理文件系统SRB3Dspace的特点nDspace的体系结构的体系结构nDspace的数据模型Dspace的元数据n描述型元数据 n每个条目都有一个DC元数据记录,其他的描述性元数据保存在序列化的比特流中,社群(community)和资源集合(collecitons)在DBMS中有一些简单的描述性元数据n管理型元数据n这包括保存元数据,来源和授权政策数据。n结构化元数据 n这包括如何向最终用户展现一个条目,或者一个条目中的比特流,以及条目的不同组成部分的关系。比如,一篇由多个TIFF图片组成的学位论文,每个图片都是论文的单独一页,结构化元数据将说明每个图片就是一页
9、,而且说明这些TIFF图片的顺序。Dspace的标示符 nHandlen保存的一个重要方面是命名;DSpace采用CNRI的Handle System来标识社群(Community)、资源集合(Collection)、条目(Item)等存档对象。nHandle System做为一种新兴的分布式的全球化命名和解析服务系统,可以为存档对象分配和赋予具有全球唯一性和持久性的标识符,并可以获得全球性的解析和定位服务,确保了所标识的对象可以在全球范围内被有效地引用和参考。n比特流标识符n每个比特流都有个38位的内部ID,这不同于比特流表的主键,在比特流存储管理器外事看不到的。它被用作决定比特流在传统存储
10、或SRB存储中的具体位置,Dspace的工作流Dspace在甘青特有少数民族数字在甘青特有少数民族数字资源保存与服务系统中的应用资源保存与服务系统中的应用 n甘青特有少数民族数字资源系统的设计结合以甘青特有少数民族数字资源系统的设计结合以OAIS(Open Achieve Information System)开放存档信息系统模型和开放存档信息系统模型和Dspace的基本框架作为础,同的基本框架作为础,同时考虑系统知识导航和概念检索需要,在时考虑系统知识导航和概念检索需要,在OAIS模型中引入了知识组织系统,构建模型中引入了知识组织系统,构建了本系统的功能结构模型了本系统的功能结构模型n功能框
11、架功能框架采集与摄入模块表单提交开放获取和聚集数据批量导入存档与管理模块用户/用户组权限管理用户注册登陆工作流管理栏目管理元数据编辑知识组织标识符管理存储与索引维护发布与服务模块SIPAIP一般检索及相关关键词扩展检索多途径浏览订阅个性化Reasearcher工具OpenURLAnada原文传递连接OAI-Provider/RSSDIPDspace在甘青特有少数民族数字资源保存与服务系统中的应用和改进 n界面的本地化 n浏览器Web(应用)服务器Web应用JDBC数据库 各个环节的本地化n对中文检索的支持(Lucene)n对中文浏览的支持(首字母音序排序)n建设知识组织体系,改进对检索的支持建
12、设知识组织体系,改进对检索的支持建设知识组织体系,改进对检索的支持n元数据提供了对资源各种属性的描述,但一条元数据记录不能充分反映出资源实体间的语义关联。比如,元数据只能揭示资源的主题,而不能揭示主题之间的关系,元数据中的知识体系是割裂的。因此,需要有一个机制来发掘和揭示消失在元数据中的知识体系,使离散的知识点成为相互关联的,可以在其间漫游的知识网络以支持系统的知识导航和概念检索。因此,在本系统中引入了知识组织系统。n创建主题词表和对应的分类表。主题词表中除了有该主题款目的名称、对应的类号外,还有用、代、属、分、族、参五个字段。分类表中提供了类号、类名和它的直接上下位类号。n首先提供了知识组织
13、体系的维护功能,提供了两种模式的维护:基本模式可以直接填加表单信息,树型模式可以利用增删移动修改树结点的方式实现。然后提供了基于词表查词、浏览的标引功能。这样在用户察看文档信息时,程序会利用该文档的关键词,从主题词表中搜索出该文档关键词的用、代、属、分、族、参概念,作为相关关键词。数据检索时,也会在搜索结果下面列出相关关键词。这样,就为用户提供了基于主题词表概念关系的扩检、缩检途径。建设知识组织体系,改进对检索的支持 基于基于Ajax框架提供多途径浏览、框架提供多途径浏览、导航功能导航功能n基于Ajax(Asynchronous JavaScript and XML)的动态加载节点的树结构,采
14、用J2EE多层架构,树节点的描述信息采用数据库存储,以可扩展标记语言(eXtensible Markup Language,简称XML)展现给JavaScript解析,支持无刷新地增加、删除、更新节点信息,以及拖放节点来改变树的结构和节点间的次序。nAjax相当于在用户和服务器之间加了一个中间层,使用户操作与服务器响应异步化。并不是所有的用户请求都提交给服务器,像些数据验证和数据处理等都交给Ajax引擎处理,只有确定需要从服务器读取新数据时再由Ajax引擎代为向服务器提交请求。这样就把一些服务器负担的工作转嫁到客户端,利用客户端闲置的处理能力来处理,减轻服务器和带宽的负担。研究型用户个性化工作
15、空间n为了有针对性地提供甘青特有少数民族数字资源系统用户的个性化服务,在原来Dspace基础上增加了研究型用户个性化工作空间。n不仅可以组织和显示研究型用户尚未完成的提交,并继续该工作,还显示出他所在的工作流程中未完成的任务,同时还允许他们将系统以外他所感兴趣的信息链接到这个个性空间。n此外,该工具还提供了设定个人主页,并提供了设定公开或者不公开该页面的选项。研究型用户个性化工作空间5.下一步应用的考虑nDspace1.4.1新功能与当前功能的整合nOAI harvester的开发 n统计功能的完善 参考文献n1DSpace System Documentation,http:/www.dsp
16、ace.org/technology/system-docs/,Jan 15 2006n2 Consultative Committee for Space Data Systems.Reference Model for an Open Archival Information System(OAIS).http:/public.ccsds.org/publications/archive/650 x0b1.pdf(Accessed June.17,2006)n3DspaceInstances.http:/wiki.dspace.org/DspaceInstances(Accessed Ap
17、r.12,2006)n4 Robert Tansley,Mick Bass,and MacKenzie Smith DSpace as an Open Archival Information System:nCurrent Status and Future Directions.http:/ieeexplore.ieee.org/iel5/8569/27127/01204846.pdf?isnumber=27127&arnumber=1204846,(Accessed Jan.12,2006)n5 Apache Lucene Sandbox.http:/lucene.apache.org/
18、java/docs/lucene-sandbox/(Accessed,Feb.24,2006)n6 Michael J.Bass,David Stuve,Robert Tansley,etc.DSpace A Sustainable Solution for Institutional Digital Asset Services Spanning the Information Asset Value Chain:Ingest,Manage,Preserve,Disseminate,www.dspace.org/technology/architecture.pdf(Accessed Jan
19、.12,2006)n7 http:/:8080/04/dspace/index.htm(Accessed Jan.12,2006)n8 http:/www.dspace.org/technology/system-docs/functional.html#metadata(Accessed Feb.20,2006)n9 http:/www.dspace.org/technology/system-docs/functional.html#handles(Accessed Feb.20,2006)n10 The Handle System.http:/ Feb.20,2006)n11 http:
20、/www.dspace.org/technology/system-docs/functional.html#ingestn12 Brian F.Lavoie,The Open Archival Information System Reference Model:Introductory Guide,http:/www.dpconline.org/docs/lavoie_OAIS.pdf,Accesed date Mar.20,2006n13 http:/www.dspace.org/technology/system-docs/configure.html accessed date Ja
21、n.15 2006n14 祝忠明,马建霞,常宁,米波.基于DSpace构建学科知识库系统的研究与实践.现代图书情报技术.2006(7)n15 pinyin4j.http:/ date July,15,2006n16 陈志平 徐锡山 陈玉教,基于AJAX的动态树型结构的设计与实现.计算机与信息技术,http:/ date June,15 2006n17 http:/ Accessed date:June 20,2006n18 http:/mailman.mit.edu/pipermail/dspace-general/2006-July/001064.html accessed date July 20,2006欢迎指正,谢谢!