您当前所在的位置是:首页>>新闻资讯>>业界动态
数字图书馆技术及其对组织机构代码管理的借鉴
发布时间:2011-09-22
一、数字图书馆技术在信息资源的管理与开发利用中的地位
(一)国内外数字图书馆建设情况
20世纪90年代初,美国科学家首先提出了Digital Library的概念,可以翻译为数字图书馆,也可以理解为数字化资源库。数字图书馆是一个数字信息资源系统,它通过现代信息网络技术体系,将有价值的图像、文本、音频、视频、软件等各种多媒体信息进行收集、组织、规范和再加工,最终向用户提供一个多库连接的信息存取服务。
自数字图书馆概念提出之后,各国都在积极推进数字图书馆研究和建设。美国是全球数字图书馆建设的领导者,其数字图书馆项目纳入了国家信息基础设施虚拟图书馆中,列在美国全球资源项目下。美国现有分布于各地的八个数字图书馆研究中心,六个国家级数字图书馆试验基地,很多90年代开始计划的数字图书馆规划目前已都完成。美国往事(American Memory)项目是美国国会图书馆数字图书馆建设的主要项目,其数字馆藏的对象主要是美国的历史文献,包括历史照片、手稿、历史档案和其他文献等,该项目已在2001年起向全球用户开放;由美国科学基金会(NSF)、美国国防高级研究计划署(DAROA)、美国宇航局(NASA)发起并资助的美国“数字图书馆首倡计划”(DLI,Digital Library Initiative)于1994年启动,该数字图书馆的内容主要是有关地球与空间技术的科学资料,一、二期工程已分别于1998年、2003年完成;美国国家基金会发起的美国国家科学数字图书馆(NSDL)也已完成,其目的是向各种层次的学生和教师提供高质量的科学、数学、工程与技术等教育资料。此外,美国很多地区和大学也都建立了自己的数字图书馆。
法国国家数字图书馆工程建设的数字资源达3000GB以上,书目数据记录830万条;德国“1996-2000年信息技术发展计划”的中心内容是建立全球数字图书馆;英国“国家图书馆存储创新倡议”共有20个项目,目前大多已完成,并在互联网上提供服务;“俄罗斯往事”项目包含了俄罗斯历史文化精华,它的电子图书馆项目包含了29个子项目;日本投入了15亿日元开发日文文献数据库,还投资4亿美元兴建“日本国会图书馆关西馆工程”。此外,很多全球性的数字图书馆项目也已建成,如“G8全球信息社会电子图书馆”是由美、法、英、日、德、加、意、俄8个国家的国家图书馆共同参加的项目,已于2000年完成,其内容涵盖了各国的历史文化精华。
国际上数字图书馆及相关概念出现后,中国国内很多单位也开展了相应的技术研究和开发工作。1997年中国实验型数字图书馆启动,经过三年多的工作,建成了分布于全国7个地区的数字资源库群,资源内容包括中国法律法规、文化旅游、名人和军事博览4个主题的30多个资源库。1998年国家图书馆启动了“中国数字图书馆工程”,其目标是建成超大规模的、高质量的分布式中文数字资源库并提供网上等多种服务,该项目目前还在建设中。2001年中国科学院启动了国家科学数字图书馆,目标是建成一个能够直接有效支持科研用户信息获取和知识创新活动的数字信息服务体系。此外,一些地方和大学根据自身的资源特点,也都在建个性化的数字图书馆。
(二)数字图书馆技术在信息资源的管理与开发中处于领先地位
随着信息技术的不断发展,数字化信息资源越来越多,如何采集、组织和管理这些海量信息资源,并通过再加工、信息共享、整合等增值服务,以满足各种用户的多样性需求,就成为了信息资源管理与开发的重要内容。
数字图书馆研究和开发起步较早,它将计算机网络环境下的信息资源的收藏、管理、使用和增值服务集成在一起,以支持数字化资源整个生命周期的活动,与其他领域的信息资源管理与开发具有相同的内容。因而,数字图书馆建设中所开发的很多技术、标准都可以被直接用于其他领域的信息资源管理与开发。目前,由于在全球范围内数字图书馆建设的快速发展,大大促进了相应技术的提升,如数字化技术、存储技术、信息资源描述技术、互操作技术、互联网查询检索技术等等,为其他领域的信息资源管理与开发提供了技术储备。
不仅是数字图书馆建设中开发的各种技术、标准可以为其他领域使用,数字图书馆还可以直接作为其他领域的基础设施被使用,如电子政务、电子商务等领域。可见,数字图书馆开发和建设在现代信息资源管理与开发中起着龙头和基础作用。
二、数字图书馆技术的最新发展
根据数字图书馆建设业务的流程,数字图书馆技术体系大致可分为四个部分:(1)资源采集和移植,包括传统信息资源采集和电子信息采集两个方面。传统信息资源采集使用的技术主要有扫描、缩微、光学字符识别、语音识别、人工智能等,电子信息采集包括文本、图像、视频、音频的处理技术。(2)资源描述。资源描述技术主要是标准的制定和规范,目前主要有MARC机读目录、元数据标准和标识语言标准。(3)资源组织,包括海量信息存储、加工、管理等技术。(4)资源存取,包括信息检索和互操作技术等。此外,资源安全技术在数字图书馆建设中也被广泛应用,包括网络安全、信息加密等。
数字图书馆建设的快速发展,极大地促进了数字图书馆技术的提升。从近一段时间的发展来看,数字图书馆技术研究和应用的主要着眼点有两个:一是资源描述技术;二是资源的互操作技术。前者主要从标准出发,规范数字图书馆资源的格式,以便于管理和用户使用。后者主要从用户应用出发,实现具有异构性的不同数字图书馆之间的共享。
数字图书馆系统是开放的数字信息系统,其提供的资源与服务必须适应多样化、分布、甚至是动态的用户需求。互联网上为数众多的数字图书馆信息建设模式的差异造成了今天数字图书馆之间信息和服务共享的困境。如何将这些已有的资源整合起来以满足用户的多样性需求,是目前数字图书馆建设的一个重点。推倒并按统一的模式重来显然是不现实也不经济的,因而互操作技术就成为了数字图书馆建设中的研究和发展焦点。而网格技术的出现,也正好满足了数字图书馆间的互操作要求。
(一)互操作技术
由于数字图书馆建设的主体不同,对数字图书馆的理解不同,并使用不同的标准、技术等,致使各个数字图书馆体系结构不同,限制了数字图书馆的服务范围。制约数字图书馆互操作的因素主要有两类,一类是应用层面的,如软硬件系统互不支持;另一类是基础层面的,主要是数字资源的组织和描述方面,如采用不同的元数据标准、不同的存储格式等。
目前,主要有三种实现数字图书馆的互操作技术:分布式搜索技术、基于中间件的互操作技术和基于协议的互操作技术。除此之外,针对目前数字图书馆建设中元数据格式众多的局面,还专门提出了基于RDF框架的资源描述机制(这部分内容将在标准中详细阐述),为不同元数据之间的相互变通提供了可能性。
1、分布式搜索技术
该机制将用户提交的查询请求,转换成每一个数字图书馆都可接收的形式,分别传输到多个数字图书馆站点执行,并收集每个返回的结果,综合整理后交给用户。分布式搜索机制可以分为两类:基于标准的方法和基于数据驱动的方法。
(1)基于标准的方法
该方法也可称为系统的方法,即所有参与互操作的数字图书馆构成一个系统,在系统内部制定一系列的协议和规范,要求所有成员都遵守协议,并按照公共的规范提供服务;要求所有组织都使用相同的平台和软件,并统一调度。网上计算机科学技术报告图书馆NCSTRL(Networked Computer Science Technical Reference Library)就是采用了这种方法。NCSTRL是一个拥有100多个机构加盟的系统数字图书馆,它借助分布式搜索技术在系统内的各个数字图书馆之间实现资源共享。
由于严格按照统一的标准来建立数字图书馆系统及馆藏资源,因此该种方法能够提供较好的、全面的互操作。但这种方法对成员图书馆的要求较高,所以难以形成大规模的系统。
(2)基于数据驱动的方法
该方法对成员数字图书馆的要求比较低,既不需要变动已有的数字图书馆的结构,也不要求各成员遵从某种互操作协议,而是通过收集数字图书馆可公开访问信息的途径获得最基本的互操作。这种方法通常提供统一的用户界面,用户输入查询请求,系统执行分布式搜索,并将合并后的查询结果返回给用户。
该种方法的典型代表是Old Dominion大学在InterOp项目中提出的LFDL(Lightweight Federated Digital Libraries)结构。该结构中,统一的搜索界面被定义成基本的交互中间层,要求使用数字图书馆描述语言,以描述各个资源的特征、能力、交互信息,并将这些信息登记到注册服务器中。当用户通过联邦数字图书馆查询时,联邦图书馆根据注册服务器中保存的信息,选择出最适合的成员图书馆执行用户的查询,并收集这些成员图书馆返回的结果,合并整理后提供给用户。
基于数据驱动方法是在传统的搜索服务之上提供一个抽象层,使其利用收集方法建立联邦数字图书馆,对成员没有任何要求,可操作性强。但正是由于其简便的特点,使得其互操作性的精密度较差,难以满足需要密切合作成员的要求。






