網(wǎng)絡信息資源保存
網(wǎng)絡信息資源保存——基于多元層次描述的構建方法探析王暢2012-9-27 15:10:34 來源:《圖書情報工作》(京)2010年21期【英文標題】The Network Information R
網(wǎng)絡信息資源保存
——基于多元層次描述的構建方法探析
王暢
2012-9-27 15:10:34 來源:《圖書情報工作》(京)2010年21期
【英文標題】The Network Information Resource Preservation:The Construction Method Based on the Multi-level Description
【作者簡介】王暢,男,1979年生,館員,編輯,已發(fā)表論文12篇。武漢圖書館武漢430015
【內(nèi)容提要】通過列舉國際相關網(wǎng)絡資源保存項目,分析各項目所采用的信息組織規(guī)范,探討網(wǎng)站信息多元層次的組織架構以及網(wǎng)絡信息保存的多元層次描述方法。闡述檔案來源原則的理論基礎與控制層次應用。通過分析互聯(lián)網(wǎng)多元層次的組織架構,探討網(wǎng)絡資源基于多元層次的組織和描述方法。最后,提出關于網(wǎng)絡信息長期保存發(fā)展的建議。
This paper introduces several projects of the web archive and analyses their principle of the information organization, intends to discuss the way of building and constructing for the web archive with the multi-level description. Besides, this paper reviews the theoretical foundation of the archive principle of provenance and practical application of control level. Web multilevel framework is analyzed in order to discuss the possibility of the application of web archive with web multilevel description. Finally, suggestions about keeping development of the web archive for future research are made.
,【關 鍵 詞】多元層次描述/網(wǎng)絡信息保存/檔案來源理念Multilevel description/Web archive/The theory of the archive provenance
隨著信息網(wǎng)絡環(huán)境快速發(fā)展,互聯(lián)網(wǎng)技術的興起與普及,各種原生型數(shù)字資源不斷蓬勃發(fā)展,特別是在互聯(lián)網(wǎng)上的信息資源更是與日俱增。圖書館與各種信息服務機構正著手研究數(shù)字資源保存和利用的相關問題,并開始進行各種網(wǎng)絡信息保存計劃。網(wǎng)絡信息資源的長久保存不僅是要提供現(xiàn)階段的使用與服務,同時也為將來提供研究及傳播知識的服務。
1、網(wǎng)絡信息資源保存計劃及其資源組織現(xiàn)狀
隨著互聯(lián)網(wǎng)的發(fā)展與信息技術的重大變革,知識傳播主要媒介已經(jīng)由傳統(tǒng)紙質轉移到數(shù)字形式,而互聯(lián)網(wǎng)正是數(shù)字資源傳播的主要環(huán)境。目前,互聯(lián)網(wǎng)可謂是世界上最龐大的數(shù)字資源集中地。有鑒于網(wǎng)絡資源已成為知識的主要形式,而網(wǎng)絡信息資源快速增長及迅速消失的特性使各國開始注意到網(wǎng)絡信息資源保存的重要性并開展相關的研究及實踐。從1996年起,澳大利亞國家圖書館
(National Library of Australia ,NLA) 開始進行Pandora 計劃,美國公益性組織創(chuàng)辦Internet Archives ,美國國會圖書館于2000年開始著手Minerva 計劃,我國的國家圖書館于2004年進行網(wǎng)絡信息資源保存試驗項目[1]。
1.1國外主要網(wǎng)絡資源保存項目簡介
●Internet Archive:人類知識的全球化使用(Universal access to human knowledge) 。Internet Archive 成立于1996年,由Alexa 創(chuàng)始人布魯斯特·卡
,利(Brewster Kahle) 創(chuàng)辦,是一個網(wǎng)絡信息保存及研究的公益性計劃。定期收錄并永久保存全球可開放獲取(Open access)的HTML 網(wǎng)頁資源[2]。
●Pandora :澳大利亞網(wǎng)絡文獻資源的保存與利用(Preserving and
Accessing Networked Documentary Resources of Australia)。該項目由澳大利亞國家圖書館于1996年開始啟動,其目的是在建立一個澳大利亞網(wǎng)絡信息資源歸檔系統(tǒng)的同時,為保護和存取澳大利亞電子資源制定政策和程序[3]。
●Minerva :網(wǎng)絡電子資源虛擬檔案鏡像(Mapping the Internet Electronic Resources Virtual Archive)。由美國國會圖書館從2000年開始實施,主要目標是為有關網(wǎng)絡信息的選擇和收集方面的實際問題提供試驗,從而為美國國會圖書館運行一個大規(guī)模的網(wǎng)絡信息保存項目提供指導和經(jīng)驗[4]。
1.2網(wǎng)絡信息資源收集策略對比分析
以上三個項目所采取的網(wǎng)絡信息資源收集策略主要有兩種:一是主體收集:所有符合標準的網(wǎng)站都加以收集,如Internet Archive是收集所有HTML 網(wǎng)頁;二是選擇性收集:由圖書館員或其他專家針對個別網(wǎng)站評選,按照相應標準進行選擇性收集。如澳大利亞的Pandora 計劃和國會圖書館的Minerva 項目。
選擇性收集的優(yōu)點在于不必將有限的人力、物力等資源浪費在保存很多垃圾信息上,同時還可以對收集到的網(wǎng)絡信息進行質量控制,并根據(jù)實際情況提供檢索。但是選擇性策略的缺點也比較突出,首先進行甄別篩選是非常費力的事情,需要相當多的人力、財力;其次選擇標準主觀性很強,由人為主觀進行選擇一方面可能會漏掉一些重要的網(wǎng)絡信息;另一方面也會有對選擇標準的非議。
,主體收集可能會保存很多沒有價值的網(wǎng)絡信息,但是會節(jié)省人力。盡管從理論上來講主體收集可以對選定域名內(nèi)的網(wǎng)絡信息的所有更新進行收集,但是由于目前收集工具的收集能力和其他技術因素,導致收集周期比較長,在這期間,可能就會漏掉一些重要的網(wǎng)絡信息。由于收集范圍廣,很難對所有收集到的網(wǎng)絡信息進行質量控制,因此很難保證收集的網(wǎng)絡信息資源的真實性和完整性。兩種資源收集策略的項目比較情況如表1所示:
1.3網(wǎng)絡信息資源組織及描述方式對比分析
3個項目在收集工具、收集方式、資源描述、檢索存取等方面各有特點,現(xiàn)將其歸納,如表2所示:
,1.4網(wǎng)絡信息資源保存項目優(yōu)劣分析
Internet Archive就其資源組織而言是以定期收集整個網(wǎng)站內(nèi)容的快照方式,數(shù)據(jù)量巨大,能以最全面最完整的形式保存網(wǎng)站資源。但其所收集的資源并未進行整理與描述,僅能通過URL 進行地址查詢、網(wǎng)頁瀏覽,無法提供關鍵詞或更深入的內(nèi)容查詢服務,缺乏信息的主題性和特征性描述,對于網(wǎng)站信息整體架構和發(fā)展脈絡的研究有一定的局限性。
Pandora 對每一個收集的項目都經(jīng)過評估及并得到相應的技術支持,資源組織方式是將網(wǎng)頁主題內(nèi)容加以選擇并收集網(wǎng)頁快照,以整個網(wǎng)站或專題為描述單元,參考有關電子資源編目標準并建立查詢系統(tǒng),同時使所收集的網(wǎng)頁資源編目
,紀錄能納入其國家書目網(wǎng),提供一致性的書目查詢服務。Minerva 則以主題選擇方式收集與保存網(wǎng)頁資源,其特點體現(xiàn)在以MODS 作為專題下的目錄層級的描述標準,提供二元層次的整理與描述。以上兩個項目雖然在資源整理描述的方式和手段上優(yōu)于Internet Archive,但在資源組織方式上都是以主題內(nèi)容為選擇性的網(wǎng)絡信息保存,是主題導向的收集。由于收集者主觀判斷所產(chǎn)生的偏差以及將資源抽離原有情境所產(chǎn)生的干擾,可能導致重要信息與研究價值的缺失。
2、檔案編排來源原則與實施方式
網(wǎng)絡資源的保存與開放使用,其核心在于網(wǎng)頁資源的編排與描述方式。網(wǎng)絡資源如同檔案數(shù)據(jù),是一個有機成長的可收集性資源,資源之間是一個具有相互關聯(lián)的結構性組織。
2.1檔案編排來源原則的理論基礎
檔案編排來源原則最初起源于1841年法國檔案學者所提出關于“尊重全宗”的概念。來源原則具體實施方式為控制層次,其最佳闡釋是由美國學者荷默斯于1964年所提出的“現(xiàn)代檔案工作重點是由廣泛與一般性到微觀性與特定性,以漸進方式收集與描述檔案單元”[9]。具體理論表現(xiàn)為:
2.1.1概念思想:來源原則檔案編排的來源原則,定義于檔案是隨著機構或個人的業(yè)務與活動所產(chǎn)生的文件,經(jīng)過有條件的價值鑒定,才得以成為長久保存的檔案數(shù)據(jù)。而經(jīng)由檔案可反映出某一機構或個人的特征,因此檔案編排必須依據(jù)其來源[10]。
,2.1.2具體表現(xiàn):尊重全宗在檔案實體整理與保管領域充分尊重檔案的自然形成規(guī)律,以檔案產(chǎn)生的有機體——機構、家庭或個人的所有檔案,作為檔案編排整理的全宗[11]。
2.1.3內(nèi)容發(fā)展:尊重原始順序尊重原始順序原則是用以維護歸檔系統(tǒng),包括管理特殊的文件與其相互之間的關系。運用尊重原始順序處理檔案在于原始順序具有下列特征:①反映當時業(yè)務的確實情況;②保存文件原有的關系;③提供有關記錄產(chǎn)生、利用或活動的文件證明;④增加檔案價值[10]。
2.1.4實施方式:檔案控制層次來源原則實際應用的方式體現(xiàn)于控制層次,它是以全宗、系統(tǒng)、案卷與件為四個基本層次,從整體性到特定性,以漸進方式收集與描述檔案單元。
現(xiàn)代檔案科學的發(fā)展表明,檔案編排以來源原則為理論基礎,外部具體表現(xiàn)是尊重全宗,內(nèi)部延伸結構為尊重原始順序,實際應用方法是檔案控制層次。其理論結構如圖1所示:
,圖1檔案編排來源原則的理論結構
2.2檔案控制層次模式
來源原則的具體實施是以檔案控制層次方式進行,在全宗、系列、案卷與件等四大主要層次,依尊重全宗與尊重原始順序編排。每一基本層次中都包含有處理需求和檢索等內(nèi)涵與信息,具體包括[10]:①全宗:通常由一個機構的文書或一個人的所有文件組成,應收集該全宗檔案的一般性內(nèi)容與其整體的歷史或傳記信息。②系列:系列是在全宗之下,依機構的下屬單位、業(yè)務或功能的記錄組成,包含有產(chǎn)生文件的特定業(yè)務與歸檔結構等信息。系列是檔案描述最基本的單元。其描述項目應包含:題名、日期、檔案數(shù)量、實體編排、內(nèi)容摘要等。③案卷:系列下包括的案卷,主要是檔案產(chǎn)生時為便于管理與保存,通過立卷依一定順序或標準將性質相同的文件歸類。④件:指個別文件,是案卷下的組成單元。
檔案編排通過控制層次,提供全宗、系列、案卷與個別文件四項基本控制層次,形成多元層次編排的基礎,可建立多元層次描述,提供多元層次描述信息及檔案內(nèi)容查詢與使用的服務。
3、基于檔案來源理論構建的網(wǎng)絡信息資源多元層次描述結構
3.1網(wǎng)絡信息資源的多元層次組織結構
來源原則的編排依據(jù),有別于主題內(nèi)容選擇的主觀性,具有客觀、理性基礎,適合網(wǎng)絡信息資源的特征,在互聯(lián)網(wǎng)內(nèi),網(wǎng)絡信息資源以統(tǒng)一資源定位符——網(wǎng)址(URL),以規(guī)定格式來獲取,例如http 、ftp 、gopher 、news 與mailto 等協(xié)議。
,URL 是用來界定資源對象的位置與該對象的存取方式,URL 中的域名是共享一個共同地址的網(wǎng)絡計算機群組,域名本身具有結構性,域名采用樹狀結構,并采用層級式管理。因此,網(wǎng)絡信息資源的編排可依據(jù)域名的層級式結構來組織網(wǎng)站資源的控制層次,并形成網(wǎng)絡信息資源多元層次的界定與結構。
3.1.1最高層:機構或個人網(wǎng)站域名是組織、企業(yè)或個人在網(wǎng)絡環(huán)境中身份的代表,可作為定義一個全宗的明確的界定。如www.nlc.gov.cn 是國家圖書館的機構域名。
3.1.2第二層:網(wǎng)站下子域名或主要欄目在機構域名下,可根據(jù)網(wǎng)站各種服務功能(即欄目),針對子域名區(qū)分成不同系列。例如wenjin.nlc.gov.cn 國家圖書館文津圖書館獎網(wǎng)站。
3.1.2第三層:在子域名或服務項目下相同性質的網(wǎng)頁在子域名下,由于網(wǎng)絡資源更新,為便于保存與管理可經(jīng)由收集相關性質的網(wǎng)頁,依日期或字母順序等次序加以編排。
3.1.4第四層:個別網(wǎng)頁網(wǎng)頁是網(wǎng)絡資源的最基本組成元素,有文本、視頻、動畫等形式,同時也是以URL 界定與存取。
依域名與網(wǎng)址結構所界定的網(wǎng)絡信息資源控制層次,是尊重網(wǎng)站創(chuàng)建者(機構或個人)的原始結構加以定義,如同檔案來源原則與控制層次的具體實現(xiàn),具備了客觀性且符合目的性的理論基礎。在網(wǎng)絡信息資源多元層次應用中二者的對應關系,如表3所示:
,以來源原則為理論基礎,依據(jù)檔案控制層次應用方式,所構建的網(wǎng)絡信息資源多元層次結構,除以域名為最高層級的來源用來了解網(wǎng)站創(chuàng)建者的歷史與建站目的外,運用個別網(wǎng)站的網(wǎng)域結構與尊重網(wǎng)站內(nèi)容歸類順序,更能符合網(wǎng)絡信息資源產(chǎn)生的背景與內(nèi)容結構。
3.2網(wǎng)絡信息資源的多元層次描述模式
由尊重來源原則所建立多元層次描述模式,由整體性到特定性,從宏觀到微觀,以循序漸進的方式來進行描述,符合網(wǎng)絡信息資源有機成長的可收集性與結構性,達到網(wǎng)絡信息資源組織的客觀性與目的性。根據(jù)網(wǎng)絡資源結構與檔案控制層次的對應關系,依照檔案來源原則描繪出網(wǎng)絡信息資源多元層次結構如圖2所示: