地方歷史文獻的數(shù)字化、數(shù)據(jù)化與文本挖掘:以《中國地方歷史文獻數(shù)據(jù)庫》為例
摘 要
歷史文獻數(shù)據(jù)庫可區(qū)分為數(shù)字化、數(shù)據(jù)化、文本挖掘三種不同形態(tài),迄今多數(shù)中文歷史文獻數(shù)據(jù)庫實現(xiàn)了數(shù)字化功能,部分地實現(xiàn)數(shù)據(jù)化功能,而能夠?qū)崿F(xiàn)文本挖掘功能的則十分少見。數(shù)字化是將文獻的物理形態(tài)轉(zhuǎn)化為電子形態(tài),數(shù)據(jù)化是將文獻轉(zhuǎn)化為可量化分析的數(shù)據(jù),編制元數(shù)據(jù)是主要方法。文本發(fā)掘是在此基礎上開發(fā)文本分析工具?!吨袊胤綒v史文獻數(shù)據(jù)庫》以文獻學研究為基礎,建立特定的元數(shù)據(jù)結構,提供交叉導航、數(shù)據(jù)統(tǒng)計等多種功能,這些功能不僅可以幫助研究者找到自己的所需文獻,更可能幫助研究者發(fā)現(xiàn)新的研究議題。史學研究中,數(shù)據(jù)庫有必要被視作一種新的文獻形態(tài),建立針對性的文獻學方法論。
1
引 言
數(shù)字化(digitalization)、數(shù)據(jù)化(datalization)、文本挖掘(text mining)是歷史文獻數(shù)據(jù)庫的三種不同形態(tài)。數(shù)字化是將文獻從物理形態(tài)轉(zhuǎn)化為電子形態(tài),數(shù)據(jù)化是將電子形態(tài)進一步轉(zhuǎn)換為可識別的文本與可分析的數(shù)據(jù),文本挖掘則是針對文本、數(shù)據(jù)做進一步的計量、相關性、GIS分析。本文將嘗試提出并解釋3種數(shù)據(jù)庫形態(tài)分類的依據(jù),并以《中國地方歷史文獻數(shù)據(jù)庫》為例說明如何實現(xiàn)數(shù)據(jù)化與文本挖掘。最后,本文將提出一個有待解決的問題,史學研究中,數(shù)據(jù)庫是否已經(jīng)有必要視作一種新的文獻形態(tài),并建立針對性的文獻學方法論?
2012年以來《中國地方歷史文獻數(shù)據(jù)庫》由上海交通大學出版社、圖書館、歷史系合作開發(fā)。該數(shù)據(jù)庫由上海交通大學歷史系收集資料,并提出數(shù)據(jù)庫建設構想,于2012-2013年間由上海交大圖書館進行文獻整理與數(shù)據(jù)加工,2013年以來由上海交大出版社進行數(shù)據(jù)庫研發(fā)。該數(shù)據(jù)庫主要收錄上海交通大學2009年以來陸續(xù)收集的浙江、安徽、福建等地地方歷史文獻及2007年以來曹樹基收集、授權復制的《石倉契約》,總計近35萬件,目前已進入數(shù)據(jù)庫的有10萬余件。
2
從數(shù)據(jù)化到
文本挖掘:歷史文獻數(shù)據(jù)庫的演進
數(shù)字化并非一個新鮮概念,通常語境中,數(shù)字化是指將文獻的物理形態(tài)轉(zhuǎn)化為電子形態(tài),或者說將模擬數(shù)據(jù)轉(zhuǎn)換為二進制數(shù)據(jù)。但電子形態(tài)的文獻除了易于傳播外,并不能增強文獻的利用價值。如今天廣泛傳播于網(wǎng)絡的書籍掃描電子檔,對讀者來說,只是將閱讀載體從紙本書變成了電腦屏幕,并未真正改變使用者利用文獻的方式。如果將“大數(shù)據(jù)時代”理解為書籍電子檔橫行的時代,則遠不能視為歷史學研究的重大變革。
真正能夠改變文獻利用方式的是數(shù)據(jù)化,也即將文獻轉(zhuǎn)化為可制表分析的量化形式。歷史文獻中包含的產(chǎn)量、價格等信息,可以被轉(zhuǎn)換為量化數(shù)據(jù),其他描述性的信息,也應通過某種形式轉(zhuǎn)換為可量化分析的數(shù)據(jù),這是歷史文獻數(shù)據(jù)化的理想狀態(tài)。目前在針對歷史文獻的研究方法中,常用的是詞頻分析、GIS以及關系網(wǎng)絡分析等。
數(shù)據(jù)化的意義是將利用文獻的方式從“讀”轉(zhuǎn)變?yōu)椤胺治觥?,其核心方法是重組文獻內(nèi)容,置入使用者所建立的新的文本或數(shù)據(jù)結構中,也即文獻的結構化。歷史學研究中,這也并非新鮮事物。計算機出現(xiàn)之前,史學研究者已經(jīng)在制作史料編年、人物關系表,經(jīng)濟史與社會史研究中也早已整理了各種數(shù)據(jù)序列。如何炳棣研究科舉與中國社會流動性的關系,在朱卷基礎上建立的龐大數(shù)據(jù)表并未借助計算機技術。計算機技術帶來的革新使得研究者可以更高效率地建立并使用數(shù)據(jù)。如王業(yè)鍵主持建立的《清代糧價資料庫》,該數(shù)據(jù)庫建成于2008年,最初依靠代碼表查詢數(shù)據(jù),現(xiàn)在已可利用下拉列表查詢時間、地域、糧別,是中國經(jīng)濟史研究的基礎性數(shù)據(jù)。
給歷史學帶來真正深刻變革的是,計算機技術提供了分析數(shù)據(jù)化文獻的復雜工具。文本挖掘的理念,正是由此興起。從數(shù)據(jù)化到文本挖掘的演進,以“數(shù)字人文”(digital humanity)概念的興起為標志。這一理念引導了數(shù)據(jù)庫建設、開發(fā)思路的轉(zhuǎn)變,人文學研究者不再是被動選擇既有的數(shù)據(jù)庫,而是參與數(shù)據(jù)庫建設過程,由其自身研究需要引導數(shù)據(jù)庫開發(fā),數(shù)據(jù)庫開發(fā)過程也就成為其研究的一部分。
“數(shù)字人文”概念在20世紀90年代興起,逐漸取代20世紀70年代以來的“人文電算”(humanity computing)概念,成為一個增長迅速的交叉研究領域。項潔、王曉光等已經(jīng)先后梳理了數(shù)字人文概念在西方學界的發(fā)展及其在中文人文研究中的適用性。筆者認為數(shù)字人文研究還可細分為文獻數(shù)據(jù)庫、線上博物館、網(wǎng)絡文本(cyber born text)分析三個子領域。
總的來看,西方數(shù)字人文研究更多的力量集中于對網(wǎng)絡文本的分析。互聯(lián)網(wǎng)出現(xiàn)以來所積累的各類型線上數(shù)據(jù),數(shù)量已經(jīng)十分龐大,自然成為研究者們關注的焦點。而且這類研究直接與互聯(lián)網(wǎng)經(jīng)濟相關,很多不同學科的學者都有興趣介入。線上博物館所關心的則是如何將傳統(tǒng)藝術領域的“展示”轉(zhuǎn)變?yōu)樵诰€的、可視化的、互動的。
相較而言,歷史文獻雖然留存數(shù)量龐大,但已經(jīng)電子化的規(guī)模仍遠遠少于網(wǎng)絡文本,并且歷史文獻數(shù)據(jù)庫研究的收益回報也顯然低于網(wǎng)絡文本研究。因此,針對歷史文獻的數(shù)字人文研究并沒有如網(wǎng)絡文本那樣活躍。雖然如此,如前所述,不論在西方學界或中文學界,都已經(jīng)有很多數(shù)字人文導向的歷史文獻數(shù)字化或數(shù)據(jù)分析研究。今后的歷史文獻數(shù)字化過程中,數(shù)字人文導向?qū)⑹且粋€總的趨勢。
近年歐洲史研究中已經(jīng)出現(xiàn)越來越多以文本挖掘為主要目的的數(shù)據(jù)庫或分析工具。如Tara Andrews開發(fā)的拜占庭文書???critical editing)工具。此外,荷蘭、比利時等國家在2013年集中討論了“大數(shù)據(jù)”(big data)對歷史學研究的影響,他們所開發(fā)的Biland數(shù)據(jù)庫以及WAHSP數(shù)據(jù)庫可以對17—18世紀歐洲的媒體資料進行詞頻分析、語言比較分析,為人文學者提供幫助。
中國史研究中,21世紀初時已有不少學者開始考慮如何使用數(shù)據(jù)庫便利文獻檢索與研究。這些討論中,多數(shù)學者的關注點是如何使用數(shù)據(jù)庫,而較少涉及如何開發(fā)針對性的數(shù)據(jù)庫,研究者參與數(shù)據(jù)庫設計、開發(fā)者更少。這一時期代表性的中國史史料數(shù)據(jù)庫是《文淵閣四庫全書》電子版與《中國基本古籍庫》?!段臏Y閣四庫全書》電子版由上海人民出版社與香港迪志文化公司、香港中文大學共同開發(fā),于1999年投入市場。《中國基本古籍庫》于1998年作為高校古委會項目立項,由北京大學領銜開發(fā),完成于2001年,此后陸續(xù)投入市場。
作為第一代中文史料數(shù)據(jù)庫,當時的主要技術難點是文字錄入與標準化,實際也就是數(shù)據(jù)化問題。《四庫全書》電子版在研發(fā)中曾與清華大學計算機系合作,開發(fā)“多特定人準規(guī)范手寫OCR引擎”,用于文字自動錄入。如何處理Unicode字符集之外的文字,以及如何利用XML語言建立文字標引,在當時都是有待解決的技術難題。傳統(tǒng)文獻學中的版本考辨,也是這類數(shù)據(jù)庫所面臨的困境,在當時的開發(fā)條件下并沒有很好地解決。此外,《四庫全書》電子版與《中國基本古籍庫》最初都使用光盤版發(fā)行,這是由當時的技術條件與網(wǎng)絡速度決定的。
因此,以上數(shù)據(jù)庫所體現(xiàn)的設計理念是將其視作檢索、獲得文獻文本的儲存平臺。盡管當時的研究者已經(jīng)認為“電子版不是紙版翻印”,應當具有豐富的研究功能與工具,但是他們所指的研究功能主要還是檢索功能。
2007年以來,歷史文獻數(shù)字化的范圍擴大到古籍以外。有越來越多學者討論民間歷史文獻、地方歷史文獻數(shù)據(jù)庫,除歷史學者外,也有圖書館學學者基于各圖書館的館藏情況,提出特色文獻數(shù)據(jù)庫建設構想。但不論怎樣討論歷史文獻數(shù)據(jù)庫的使用或建設,多數(shù)研究者構想的主要是數(shù)據(jù)庫的資料儲存、文本檢索功能,而較少考慮如何使用數(shù)據(jù)庫中幫助研究者分析文本。
中文民間文書、地方文獻數(shù)據(jù)庫中,迄今文本分析、數(shù)據(jù)處理功能最為完備的是臺灣歷史數(shù)字圖書館(THDL),該數(shù)據(jù)庫由項潔領導的臺灣大學數(shù)字人文研究中心開發(fā),主要收錄臺灣地區(qū)契約文書及臺灣總督府檔案。THDL中提供詞頻分析、上下手契關聯(lián)分析、人物相關性分析等不同功能,還可以部分地實現(xiàn)契約空間分布的展示。THDL提出了數(shù)據(jù)庫建設的新理念,那就是數(shù)據(jù)庫的主要功能是為研究者提供研究環(huán)境并幫助研究者發(fā)現(xiàn)問題,而非僅僅是儲存與檢索。
由上可見,迄今流行于網(wǎng)絡中的中文歷史文獻電子資源中,數(shù)量最龐大的是掃描、錄文、影像等數(shù)字化資源,如大量的書籍掃描電子檔,以及部分全文檢索數(shù)據(jù)庫。此外借助計算機技術實現(xiàn)的文獻數(shù)據(jù)化成果正在逐步積累,如王業(yè)鍵主編的《清代糧價數(shù)據(jù)庫》。數(shù)據(jù)化基礎之上,文本挖掘的發(fā)展還比較有限,其代表是臺灣歷史數(shù)位圖書館。
數(shù)字人文導向,提供文本挖掘能力將是今后歷史文獻數(shù)據(jù)庫開發(fā)的大趨勢。但是,如何數(shù)據(jù)化?研發(fā)怎樣的工具能夠?qū)崿F(xiàn)文本挖掘?中文史料數(shù)字化的進程中,以上問題還尚在探索之中,成熟的案例并不多。因此,我們在開發(fā)《中國地方歷史文獻數(shù)據(jù)庫》時,將以上問題作為我們的研究焦點。
3
基于文獻性質(zhì)的
數(shù)據(jù)庫結構與分析工具研發(fā)
我們在開發(fā)《中國地方歷史文獻數(shù)據(jù)庫》的過程中意識到,對文獻進行有效的數(shù)據(jù)化,并開發(fā)有效的分析工具,必須以對文獻性質(zhì)的深入研究為基礎。數(shù)據(jù)庫開發(fā)中,我們主要面臨兩個問題,第一,如何針對地方歷史文獻的文獻性質(zhì),進行有效的數(shù)據(jù)化。數(shù)據(jù)化不僅僅是文字錄入,更重要的是為文獻設計元數(shù)據(jù)(metadata)。利用元數(shù)據(jù)標引并標準化文獻中的信息,才有可能將文獻中的描述內(nèi)容轉(zhuǎn)變?yōu)榭煞治龅臄?shù)據(jù)。
第二,如何從數(shù)字人文的理念出發(fā),開發(fā)更多有助于研究者的分析工具。今天計算機技術能夠提供的分析功能非常多,但不同的軟件、分析工具,都對數(shù)據(jù)類型有特定的要求,因此需要考慮特定的文獻類型可以被處理成怎樣的數(shù)據(jù)形態(tài),并據(jù)此做針對性的分析工具開發(fā)。為了解決這兩個問題,首先必須對地方歷史文獻的性質(zhì)做一分析。
本文所討論的地方歷史文獻,主要指兩類材料,一類文獻是留存于民間,產(chǎn)生于民間的日常生活,以手寫為主,未經(jīng)過出版暨知識再整理的過程,也可稱之為民間歷史文獻或民間文書。另一類文獻是由地方政府形成的各種檔案。這里所說的地方政府主要指作為“親民之官”的縣級或次縣級行政機構,對于明清時代來說,也可包含府(州、廳)級行政機構。如民國時期江津縣保留了2萬余卷司法訴訟檔案,通過這些檔案,可對20世紀上半葉的江津地方社會做深入研究。
這類材料與一般意義上的“古籍”具有不同的文獻學特征。古籍是經(jīng)過有意識的書寫與知識再組織之后形成的,地方歷史文獻的文本形成之后,沒有經(jīng)過一個知識再組織的過程,這些文本經(jīng)歷了一個功能性使用的周期后,就被以其使用中的形態(tài)保存起來。這意味著,首先,這類文獻的每一件都是獨一無二的,幾乎沒有復本。進而,由于沒有復本并且未經(jīng)過知識再組織,這類文本并不形成版本,古籍則具有抽象概念的“書”與作為實體的“版本”之間的分離。這就意味著整理地方歷史文獻時,版本整理、??辈皇侵饕y點。
地方歷史文獻與古籍的另一個差異是,地方歷史文獻更多情況是碎片化的,單個文本的字數(shù)少,古籍整理中所注重的文本內(nèi)關系,如篇章順序、自校等,在地方歷史文獻中雖然也存在,但不是非常顯著。整理地方歷史文獻時更注重文獻之間的關系,以明清史學界整理過程最久的徽州文書為例,以下學者們所提出的徽州文書特性,或可啟發(fā)我們理解地方歷史文獻的特性。
資料來源: 周紹泉: 《徽州文書與徽學》,《歷史研究》,2000 年第 1 期; 臼井佐知子: 《徽州文書と徽州研究》,載森正夫明清時代史の基本問題》,汲古書院,1997; 中島樂章著、郭萬平、高飛譯: 《明代鄉(xiāng)村糾紛與秩序: 以徽州文書為中心》,南京: 江蘇人民出版社,2006; 嚴桂夫、王國鍵: 《徽州文書檔案的特點與價值》,《檔案學研究》,2001 年第 1 期; 劉伯徽州文書的遺存及特點》,《歷史檔案》,2004 年第 1 期。
周紹泉認為徽州文書具有真實性,因為徽州文書是從實際生活中直接形成的文件。他所說的典型性則是指利用徽州文書可以形成一個個具有代表性的個案研究。中島樂章所說的原始性,其含義接近與周紹泉所述的真實性,特別強調(diào)徽州文書來自實際生活。另外,中島樂章所說的豐富性是指:“徽州學研究的最大優(yōu)勢在于,以徽州文書為中心,大量地保存了長時期族譜等文獻史料和建筑等非文獻史料?!锌赡芑謴桶癖娢幕?、日常生活在內(nèi)的一個地方社會的全貌?!眹拦鸱蚝屯鯂I所說的系統(tǒng)完整,與劉伯山所述的連續(xù)性具有相近含義,均強調(diào)徽州文書的來源是可追溯的,文書之間的內(nèi)部聯(lián)系是有機的,可以復原的。
以上各位代表性學者所提出的徽州文書特性,可以歸納為以下共同點:第一,所有學者都認為徽州文書存量之大,內(nèi)容之豐富,是同時代其他文獻群難以匹敵的。第二,相對于傳世文獻,徽州文書的特別之處是其保持了原始記錄,同時具有完整的、有機的文獻內(nèi)部聯(lián)系。
地方歷史文獻的單件當然也具有研究價值。以契約文書為例,傅衣凌、章有義、楊國楨等前輩學者都曾依據(jù)一件件獨立的、經(jīng)過選擇的契約解釋明清鄉(xiāng)村的地權結構。但隨著研究的深入,對單件文書的分析、考釋,常常不能滿足研究的需要,即使在傅衣凌開創(chuàng)契約文書研究的時期,當他對契約文書內(nèi)容和類型進行了解釋和考釋之后,也轉(zhuǎn)入了以時間、地域等關系對多件契約做綜合分析的研究。可以說,地方歷史文獻碎片化的形態(tài)決定了其每一個單件的研究價值通常要置于一個整體中才能被發(fā)現(xiàn),即其研究應當以一個“文獻群”為單位展開。
以上差異決定了,地方歷史文獻不能使用既有的古籍數(shù)據(jù)化方法。多數(shù)古籍的數(shù)據(jù)編目,都可參照現(xiàn)代書籍標準。但在地方歷史文獻的文獻結構中,著作人、出版方、出版地點等等都是不主要的,甚至是不存在的信息。因此,必須設計針對性的元數(shù)據(jù)方案。
數(shù)據(jù)庫開發(fā)實踐中,我們參照圖書館界通行的都柏林原則(Dublin Core)設計了事主、題名、時間、地域、文獻類型等元數(shù)據(jù)項目。數(shù)據(jù)庫中元數(shù)據(jù)格式主要實現(xiàn)兩種功能。其一是識別每一件文獻,并說明文獻的性質(zhì),如文獻編號、資源類型。其二是對文獻內(nèi)容的描述,地方歷史文獻所涉及的內(nèi)容千差萬別,設計能夠適用于全部文獻的元數(shù)據(jù)是非常困難的。因此元數(shù)據(jù)的設計必須具有高度的彈性,能夠涵納多數(shù)文獻,如文獻名稱、涉及人名(事主)、文獻歸戶、日期等,幾乎所有文獻中都具備。但另一方面,針對存量特別多的文獻,也需要針對性設計。從目前粗略的統(tǒng)計看,契約、賬簿占到文獻收藏的60%左右,因此也設計了如標的、金額等此類材料所特有的元素。
從資料中提取元數(shù)據(jù)可以采用人工與半自動標記(semi-automate tag)甚至全自動的方式。上海交通大學目前采取的是人工編目的方式,但是社會學界及數(shù)字人文領域已有一些可應用于中文文獻的半自動標記工具,可以預見,這將成為今后的一個趨勢。
4
歸戶:
制度史源流、整理方法、元數(shù)據(jù)
以上元數(shù)據(jù)格式中,歸戶是我們首創(chuàng)的元數(shù)據(jù)項目。這個元數(shù)據(jù)項能夠幫助使用者感受到文獻本來的特性,也是進一步開發(fā)分析工具的基礎。“歸戶”元數(shù)據(jù)項體現(xiàn)了我們提出的基于對文獻性質(zhì)的理解構建元數(shù)據(jù)結構的數(shù)據(jù)庫開發(fā)理念。
之所以提出這項設計,是因為我們面臨一個困境:地方歷史文獻與書籍存在文獻性質(zhì)的差異,其研究價值必須以一個“文獻群”為單位,那么,如何確定一個文獻群的范圍?如何在數(shù)據(jù)化中體現(xiàn)一個文獻群的內(nèi)在聯(lián)系?
一個具有研究價值的文獻群,應當是一組具有內(nèi)在邏輯關系的文獻所組成的整體,特別是那些由生產(chǎn)自同一個來源的文獻所形成的整體,如出自同一個家族的全部文書,或同屬一個案卷(record)的全部檔案。凡是屬于同一個文獻群的文獻,即使是在研究者看來可能并無價值的殘件,整理時都應當全部收錄。在《石倉契約》的整理與研究過程中,以上方法被歸納為“有機”的研究方法。
進而我們發(fā)現(xiàn),檔案學中的全宗原則、來源原則對如何界定一個文獻群有直接的借鑒意義。如果參照全宗原則與來源原則,來自明清賦役制度以及徽州文書的“歸戶”概念則是最有效界定文獻群的方法。
全宗原則和來源原則是19、20世紀之交檔案學逐漸發(fā)展出的檔案管理理論。16至18世紀的歐洲國家,其檔案管理本來依據(jù)“事由原則”,即按照檔案內(nèi)容對檔案進行分類保管。19世紀之后,本來的王室檔案館與行政機關文件登記室逐漸轉(zhuǎn)變?yōu)閲覚n案館,并且從封閉保密轉(zhuǎn)為開放查閱,檔案來源與檔案查閱需求也隨之多元化,因而,本來封閉的、依照邏輯進行主題分類的檔案管理辦法不再能滿足需要。有的檔案可以歸入多個分類,或者有的檔案不能按照現(xiàn)有分類歸檔,這都給檔案管理造成困難。
1841年,法國內(nèi)政部第14號通令頒布省檔案館條理,規(guī)定:“來源于一個團體、一個機構、一個家庭或者一個人的所有文件都要組成全宗;檔案管理人員不得把全宗拆散或?qū)⒉煌娜诨煸谝黄??!边@一條例規(guī)定提出了“尊重全宗原則”(the principle of respect pour les fonds),成為“來源原則”、“全宗原則”之濫觴。
繼法國之后,1881年德國國家檔案館發(fā)布《國家機密檔案館檔案整理條例》,其中提出“國家機密檔案館內(nèi)文件按其組成部分的來源進行整理”以及“每一機關一旦開始移交文件,就要立即指定一部分庫房專放該機關的文件,在這部分庫房內(nèi),官方文件要保持它在有關機關活動過程中獲得的順序和標志?!奔础暗怯浭以瓌t”,這一原則之后發(fā)展為檔案學中通行“來源原則”。
地方歷史文獻中的每一個文獻群,正如同檔案學中所說的“來源”。近年民間文書整理中所提出的“歸戶”概念,與來源原則有相似之處。歸戶是一個來自明清賦役制度的概念,意指賦役過割至地權買入人戶,如清初陸隴其總結地方官的為政經(jīng)驗,“受業(yè)之家”即地權買入方應當“割稅歸戶”,這里的“歸戶”是一個動詞,為歸入買人戶之意。明清之際的賦役制度改革中,“歸戶”是一個總體性的原則。
夫有田則有賦,頑猾抵官者,誠所當治,而善良樂輸者,要當與之覆議。其大要,則于移割宜加意焉。產(chǎn)去稅存,不可不察,民又以出業(yè)報者,便當關會受業(yè)之家,割稅歸戶,然后卻、與、除、退,庶幾無泛追、無濫罰、無推攤抵捱之弊。
“歸戶”在明末演變?yōu)橐粋€名詞,徽州文書中存在“歸戶親供冊”、“歸戶清冊”等賦役冊籍,通常是一個納稅戶所有應納稅糧之土地的登記,與陸隴其所稱之“歸戶”涵義相通。根據(jù)目前學界對清代賦役制度的理解,這些納稅戶通常是一些虛擬戶名,其背后可以是個人、家庭、宗族、會社或其他社會團體。這些“戶”是納稅單位,同時也即經(jīng)濟活動的單位,進而也是產(chǎn)生契約、賬簿等民間文書的基本單位。
整理、研究民間文書的學術史中,劉伯山較早將“歸戶”作為一項原則,認為徽州文書具有歸戶性。他在編輯《徽州文書》時將同屬一個家族的文書稱為歸戶文書。此后,越來越多學者將“歸戶性”視作民間文書的一項重要特性,研究者在整理清水江文書、太行山文書時,也開始重視歸戶整理的方法。
正如檔案學對“來源”的理解越趨復雜,隨著文獻收集越來越豐富,作為文獻收集、整理基本單位的“戶”、“歸戶”也應當具有更豐富的內(nèi)涵。事實上,早在1962年嚴中平已經(jīng)提出一項針對收集工作的建議,希望能夠“完整地”收集徽州文書。我們認為嚴中平所說的“完整”已經(jīng)包含了“歸戶”的整理原則。正如檔案保管從事由分類轉(zhuǎn)向來源分類,保管、整理地方歷史文獻也應當以文獻群或“歸戶”作為基本單位,從而取代按照內(nèi)容、年代等進行整理的原則。因為這些文獻本來是以文“戶”為單位產(chǎn)生的,以“戶”或文獻群為單位進行保管、分類,最能夠保持文獻內(nèi)部的有機聯(lián)系。同時,“戶”的所指也應更加豐富,舉凡家戶、家族、宗族、會社、寺廟等都可成為一“戶”。
因此在《中國地方歷史文獻數(shù)據(jù)庫》中,“歸戶”成為一個元數(shù)據(jù)項目,設計為“縣+姓氏”的形式,根據(jù)收集文獻時獲得的信息,標注每件文獻所屬的縣份及姓氏,由此反映文獻與當?shù)厝巳褐g可能存在的關系。在徽州及浙南等文獻脈絡更清晰的地方,文獻的歸戶信息還可細化到縣以下層級,也即其所屬的“都”、“圖”、村落等。但縣以下行政區(qū)劃層級幾乎每一縣均不相同,因此在按照“歸戶”信息檢索的界面中,省去了縣以下層級,而在元數(shù)據(jù)中,則以文字形式保留了這些信息。
為了彌補以上不足,元數(shù)據(jù)中又增加了“批次”信息,這是收錄于《中國地方歷史文獻數(shù)據(jù)庫》中每一個文獻群的編號,這個編號是根據(jù)每個文獻群入藏的時間制作的,文獻群中的每一件文獻則在批次號的基礎上流水編號。批次號是對文獻群物理保存形態(tài)的反映。
5
文本挖掘:拓展數(shù)據(jù)庫應用的可能性
研發(fā)《中國地方歷史文獻數(shù)據(jù)庫》時,由于資金與技術的限制,并未設計嵌入數(shù)據(jù)庫的文本挖掘工具,但從數(shù)字人文的理念出發(fā),設計了兩種檢索方式以及兩組檢得文獻分析工具。研究者利用這些工具,就有可能進行進一步的文本挖掘與研究。
數(shù)據(jù)庫提供的基本檢索方法是輸入任意詞在整個數(shù)據(jù)庫中檢索,或者以下拉列表方式在題名、事主、歸戶、事由、分類中用任意詞檢索,也就是通常文獻數(shù)據(jù)庫都具備的普通檢索與高級檢索。另一種檢索方式是多維分類導航,也即利用時間、地域、歸戶、分類法等方法交叉瀏覽、檢索,尋找文獻。對于檢索所得文獻,數(shù)據(jù)庫提供兩種分析工具,一種可以統(tǒng)計檢得文獻的地域分布、年代排序、類型分布,以及事主統(tǒng)計。另一種工具則可顯示檢得文獻的關聯(lián)文獻,如屬于同一批次、同一地域、同一歸戶或同一事主的文獻及其數(shù)量。
建立以上檢索與分析工具的意義是為研究者提供更好的研究環(huán)境。通過檢索找到資料庫中的資料,是研究者使用數(shù)據(jù)庫的最基本需求,但是,歷史學研究不僅需要找到資料,更重要的是發(fā)現(xiàn)資料間的關系。歷史學研究中,文本記錄中的時間、空間、人物無疑是最重要的三組關系,我們試圖在數(shù)據(jù)庫中提供相應的功能幫助研究者揭示資料群在這三個方面的關聯(lián)性。依據(jù)時間檢索,檢得資料時間分布統(tǒng)計正是為發(fā)現(xiàn)不同時間形成的資料間的關系而設計的。地域、歸戶等則是以不同形式分析、呈現(xiàn)資料的空間分布。文本中所有的人物信息則都被登記為事主。
以上功能設計還有可能進一步幫助研究者發(fā)現(xiàn)新的資料或新的研究議題。以我們最近的一項研究為例,本來的研究計劃中,只是準備分析清代徽州契約中代筆人與買賣雙方的親屬關系,在利用事主相關功能檢索一批文書中代筆人的身份時,發(fā)現(xiàn)在一批契約中的代筆人江振玉同時還是當?shù)鼐幹茪w戶冊的冊書,由此開始研究清代鄉(xiāng)村中同時擔任半職業(yè)代筆與稅收職役的人群。
并且,編制元數(shù)據(jù)時提取了文書中的全部人物,也就有可能分析文書所反映的社會網(wǎng)絡。仍以上述研究為例。根據(jù)歙縣枧橋江氏家族所保存的100余份契約,可以建立該家族清代、民國時期的土地交易記錄數(shù)據(jù)庫,圖1是根據(jù)數(shù)據(jù)庫繪制的當?shù)赝恋亟灰咨鐣W(wǎng)絡。圖1中可以觀察到300余年間該家族有實力大宗購入土地的主要成員,以及該家族購買土地時主要使用的戶名。此外,利用分家書、家譜等其他資料,還可進一步分析圖1中與該家族頻繁交易的人物身份。研究者由此可以了解當?shù)厣鐣P系網(wǎng)絡對土地交易的影響。
6
結論:建立史料數(shù)據(jù)庫的文獻學方法
數(shù)字人文是最近20年來新興的交叉學科概念,對歷史學研究而言,引入這一概念的意義是促進更多分析工具應用于文獻整理與解讀。與古籍不同,地方歷史文獻未經(jīng)過知識重組,也相對碎片化,更注重文獻間的關聯(lián)性。《中國地方歷史文獻數(shù)據(jù)庫》針對文獻特性設計元數(shù)據(jù)結構,從而實現(xiàn)對文獻的多維度檢索。尤其是我們根據(jù)文獻特性所提出的“歸戶”數(shù)據(jù)項,將幫助研究者發(fā)掘文獻的內(nèi)在關聯(lián)。我們不僅期望這些功能設計可以便利研究者尋找史料,更期望以此幫助研究者發(fā)現(xiàn)新的研究議題。
元數(shù)據(jù)是可以被計算機識別的文獻描述,制作元數(shù)據(jù),也就是將文獻資料轉(zhuǎn)化為可被檢索、分析的數(shù)據(jù)的過程,這是將物理形態(tài)的史料轉(zhuǎn)化為可分析的數(shù)字形態(tài)的關鍵。如何設計元數(shù)據(jù)結構,很大程度上決定了文獻資料可以被如何檢索、分析。另一方面,數(shù)據(jù)庫的使用者有必要了解元數(shù)據(jù)結構,從而判斷哪些因素可能影響了自己的分析結果。
資料來源:《中國地方歷史文獻數(shù)據(jù)庫》,http://www.datahistory.cn,批次號:0111120601。說明:圖中以箭頭表示土地權利轉(zhuǎn)讓的方向,如圖中箭頭從江四九指向江萬祥,表示土地權利從江四九轉(zhuǎn)讓至江萬祥。圖中每個點的顏色表示其在交易中購入地權的次數(shù),頻率越高,顏色越深。這里所說的獲得地權,包括買入、典入、抵押等形式。
因此,歷史文獻數(shù)據(jù)庫不僅是傳統(tǒng)史料的載體或“倉庫”,其本身也將日漸形成一種獨立的文獻形態(tài)。歷史文獻學對傳統(tǒng)史料已經(jīng)形成了一套綿密、精細的處理方法,數(shù)據(jù)庫作為一種新的文獻形態(tài)也應當建立針對性的文獻學方法論。對元數(shù)據(jù)結構的考辨可能應當是這種方法論的核心。史學理論對史實與史料關系的思考,也同樣適用于歷史文獻與數(shù)據(jù)庫。
參考文獻
(1)李芳、陳進、王昕:《上海交通大學新藏地方歷史文獻的數(shù)字化建設規(guī)劃與實踐》,《大學圖書館學報》2015年第2期。
(2)維克托·邁爾·舍恩伯格:《大數(shù)據(jù)時代:生活、工作與思維的大變革》,周濤譯,浙江人民出版社,第104頁。
(3)《清代糧價資料庫》,http://mhdb.mh.sinica.edu.tw/foodprice,發(fā)布日期:2014,訪問時間:2016-07-26。
(4)項潔、陳麗華:《數(shù)位人文--學科對話與融合的新領域》,項潔編:《數(shù)位人文研究與技藝》,臺灣大學出版中心,第9-23頁;王曉光:《“數(shù)字人文”的產(chǎn)生、發(fā)展與前沿》,《方法創(chuàng)新與哲學社會科學發(fā)展》,武漢大學出版社,2010年,第207-221頁。
(5)David M.Berry ed.,Understanding Digital Humanities,Palgrave Macmillan,2012,p.4.
(6)Tara Andrews,“The third way:philology and critical edition in the data age”,working paper,in Lectio Round Table Digital or critical/digital and critical?,Leuven,2011.
(7)Joris van Eijnatten,Toine Pieters,Jaap Verheul:“Big Data for Global History:The Transformative Promise of Digital Humanities”,Low Countries Historical Review,2013,128(4):pp.55-77.
(8)包偉民:《論當前計算機信息技術對傳統(tǒng)歷史學的影響》,《杭州大學學報》1998年第2期;王文濤:《古籍數(shù)字資料應用與史學研究》,《史學月刊》2009年第1期;陳鵬:《新世紀以來的史料型數(shù)據(jù)庫建設與中國近代史研究》,《國家圖書館學刊》2013年6期。
(9)程之:《香港推出〈文淵閣四庫全書電子版〉》,《出版參考》1999年第16期。
(10)《中國基本古籍庫光盤工程基本完成》,《圖書館理論與實踐》2001年第2期。
(11)張軸材:《〈四庫全書〉電子版工程與中文信息技術》,《電子出版》1999年第3期;朱巖:《談古籍數(shù)位化》,澳門圖書館編:《“兩岸三地古籍與地方文獻”會議論文集》,澳門圖書館,2002年,第143-150頁。
(12)涂豐恩、杜協(xié)昌、陳詩沛、何浩洋、項潔:《當資訊科技遇到史料——臺灣歷史數(shù)位圖書館中的未解問題》,項潔編:《數(shù)位人文研究的新視野:基礎與想象》,臺灣大學出版中心,2011年,第21-44頁;項潔、翁稷安:《數(shù)位人文和歷史研究》,項潔編:《數(shù)位人文在歷史學研究的應用》,臺灣大學出版中心,2011年,第11-20頁。
(13)鄭振滿:《民間歷史文獻與民間文化傳承研究》,《東南學術》2004年第1期;梁勇、鄭振滿、鄭莉:《新史料與新史學--鄭振滿教授訪談》,《學術月刊》2012年第4期。
(14)喬秀巖:《古籍整理的理論與實踐》,《版本目錄學研究》第1輯,國家圖書館出版社,2009年,第7頁。
(15)中島樂章:《明代鄉(xiāng)村糾紛與秩序:以徽州文書為中心》,郭萬平、高飛譯,江蘇人民出版社,2010年,第43頁。
(16)張潔、李芳、湯萌:《契約文書描述性元數(shù)據(jù)規(guī)范設計與應用》,未刊稿。
(17)何浩洋(Hou Leong Ho):《MARKUS:中文古籍半自動標記平臺》,www.academia.edu,發(fā)布:2014-12,訪問時間:2015-11-27。
(18)蔣勤:《清代石倉文書的“在地”與“有機”分析》,《上海交通大學學報》2014年第3期。
(19)馮惠玲:《論檔案整理理論的演變與發(fā)展》,載吳寶康、丁永奎:《當代中國檔案學論》,中國檔案出版社,1988年,第115-167頁。
(20)黃霄羽:《魂系歷史主義——西方檔案學支柱理論發(fā)展研究》,中國人民大學出版社,2006年,第35頁。
(21)劉志偉:《在國家與社會之間:明清廣東地區(qū)里甲賦役制度與鄉(xiāng)村社會(修訂版)》,中國人民大學出版社,2010年,第201頁。
(22)陸隴其:《蒞政摘要》卷上第12頁,《官箴書集成》第2冊,黃山書社,1997年,第628頁。
(23)劉志偉:《在國家與社會之間——明清廣東地區(qū)里甲賦役制度與鄉(xiāng)村社會(修訂版)》,第197-204頁。
(24)劉伯山:《徽州文書的遺存及特點》,《歷史檔案》2004年第1期。
(25)嚴中平致中央檔案館函(1962年2月6日),安徽省檔案館藏,轉(zhuǎn)引自嚴桂夫、王國鍵:《徽州文書檔案》,安徽人民出版社,2003年,第11頁。
(26)民間歷史文獻整理方法演進的學術史,參見楊培娜、申斌:《走向民間歷史文獻學——20世紀民間文獻搜集整理方法的演進歷程》,《中山大學學報》2014年第5期;張侃:《20世紀以來民間文獻研究的學理述略》,“第七屆民間歷史文獻論壇”,廈門大學,2015年。
(27)趙思淵:《19世紀徽州鄉(xiāng)村的土地市場、信用機制與關系網(wǎng)絡》,《近代史研究》2015年第3期。
作者簡介 / 轉(zhuǎn)載聲明
趙思淵,上海交通大學人文學院歷史系講師。
原文刊發(fā)于《清史研究》 2016年第4期,轉(zhuǎn)自微信公眾號“寫本文獻學微刊”,已獲得原作者授權。
