梁晨:從學(xué)生學(xué)籍卡到量化歷史研究
發(fā)布時(shí)間:2020-06-23 13:28:00
各位老師、同學(xué),大家好!很榮幸受付老師邀請(qǐng),來(lái)到華中師大與諸位相互交流學(xué)習(xí)。今天我想討論的主題是怎樣做量化歷史數(shù)據(jù)庫(kù),以及怎樣開(kāi)展相應(yīng)的研究。 大約三年前,付老師就和我們討論,考慮將量化歷史數(shù)據(jù)庫(kù)的建設(shè)與研究方法推廣到華中師大。當(dāng)時(shí),國(guó)內(nèi)學(xué)界剛剛開(kāi)始注意量化數(shù)據(jù)庫(kù)研究,而現(xiàn)在,你們已經(jīng)開(kāi)設(shè)了大數(shù)據(jù)歷史基地班,真正推動(dòng)著大數(shù)據(jù)歷史研究人才的培養(yǎng),這是很有眼光的。我個(gè)人認(rèn)為,在今天這個(gè)時(shí)代,歷史學(xué)家做研究,除了傳統(tǒng)的歷史學(xué)功底外,一些新技術(shù)方法的應(yīng)用也不應(yīng)忽略。實(shí)際上,技術(shù)應(yīng)用不僅對(duì)研究很重要,對(duì)人才培養(yǎng)也很關(guān)鍵。20世紀(jì)90年代中期以來(lái),全球高等教育界都出現(xiàn)了一個(gè)現(xiàn)象,即人文學(xué)科的影響力明顯降低,很多學(xué)生不再對(duì)人文學(xué)科的學(xué)習(xí)有興趣。甚至像哈佛這樣的全球最頂尖高校,它的文理兩科,包括基礎(chǔ)人文學(xué)科,一直是引以為傲的資本,但50年來(lái)以人文學(xué)科為主業(yè)的學(xué)生比例從近40%下降到了20%。全美的這一比例則從14%下降到了7%。同樣,國(guó)內(nèi)也有類(lèi)似現(xiàn)象。為什么社會(huì)對(duì)歷史學(xué)這樣的人文學(xué)科的認(rèn)可度降低了?這里面當(dāng)然有很多原因,但其中之一還是認(rèn)為歷史學(xué)學(xué)習(xí)的內(nèi)容太過(guò)“空虛”,缺少足夠的技術(shù)內(nèi)涵,不利于學(xué)生在就業(yè)市場(chǎng)上的競(jìng)爭(zhēng)。可見(jiàn),加強(qiáng)相關(guān)技術(shù)的教育與培訓(xùn),對(duì)歷史學(xué)科吸引和培養(yǎng)人才也很重要。
我們還注意到一個(gè)有趣的現(xiàn)象,即當(dāng)選擇歷史專(zhuān)業(yè)的學(xué)生在普遍減少的同時(shí),一種新的大規(guī)模歷史量化數(shù)據(jù)庫(kù)的構(gòu)建和研究卻蔚然成風(fēng),歷史材料對(duì)多學(xué)科發(fā)展的貢獻(xiàn)大為提升了。這種歷史大數(shù)據(jù)庫(kù)最早開(kāi)始于人口學(xué)研究,主要是利用人口普查和大規(guī)模調(diào)查構(gòu)建起量化數(shù)據(jù)庫(kù)。比如美國(guó)人口中心創(chuàng)建的“公共微觀整合數(shù)據(jù)庫(kù)”(Integrated Public Use Microdata Series,IPUMS)。微觀數(shù)據(jù)(Microdata)指人口抽樣調(diào)查和人口普查等包含的個(gè)人層面(Individuallevel)信息。這些富有學(xué)術(shù)價(jià)值的個(gè)人基本信息,如性別、年齡、婚姻、家庭狀況、職業(yè)和出身等,廣泛存在于全世界各國(guó),內(nèi)容和形式高度一致,適合連綴成超大數(shù)據(jù)庫(kù),進(jìn)行國(guó)際比較研究,是新社會(huì)史和經(jīng)濟(jì)史研究的關(guān)鍵。歷史學(xué)家是除統(tǒng)計(jì)機(jī)構(gòu)外最早使用微觀數(shù)據(jù)進(jìn)行研究的學(xué)者。從1998年起,IPUMS首席科學(xué)家Robert McCaa先后說(shuō)服了100多個(gè)國(guó)家的統(tǒng)計(jì)機(jī)構(gòu)與IPUMS合作,將彼此的數(shù)據(jù)庫(kù)連接起來(lái)并免費(fèi)用于學(xué)術(shù)研究。目前,IPUMS包括19世紀(jì)以來(lái)多個(gè)國(guó)家,也包括中國(guó)第三次(1982年)、第四次(1990年)人口普查微觀數(shù)據(jù)。數(shù)據(jù)還在不斷增長(zhǎng),最明顯的是從18世紀(jì)開(kāi)始到20世紀(jì)中期的以數(shù)字抄本為基礎(chǔ)的歷史人口微觀數(shù)據(jù)。2018年,IPUMS的數(shù)據(jù)總量擴(kuò)展到了20億人次記錄。盡管建成初期,學(xué)界對(duì)這些數(shù)據(jù)庫(kù)的利用、研究甚少,但從20世紀(jì)90年代中期以后,研究與利用迅速增加,取得了許多重要成果。以包括IPUMS在內(nèi)的國(guó)際五大量化數(shù)據(jù)庫(kù)而言,在20世紀(jì)90年代之前的20年里,僅有零星的發(fā)表援引相關(guān)數(shù)據(jù)庫(kù)。這可能是因?yàn)檫@些數(shù)據(jù)庫(kù)本身還在建設(shè)初期甚至尚未開(kāi)始,很多內(nèi)容和方法需要完善,其學(xué)術(shù)價(jià)值仍有待開(kāi)發(fā)。進(jìn)入90年代,尤其是1995年以后,情況發(fā)生了巨大轉(zhuǎn)變。2006—2010年的五年,索引五個(gè)數(shù)據(jù)庫(kù)的新增學(xué)術(shù)發(fā)表已經(jīng)達(dá)到2360余篇。盡管這些學(xué)術(shù)成果中有很大一部分都是來(lái)自IPUMS所包含的當(dāng)代人口統(tǒng)計(jì)數(shù)據(jù),但是如果我們只統(tǒng)計(jì)三個(gè)純歷史微觀數(shù)據(jù)庫(kù),即BALSAC、HSN和SEDD,其貢獻(xiàn)的新增學(xué)術(shù)發(fā)表在2006—2010年也達(dá)到117篇,且近20年的增速與五個(gè)數(shù)據(jù)庫(kù)總貢獻(xiàn)發(fā)表數(shù)的增速幾乎一致。受此影響,國(guó)際史學(xué)界正在興起構(gòu)建大型個(gè)人層面量化數(shù)據(jù)庫(kù)的風(fēng)氣。最近十幾年里,一些側(cè)重東亞研究的歷史學(xué)者和研究團(tuán)體也意識(shí)到,像西方學(xué)術(shù)界構(gòu)建與使用的這些與人口、社區(qū)等相關(guān)的量化史學(xué)數(shù)據(jù),其原始材料在中國(guó)或東亞地區(qū)存在的要早得多和廣泛得多。因此,一些東亞地區(qū)的歷史人口微觀數(shù)據(jù)庫(kù)陸續(xù)得以建立,如美國(guó)學(xué)者李中清(James Z. Lee)、康文林(Cameron Campbell)從20世紀(jì)80年代起,前后花費(fèi)了20多年時(shí)間,建立了基于八旗戶(hù)口冊(cè)和清代皇室族譜資料的中國(guó)多代人口數(shù)據(jù)庫(kù)系列(China Multi-Generational Panel Data Series,CMGPD)。該系列數(shù)據(jù)庫(kù)包含遼寧、雙城和皇族三個(gè)子數(shù)據(jù)庫(kù),其中前兩個(gè)已經(jīng)在ICPSR網(wǎng)站上對(duì)全球?qū)W界免費(fèi)公開(kāi)。遼寧數(shù)據(jù)庫(kù)涵蓋了1749—1909年遼東地區(qū)26萬(wàn)人的150余萬(wàn)條記錄。雙城數(shù)據(jù)庫(kù)涵蓋了1866—1913年黑龍江雙城縣10萬(wàn)人的130余萬(wàn)條記錄,并嘗試與不同時(shí)段的家戶(hù)地畝資料相連接。這些大規(guī)模、長(zhǎng)時(shí)段的微觀歷史數(shù)據(jù)包含了豐富的人口和社會(huì)經(jīng)濟(jì)信息,且同時(shí)具有時(shí)間上的深度和空間上的廣度,對(duì)人口統(tǒng)計(jì)學(xué)、家與家族、親屬關(guān)系、社會(huì)分層與流動(dòng)、衛(wèi)生健康等多個(gè)學(xué)術(shù)研究領(lǐng)域有重要價(jià)值。同時(shí),以上介紹的這些量化數(shù)據(jù)庫(kù)基本都以歷史數(shù)據(jù)為主,但絕大部分研究并不集中在歷史學(xué)領(lǐng)域,反而在其他學(xué)科,比如經(jīng)濟(jì)學(xué)、健康醫(yī)學(xué)以及地質(zhì)學(xué)等學(xué)科。所以,在今天這個(gè)時(shí)代,歷史學(xué)本身的價(jià)值不僅沒(méi)有降低,反而是提升了,關(guān)鍵是我們要提升自我的研究方法。當(dāng)然,量化歷史數(shù)據(jù)庫(kù)的構(gòu)建與研究,特別強(qiáng)調(diào)技術(shù)方法要適用于歷史材料,而不是相反。在目前的技術(shù)條件下,確實(shí)存在一些材料和問(wèn)題更適合使用這種研究方法,而另一些材料或問(wèn)題則還不能很好地用這種方法來(lái)展開(kāi)研究。一般來(lái)說(shuō),系統(tǒng)化、結(jié)構(gòu)性的歷史材料更適合開(kāi)展量化歷史數(shù)據(jù)庫(kù)的構(gòu)建與研究。就中國(guó)傳統(tǒng)官方文獻(xiàn)而言,至少有三類(lèi)非常適合。第一,歷代戶(hù)籍材料。一般而言,中國(guó)自周朝就形成了國(guó)家性的戶(hù)籍制度,秦統(tǒng)一后逐漸形成規(guī)模,經(jīng)三國(guó)及南北朝時(shí)期的調(diào)整,隋唐后已經(jīng)非常完備。這個(gè)過(guò)程中,戶(hù)籍登記材料也逐漸完善與累積,明代以來(lái)的黃冊(cè)更是蔚為壯觀。這些連續(xù)長(zhǎng)達(dá)2000多年的戶(hù)口材料是數(shù)據(jù)庫(kù)與定量研究的最好素材。第二,與戶(hù)籍材料相伴隨的歷史同樣悠久的土地及財(cái)產(chǎn)占有與分配登記材料。從戰(zhàn)國(guó)以來(lái),中國(guó)土地制度經(jīng)歷了從井田制、屯田制、均田制、府兵制、均稅法、一條鞭法、攤丁入畝到現(xiàn)代“土改”的多次調(diào)整,但每個(gè)新制度下,對(duì)土地?cái)?shù)量丈量、歸屬權(quán)益的明確以及相關(guān)賦稅的負(fù)擔(dān)都有龐大記錄,這一重要材料一樣非常適合數(shù)據(jù)庫(kù)化研究。第三,至少自隋唐以來(lái),考試(考核)就成為中國(guó)社會(huì)選拔精英人才的重要方式,歷代皆有數(shù)量驚人的科考或官員銓選材料,這些材料歷時(shí)長(zhǎng),系統(tǒng)化程度高,是不可多得的量化數(shù)據(jù)庫(kù)素材。不過(guò),隨著技術(shù)發(fā)展,尤其是海量史料的數(shù)字化處理和數(shù)字文獻(xiàn)內(nèi)容抓取技術(shù)的發(fā)展,非結(jié)構(gòu)、分散化史料的系統(tǒng)收集和數(shù)據(jù)構(gòu)建也在逐漸成為可能,這也是我們團(tuán)隊(duì)最新研究項(xiàng)目試圖嘗試的方向。另外,一些傳統(tǒng)認(rèn)為比較難以量化研究的領(lǐng)域,如思想史、文化概念史等研究,其實(shí)也早就有一些量化數(shù)據(jù)庫(kù)的開(kāi)放和不錯(cuò)的研究成果。例如原先任職于香港中文大學(xué)的金觀濤教授就建立了一個(gè)近代思想史數(shù)據(jù)庫(kù)。他主要是把大量報(bào)紙文獻(xiàn)上的文章輸入電腦,釋放海量的文獻(xiàn),然后以詞頻的方式來(lái)做研究。這個(gè)方法,其實(shí)有點(diǎn)類(lèi)似于大家使用計(jì)算機(jī)在圖書(shū)館檢索關(guān)鍵詞。他后來(lái)分析這個(gè)詞語(yǔ)在什么時(shí)候什么情況下出現(xiàn),什么時(shí)間段出現(xiàn)頻率比較高,這個(gè)詞的出現(xiàn)時(shí)間和頻次反映了怎樣的思想文化和意識(shí)形態(tài)的轉(zhuǎn)變。這種分析方法,建立在海量文獻(xiàn)已經(jīng)輸入和構(gòu)庫(kù)的基礎(chǔ)之上,一旦沒(méi)有了這個(gè)基礎(chǔ),很多問(wèn)題的研究也就無(wú)從展開(kāi)了。從這個(gè)意義上講,大數(shù)據(jù)歷史研究能幫助我們發(fā)現(xiàn)很多新問(wèn)題,甚至解決很多僅靠傳統(tǒng)閱讀難以解決的問(wèn)題。數(shù)據(jù)庫(kù)通常包含了某一范圍內(nèi)所有參與者或構(gòu)成者的狀況,能系統(tǒng)體現(xiàn)不同規(guī)模群體的多種信息。傳統(tǒng)歷史研究往往是基于歷史學(xué)者的直覺(jué)來(lái)考慮作用與因果。即使運(yùn)用數(shù)據(jù),往往只是涉及較少維度的統(tǒng)計(jì)表格。然而,社會(huì)科學(xué)許多定量方法擅長(zhǎng)多變量分析,可以同時(shí)比較多個(gè)因素與結(jié)果的相互關(guān)系,或者說(shuō)在考慮到結(jié)果與其他因素相互關(guān)聯(lián)的情況下,估計(jì)特定因素與結(jié)果的統(tǒng)計(jì)相關(guān)性。這不僅能幫助研究者更深入理解各種因素的變化與彼此關(guān)系,還能兼顧所有個(gè)體的影響與權(quán)重,一定程度上避免了選料時(shí)的疏漏與偏廢。最近,我們團(tuán)隊(duì)正在開(kāi)發(fā)、利用清代的“縉紳錄”史料??N紳錄是記錄職官的職掌、姓名、出身、籍貫、字號(hào)等基本情況的專(zhuān)書(shū),清代保留至今的縉紳錄文獻(xiàn)規(guī)模浩大,提供了連續(xù)性的官員記錄,是建立清代官員群體的大規(guī)模歷史量化數(shù)據(jù)庫(kù)的理想史料。縉紳錄為學(xué)界提供了極為系統(tǒng)的個(gè)人層面微觀數(shù)據(jù),同時(shí)這些數(shù)據(jù)每季度出版,具有極好的歷史連續(xù)性,而且至少幾乎包含了1760—1911年所有清政府官員的信息。我們?yōu)榇藰?gòu)建起了10個(gè)人左右的專(zhuān)業(yè)輸入團(tuán)隊(duì),全職從事該材料的輸入工作,預(yù)計(jì)3年內(nèi)能夠完全輸入電腦,但一些前期的研究已經(jīng)開(kāi)展了。與大多數(shù)制度史研究主要研究制度的文本相比,“縉紳錄”數(shù)據(jù)庫(kù)的構(gòu)建和研究,將能直接從全面、系統(tǒng)的實(shí)踐角度檢驗(yàn)制度的操作與變異,對(duì)真正理解官員制度和社會(huì)運(yùn)作會(huì)有極大幫助。但這種研究,顯然是不可能依靠傳統(tǒng)文獻(xiàn)閱讀方法實(shí)現(xiàn)的,它必須依靠數(shù)據(jù)庫(kù)和量化分析才能完成。量化歷史研究與傳統(tǒng)史學(xué)研究是不同的,一方面,它可以彌補(bǔ)一些傳統(tǒng)研究方法的不足,特別是在處理這種大規(guī)模的人口史料方面;另一方面,它是一項(xiàng)需要花費(fèi)很多成本的工作,這里的成本既包括人力也包括資金,所以它更是一項(xiàng)集體的活動(dòng),需要團(tuán)隊(duì)合作完成。不過(guò),雖然數(shù)據(jù)庫(kù)建成的各方面要求會(huì)更高,但建成后即可向社會(huì)開(kāi)放,而越來(lái)越多數(shù)據(jù)庫(kù)在開(kāi)放后又能夠相互聯(lián)系,從而會(huì)大大提高研究的效率和研究的深度。像我剛剛講到的全球五大數(shù)據(jù)庫(kù),它絕不只是為了滿足某個(gè)研究團(tuán)隊(duì)自身研究封閉使用,而是向全球?qū)W界開(kāi)放的。如利用IPUMS所做的各類(lèi)研究已超過(guò)萬(wàn)次,而其中絕大部分是由外部研究人員完成的。再比如李-康研究團(tuán)隊(duì)原來(lái)做的有關(guān)東北人口的歷史數(shù)據(jù)庫(kù),現(xiàn)在也是在網(wǎng)上公開(kāi)的。我們發(fā)現(xiàn)數(shù)據(jù)庫(kù)最初公開(kāi)的三年,用它來(lái)做研究的,要么是研究組成員,要么是合作過(guò)或指導(dǎo)過(guò)的學(xué)生。但最近幾年,用它做研究的都是外部研究人員,而不是李-康研究團(tuán)隊(duì)的人員。接下來(lái)我想結(jié)合我個(gè)人的經(jīng)歷,介紹一下數(shù)據(jù)庫(kù)建設(shè)與研究的一些具體經(jīng)驗(yàn)。我是2007年博士畢業(yè)后,才決定和李中清教授合作,從事量化歷史研究方面的博士后工作。之前我也沒(méi)有專(zhuān)門(mén)學(xué)習(xí)過(guò)量化歷史研究,但我本科的時(shí)候讀過(guò)經(jīng)濟(jì)學(xué)雙學(xué)位,也接觸過(guò)統(tǒng)計(jì)課程和初步使用過(guò)SPSS這樣的統(tǒng)計(jì)軟件。加入李-康研究團(tuán)隊(duì)后,李中清教授、康文林教授對(duì)我們的統(tǒng)計(jì)分析,尤其是Stata軟件的使用進(jìn)行了短期的進(jìn)一步輔導(dǎo)。不過(guò),對(duì)于歷史學(xué)者,這種輔導(dǎo)最關(guān)鍵的不是掌握最復(fù)雜的計(jì)算分析,而是理解統(tǒng)計(jì)軟件的基本原理,知道它能做什么,不能做什么,從而幫助你在處理歷史資料時(shí),知道如何將技術(shù)運(yùn)用在史料上是可行和合適的。李-康團(tuán)隊(duì)一直遵循的一條重要原則是歷史材料是已然存在和無(wú)法改變的,任何技術(shù)和方法只能用來(lái)適應(yīng)材料,而不能讓材料來(lái)適應(yīng)技術(shù)和方法。實(shí)際上,在團(tuán)隊(duì)合作中,很多具體分析是由熟悉史學(xué)研究的研究者提出的,而具體的操作則可以由專(zhuān)門(mén)的技術(shù)人員來(lái)完成,不過(guò),作為研究者需要理解技術(shù)實(shí)現(xiàn)的過(guò)程并能夠判斷是否正確。實(shí)際上,構(gòu)建量化數(shù)據(jù)庫(kù)通常包括數(shù)據(jù)采集、數(shù)據(jù)分類(lèi)、數(shù)據(jù)編碼、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)信息挖掘和定量分析等多個(gè)環(huán)節(jié),數(shù)據(jù)庫(kù)建成后還可能需要數(shù)據(jù)管理和維護(hù)等多種工作。且不說(shuō)量化數(shù)據(jù)庫(kù)研究的技術(shù)與方法對(duì)大多數(shù)歷史學(xué)者來(lái)說(shuō)是非常陌生的,即便是研究的組織與管理模式也大有不同。歷史學(xué)者從事研究時(shí)多是“單打獨(dú)斗”的,而構(gòu)建大規(guī)模、量化史學(xué)數(shù)據(jù)庫(kù)并對(duì)其進(jìn)行分析與研究,需要多學(xué)科專(zhuān)業(yè)人員的合作,通常必須有一個(gè)研究團(tuán)隊(duì)才能實(shí)現(xiàn)。這種研究的組織模式與傳統(tǒng)研究差異很大,無(wú)論對(duì)于經(jīng)費(fèi)還是合作管理都有相當(dāng)高的要求,與以往的人文研究方式差別很大。李中清-康文林教授研究團(tuán)隊(duì)十多年來(lái)的經(jīng)驗(yàn)、歷程是互聯(lián)網(wǎng)時(shí)代人文社會(huì)科學(xué)學(xué)科研究者相互連接,從獨(dú)立走向合作的典型例子。自2003年開(kāi)始,當(dāng)時(shí)尚在美國(guó)密歇根大學(xué)任教的李中清教授和在美國(guó)加州大學(xué)洛杉磯分校任教的康文林教授便決定與一些青年學(xué)者和博士生、博士后們合作,建立一個(gè)國(guó)際化的歷史學(xué)研究團(tuán)隊(duì)。這十多年來(lái),李中清、康文林兩位教授從美國(guó)安娜堡轉(zhuǎn)到北京再到香港,但團(tuán)隊(duì)成員并沒(méi)有跟隨團(tuán)隊(duì)領(lǐng)導(dǎo)的地點(diǎn)轉(zhuǎn)變而轉(zhuǎn)變,而是根據(jù)研究的材料、工作條件等需要,廣泛分散在包括美國(guó)、法國(guó)、荷蘭、日本、中國(guó)在內(nèi)的世界各地。團(tuán)隊(duì)的整體研究工作不僅沒(méi)有因?yàn)榉植荚絹?lái)越廣泛而停滯,反而越來(lái)越有效率。開(kāi)始時(shí),成員們只能利用電子郵件匯報(bào)每周的工作。此后,研究組能夠每周在固定時(shí)間,利用Skype召開(kāi)網(wǎng)絡(luò)討論會(huì),實(shí)時(shí)討論各自的工作。而現(xiàn)在,成員們不僅每周定期召開(kāi)Skype會(huì)議,為了討論更深入,還會(huì)將各種研究數(shù)據(jù)與資料、寫(xiě)作中的稿件等上傳到Dropbox、百度云盤(pán)等虛擬存儲(chǔ)空間,更立體、豐富地進(jìn)行學(xué)術(shù)工作交流。除了召開(kāi)Skype會(huì)議,成員們還會(huì)根據(jù)不同研究主題的需要,構(gòu)建起由不同成員參加的微信群,隨時(shí)進(jìn)行互動(dòng)交流。在這十年里,研究團(tuán)隊(duì)完成了一些較有影響的研究項(xiàng)目,研究項(xiàng)目又大多與互聯(lián)網(wǎng)及其相關(guān)技術(shù)有關(guān)。李-康研究組的經(jīng)驗(yàn)說(shuō)明,在互聯(lián)網(wǎng)的支持下,距離給交流帶來(lái)的障礙大為降低,具有共同興趣的全球?qū)W者組建成團(tuán)隊(duì)的可能性大為增加。全球化研究團(tuán)隊(duì)的建立有許多重要意義,但其中比較特別的有兩方面。首先,這種互聯(lián)網(wǎng)化的研究團(tuán)隊(duì)對(duì)學(xué)術(shù)后備軍的培養(yǎng)更有效率。團(tuán)隊(duì)中的青年學(xué)者或研究生們不會(huì)因?yàn)檫x題、工作關(guān)系離開(kāi)團(tuán)隊(duì)核心學(xué)者,更不會(huì)因?yàn)樵谕獾兀踔猎谕鈬?guó)工作而與其變得疏遠(yuǎn),在學(xué)術(shù)上逐漸不再交流、合作。相反地,因?yàn)樵谛碌攸c(diǎn)總會(huì)有不同的新材料和新的研究問(wèn)題需要探討,他們?cè)谘芯拷M的每周例會(huì)討論中反而變得特別活躍,從老師、同事處得到的幫助也越來(lái)越多。其次,團(tuán)隊(duì)成員的廣泛分散,必然會(huì)豐富集體的研究材料和研究成果,從而更有效地推動(dòng)團(tuán)隊(duì)研究產(chǎn)量的增加以貢獻(xiàn)學(xué)界。同樣以李-康研究組為例,隨著成員的分布范圍不斷擴(kuò)大,團(tuán)隊(duì)的研究材料逐漸從東北人口史料擴(kuò)大到近現(xiàn)代大學(xué)生登記資料,再到山西地區(qū)近百個(gè)農(nóng)村的系統(tǒng)、長(zhǎng)期記錄,以及清朝至民國(guó)官員記錄、海外中國(guó)傳教士資料和一些國(guó)外人口統(tǒng)計(jì)資料等,研究主題也越發(fā)多樣。最后,我還想強(qiáng)調(diào)的是,與傳統(tǒng)史學(xué)和其他社會(huì)科學(xué)的定性研究方法類(lèi)似,定量方法的選擇和應(yīng)用,以及對(duì)分析結(jié)果的解讀,同樣會(huì)受到研究者的主觀性影響。進(jìn)行以量化數(shù)據(jù)庫(kù)為基礎(chǔ)的研究分析,研究者需要思考的首要問(wèn)題是選取構(gòu)建數(shù)據(jù)庫(kù)的史料是否存在選擇性偏誤,即這些材料能夠在多大程度上反映當(dāng)時(shí)的社會(huì)現(xiàn)實(shí),能夠反映哪些特定人群、特定條件下的具體情況。只有對(duì)數(shù)據(jù)來(lái)源的選擇性有充分認(rèn)識(shí),才可能避免錯(cuò)誤解釋分析結(jié)果或過(guò)分夸大結(jié)論的代表性。而這些必要的歷史背景往往是通過(guò)傳統(tǒng)文本分析獲得的。因此,史學(xué)研究方法一方面可以深化對(duì)定量分析結(jié)果的理解和解釋?zhuān)硪环矫嬉部梢詫?duì)定量分析結(jié)果和定性研究結(jié)果進(jìn)行經(jīng)驗(yàn)比較,通過(guò)多種研究方法的結(jié)合減少主觀性風(fēng)險(xiǎn)的影響,提高對(duì)研究對(duì)象全面、深入的整體認(rèn)識(shí)?!皵?shù)量分析本身不是目的,只是認(rèn)識(shí)的手段”,這些定性分析,對(duì)于以復(fù)雜的人類(lèi)行為為研究主題的社會(huì)科學(xué)研究必不可少。對(duì)新一代歷史學(xué)者來(lái)說(shuō),要將科學(xué)方法融入傳統(tǒng)研究中去,既不能因固守舊,也不可以盲目推崇新方法而完全拋棄舊方法。對(duì)“大數(shù)據(jù)”時(shí)代量化研究的大趨勢(shì),歷史學(xué)者絕非“赤手空拳”,只能消極被動(dòng)接受轉(zhuǎn)變,而是有其獨(dú)到的比較優(yōu)勢(shì)。歷史學(xué)者掌握的眾多史料、豐富的歷史知識(shí)以及考據(jù)等研究方法對(duì)量化研究歷史資料來(lái)說(shuō)都是必需的。量化數(shù)據(jù)庫(kù)方法要在歷史乃至社會(huì)科學(xué)研究領(lǐng)域發(fā)揮更大價(jià)值,歷史學(xué)者的作用不可或缺。實(shí)際上,盡管使用數(shù)據(jù)進(jìn)行分析的多為非歷史學(xué)者,但前文介紹的社會(huì)科學(xué)最重要的公開(kāi)數(shù)據(jù)整合中心之一ICPSR和幾個(gè)重要量化歷史數(shù)據(jù)庫(kù)IPUMS、HSN、SEDD、CMGPD的項(xiàng)目發(fā)起人或領(lǐng)導(dǎo)者都獲得歷史學(xué)博士學(xué)位。這說(shuō)明歷史學(xué)者不僅能夠參與,而且對(duì)于這些國(guó)際主要量化數(shù)據(jù)庫(kù)項(xiàng)目的成功有不可替代的作用。(以上是中心教授梁晨在華中師大的演講,轉(zhuǎn)自微信公眾號(hào)“鳴沙”)