「中央研究院數(shù)位人文研究平臺」上線
中央研究院數(shù)位文化中心根據(jù)人文研究的需求,發(fā)展協(xié)助學(xué)者提升研究質(zhì)量的數(shù)位化工具與平臺。期望結(jié)合研究者、研究資料與研究工具之綜效,擴(kuò)大研究的規(guī)模及縮短研究的時(shí)間,以提升人文研究的質(zhì)量。 數(shù)位人文研究平臺提供一個完整的研究環(huán)境,讓研究者可以透過雲(yún)端服務(wù)取得研究中所需的資料與工具。研究者可上傳文本與權(quán)威詞,也可使用平臺中其他開放的文本與權(quán)威詞來進(jìn)行研究。權(quán)威詞具有手動與自動標(biāo)記文本的功能,並可以使用階層方式分類權(quán)威詞。標(biāo)記文本完成後,可進(jìn)行權(quán)威詞與N字詞詞頻統(tǒng)計(jì)、共現(xiàn)詞關(guān)聯(lián)分析,再以統(tǒng)計(jì)圖表、文字雲(yún)、社會網(wǎng)絡(luò)分析圖、地圖等資料視覺化方式呈現(xiàn)。此外,平臺提供相似內(nèi)容比對、正規(guī)表示式查詢、多詞間距查詢與統(tǒng)計(jì)篩選功能,讓研究者可以容易地進(jìn)行考據(jù)。
資料彙整:彙整與介接中研院史語所漢籍的文本(約2.6億字)、日本京都大學(xué)的漢籍文本Kanripo (約13億字)、美國哈佛大學(xué)的中國哲學(xué)書電子化計(jì)劃Ctext (約51億字)與地名、朝代名、人名等開放權(quán)威檔,提供研究者基礎(chǔ)的研究素材。
共同編輯:提供多人可共同編輯文本、權(quán)威檔、標(biāo)記內(nèi)容及群組管理功能,讓研究者可依不同的研究主題,形成不同的研究社群。
內(nèi)容搜尋:提供文本結(jié)構(gòu)與內(nèi)容瀏覽、布林邏輯查詢、多詞間距查詢與查詢結(jié)果統(tǒng)計(jì)篩選、相似文本比對功能,讓研究者可以快速找出關(guān)鍵詞的分布及過濾查詢結(jié)果。
資料分析:提供跨文本的權(quán)威詞、N字詞詞頻、詞頻變化量統(tǒng)計(jì)及共現(xiàn)詞關(guān)聯(lián)分析,讓研究者可以從大量資料中快速找資料中的脈絡(luò)關(guān)係。
視覺化:提供圓餅圖、折線圖、文字雲(yún)、社會網(wǎng)絡(luò)分析圖、地理資訊系統(tǒng)等工具,以圖形方式呈現(xiàn)文本分析之結(jié)果,讓研究者可以更直覺地俯視資料中隱含的現(xiàn)象。
此外,我們也持續(xù)發(fā)展數(shù)位人文研究的相關(guān)工具與技術(shù),包含鏈結(jié)開放資料(Linked Open Data, LOD)、國際圖像互操作架構(gòu) (International Image Interoperability Framework, IIIF)、中文古籍圖像文字辨識技術(shù) (Optical Character Recognition, OCR)、命名實(shí)體識別技術(shù)(Named Entity Recognition),待技術(shù)與工具發(fā)展成熟後,我們將開放工具與服務(wù)供研究者使用。
中央研究院數(shù)位人文研究平臺> https://bit.ly/2D9ByrR
