許蕙玟博士演講「臺灣史與數位資料庫的應用」紀要
|
|
許蕙玟博士目前是暨南大學通識教育中心兼任助理教授,研究領域包括臺灣史、臺灣社會經濟史、商業史及數位人文與 AI 協作。本次演講旨在介紹研究臺灣史時會接觸到的各種數位資料庫。臺灣歷經荷西、明清、日本殖民至戰後時期,政權更迭頻繁,相關珍貴史料因而分散於海牙、塞維亞、東京及美國等地。隨著數位科技的發展,臺灣史研究者已不再受制於高昂的差旅成本與冗長的調閱流程,透過各國建置的數位資料庫,便得以跨地域蒐集與運用史料。因此,使用數位資料庫是現在研究者不可或缺的重要能力。可公開使用的數位資料庫基本上是由國家研究單位、海外典藏機構、地方縣市政府所建置,而有部分資料須到館使用。亦有私人公司所建置的付費資料庫。
數位資料庫的優勢在於:其一,多數公共資源具備開放性,降低研究門檻;其二,支援全文檢索功能,可於短時間內精確定位關鍵詞;其三,提供高解析度影像下載,便於細部閱讀與反覆比對;其四,隨著 AI 技術的發展,亦可輔助古文書辨識與外文史料翻譯,大幅提升研究效率與資料運用的可能性。
許博士針對使用數位資料庫提供了一些技巧。首先,應掌握資料庫所收錄史料與檔案的時間範圍及性質,以避免檢索結果與研究時段不符。其次,在運用檢索系統時,關鍵字的設定尤為關鍵,適當的關鍵字,往往能大幅提升資料蒐集的效率與精準度,宜使用概括範圍較大的關鍵字,可從產業或地名切入,擴大範圍使資料最大化。例如:作商標研究時,除了將「商標」作為關鍵字外,可單獨檢索「商」一字。如此一來,研究者可預先推測各資料庫可能收錄的內容,並評估其與研究主題的契合程度,有效利用之。
接著,許博士分別介紹臺灣、日本、荷蘭、歐洲,及美國的數位資料庫。這些國家除了典藏機構的差別,亦反映了臺灣歷史的發展。
首先為臺灣的數位資料庫。臺灣目前已建構出相當完整的核心資料庫體系,包括:臺灣史檔案資源系統 (TAIS)、臺灣歷史數位圖書館 (THDL)、臺灣總督府檔案(公文類纂)、臺灣史數位資源整合入口網、國家圖書館古籍影像系統、國史館文物史料查詢系統、臺灣文獻全文資料庫 (TaiCool)、臺灣總督府職員錄、國立臺灣圖書館資料庫、臺灣記憶、國家文化記憶庫、臺大數位典藏、中央研究院近代史數位資料庫、數位典藏服務網、國家檔案應用資料庫、國家文化資產網、地籍圖資網路便民服務系統、中央研究院人社中心資料庫、內閣大庫檔案,以及國立故宮博物院清代檔案檢索系統。以及地方層級的臺南研究資料庫、臺中學資料庫、宜蘭縣史館數位典藏資料庫、新竹市地方寶藏資料庫等。
臺灣許多機構皆積極投入數位資料庫的建置與經營,包括中央研究院、文化部、國家圖書館、國立臺灣圖書館、國史館、國史館臺灣文獻館、國家檔案局、國立臺灣歷史博物館、國立臺灣大學,以及各地縣市政府等。其中,以中央研究院為例,各研究所多設有專門資料庫。又如中央研究院臺灣史研究所檔案館,其館藏已逾四十萬冊(件),數位影像超過一千萬頁,內容涵蓋日記與手稿、土地契字與古文書、機構團體檔案、商業書信,以及照片與圖像等多元史料類型,為研究臺灣史的重要基礎資源。
在使用這些資料庫時,可以善用「進階檢索」的功能。可同時限定文書類型和時間範圍。以人物研究為例,可搜尋臺灣人物誌資料庫/臺灣當代人物誌資料庫(漢珍)、日記知識庫、臺灣總督府職員錄、國史館臺灣文獻館資料庫(總督府檔案/省政府檔案)、中華民國官職資料庫、近現代人物資訊整合系統、各種報紙資料庫(臺灣日日新報、臺灣民報、臺南新報、數位典藏服務網、公論報、聯合報、自立晚報、中央日報、政府公報)、日治時期法院檔案。另外要注意的是,同一研究問題應至少使用 2-3 個資料庫進行交叉對比,避免單一史料庫的盲點。
接著介紹日本的數位資料庫。研究臺灣史最常使用到的日本資料庫,包括日本國立國會圖書館、亞洲歷史資料中心、東洋文庫、早稻田大學及京都大學。亞洲歷史資料中心可同時查閱日本國立公文書館、外務省外交史料館,及防衛省防衛研究所收錄的資料。這些單位分別收藏了內閣文書、法律、條約、詔書、外交電報、軍事、原住民及太平洋戰爭期間臺灣防衛相關的文件。
東洋文庫是亞洲最大東方學研究圖書館,收藏並數位化大量珍稀亞洲古籍,如臺灣相關清代地圖,荷蘭 VOC 時期資料,日治前期調查報告書等。早稻田大學古典及資料庫則是收錄了明治時期圖書、雜誌全文,含臺灣旅遊記、殖民地政策論著,臺灣風俗照片集,以及 1874 年牡丹社事件相關史料。東京大學史料編纂所則典藏了幕末到明治初期日臺外交史料、牡丹社事件相關文件、臺灣出兵談判往來電文。京都大學貴重資料デジタルアーカイブ是中國與日本漢籍資料庫,內含大量數位化的清代正史、方志。許博士特別提及,在透過日本數位資料庫蒐集資料時,建議搭配由日本國會圖書館的數位資料庫來交叉比對。
在歐洲的資料庫方面,則可參考 GLOBALISE 的 VOC 檔案、西班牙檔案門戶網站 (PARES)、大英圖書館,及 Europeana 歐洲數位圖書館。其中,GLOBALISE有 500 萬頁 OCR 全文辨識,可直接全文搜尋。內容涵蓋 VOC 在臺灣、印尼、斯里蘭卡、日本等地史料,是研究臺灣原住民族史、經濟史、政治史與語言史的重要資料庫。西班牙檔案門戶網站收錄了西班牙占領臺灣北部行政文書、道明會在臺傳教紀錄、基隆淡水建城史料、西班牙與菲律賓總督往來關於臺灣的報告,對研究 17 世紀北臺灣歷史具有重要價值。大英圖書館方面,則收藏了 19 世紀後半打狗、淡水英國領事館報告,馬雅各醫生 (James Laidlaw Maxwell, 1836-1921) 臺灣傳教史料,醫學及人類學歷史照片,臺灣相關影像資料。Europeana 歐洲數位圖書館整合 27 個歐盟國家館藏,可以從這裡搜尋荷英法德葡各國殖民時期東亞文獻,包含古地圖、木刻版畫、彩色地圖。
最後為美國的數位資料庫,包括 HathiTrust、Internet Archive 、威爾遜中心檔案庫等。HathiTrust 是由美國研究型大學圖書館聯合建置,有 17,000 萬冊以上數位化圖書、數百冊日治時期日文書籍、「臺灣統督府統計書」各年版、殖民地政策著作、官方報告書全書。但需要注意的是只有美國 IP 才可全文閱覽,臺灣僅部分開放。Internet Archive 收錄了香港、中國及臺灣的稀有報紙,例如:《大公報》、《循環日報》、《天光報》、《電影日報》,以及部分專書可全文下載。。威爾遜中心檔案庫有大量冷戰時期外交角力與安全議題,如臺海危機、美臺關係與《共同防禦條約》,臺灣戰略地位評估,對蔣介石政府的援助討論等。是研究戰後臺灣國際處境與東亞冷戰史的重要資料庫。在使用外文的資料庫時,應準備多語版本的關鍵字,如「Formosa」、「Tayouan」、「Taiwan」等。
最後,許博士提醒,數位資料庫雖然打破了國界與實體檔案是的藩籬,讓研究者能以前所未有的速度蒐羅全球史料。但我們必須警惕,數位資料庫並非研究歷史研究的唯一方法,受限於檢索系統的關鍵字設定,以及許多尚未被數位化建檔的實體文獻,資料庫所呈現的,只是龐大歷史拼圖的一角。研究者本身的發現、比較、解釋史料能力才是更重要的。
討論環節中,臺史所蔣濶宇博士提問,在使用數位資料庫時,要如何使用 AI 技術進行輔助。許博士提到,AI 可以協助研究者分析,像是大事紀、形象分析,或是利用 AI 進行古文書的轉譯、圖檔翻譯,作為輔助判讀史料的工具。同時她也強調,使用 AI 的關鍵在於「指令」的設定。唯有清楚且具體地提出需求,才能有效引導 AI 產生符合研究目的的結果,進而提升史料整理與分析的效率。臺史所孔丁萸博士也回應補充法國國家圖書館、法國國家檔案館的數位資料庫,也有一些關於臺灣、臺法關係的史料可供參酌。