郭至汶教授演講「當 AI 遇到歷史學」紀要
|
|
郭至汶教授,德國海德堡大學漢學系博士,研究領域以晚清傳教士、跨文化研究與近代中西交流史為主,並且長期關注人工智慧與數位人文研究等議題。郭教授自 2018 年開始接觸數位人文與自然語言處理,希望從中探詢文史研究與語言模型相結合的研究方式。
演講伊始,郭教授先介紹由 DeepMind 等研究團隊開發的“Ithaca”語言模型,而後進入今日的演講主題。2022 年 3 月,Nature 期刊刊登了〈使用深度神經網路還原古文並為其歸屬〉(“Restoring and attributing ancient texts using deep neural networks”) 一文,這是數位人文領域的研究成果第一次刊登在主流期刊當中,對於這領域而言是非常大的肯定。Ithaca 為該團隊訓練出的語言模型,採用的是類神經網絡架構 “Transformer”為主,以此辨識、還原古希臘銘刻文,並判斷文獻的時間、地點歸屬。Ithaca 語言模型的開發,是建立在豐富的文獻資料基礎之上。自 1970 年起,西方學者就開始累積並整理古希臘銘刻文的資料,且在整理原始資料時記錄時間及地點等資訊,累積至今已超過 18 萬份。研究團隊從 18 萬份銘刻文中選取近 8 萬份資料做為 Ithaca 模型的訓練基礎。該研究成果登上 Nature 期刊的主要原因之一,是為史學界存在已久的「雅典帝國化時間」問題提供量化研究的解法。在此之前,學者根據書寫慣例推測雅典帝國化的時間為公元前 446 到 445 年之間,而 Ithaca 用量化的方式估算哈爾基斯法令 (Chalcis decree) 的寫定時間約為公元前 421 年,故雅典帝國化的時間應當也在公元前 421 年左右。從這個研究可以注意到幾個特點,其一、人文學者與資訊學者之間的團隊合作,兩方缺一不可,若只有單一方是難以做出此一貢獻。其二、解決重要的歷史學課題:過去幾年,有些學者認為數位人文似乎未能對歷史學提供實質的助益,然而若能將數位人文運用在解決重要的歷史課題上,或許就能彰顯使用數位工具的價值。其三、足量的訓練資料:充足的數據資料使 Ithaca 得以用量化的方式分析文獻。其四、有合適的類神經網絡架構。
介紹完 Ithaca 後,郭教授接著介紹類神經網絡架構。類神經網絡架構簡而言之是一種模擬人腦的運算函式,透過足量的訓練資料,並使用機器學習的方式實現模擬人腦的運算。機器學習為人工智慧的核心部分,透過大量的訓練資料,機器得以從中自主學習,使人工智慧能有飛躍式的進展。當前流行的類神經網絡架構仍是 Transformer,該架構於 2017 年由 Google 推出,起初用於機器翻譯(能顧及上下文並解析句子),之後廣泛應用於其他自然語言處理的領域中,如文本分類 (Text classification)、詞符分類 (Token classification)、以及 Ithaca 使用的遮蔽語言模型 (Masked language modeling) 等多種應用層面。
對於有意願學習更多數位人文工具的學者,郭教授推薦 Programming Historian 網站。該網站提供有多種數位人文工具,每個工具都有詳細的教程供學者參考。舉例來說,“OCR with Google Vision API and Tesseract” 一文對需要處理文字辨識的學者便很有幫助。對於文史研究者而言,光學字元辨識 (OCR) 可能是日常研究中最常使用的數位工具之一,郭教授指出目前 Google Vision API 已能辨識過往無法處理的英文手寫體;此外,該技術在辨識 19 世紀中文印刷體方面亦有良好的效果,例如《申報》的文字辨識。
關於 ChatGPT 的使用,郭教授認為使用過程中可注意四個面向:其一、任務明確,對 ChatGPT 下達明確的任務指示;其二、提供範例,將希望呈現的結果提供給 ChatGPT,使其按照結果進行學習以完成使用者指定的任務;其三、拆解步驟,倘若資料處理的過程較複雜,可分次下達指令處理資料,這會比一次下達全部指令來得好;其四、研究者亦可製作專屬的 GPTs,以提供個人化的需求。例如,使用者透過 GPTs 建置個人化的資料庫,並對資料庫進行複數個關鍵字的搜尋,便可為研究者查找資料提供幫助。最後,郭教授提到數位人文的發展,仍有賴於學者之間相互合作。
演講後的綜合討論,主持人連玲玲教授、賴惠敏教授、林峻煒博士及諸位與會學者,熱烈地討論未來如何將數位工具結合歷史學研究。郭教授針對討論內容,建議人文學者可將各自專業領域中難以處理、缺乏共識的問題,嘗試使用數位工具解決。雖然數位工具不一定能夠完美地解決問題,但人文學者主動提出嘗試,對於推展數位工具與文史研究的合作,無疑是重要的一步。