郭至汶教授演講「自然語言處理於清領時期臺灣史料的應用——以《海關醫報》、《博醫會報》為例」紀要

 
講題: 自然語言處理與清代臺灣史料的運用——以《海關醫報》、《博醫會報》為例
書名:
主講人: 郭至汶教授(國立嘉義大學應用歷史學系)
發表人:
報告人:
主持人: 莊勝全教授(中央研究院臺灣史研究所)
總結人:
召集人:
與談人:
主辦單位:
網址連結:
與會者:
時間: 2021 年 3 月 25 日(四)下午 3:00 至下午 5:00
地點: 中央研究院臺灣史研究所 817 會議室
撰寫人: 張瑜庭(國立臺灣大學歷史學系碩士)
刊登日期: 2021/03/25
 

  郭至汶教授是德國海德堡大學漢學系博士,現任嘉義大學應用歷史學系專案助理教授,研究領域為晚清傳教士與跨文化研究、近代中西交流史、國際漢學以及數位人文學研究。本次講題即是圍繞郭教授關於數位人文的專長,以《海關醫報》、《博醫會報》二種與海關和傳教士相關的文本範例,展示如何利用自然語言處理清代西文報刊史料,並進一步開展歷史學研究方法的更多可能性。

  演講伊始,郭教授即言明應將「自然語言處理」(Natural Language Processing, NLP) 視為一種研究工具,人文學者若能夠熟悉這種工具的應用方式,便可以充分運用在各類文本研究上。「自然語言處理」是一門整合了語言學、計算機及人工智慧的學科,強調透過計算機與人類語言之間的互動來進行研究。大部分的研究者會利用程式編寫處理大量的語言材料,以提升文獻研究的效率。隨著人工智慧的日新月異,這門學科也在近年內越發受到關注。人工智慧中的一項核心項目為「機器學習」,也就是讓電腦通過資料自主學習運作,最終達到人工智慧的方法。而「機器學習」中又包括一門重要的「深度學習」學科。

  和過去由人類對電腦下指示、提供運算法則的操作模式不同,「機器學習」只需為電腦提供海量資料,讓電腦自行找出各種處理資料的應對方法。「深度學習」是實踐這個方法的技術,意即通過程式語言執行類神經網路,模擬人腦的思維架構。本次主要使用的程式語言為 Python,也是目前執行「深度學習」時主流的程式語言之一,其優點在於可與多種外接套件連結,配合不同套件的功能應用在各領域之中。

  「自然語言處理」涵蓋範圍相當廣泛,例如:語音處理、文字辨識、語意分析等多種領域,郭教授認為其中與歷史和人文研究較相關的有三種,分別為機器翻譯、文本摘要和主題建模。

  首先,關於機器翻譯,目前最為人熟知的「機器翻譯」即 Google 翻譯。Google 翻譯實際上在 2016 年經歷了一次變革,此前所採用的是統計機器翻譯法 (Statistical Machine Translation),2016 年後則改採神經機器翻譯 (Neutral Machine Translation)。神經機器翻譯採用了深度學習的技術,讓電腦不再需要建構統計模型分析文句進行翻譯,而是通過已經輸入的海量資料自行尋找文句之間的對應,因此系統在處理文法複雜的長句時能更精準地翻譯。除了 Google 之外,美國各重點大學,如史丹佛大學、哈佛大學等,都有專門的團隊進行機器翻譯的相關研究。此外,德國的 DeepL 公司則是目前機器翻譯領域中的業界翹楚,它們將深度學習的方式充分應用在機器翻譯上,使其翻譯成果更勝其他公司開發的機器翻譯。然而,現今的機器翻譯仍是以現代語言為主,古代語言的翻譯仍是待開發的一環,不過倘若擁有足夠語料庫,配合現有的神經網絡模型,同樣可以建置與古代語言對譯的機器翻譯。如臺灣目前已掌握不少十七世紀古荷蘭語文書史料的翻譯成果,如《熱蘭遮城日誌》、《荷蘭聯合東印度公司臺灣長官致巴達維亞總督書信集》等。這些內容已經累積了不少古荷蘭語的詞彙量,若能結合神經機器翻譯應用,日後對於研究者學習古荷蘭文,定能有所裨益。

  其次為文本摘要,目前在「自然語言處理」領域中,文本摘要分為兩類,Extractive Text Summarization 和 Abstractive Text Summarization。前者的摘要方式為保留並組合文中的重要論點句,藉此來總結文章;後者則是電腦自行理解文本訊息後重新編寫摘要,其處理方式更接近人腦的運作機制,是一種仍在發展中的深度學習技術。

  最後是主題建模,主題建模是一種從一系列文檔中擷取各類抽象主題的統計模型,研究者可以藉此發掘刊載於某一時段的文章或專欄,探尋哪些主題經常被提出討論。主題建模常用的兩種演算法,分別是 Latent Dirichlet Allocation (LDA) 以及 Non-Negative Matrix Factorization (NMF)。主題建模的內在演算邏輯是先將各篇文章中反覆出現且高度重複的詞彙篩除,再挑選出僅於特定文章中提到的詞彙,並將此訂定為該文章的關鍵字。

  緊接著,郭教授以《海關醫報》和《博醫會報》為實作範例,分享其透過程式語言 (Python) 的編寫,應用「自然語言處理」於史料研究後所得之成果。《海關醫報》(Medical Reports, in China Imperial Maritime Customs Gazette,刊行時間 1871-1910)是由英國海關在中國發行的現代醫學報刊,為半年刊,執筆者多是分布在中國各地的海關醫師,其中包含臺灣的淡水、基隆、臺灣府、打狗四海關。文本資料蒐集主要是從 HATHI TRUST Digital Library 和 University of Bristol 提供的電子資源下載取得。至於《博醫會報》(The China Medical Missionary Journal) 則為博醫會 (The Medical Missionary Association of China) 的會刊。該會是中國醫療傳教士於 1886 年組成的醫療性社團,隔年 (1887) 發行《博醫會報》。該刊經歷兩次更名,1907 年改稱為 The China Medical Journal,1932 年又因博醫會與中華醫學會合併,更名為 The Chinese Medical Journal。HATHI TRUST Digital Library 和 Yale University Library 亦有提供《博醫會報》的電子資源。

  由於演講時間限制,第一項機器翻譯因涉及的程式運算與資料內容太過龐雜,無法於現場詳述,故僅針對文本摘要、主題建模二種自然語言處理的工具進行分享與討論。程式語言的編寫平臺有很多種,郭教授所使用的 Jupyter Notebook 是目前編寫 Python 程式語言的常用平臺。正如前述,Python 程式語言可外接多種套件,其中 Gensim 就是一種專門用以執行 Extractive Text Summarization 這類重點式摘要功能的套件,而 Abstractive Text Summarization 則是採用 Transformers 套件來處理,不過後者因運算機制複雜,目前僅限 512 字以內的文本方可免費使用。至於主題建模的操作上,則可以選擇以 Sklearn 套件來支援。

  文本摘要的實際應用上,郭教授以《海關醫報》第一冊第一篇的醫務報告為例,該文是由一位名為德貞 (John Dudgeon, 1837-1901) 的傳教士所撰,內容主要是講述他於北京執業時的觀察報告。全文長達十頁,約 7,350 字,且單從其文章標題 “John Dudgeon’s Report on the Health of Peking for the Half-year” 不容易看出作者探討的主題和論點,而這類標題在《海關醫報》中是很常見的形式。對於研究者而言,這樣長篇幅的文章若都需個別細讀,勢必耗時費力。這時文本摘要的功能便可以派上用場,在編寫程式時,使用者可以按個人需求自由調整摘要篇幅長短。以本篇為例,郭教授將摘要比例調整為全文篇幅的 3%,最後呈現出的摘要便縮減為 373 字,且很快地捕捉文章主旨是討論中國的「天花」疾病。由此可見,文本摘要功能確實大幅節省了閱讀的時間,也能夠提升整體研究效率。


 

  主題建模的執行範例則是選取《博醫會報》中的「讀者來函」專欄來操作。該專欄收集來自各地醫療傳教士的投書,內容涉及範圍廣泛,如傳教士個人見聞、經驗、醫學觀點等各種心得分享。這些讀者投書中,有些冠有標題,但許多部分則無,這些無標題投書使得研究者很難快速把握各篇內容所談論的主旨。但若能善用主題建模,將這些無標題的資料投入程式語言,就可以得到各篇的關鍵字,研究者也能藉此了解當時的傳教士們所討論的議題。操作主題建模的功能時,也可以自由選擇主題及其對應的關鍵字數量。在《博醫會報》的「讀者來函」案例中,郭教授設定了十個主題,每個主題之下包含十個關鍵字,至於每個主題指涉為何,並非由自然語言定義,而是交由研究者自行判定。從《博醫會報》前五年的「讀者投書」資料來看,主題建模功能將 building、room、dispensary、hospital 等關鍵字統整在一個主題之下,郭教授即將此主題判斷為與「館舍」或「醫療空間」相關之內容。將每個主題下的關鍵字大致瀏覽過後,便可得知這段期間「讀者來函」的作者們著重探討的課題。主題建模功能有利於研究者掌握文本內容的主旨與發展趨勢,尤其在面對大量的文獻時,這些關鍵字能讓研究者迅速理解當時該社群所關心的議題,也能避免讀者初次接觸史料時落入無所適從的境地。


  在討論階段中,主持人莊勝全教授指出,郭教授此番嘗試乃數位人文學應用的良好典範。利用數位人文工具,是為了協助研究者能更有效率地消化大量史料、開發新的課題,而非藉此尋求答案。因為答案仍應交由歷史學者來解釋與判斷,這才是研究者應用數位人文時應具備的態度。林玉茹教授與莊教授又針對數位人文技術及其衍生的問題層面進行提問。其一是除了英文與工整印刷體之外,中文或手寫材料是否也可以套用上述的自然語言處理工具?另外,在技術門檻上,文科生一般不具備程式語言的編寫能力,又該如何操作這些工具?最後,現今數位人文研究正如火如荼的發展,藉此生產的研究成果也如雨後春筍般湧現,然而其中有不少成果卻難以解釋,或與實際認知相去甚遠,郭教授如何看待數位人文技術與史學研究之間的關係?

  郭教授說明,目前針對中文的程式語言已有研究團隊正在進行開發,不過中文語言並不像英文一般有明確的斷詞斷句,而且早期中文文獻也缺乏標點符號,這也成為執行程式語言時最大的挑戰。美國研究單位也有針對某些重要作家的手稿材料開發光學字元辨識(Optical Character Recognition,簡稱 OCR)程式,能夠直接辨識手寫文字並以數位化的文字格式輸出。至於文科生對於程式語言的操作,倘若能利用已經寫好的程式模板,只要懂得調整參數,便能容易上手。但若想自己嘗試編寫程式,則需要接受專門的訓練,門檻自然較高。而數位人文之於歷史研究的應用,一般是在處理大量材料或數據的量化研究上較能取得具有說服力的成果,但在著重文本分析的質性研究上則會產生許多問題,絕對無法取代研究者本身的精讀和解釋。郭教授的見解是:數位人文自始至終都是一種工具,它能為人文研究帶來更多便利性,但史料分析、解讀仍需仰賴研究者的研究功夫。

  林教授接著就研究取向詢問,郭教授何以選擇《海關醫報》、《博醫會報》兩份期刊為示範材料?與郭教授個人過去或未來的研究方向有何關聯?郭教授談及其博士論文主要的研究對象就是晚清的英國傳教士李提摩太 (Timothy Richard, 1845-1919)。這位傳教士在報刊推廣上著力甚深,因此在研究過程中需接觸並閱讀相當大量的近代報刊材料,其中也包含許多這類專業的醫學報刊。順著這個閱讀脈絡,郭教授期許自己日後能透過這些材料,對於十九世紀晚期臺灣各地醫療傳教士的活動景況有更深入的理解和掌握。