「AI工具箱:ChatGPT的歷史研究應用」

 
講題: 研究計畫發想與統計分析 資訊提取與屬性分類 知識交叉比對與圖片生成 ChatGPT 101
書名:
主講人:
發表人:
報告人: 葉韋君教授(國立臺北教育大學文創系兼任助理教授) 許維安(國立臺灣大學歷史系博士生) 黃健傑(國立政治大學歷史系博士生) Calvin Yeh (IT Architect/ Digital Humanities Scholar, Max Planck Institute,Germany)
主持人: 連玲玲教授(中研院近史所研究員)
總結人:
召集人:
與談人:
主辦單位:
網址連結:
與會者:
時間:
地點: 中央研究院近史所研究大樓一樓會議室
撰寫人: 梁靜法(國立中央大學中文系碩士生)
刊登日期: 2024/12/11
 

研究計畫發想與統計分析

 

  本場演講,葉韋君教授以如何使用人工智慧來協助研究為主軸,展現在研究的過程中,如何運用及與 AI 展開對話。葉教授以近期自身的「近代婦女期刊的翻譯研究」為例,講解其如何結合學術研究和AI。葉教授主要使用的數位工具為付費版的 ChatGPTs;在研究過程中,ChatGPTs 主要扮演的角色與功能為提供研究拓展方向以及資料的統計與分析。

  首先,葉教授先從如何使用 ChatGPTs 輔助資料解讀講起,以不同年代中,婦女期刊收錄的翻譯文類所佔比例為例。葉教授事先整理好統計完成的圖表,上傳給 ChatGPTs,請其依照所提供的圖表,指出使用翻譯文章的高峰時期。透過 ChatGPTs 的回應,葉教授發現 ChatGPTs 可以分析圖表,但無法準確地讀出圖表中所提供的年代,並且在回應中給出的答覆有時也偏離現實。由此開始與 ChatGPTs 對話;在對話過程中,葉教授輸入相關的史實內容給 ChatGPTs,透過葉教授所提供的資料,ChatGPTs 回答的準確率明顯提升,在數據越充足的條件下,葉教授也發現 ChatGPTs 逐漸能開始回應不再限於基本常識的內容,而是可以提供葉教授具發想性的回覆。

  再來,葉教授請 ChatGPTs 分別摘要出百分比堆疊圖中,不同翻譯文類的歷年變化趨勢與現象,共有 8 個類別,分別為應用知識、小說、新聞、散文、論述、白話詩、戲劇及其他。在應用知識類中,ChatGPTs 正確地分析圖表,並且回應的內容準確,得以直接寫入研究論文中。對於小說,ChatGPTs 分析小說在翻譯文類中顯著增長,並且回應小說的增長「顯示了小說在翻譯中的文學性與大眾吸引力」,這使葉教授想到可以在論文中補充說明,是哪一類的小說增長最為快速?同時,哪一位作者的小說具有文學性與大眾吸引力?最讓葉教授驚豔的是 ChatGPTs 對於白話詩詞的解讀,透過其回覆的內容,可以得知 ChatGPTs 在白話詩詞的大數據相對豐富,對於新文化運動的語言轉型有基本的概念。葉教授認為,自行分析統計圖表並不困難,然而透過 ChatGPTs 的分析,可以提供研究者更深入的解讀潛力,以及注意到拓展研究面向及細節的可能性。

  葉教授請 ChatGPTs 解讀以 Gephi 繪製而成的刊名與譯者網絡關係圖,在與 ChatGPTs 對話的過程中,ChatGPTs 建議葉教授可以使用模塊化分析(Modularity Analysis) 檢查哪些譯者同時與多個刊物有連結關係,並且是否形成特定的子群體。葉教授採用 ChatGPTs 的建議,再以 Gephi 繪製不同的關係圖,從而發想更多的研究內容。在人機協作的過程中,葉教授認為觀察 ChatGPTs 如何回答技術問題,透過其回覆,進行人工與機器結果的比較與優化,得以提升研究效率。

  最後,葉教授提醒,當學術研究結合 AI 時,AI 的定位應為「助手」,而作者是創造者;AI 可以提供研究設計與假想,以及幫助聚焦效率,然而最重要的還是研究者的創意,以及對於 AI 生成內容的審核。

  演講後的綜合討論中,臺師大臺文所博士生提問,在使用 ChatGPTs 進行文獻分析時,是否有先提供充足的研究內容相關資料?葉教授表示,自己在使用 ChatGPTs 時,僅在一開始提供些許內容,其餘皆讓 ChatGPTs 自行從大數據中尋找相關資料。同時,葉教授也建議使用付費版的 ChatGPTs,付費版提供的品質顯著優於免費版本。

資訊提取與屬性分類

 

  許維安女士的博士論文主題為近代中國精神科學知識的建立,聚焦在心理學家的學術網絡與知識生產,研究方法使用社會網絡分析作為研究工具。在介紹論文計畫後,許女士分享自身運用 ChatGPTs 的工作流程與心得。首先,先使用社會網絡分析來釐清心理學家之間的學術連結,以及他們所生產的知識。透過網絡分析與圖示呈現,可以揭示心理學家之間的學術連結、合作模式以及知識的流通與傳播。

  由於在研究中,需要精準快速的建立學術網絡資料,以及思考如何與知識史之間對話。在以上的問題意識與研究需求下,講者創建了 3 款符合研究需求的個人化 AI 工具,分別為人文傳記資料提取、節點屬性分類、知識史研究回顧。在人物傳記提取中,其運用 ChatGPTs 整理出人物的基本資訊,如姓名、留學國家、學系等,一共整理了 240 筆資料;再讓 ChatGPTs 整理傳記,提取傳主的網絡關係,包括「學術關係」、「組織關係」、「合作關係」等,一共整理出 3328 筆。在這樣的人機合作中,幫助講者節省了大量文獻爬梳與整理的時間。在節點屬性分類工具的協助下,ChatGPTs 不僅幫忙區分屬性類別,如學術、政治、商業、醫學等;在與 ChatGPTs 對話的過程中,ChatGPTs 還提供了講者先前沒有注意到分類項目。最後在研究回顧統整工具中,講者讓 ChatGPTs 幫忙製作各篇文章的摘要,得以快速瀏覽內容。他表示,一開始 ChatGPTs 提供的內容較為簡短,但透過對其下指令 (Prompt),逐段摘要後,就可以知道更詳細的內容,再複查時也得以更加準確。

  人機互動的過程中,講者與 ChatGPTs 的工作流程為:製作 ChatGPTs 指令、校稿及匯入 Ctyoscape。講者提醒,在與 ChatGPTs 的合作時,最重要的是自己先熟讀研究文本,並且觀察文本中結構化的語言。講者使用的文本為《民國人物大辭典》,由此他必須熟知辭典中書寫與編排的邏輯,例如為了要下達 ChatGPTs 統整人物的畢業學校,講者必須了解傳記書寫者慣用的文字書寫方式,若在文章中有「任○○學校」,是代表任職而不是畢業學校。所以在寫指令時,需要先剔除「任○○」的相關資料,得以精準地下達指令。最後,講者認為在與 ChatGPTs 互動的過程中,要保持著懷疑的態度,原因在於有時候提問方式不同,ChatGPTs 給出的答案也會有所不同。

知識交叉比對與圖片生成

 

  演講伊始,黃健傑先生感謝能有機會藉由國科會龍門計畫,前往法國艾克斯馬賽大學,跟著當地學者學習數位人文工具。同時,其有幸在柏林的數位人文會議中認識Calvin Yeh,由此促成了使用 ChatGPT、製作 GPTs ,以及參與這次工作坊的契機。

  講者接觸數位工具的初衷,為利用 AI 有效率地輔助整理博士論文所需要的史料。講者的博士論文題目為《近代中國食譜中的飲食知識跟科技》,截至演講日期為止,目前已蒐集 80 本近代中國食譜。

  本演講,講者分享製作 ChatGPTs「食譜史料提取工具與民國食譜查詢」的過程。而資料彙整完成後,可以呈現三項成果,其一、列出食譜中的菜餚、食材、烹調方式等資訊列表;其二、計算資訊列表並分析結果,在從中設計研究問題。例如,統計食材的出現頻率,或是食材聯合使用頻率分析;其三、使用 Cytoscape 畫出食材網絡圖,分析食材之間的關聯,並探討食記作者的知識地圖、近代中國飲食觀念及食品技術的發展。

  首先,講者講解,其運用 Google Vision AI 以及工程師以 Physion 製作的程式,將食譜的 PDF 檔案,轉成 TXT 文字檔,之後再運用 ChatGPTs 開始協助資料整理。在建立個人的 ChatGPTs時,首先需要先設定名稱 (Name),以及簡述此 GPTs 的建立目的與功用 (Description),再來開始設定對於 GPTs 的指令 (Instruction)。在指令中,需要再設定背景 (Context),以及制定對於 GPTs 的規則 (Prompt Rules),將規則的行徑 (Action) 皆設定完畢後,個人化的 GPTs 就建成完成。講者設計 GPTs 中,大方向的行徑設計順序為:一、提取食譜的基本資訊。二、提取菜餚作法的步驟順序。三、同時執行基本資訊提取與步驟提取。四、計算食譜的營養成分。五、提供民國時期食譜建議與相關出處。同時,講者也提醒,在與 ChatGPT 溝通時,預先提供 ChatGPT 資料預期呈現方式的範例,會提高工作效率。

  最後,對於人機合作的心得,講者認為科技的確是來自於惰性,將一些整理、歸納等,費時性較高的工作交給 AI 處理,是節省了非常多的時間。然而,他也強調必須抱持「可以偷懶,但不能放任」的心態來與 AI 合作。同時,仍需要花心力去解讀與蒐集資料,再以「想像力是你的超能力」的態度來解析資料。當對資料的解讀越熟練、有更多創意時,加入 AI 的幫助,則有如虎添翼的效果。此外,「有問有機會」,將所有想到的問題、創意與 AI 討論,或許在互動的過程中,就能將天馬行空的想法轉化為具體的執行計畫。講者以在網路上看到的一句話共勉 AI 學習者:「AI是助力,數位人文是方法,研究者才是關鍵。Don’t worry, be GPT.」。

ChatGPT 101




  Calvin Yeh 現任職於柏林的馬克斯·普朗克科學史研究所 (Max Planck Institute for the History of Science) ,擔任 IT 架構師 (IT Architect)。他曾與多位文史學者合作,提供人文學者所需要的數位人文軟體開發與協助。在與人文學者不斷溝通的過程中,使得Calvin Yeh 非常了解人文學者到底需要什麼樣的數位工具;由此開發、重構了多款專門設計給人文學者的數位研究工具,而這些工具如今也廣泛使用於數位人文領域。本場演講,Calvin Yeh 介紹 ChatGPT 的功能及使用案例,並且解說大語言模型的應用與潛在限制。

  「ChatGPT 每次的回覆都是一樣的結果嗎?」Calvin Yeh 以此做為開場詢問與會大眾。隨之,帶著大眾使用各自的帳號,輸入相同的問題給 ChatGPT,從中可以發現雖然回應的內容佈局相似,但 ChatGPT 每次的回覆都會提供不同的內容,以及出現「再試一次」(Try again) 和「切換模型」 (Change Model) 的選項。對於這一點,身為軟體開發人員的 Calvin Yeh 認為,他從中收到了 ChatGPT 開發團隊所傳遞的訊息:一、這個工具不是用來進行事實核查的。二、這個工具也不是用來計算簡單事實的,例如「1+1=2」。Calvin Yeh 認為開發 ChatGPT 的目的是讓使用者以相同的輸入,得到不同的輸出。在過往,若有程式每次都給與使用者不同的答案,或許會被認為是程式不穩定或是遭到淘汰。但 ChatGPT 作為一個 LLM 大型語言模型 (Large Language Model) 應用的定位,將有助於使用者更有效地使用它。

  在使用 ChatGPT 時可以發現,使用者得以編輯修改已傳送的文字內容,然而在使用的過程中,我們可以發現,縱然打錯字,ChatGPT 仍能清楚理解用戶欲傳達的本意;那為什麼 ChatGPT 的團隊還要設計此一功能?原因在於,LLM 存在「注意力範圍」的限制,用戶直接修改內文,可以減少 ChatGPT 整段對話的字數,以及防止 ChatGPT 分心。用戶與 ChatGPT 對話內容,構成完整的上下文,由此 ChatGPT 才得以知道用戶所需要的資料為何,這就是為什麼要防止 ChatGPT 分心的原因。在此,Calvin Yeh 也詢問聽眾,在使用的過程中,有時候是否會突然覺得 ChatGPT 變得笨拙,或回答地文不對題呢?原因在於 ChatGPT 會將用戶面的所有內容上傳到伺服器,因此有字數限制;若整段對話達到字數限制時,最初與 ChatGPT 對話的內容記憶會被移除,由此才會造成出現不符合期待的回應。

  身為熟悉 ChatGPT 運用與操作的軟體工程師,Calvin Yeh 收到許多來自不同使用者需求的詢問,例如:「我可以使用 ChatGPT 製作簡報嗎?」、「如何使用 ChatGPT 建立一個自訂 GPT 來分析寫作風格?」、「ChatGPT 可以搜尋線上資源,但是否有專注於線上搜尋的其他 AI 工具?」等詢問。在講座中,Calvin Yeh 逐一教學,希望與會學者們未來在學術上,運用 ChatGPT 與之合作,將數位工具發揮到最大的效用。