2021 Abstract

Title2-3. CHYU ShihWen ; <사기>와 <한서>의 핵심성(keyness) 분석 Comparing Historical Records and Hanshu with Keyness (Analysis(以詞語顯著性對讀《史記》、《漢書》探析)2021-10-04 11:10
Writer Level 10
Attachment2-3.pdf (472.5KB)

<사기>와 <한서>의 핵심성(keyness) 분석 

Comparing Historical Records and Hanshu with Keyness Analysis

以詞語顯著性對讀《史記》、《漢書》探析 


  • CHYU ShihWen(邱詩雯, Department of Chinese as a Second Language, National Taiwan Normal University)


Researchers of digital humanity have often tried to apply digital computing technology to textual analysis. The aim of this article attempts to explore how to calculate the words keyness in the text, to analyze text creation subject. This research involved linguistics analysis by CORPRO, comprised of two sets of Chinese classical literature. I took Historical Records and Hanshu as the research texts in the study. Historical Records and Hanshu comparison is a classic theme of close reading. This study used CKIP for word segmentation. Next, cleaned up the data. Then, calculated the keyness by CORPRO. The Result of this study showed it is possible to compare the differences in the subject matter between two texts through the keyness calculation. To conclude, this study may be of importance in explaining the use of keyness in textual analysis. 


使用電腦對文本進行「遠讀」,是文學研究的新興方法。透過標的語料庫、參照語料庫的對比模組,計算出詞語顯著性,能夠提供古典文本新的研究視角。《史記》、《漢書》比較研究,是二書成書迄今的經典命題。前人或從取材,或從編纂,或從行文等面向,考察司馬遷、班固二人史觀,給與優劣得失的評價。《史記》上記五帝,下迄漢武,紀錄三千年通史;《漢書》上起高祖開國,下迄王莽覆滅,載筆西漢一代史事。則自漢高祖到武帝約二百年史事人物,有若干重疊之處。筆者將《史記》、《漢書》重複主題文字,視為標的語料庫與參照語料庫,透過詞語顯著性的運算,討論其與傳統文本分析的異同。庫博是以語料庫語言學為基礎的電腦輔助文本分析軟體工具,功能包括詞頻統計、文本語料庫比較正負顯著詞彙、關鍵詞索引等功能。本研究採用CORPRO中文獨立語料庫工具作為主要分析軟體,以武英殿二十四史本《史記》、《漢書》為例,對齊文本紀錄人物事件年代。先以台灣中研院CKIP中文斷詞系統進行斷詞,再輸入CORPRO文本分析軟體,並匯入《古代虛詞辭典》為自建辭典,區隔虛實詞,以提高數據運算信度。藉由語料庫的對比,獲得正負向詞語顯著性,觀察《史記》、《漢書》特色。再透過電腦「遠讀」產生的焦點,與傳統文人評點闡釋的班馬異同論對比,可以藉此觀察各自的優缺,思考人機共讀模式開展的步驟。則完成此研究,除了能探討運用數位人文運算的詞語顯著性,對於古典文學文本分析的運用效度;同時,也能歸納若干古典文獻數據清洗過程的宜忌,作為日後研究之參考。