AI也能「讀」甲骨文?

2023-10-30     知識就是力量雜誌

原標題:AI也能「讀」甲骨文?

撰文/武智融(微軟亞洲研究院) 莫伯峰(首都師範大學甲骨文研究中心)

甲骨文,亦稱「契文」「龜甲文字」「殷墟文字」,為中國商周時期刻在龜甲獸骨上的文字。甲骨文是研究商周社會歷史的重要資料,而現在,人工智慧AI也能為甲骨文研究工作提供助力,用科技之手撥開幾千年前的迷霧。

「校(jiào)重(chóng)助手」為何誕生?

甲骨文是已知年代最早的、成熟的漢字系統,對中國乃至世界的文化歷史研究都具有重要意義。現已出土的甲骨約16萬件,甲骨文的研究工作則主要利用甲骨「拓本」。

甲骨會在不同藏地間流轉,因此同一片甲骨會流傳下來多個拓本,這些重複的拓本被稱為「重片」。重片使得拓本總數遠大於甲骨總數,於是便需要通過「校重」把重片都找出來。這項工作雖然基礎,但非常重要——使用了不清楚、不完整的拓本,結論就會不可靠。

校重需要將拓本進行兩兩對比,工作量龐大。而且由於甲骨破碎、墨拓方式有差異等原因,重片間的樣貌差異有時很大,這更加大了校重工作的難度。編撰《甲骨文合集》(由著名歷史學家郭沫若主編,是中國現代甲骨學方面的集成性資料彙編),前後耗時20餘年,其中校重工作就花費了很長時間,卻也難保沒有遺漏。

如今,隨著人工智慧的蓬勃發展,整理甲骨文的利器——「校重助手」應運而生!

自監督學習:讓人工智慧辨別甲骨文

校重助手與甲骨文專家所用的校重方式不同——專家需要對甲骨上的文字進行辨認,而校重助手則不需要。那麼,它究竟是如何工作的呢?

訓練一個可完成校重工作的人工智慧,其核心任務是設計一個模型,這個模型可以判斷兩張拓本是否出自同一塊甲骨。如何實現這種功能呢?跟人一樣,要靠學習。

過去在訓練人工智慧時,通常採用有監督學習,即由專家標記各類重片作為學習資料。但在本項任務中,專家難以標記所有類型的重片,有監督學習難以發揮效果。這時就要靠自監督學習了。

自監督學習也稱無監督學習,其思維核心是讓人工智慧自動從數據中製造標籤。例如,可以自動將圖像中不同子區域的空間位置關係定義為一種標籤,或是自動將圖像的色彩飽和度定義為一種標籤等。

用人工智慧「找不同」

設計出自動製造標籤的方法對校重助手同樣適用。重片之間存在樣貌差異的主要原因,是拓印範圍、拓印方式不同,以及甲骨破碎、甲骨磨損等。了解了這個原因,便可以對這些表現進行模擬,用一張拓本生成各種表現略有不同的「人造重片」。通過改變一張拓本的清晰度、對比度、旋轉角度,或給其引入圖像噪聲等,我們就可以得到無窮無盡的重片標籤。這就解決了校重助手學習資料不足的問題。

校重助手在工作時會遍歷圖像的所有局部區域,這樣就可以在兩張拓本之間得到密集的點與點的對應關係。如果兩張拓本互為重片,這種點與點的對應關係就是規律且一致的。通過一致的對應關係,還可以進而求解兩張拓本之間的幾何變換關係,從而將其重疊在一起。這種點與點的對比圖和重疊圖易於專家解讀,能大幅提升人機合作的效率。

運行一段時間後,校重助手已經取得了一批新的校重成果,為一些模糊的拓本找到了清晰的替代拓本,甚至還用幾張互補的重片復原了最完整的甲骨圖像。這些成果使我們相信,人工智慧在甲骨文這樣的冷門絕學裡也有著廣闊的應用前景。

本文來自《知識就是力量》雜誌,原標題《AI也「讀」甲骨文》,撰文武智融、莫伯峰,有刪改,原創作品轉載請註明來源。

文章來源: https://twgreatdaily.com/zh-hk/0743f64e214c3e2b1aaa7a55c471393b.html