他們用AI挖開了一座古人留下的寶藏

2021-06-09     淺黑科技

原標題:他們用AI挖開了一座古人留下的寶藏

1

計算機和網際網路誕生不過幾十年,而中華文明延綿數千年。

在絕大多數沒有計算機的時間裡,古人們把記憶和知識刻在甲骨、銅器、石板上,寫在竹簡、羊皮和紙上,這些承載知識、信息的容器,後來逐漸被人被稱為「古籍」。

在網際網路,知識像自來水管里的水一樣流動,人們輕鬆取用,而古籍卻像是水缸、水井,隨著時間的流逝,被磨損,被破壞,被流失甚至被遺忘,儘管裡頭的水也許比自來水更清冽。

大多數時候,古籍被保護在藏書館,可是,束之高閣又讓它們失去作為一本書的價值,書原本只是一堆紙和墨,當被人閱讀時,其中的知識才綻放出光芒。

人們開始琢磨: 有沒有可能用AI、大數據、雲計算等技術,把古籍復刻到網際網路上,讓這些古老的智慧和記憶重新流動起來,為人所用?

「漢典重光」項目大概就是這麼一回事,一群人試圖用科技打開祖先留下的,塵封已久的知識寶庫。

2

故事得從2017年說起。

美國哈佛大學的哈佛-燕京圖書館,是迄今為止中文藏書最多的海外圖書館。2017年8月1日,哈佛-燕京圖書館在網上放出消息:其館藏的4200部,合計約53萬卷中文善本特藏,已全部實現數字化,全球網友可免費在線瀏覽和下載。

(截取自哈佛燕京圖書館中文善本特藏數字化工程頁面)

普通人可能不清楚這意味著什麼,但是對古籍研究者和學者來說,絕對是個大新聞。

以往,每年哈佛燕京圖書館服務大約二百位訪問學者,供他們利用館藏進行研究。學者想查閱其中的古籍,必須提前向圖書館申請,再買機票,飛過大半個地球去,當然,還得提前拿到美國簽證。

由於去一趟不容易,他們經常一去就是半年、一年甚至更長時間,每一次都得提前準備一個長長的書單或者任務清單。

2009年前後,中國國家圖書館跟哈佛燕京圖書館聯合啟動了這個古籍數字化工程,雙方共同開發,歷經近十年終於完成。

從此,世界上任何一個人,只要一台電腦或一部手機,連上網,就可以跨越地域限制,飽覽其中典藏。

無數學者和吃瓜網友順著海底光纜來到哈佛-燕京數字圖書館,為其中的珍貴典藏和數字化工程而驚嘆。

許多古籍歷經戰亂、朝代更替,流落海外又數次易主,最終以數字化的形式「魂歸故里」。

圍觀群眾之中,有個人比較特殊,叫高曉松,之所以特殊,倒不是因為出名,而是因為他的兩個身份。

2015年,他發起成立「雜書館」——目前國內藏書規模最大的私人公益藏書館,並擔任館長。同年,他受邀加入阿里巴巴。

這兩個身份,一面歷史人文, 一面網際網路科技,而古籍數字化,恰好也是這兩個看似風馬牛不相及的領域碰撞出的火花。

古籍數字化帶給高曉松的震撼,無異於馬雲第一次出國,見到電腦,在搜索框里敲下 「Beer」和「China」 。

高曉松經常出入於世界各地的圖書館,他知道,哈佛-燕京圖書館的這批數字化工程只是冰山一角,還有很多大學的東亞系都有很好的藏書,他親眼看到過許多古籍,有些甚至是孤本,每次從圖書館出來,他恨不得把這些書都背回來,但他知道,這是不可能的。

有的圖書館不讓拍照,抄寫也只准用鉛筆。有一次,他在一個圖書館看到兩位中國老學者坐在那,抄一會兒,停下來削鉛筆。過了幾個月,他再去那個圖書館,又碰見他們,又過了一段時間再去,他們居然還在。

後來他在自己的聊天節目《曉說》里聊起過這件事,「前前後後抄了數年時間,兩位老學者始終坐在那兒,這個是非常令人敬佩的。」

在阿里巴巴,高曉松近距離感受過各種世界領先的信息技術,雲計算、人工智慧、大數據…… 一個想法幾乎自然而然的從他腦子裡冒出來: 既然阿里巴巴有這麼強的技術和資源,是不是可以幫助更多古籍被看到?

「我有一個不成熟的小建議。」他找到馬雲,問阿里能不能用技術做點什麼,後來達摩院秘書長劉湘雯輾轉了解到這件事,當時達摩院剛剛成立不到一個月,使命是「探索科技未知,以人類願景為驅動力,開展基礎科學和顛覆式技術創新研究。

高曉松告訴劉湘雯: 還有更多古籍值得讓更多人看到。

3

「還有更多古籍值得讓更多人看到?我自己都還沒看到吶!」劉湘雯心想。

她試著去了解古籍領域,很快感受到五個字:隔行如隔山。達摩院確實有很多計算機技術領域的專家,卻都是古籍方面的門外漢。

走了不少彎路之後,她得出結論:「如果沒有古籍、歷史方面的專業人士參與,這件事根本沒法干。」

於是,她開始四處拜訪國內知名的歷史研究機構和圖書館,幸運的是,她遇到了陳力,一個跟歷史、古籍打了一輩子交道的人,而陳力在幾十年前就開始思考和推動「古籍數字化」這件事。

陳力有很多個身份,比如:四川大學歷史文化學院教授,原國家圖書館常務副館長,全國古籍整理出版規劃領導小組辦公室成員、中央文史研究館館員,還有著名圖書館學專家、文獻學、歷史學專家等等。

了解完陳力的經歷之後,我當時就被圈粉了,所以請允許我這個粉絲花一些篇幅單獨介紹一下他。

陳力

也許是因為父親是歷史老師,陳力從小喜歡歷史,兒時,書籍是他的快樂源泉,一本《中華活頁文選》為他打開了古人世界的大門。

恢復高考那年,他考入四川大學歷史系,畢業後成了當代著名歷史學家、古文字學家徐中舒先生的「關門弟子」。

圖片來自網絡

古文字研究室里的書很多,陳力幾乎每天都在裡面看書,為了保護古籍,燈光不能太亮,幾年時間,他的視力從一點五降到零點幾。為了學好古文字,熟悉原始史料,他花了很長一段時間,用透明繪圖紙一個字一個字地摹寫青銅器上的銘文。

博士畢業後,陳力被分配到四川大學圖書館,那時博士很稀有,館裡的人都跑來看,發現「原來是他啊」——大學期間跑圖書館太勤,圖書館員們早就認識他。

有一次,陳力提著水桶擦桌子,別人見了說,堂堂一個大博士怎麼還乾親自干這個?他回了句:這個閱覽室是我負責的。

1998年秋天的一個雨夜,陳力接到電話,國家圖書館正在物色一位業務副館長,遠在北京的任繼愈館長居然聽說了四川大學有個圖書館長口碑不錯,託人問他是否願意來國家圖書館。

陳力走進四川圖書館時,還是個小伙子,走出來時,二十九年已經過去,成了一位館長大叔,他用陸放翁的名句感慨這一段人生: 「萬卷古今消永日,一窗昏曉送流年。」感慨完,又走進另一座圖書館。

剛到國圖,陳力就接到一個任務:對164萬冊古籍進行計算機編目。編好目錄,就能用電腦快速檢索到古籍的存放位置——這便是那個年代「古籍數字化」的一種形式。

就那時的技術而言,把古籍里的所有文字輸入電腦,並且實現全文檢索,只是一個美好的夢想,因為光是編目錄,他帶著一百多號人就乾了整整三年。

在國家圖書館工作的十幾年裡,陳力沒有停止對數字化的思考和探索,在他的百度百科裡可以找到相關論文。

退休後,陳力被母校四川大學返聘為歷史文化學院教授,後來又被中央文史研究館聘任為館員,接受由國務院總理頒發的聘書。

聽了達摩院這邊的想法,陳力當即同意加入,事情開始真正步入正軌。

4

與阿里達成合作的第一個海外圖書館,是加州大學伯克利分校東亞圖書館, 中文藏書規模排名全美第三的圖書館,館長叫周欣平。

1997年時,周欣平以美國匹茲堡大學東亞圖書館館長的身份到四川大學圖書館訪問交流,當時是陳力負責接待。

周欣平也是恢復高考後的第一屆考生,武漢大學畢業,兩人一見如故。他們聊了一些異想天開的點子:古籍能不能電子化?放在網上全文檢索,而且是跨語言檢索,輸入一個檢索詞,不光能在古籍里找到,還能查到英文、日文、俄文等不同版本。

兩人一拍即合,由於想法太過超前,以當時的技術水平根本做不出來,開發全文檢索的合作計劃最後不了了之。

2019年,四川大學歷史文化學院副院長王果、達摩院負責學術合作的李貝陪同陳力到伯克利東亞圖書館拜訪多年未見的好友,徵求合作意願。

陳力和周欣平面對面聊起古籍數字化,仿佛穿越回20多年前。

周欣平親自拍板,將伯克利東亞圖書館最優秀的一批藏書加入「漢典重光」項目。

5

一塊硬碟跨越大半個地球,從伯克利東亞圖書館寄到達摩院的辦公桌上,裡面裝著20多萬張照片。

「古籍數字化」細說起來很複雜,上百道專業流程,簡單說來就三步:從實體版到圖片版,從圖片版到文字版,從文字版到知識版。

第一步「從實體版到圖片版」已經由伯克利東亞圖書館完成。

伯克利東亞圖書館工作人員正在掃描古籍

接下來,達摩院的工程師們和四川大學的古籍專家們將一起完成第二步:「從圖片版到文字版」。分工很明確,達摩院負責計算機技術部分,古籍專家負責一切非計算機技術的部分。

在過去,古籍圖片轉文字都是直接由人工來標註,一個字一個字,不僅費時,還很費人。

後來雖然也出現了「技術派」,用計算機來自動識別圖片里的文字,但由於準確率堪憂,沒有普遍使用。大家都是各做各的,所以並沒有形成統一的平台和開放給所有人的通用工具。

如此想來,之前哈佛-燕京圖書館的數字化工程耗時近十年,是有原因的。

達摩院視覺實驗室負責人叫徐盈輝,在阿里巴巴內部的花名是「仁基」,這名字一聽就很「人機」,對他來說,古籍識別是個典型的OCR場景, 「本質上,古籍是一種複雜的版面。」

OCR技術是一種生活中很常見的技術,支付寶掃一掃識別「福」字,用的就是它。淘寶APP開發過一套系統,可以把商品描述圖片里的文字念給視障人士聽,背後也是OCR技術。總之,多年下來達摩院沉澱出了一套完整的OCR技術。

工程師何木(花名)把一張古籍照片扔進他們現有的OCR系統,40%的識別率像一盆冷水澆在他頭上。

古文版式和現代文檔差別很大,豎著排版,中間經常有夾注和圈圈點點(古人閱讀時的筆記),還有印章等等。由於古代造紙、印刷等技術有限,古籍上經常有油墨、裝訂時留下的繩結印、紙張太薄導致的透墨,乃至造紙時留下的雜質,都會影響識別率。

但這不是主要原因。

更主要的原因是,現代OCR系統只認得現代漢字,許多古文字的寫法連字典里都沒有,見都沒見過,怎麼可能識別?

谷歌公司的「谷歌圖書」 (Google Books)項目包含了針對圖書的文字識別技術,但主要是針對英文古籍。國內也有公司專門針對中文古籍研發OCR技術,但出於商業考量,對外收費。

達摩院決定重新自研一套古籍識別系統。

6

少囉嗦,先看東西。

這是藏於伯克利東亞圖書館的《周易兼義》中的一頁:

哪怕你完全不懂古籍,大概也能察覺到:要製造出一台機器把這些字認出來並不容易。

我們現在想像有一條流水線,流水線上是一本本的古籍,旁邊站著幾個葫蘆娃,他們是AI模型,要把古籍識別成文字。

為首的大娃負責「版面分析」。文字本質上也是一種圖形,所以要識別圖片里的文字,先要把版面里需要識別的文字「找出來」。

比如識別一張發票:

現代OCR技術常用「行檢測」和「列檢測」,因為文字通常以橫排或豎排的形式呈現。

何木翻開一本古籍看了看:「行檢測和列檢測肯定不OK」。

大娃退下,二娃上,二娃名叫「單字表征算法」,它能把每一個疑似文字的「圖形」給找出來。

你有沒有發現,這個工作本質上跟用人臉識別系統捕捉攝像頭裡的人臉很像?一個字就像一張臉。

在人臉識別領域,這道工序叫「人臉表征」,總之「表征」就是找出關鍵特徵。

(圖片來自網絡,僅為示意)

很快,一張古籍的照片就被切成了無數個小照片,每一張照片都是一個獨立的字。

接下來,就要開始教AI系統認識這些古漢字。

誰來教?陳力和王果帶著四川大學的20多名學生,開始給漢字標註。等等!這不就又變成了人工標註?

忘了說,中間其實還有一個關鍵步驟:「聚類」。

三娃叫「單字聚類算法」,雖然他不認識字,但哪些字長得差不多,還是很容易辨認的,就像你雖然不認識某個人,也不妨礙你辨認他和另一個人是不是同一個人。

三娃要做的,是把一本書里的所有字都扔進一個「籃子」里,形成一個個「字類」。

由於一本書里的很多字是重複的,比如「之乎者也」,經過「聚類」,古籍專家一次就能標註完一本書里的某個字類。原本逐個錄入可能要標註十萬次,現在只需要標註幾千次,大大減少勞動量。

標註好的這些字放在一起,就構成了一本「字典」,把它投喂給AI系統「吃」,就能讓它具備識別古文字的能力。

本質上來說,標註的過程,就是古籍專家們把自己學習多年的古文字識別能力傳授給AI的過程。

上個世紀八十年代前後,陳力的老師徐中舒為了幫助後人更方便地學習古文字,與祖先「對話」,帶著一群人編寫《漢語大字典》和《甲骨文字典》,這兩本字典分別是至今收錄最多文字的中文字典和最重要的甲骨文字典。

幾十年後,陳力帶著一群學生標註「字典」,只不過這字典不再是給人用的,而是給人工智慧用的,從此人工智慧變成「翻譯官」,幫助我們連接過去,在古籍里和祖先對話。

時代的脈搏從中浮現。

7

起初,「單字表征」和「單字聚類」這對哥倆經常會犯錯。

古籍里的字經常粘在一起,有的地方又有破損,「該連的不連,不該連的連上」。

這就導致「單字表征」經常把兩個字當成一個字,把一個字當成兩個字。就好比「 巭孬嫑烎」是四個字,但如果豎著寫,你可能會看成是個字。

並非實例,只是幫助讀者理解

而「單字聚類」則經常把長得差不多,但其實不同的兩個字歸到一類,就像是你把父子、姐妹倆給認錯。

一位負責標註的同學吐槽:「你這個人工智慧,有點不靈光(不聰明)哦。」

犯錯不可怕,重要的是從錯誤中學習改進。達摩院和四川大學的古籍專家們形成了一套糾錯機制:發現錯誤,標註出來,重新訓練,再發現錯誤……如此往復幾輪,單字表征和聚類就越來越「靈光」。

經過一年多的反覆調試和校對,AI的整體識別率達到96%,達摩院又嘗試用「少樣本學習」,在數據量不多的情況下訓練模型,又把準確率往上擠了1.5%,到97.5%。

為什麼還剩2.5%?因為單從視覺上,很多字難以分辨,哪怕人類專家也不一定能辨認。

陳力舉了個例子: 「帷」字,和「惟」字,寫得潦草一點,豎心旁的兩點一連,字形上根本沒法分辨。

同一個古文字,不同時代、不同書法,寫出來可能都不一樣,而且還存在很多異體字。

還有一個聽起來有點誇張的例子是:有些時代寫「上」是兩橫,類似於今天的「二」,寫「下」也是兩橫,區別是:一個上面一橫更長,一個是下面一橫更長。

人類專家認字時往往會結合上下文,如果看到「運籌__幄」,立馬就能判斷中間是「帷」而不是「惟」。

要彌補剩下的2.5%,不僅要教會人工智慧「認字」,還得教會它「讀書」,讀古書。

徐盈輝說,這個問題可以用「語言模型」來解決,AI 可以結合前後文字,推算中間字出現的機率,比如看到「運籌__幄」,它可以推斷是「帷」字的機率是百分之多少,取機率最高的。

但是訓練一個準確度高的語言模型,需要更多的數據量,目前手頭的這些古籍數據還不夠。

他們決定先把「漢典重光」平台開放出來。

8

2021年5月19日,"漢典重光」平台發布,首批20萬頁古籍「入駐」平台。

它的主介面很簡潔,看起來像是一個搜尋引擎,輸入漢字,會在資料庫里幫你迅速找到所有出現過該字的古籍,並定位到具體段落。

教AI識字的過程中沉澱下來的覆蓋3萬字的「古籍字典」,被整理出來放在「漢典重光」平台,幫助學者和古文愛好者學習古文字。

「漢典重光」不僅僅是一個古籍搜尋引擎,更是開放平台——每個人都可以上傳古籍到這個平台。

「如果一個學者手裡有我們這個庫里沒有的文獻,在確認他有所有權之後可以上傳到平台,豐富平台的內容。如果他不願意,只是希望利用平台的識別功能來幫助自身研究,也沒問題,可以拿到平台上跑一下。」 陳力說。

幾年前達摩院找來時,陳力立馬答應加入,打動他的原因也許有很多,但最重要的就兩個字:開放。

二零零幾年時,陳力就在一篇文章里提到當時古籍數字化工作中存在的問題:利益不同,各自為陣,封閉建庫。標準規範不統一。

在發布會現場,達摩院院長張建鋒宣布: 把這套技術工具連同古籍數字化平台一併捐贈,交由權威公共機構長期運營,同時阿里巴巴還會繼續在古籍數字化工作上投入人力物力。

我從這個動作上接收到他想傳達的信息是:「漢典重光」平台不是達摩院的,不是阿里巴巴的,而是大家的,希望大家莫生芥蒂,齊心協力,讓漢典重光。

這讓我想到網際網路的開源精神。

這個世界上大多數領域都講究知識財富私有,網際網路開源社區卻反其道而行,大家把自己的代碼貢獻出來,一起建設社區,如今,這種開源精神和古籍領域發生化學反應,相當神奇。

9

「我們只是做了一些基礎性的工作。」徐盈輝說。

古籍數字化的想像空間也非常大,絕不僅僅是全文檢索,還記得我們說過的古籍數字化的第三步嗎? 從文字版到知識版。

陳力說了一個統計分析的例子:《紅樓夢》有120回,公認後40回是高鶚續寫的,但有些學者認為也是曹雪芹寫的,高鶚只是整理而已。計算機可以對書里的用詞習慣進行分析,如果前80回和後40回的字頻詞頻明顯不同,就能判斷肯定不是同一個人寫的。

沒解決的問題也很多,不僅僅是文字識別準確率,還有通假字的處理、避諱字的處理、批註的處理,如何對待計算機文字編碼系統里原本不存在的字、統一規範等等問題……

比如,魯迅有十多個筆名,自樹、庚辰、索子、子明……這個世界上也還有很多姓魯名迅的人,怎麼才能通過檢索「魯迅」,找到我們想要找到的那個「周樹人」的文章呢?

再比如一個地名,在不同的朝代可能有不同的名字,怎麼通過檢索其中一個找到歷朝歷代的信息?

「我們目前僅僅是萬里長征走了第一步……」陳力說。

10

對了,因為「漢典重光」這件事,高曉松被網友們罵慘了。

他發了條微博說這事,結果網友罵他邀功,只是出了個點子,卻試圖搶走真正幹活的人的功勞。

我個人覺得,他的那個主意還挺重要的,就像是一個媒人,讓古籍和科技這兩個原本看似很遠的領域走到一起,喜結良緣。

古籍數字化,是個必然,但這次相遇,是個偶然,歷史有意思之處就在於一次次的偶然推動著必然。

許多媒體報道「漢典重光」時,都把落點放在「古籍回歸」上,一批古籍早年流落海外,顛沛流離終於回家。網友們為這20萬頁古籍回歸而歡呼。

數字化回歸的這批古籍確實見證了歷史,當年,古籍因為落後而流失,如今,因為強盛而回來。

我倒覺得這件事更大的意義,在於古籍領域和科技網際網路這兩個原本風馬牛不相及的領域的聯姻。

嚴格來說,那個硬碟寄到達摩院的辦公桌上時,「回歸」已經完成了,但正因為有接下來的工作,才有了完整的「漢典重光」,才有了一個比人工錄入快30倍的古籍識別系統。

未來,它可以迎回更多流失在海外的古籍,科技和古籍也可以碰撞出更多的火花,讓更多原本只放在書架上的古籍活起來,流動起來,為人所用。

「漢典重光」,因為古籍回歸而光,也因為古籍里沉寂已久的文字重新流動起來,和人的頭腦產生共鳴而光。

最後再介紹一下我自己吧,我是謝么,科技科普作者一枚,日常是把各路技術講得通俗有趣。想跟我做朋友,可以加我的個人微信:xieyaopro。不想走丟的話,請關注【淺黑科技】!(別忘了加星標哦)

發現科技世界的小秘密

文章來源: https://twgreatdaily.com/zh-tw/471214759_99938933-sh.html





白海豚大逃殺

2021-05-24