張曉冰 張佩:古籍數字化出版的挑戰與發展路徑研究——以「識典古籍」為例

2024-10-23     古籍

摘要:古籍數字化出版有助於保藏古籍文獻資料實現資源高效訪問與全球共享。現階段面臨諸多問題與挑戰:處理技術局限效果呈現不佳;資源聚合緩慢開發程度較低;信息共享不暢知識傳播受限等。基於此背景由北京大學-位元組跳動數字人文開放實驗室研發的「識典古籍」數字化平台上線。它通過人工智慧大模型技術來提升古籍查閱效率注重技術創新與應用、用戶體驗與互動、合作共贏與發展。鑒於「識典古籍」在古籍「活化」、賦予其「新生」方面邁出重要步伐未來古籍數字化出版發展路徑可著力於數位技術創新、政策資金扶持、跨平台合作、人才培養等方面。

2022年4月,由中共中央辦公廳、國務院辦公廳印發的《關於推進新時代古籍工作的意見》(以下稱《意見》)明確指出,要加快古籍資源轉化利用,推進古籍數字化,統籌實施國家古籍數字化工程,實現古籍數字化資源匯聚共享。[1]2022年10月11日,由北京大學與位元組跳動公司合作研發的古籍數字化閱讀平台「識典古籍」(以下稱「識典」)上線。它致力於將人工智慧技術轉化應用,成為目前唯一能夠將古籍全流程智能化處理的開放式平台。截至2024年6月,識典已收錄古籍4986部。在當前古籍數字化工作面臨諸多挑戰的情況下,識典的技術、理念深具價值,富有啟發意義。

一、古籍數字化出版現狀

(一)古籍數字化出版在當今時代發展的必要性

近年來,在學術界和政府部門的積極推動下,古籍數字化出版項目多點開花,成果豐碩。2014年,中華書局推出大型古籍資料庫「中華經典古籍庫」,收錄了十餘家出版社正式出版的古籍整理本;截至目前,共計8176種。該庫聚合各社古籍資源,提供原圖像與數據比對,為用戶了解版式信息提供了極大便利,大大提升了典籍使用率。「國家古籍數字化資源總平台」則更具系統性,以《中國古籍總目》為綱,對每種文獻的題名、責任者、版本、分類、館藏進行結構化梳理,通過整合類屬,打破信息孤島,實現資源互聯互通與共享利用。「全球漢籍影像開放集成系統」彙集全球重要館藏影像數據,目前涵蓋約26萬部,可以通過輸入繁體字書名、作者、關鍵詞等檢索到所需古籍影像版本,為專業研究者、愛好者提供了廣闊的資源空間。

(二)古籍數字化出版面臨的問題與挑戰

古籍數字化出版包括數字化處理、內容整合、版權處理、平台選擇、發布推廣等,全程需要技術、資源、信息提供有力支撐,也因此面臨諸多問題與挑戰。

1.處理技術局限,效果呈現不佳

目前我國古籍數字化工作的推進涉及兩大主體內容,一是古籍圖片庫(側重存儲圖像及相關資料)建立,二是古籍文獻庫(側重收集和保存古代文獻、書籍)整理。古籍作為一種特殊文物,兼具知識傳播和文物收藏的功能,只有將圖片掃描與文獻整理結合,才是真正意義上的古籍數字出版。當下部分古籍數字平台偏重文獻庫建設,缺乏原典圖像呈現與比對,為古籍版權管理工作留下問題。

就圖像高質量採集來說,它有一些關鍵技術標準和最佳實踐要求,以確保圖像品質。這包括600DPI或更高的解析度、正確色彩管理、能捕獲陰影與高光區域的高動態範圍、適當格式與壓縮設置、均勻無影的照明、高質量且能被定期維護校準的採集設備及技術純熟的操作人員等。而古籍作為掃描對象中的文物級文獻,本身會存在質地特殊、霉變老化、字跡模糊、殘缺不全等問題,要實現高保真、全細節、無影無歪斜呈現,對圖像採集的要求會更加嚴苛。

就字形字體而言,古籍包含大量繁體字、異體字、同源字、古今字、避諱字等。手抄本中作者或抄書者的書寫習慣,刊刻本中編纂、謄抄或刻版者的主觀傾向等都可能使同一個漢字對應多種字形。如《四庫全書》中,為避乾隆皇帝弘曆名諱,將《中興小歷》(《皇朝中興紀事本末》)改為《中興小紀》,而在《提要》中書題並未更名,館臣選擇將「暦」改為「歷」;其他典籍亦會交叉使用「厯」「秝」「歷」等。清末《飛影閣畫報·斗醒》一文百字左右,「獨」的寫法就出現了兩種(圖1)。[3]儘管當前Unicode、GB18030、Big5、EUC等編碼技術覆蓋大部分漢字、亞洲語言中特定漢字字符,卻仍然存在古字與現有編碼體系對應不上、不同漢字被賦予相同碼點、標準化連帶弱化文字敏感度等問題。

圖1 《飛影閣畫報·斗醒》(局部)

2.資源聚合緩慢,開發程度較低

據2021年全國古籍保護工作座談會上公布的數據,截至當年,全國古籍普查完成270餘萬部另1.8萬函。[5]而2023年第七次古籍數字資源聯合發布的數據顯示,全國累計發布古籍及特藏文獻影像資源達13萬部(件),其中國家圖書館建設的「中華古籍資源庫」發布古籍影像資源超過10.2萬部(件)。[6]數據對比懸殊,足見目前資源開發率較低。

古籍資源於各地文博單位、圖書館、高校機構等均有存藏。其分布零散,各方溝通合作尚不充分,存在重複開發、資源虛耗、技術應用與修復人才不均衡等問題。國家圖書館(以下稱「國圖」)建設的「中華古籍資源庫」目前亦只覆蓋39家單位的資源。

除此之外,政府對於古籍數字化經費投入力度還不夠。受制於有限經費,古籍保存修復所需設備不能及時更新,數字化平台無法進行更大規模的建設。山西省每年的古籍保護專項經費僅100萬元,除了個別市級縣級圖書館外,大部分古籍存藏機構無法開展古籍維護工作。[7]四川省只有少數單位具有固定專項經費,多數則缺乏長期規劃與專項資金,古籍保護與工作秩序維持不易;部分基層古籍收藏單位年經費僅數萬元(含購書、免費開放運行等基本經費)。[8]

3.信息共享不暢,知識傳播受限

部分古籍平台在資源訪問方面存在問題,用戶體驗較差。某用戶在社交平台上反饋,在中華古籍資源庫中搜索平江府磧砂延聖寺刻印的《磧砂藏》叢書,顯示檢索失敗,只有在出版社檢索中將「磧砂」「平江府」「延聖」等詞排列組合方可獲得結果。可見國圖網站搜索算法邏輯不夠靈活,無法處理複雜多樣的查詢需求,檢索功能尚待完善。此外,其維護更新亦不及時,點擊「在線閱讀」,常出現等待提示、頁面空白或顯示「用戶id獲取失敗」。

相比之下,中小型學術機構平台問題更為明顯。如介面搜索功能缺乏、視覺秩序混亂、伺服器容量受限無法承受高頻搜索、用戶交互功能缺失、版本圖文不符以及無多語言支持功能導致國內外用戶都無法快捷使用資源等。

二、識典古籍數字化平台案例分析

(一)技術創新與應用

識典研發團隊對古籍處理分兩個階段進行:第一步「圖像化」,即與國內外古籍收藏單位合作,收集相關圖像資料;第二步「文本化」,利用人工智慧技術對典籍內容進行精細化處理。[9]

1.大語言模型技術應用

大語言模型技術(LargeLanguageModels,LLM),是一種基於人工智慧的深度學習模型,主要用於處理和生成自然語言文本。常被應用於文本分類、總結和生成,通過學習和分析已有文本,進行以下處理:將文本歸入一個或多個類別中;自動汲取關鍵信息,生成摘要或概述;模仿已有信息結構生成新文本。

識典是首個將大語言模型技術運用於古籍出版的平台。為提高檢索效率,它推出了基於檢索增強生成技術的智能助手。首先,點擊「古籍智能助手」或選中原文「問AI」,可以獲取由AI生成的原文總結,從而無障礙閱讀古籍;其次,向智能助手提出深層次研究問題時,它會先對問題做出意圖分析,在已有古籍數據中獲取相關上下文,然後通過大語言模型總結給出答覆。[10]

識典在智能助手窗口底部,設置了「內容由AI生成,可能有錯誤,使用前注意查證」的提示,以說明生成答案並非絕對準確,不能代替專業文獻分析與學術判斷,其功能主要是「知識支援」、幫助用戶「獲得超越當前文本的拓展知識」,以節約獲取資料的時間,並不斷開拓出新思路。

2.自然語言處理技術應用

首先,利用序列標註方法為古籍自動添加標點。算法先判斷文本是否需要,再根據上下文語義判斷加何種類型符號。目前識典支持【,!?、:;。】這七種標點。由於對典籍內容理解難度遠大於現代漢語文本,現階段自動標點準確率為96%到97%,[5]尚未臻極。

(二)用戶體驗與互動

在用戶體驗與互動方面,識典多有創新、走在前列。

1.導航結構清晰合理,符合閱讀習慣

識典自上而下分三大板塊:檢索(同時提供既定圖書分類)、AI協同整理古籍、特色典籍(納西族史詩《創世紀》與《永樂大典》)。在檢索板塊,檢索欄居中,文字提示「請輸入要搜索的關鍵詞」,旁邊則以選項形式呈現高級檢索,有書名、作者兩個限定範圍。檢索欄下方設置儒學、佛學、道學、文學既定四類,點擊即呈現各類對應的10部經典,極大方便初讀者熟悉文本格局。AI協同整理古籍對研究者而言可謂「利器」,能便捷直達可編輯文字步驟,可節省大量投入在掃描複製、截圖轉化文字等步驟上的時間。

2.布局適應性強,適配各種螢幕尺寸

手機豎屏閱讀識典時,典籍圖表從左至右滾動出現,無壓縮、不擁擠。篇章左滑呈現,字體、字號、行距、段落清晰舒適,正副文本齊備。在電腦橫屏版中需要點擊要進入的「書庫」,在豎屏中以經、史、子、集傳統四部領起,直觀呈現。值得注意的是,識典主頁上標註的專業「手機版」則與「今日頭條」關聯,在「今日頭條」中檢索「古籍」二字,「古籍頻道」置頂的即「識典」。目前,國家古籍數字化資源總平台(手機介面顯示「為提高使用體驗,建議使用PC端進行查看」)、國圖數字圖書館則仍以橫屏為主。

3.內容展示富有特色,功能實效性強

首先,支持多種文字模式。包括簡體字、標準繁體字、底本原字(保留俗體字原貌),以滿足不同用戶的需求。稍作比對,台北故宮博物院圖書文獻數位典藏資料庫、現階段正分期開發的「全球漢籍影像開放集成系統」都以繁體字模式為主導,用戶需要熟知關鍵詞揀選、拆分技巧,則更適合專業人員。

其次,提供數字化文本與原典圖像對照。滑動頁面,圖像會緊隨進度平滑切換—缺訛、衍文、版式、款識、木記等不便轉換呈現的內容皆一目了然。平台對原典版本的選擇也是儘可能取善本,如《分類補註李太白詩》,選取四部叢刊影蕭山朱氏藏明郭雲鵬刊本,此本雖屬太白集刪節本系統,卻刊刻精良、墨色清晰、流傳度甚高(圖2)。所附「書籍信息」亦嚴謹,書名、別名、卷名、朝代、作者、版本、資源質量、影像來源等歷歷分明。

圖2 識典中李白集《分類補註李太白詩》原典圖像(左)與數字化文本(右)對照

4.文化元素融入視覺設計,多媒體資源介入特色板塊

頁面整體採用柔和的緗色,觀感舒適。線裝書、長卷、文字等經典文化符號為深淺不一的緗紅、緗黃、緗綠,輔以庫金、冷金,有古典與現代交融之美。在特色板塊中,多媒體資源介入,有視頻、動畫、動態解說與展示,進一步增強了互動性,提升了教育價值。如《永樂大典》專題板塊,以動畫引導用戶進入,冊頁在光影中莊嚴開啟,文字蒸騰,在厚重肅穆中予人華夏威儀之感。用戶可點擊翻轉、自由開合卷冊,直觀了解大典概況、開本尺寸、卷冊數量。

(三)合作共贏與發展

識典在深化古籍出版、知識服務的過程中,積極尋求與其他平台合作,旨在建立更加全面、廣泛的知識服務網絡,實現古籍數字化出版可持續發展。識典平台的技術由位元組跳動科技公司提供,它與公司旗下產品確立了緊密合作關係。這些平台龐大的用戶基礎、高度活躍的社交屬性,迅速發揮出聚合引流的功能。

首先,識典與抖音、今日頭條聯動。古籍相關內容會以短視頻、圖文、搜索提示、自媒體評論等形式呈現給用戶——在多樣化載體上實現多元化傳播。閱讀時點擊篇章中人物、地點、其他專名等,亦可直接進入識典百科頁面。這種合作方式為識典帶來更廣泛的用戶群體、更多樣的傳播渠道,充分體現出跨平台聯動給予古籍文化發展的推動力。

其次,識典與網文閱讀平台番茄小說合作。番茄小說引入古籍近三千部,《儒林外史》《永樂大典》等都能搜索到並可以免費閱讀。合作項目上線一個月內,累計15萬用戶搜索古籍關鍵詞,超過5萬用戶閱讀古籍內容。[11]2023年5月至12月,番茄小說與國家古籍保護中心辦公室聯合承辦「古籍活化傳承書香」徵文活動,共徵集到以古籍為藍本進行再創作的作品三萬餘部。活動吸引了大量年輕讀者,有效踐行了古籍傳播大眾化,「讓文學能夠在民族文化的高地上進一步開花結果」。[12]

此外,識典與中國文物保護基金會、故宮博物院達成合作。共同啟動的「古籍保護與活化公益項目」,旨在進一步提升公眾對古籍保護、出版的認識,數字化技術使古籍真正活化,飛入「尋常百姓家」。

三、古籍數字化出版未來發展路徑

基於以上分析,未來古籍數字化出版可從技術、資金、跨平台合作、人才方面持續發力。

(一)以數位技術為框架,創新古籍形式

1.加快人工智慧技術在古籍數字化領域的應用

2.注重VR/AR技術與古籍的結合

VR和AR技術可應用於古籍修復保護工作。通過三維重建得到古籍高精度數字模型,可以實現無損記錄原典狀態、虛擬修復等。此外,模擬出古籍在自然環境中的老化過程,為後續存儲提供科學依據,可降低環境干擾、操作風險等。利用這兩種技術,還能在虛擬環境中展示古籍,打造沉浸式場景。如中圖雲創科技公司聯合國圖打造的VR《永樂大典》序篇,採用了「5G+VR」技術集成4K/8K全景視頻拍攝,為讀者提供全新的閱讀體驗。

(二)以政策扶持為紐帶,助力技術發展

政策是古籍工作的制度支撐,資金則為這項工作提供動力。2022年,《意見》指出:「中央和地方財政應將古籍工作相關經費納入年度預算,統籌利用現有資金渠道,完善投入機制,調整優化支出結構。繼續落實好支持古籍事業相關稅收優惠政策。支持引導公民、法人和其他組織以捐贈、資助、依法設立基金會等形式參與古籍保護傳承。」[1]

政府可以通過稅收減免、資金補貼的方式激勵企業機構或個人參與古籍數字化項目。古籍出版機構、數字化平台與商業機構加強合作,共同開展相關項目。通過利益共享機制,參與各方皆能獲得合理經濟回報,從而吸引更多資金、資源投入。

(三)以培養專業人才為目標,充實從業隊伍

人才隊伍的培養為未來古籍數字化工作提供了可持續性資源。為深入推進新時代古籍工作,《意見》在「強化古籍工作保障」部分指出要「強化人才隊伍建設」,主要包括加強古籍存藏保護、整理研究和出版專業機構建設、完善用人機制、健全評價機制等方面。[1]具體至古籍數字化出版,結合上文分析可知它涉及多學科技能,對具備跨學科知識的專業人才形成剛需。研究者、從業人員不僅要精通數位技術,還要熟悉版本、文獻、歷史、文學等,且能付諸實踐,真正達到「又專又博」,才能於本質上提高古籍數字化質量與效率。

四、結語

古籍數字化出版有助於保藏典籍文獻資料、降低使用損耗、實現資源高效訪問與全球共享。在學術界與政府部門的積極推動下,相關出版項目得到落實,成果豐碩。與此同時,這項艱巨的任務全程需要技術、資源、信息有力支撐,也面臨諸多問題與挑戰。這包括處理技術局限,效果呈現不佳;資源聚合緩慢,開發程度較低;信息共享不暢,知識傳播受限等。對讀者而言,尚有「找不到、不會用、讀不懂」等難題。

「識典古籍」數字化平台格外注重技術創新與應用,努力提升用戶體驗,追求合作共贏與可持續發展。目前獲得了專業學者、傳統文化愛好者的積極反饋。有鑒於識典在古籍「活化」、賦予其「新生」方面邁出重要步伐,未來古籍數字化出版可從數位技術、政策資金扶持、跨平台合作、人才培養方面持續發力,為古籍文化遺產數字化出版提供更優質的服務。

參考文獻:

[2]陳陽.中文古籍數字化的成果與存在問題[J].出版科學,2003(4):47-48.

[3]吳友如.飛影閣畫報[M].揚州:廣陵書社,2022.

[5]張賀.全國古籍資源分布和保存情況基本摸清[N].人民日報,2021-12-10.

[6]陳雪.古籍如何兼顧「藏」與「用」[N].光明日報,2023-01-06.

[7]張利民.淺議公共圖書館古籍保護工作—以山西省為例[J].文化月刊,2024(1):92-94.

[8]董雪,王迪,許曉青.留傳千年變「死書」沉睡古籍待喚醒[J].瞭望,2021(22):2.

[9]吳丹.數字化,讓古籍觸手可及[N].人民日報,2024-01-10.

[10]皮磊.借AI與古籍對話,「人工智慧+」成公益創新突破口[N].公益時報,2024-03-14.

[13]位元組跳動公益.位元組跳動設立了千萬元專項資金,要讓珍貴古籍重現生機[EB/OL].(2021-06-17)[2024-05-02].https://mp.weixin.qq.com/s/64z9r7MGDxAm93jkgNyc4g.

本文原載於《北京印刷學院學報》2024年09期

文章來源: https://twgreatdaily.com/zh-my/2e6484fc910f869ad476866643db55e5.html