過去,一個古文獻(xiàn)研究專家在處理一批珍貴刻本。突然,一個從未見過的生僻字映入眼簾。按照傳統(tǒng)工作流程,他需要查閱大量工具書才能弄清這個字的含義,期間可能花費數(shù)小時甚至數(shù)天,這在學(xué)界是司空見慣的現(xiàn)象。
但現(xiàn)在,他只需打開“識典古籍”平臺,使用最新上線的編輯器搜字、造字、復(fù)制字圖功能,將這個字拆解拼接,系統(tǒng)便從20余萬個字形中精準(zhǔn)匹配出了結(jié)果——整個過程不到10秒。
這正是字節(jié)跳動用技術(shù)助力古籍?dāng)?shù)字化帶來的變革。通過AI技術(shù),識典古籍不僅大幅降低了古籍整理門檻,提升了工作效率,更解決了困擾古文獻(xiàn)研究領(lǐng)域多年的生僻字整理難題。
古籍整理,單從字面上來理解,與普通人的生活幾乎沒有任何關(guān)聯(lián),但從宏觀視角來看,作為歷史文明傳承的載體,古籍的價值無可替代。它們既是中國古典學(xué)不可或缺的研究基礎(chǔ),也是社會大眾繼承和發(fā)揚(yáng)傳統(tǒng)文化的寶貴資源,同時還是世界理解中華文明的重要途徑。
早在1919年,胡適就在《新青年》雜志上發(fā)起了著名的“整理國故”運(yùn)動,提出“研究問題、輸入學(xué)理、整理國故、再造文明”的主張,胡適本人也身體力行,投入巨大精力進(jìn)行國學(xué)研究,創(chuàng)辦《國學(xué)季刊》;推動古史討論,擬出“最低限度的國學(xué)書目”,向廣大青年大力推薦……
進(jìn)入21世紀(jì),古籍整理工作的重要程度也在學(xué)界、國家管理機(jī)構(gòu)、乃至社會層面形成了共識。2007年,重大文化工程“中華古籍保護(hù)計劃”啟動;2018年,《中華人民共和國公共圖書館法》頒布,“公共圖書館要加強(qiáng)館內(nèi)古籍保護(hù)”成為法條……
根據(jù)國家古籍保護(hù)中心調(diào)查結(jié)果顯示,我國現(xiàn)存20多萬種古籍,存世50萬個版本,古籍?dāng)?shù)量達(dá)3200多萬冊,然而當(dāng)前古籍整理工作的現(xiàn)狀卻是數(shù)字化程度極低,許多書只是完成了初步的影像掃描,真正實現(xiàn)文本數(shù)字化的不到四萬種。
之所以會存在這樣的困境,專業(yè)人才匱乏是首要障礙。
全國高等院校古籍整理研究工作委員會副秘書長吳國武在接受媒體采訪時曾透露,目前全國范圍內(nèi)專業(yè)從事古籍整理的人員僅有一萬人左右。華東師范大學(xué)古典文獻(xiàn)學(xué)在讀博士生劉帥以自己作為參照,“一年能整理幾十萬字就很了不起了”。
需要整理的古籍?dāng)?shù)量巨大,但在供應(yīng)端,專業(yè)人才不夠,單人效率又有限,古籍整理工作推進(jìn)自然就快不起來。
其次是生僻字處理存在技術(shù)瓶頸,由于古籍中存在大量異體字、俗體字和避諱字,使得文字識別準(zhǔn)確率難以提高。傳統(tǒng)OCR技術(shù)是為打印材料設(shè)計的,面對古書中的不同字體風(fēng)格、非漢字筆畫符號、折痕和破損缺字,識別效果大打折扣。
最后是資金與版權(quán)的桎梏。從1999年“文淵閣四庫全書”數(shù)據(jù)庫發(fā)布以來,古籍?dāng)?shù)據(jù)庫成為中國古典研究不可或缺的基礎(chǔ)設(shè)施,同時大多數(shù)的重要典籍也都已經(jīng)完成了數(shù)字化。
由于最方便使用的古籍圖文庫基本上都是商業(yè)數(shù)據(jù)庫,這就限制了普通公眾的訪問。
隨著人力校對成本越來越高,商業(yè)古籍庫擴(kuò)容的邊際收益斷崖式下跌,這就使得現(xiàn)階段很多古籍?dāng)?shù)字化工作成果有些“養(yǎng)在深閨人未識”的狀態(tài),不能被公眾充分利用,并且發(fā)展建設(shè)難以為繼。
正是在這樣的背景之下,字節(jié)跳動在2022年10月,與北京大學(xué)合作推出了完全公益的古籍智能閱讀和整理平臺——“識典古籍”,旨在通過技術(shù)力量改變傳統(tǒng)古籍整理模式。
識典古籍初期就整合了三大核心技術(shù),文字識別(OCR),自動標(biāo)點和實體識別,這意味著機(jī)器已經(jīng)能夠初步“讀懂”古文。
就在不久前,針對古籍?dāng)?shù)字化中最棘手的生僻字問題,識典古籍平臺推出了編輯器造字、拼字、字圖復(fù)制功能,將古籍?dāng)?shù)字化工作的效率又向前推動了一大步。
在以往的古籍?dāng)?shù)字化過程中,遇到字庫中沒有的生僻字或異體字時,研究人員的通常做法是截取該字在古籍掃描圖中的局部區(qū)域的圖片作為替代,稱之為“字圖”。
然而這樣處理存在明顯缺陷,字圖有當(dāng)時古籍本身的印刷書寫風(fēng)格和背景,不宜閱讀;同時,不同字圖可能實為同一字,卻因無法識別而被重復(fù)截取,造成整理混亂。
識典古籍給出的解決方案是自研了一套拼字輸入法(拼出字圖)、造標(biāo)準(zhǔn)宋體字(造出字圖)等算法,以幫助研究人員在整理古籍時能夠快速的輸入生僻字甚至“造”出字體。
拼字輸?法的技術(shù)原理并不復(fù)雜,就是讓用戶在自己認(rèn)識的簡單字和簡單筆畫的基礎(chǔ)上,去搜索更加復(fù)雜的漢字,即便不清楚這個漢字的字音、字義,也能憑借字形快速匹配。
例如,“矦”字可由“?”“廠”“矢”組成,輸入這些部件即可召回該字。對于普通人來說,雖然這個字我不認(rèn)識,但總有它的部分我認(rèn)識,認(rèn)識什么輸入什么,就可以把這個字拼出來。這種方式比五筆輸入法更直觀,無需記憶詞根,也支持生僻字檢索。
在編輯器中拼字輸入
在研發(fā)過程中,團(tuán)隊面臨的核心挑戰(zhàn)是漢字組合的極端復(fù)雜性。例如一個“椪”字,就有“木並”、“木?業(yè)”、“木丷亞”、“木八亞”等多種拆分方式,組合數(shù)量呈階乘級增長,傳統(tǒng)窮舉方法根本行不通。
團(tuán)隊曾嘗試用有向無環(huán)圖來建模漢字部件關(guān)系,想象一堆有箭頭連接的積木,箭頭只指向后方,且絕對不允許形成一個閉合的圓圈,這樣我們就可以從起點一路暢通無阻地走到終點,但十萬漢字構(gòu)建的圖譜對性能挑戰(zhàn)巨大,也難以量化匹配效果。
那段時間,組內(nèi)成員兵分幾路,有人繼續(xù)嘗試圖結(jié)構(gòu)優(yōu)化,有人從組合數(shù)學(xué)角度尋找新思路。大家頻繁交流、互相“挑戰(zhàn)”,常常列舉出各種bad case推翻對方方案,卻又在碰撞中萌生新的靈感。
最終,識典古籍研發(fā)團(tuán)隊設(shè)計出了一套高性能、通過計算漢字細(xì)節(jié)特征進(jìn)行匹配的解決方案,可支持在20余萬個漢字中實時搜索。
該方案在初始加載階段,不僅會整體收集每個漢字的組成部分作為其特征,還會構(gòu)建一套簡繁字、偏旁部首的等價映射表,如“馬”可代“馬”、“水”可代“氵”。
在搜索階段,算法會先對用戶輸入進(jìn)行前置處理以提升容錯能力,比如相似的“