注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁新聞資訊文化

古籍?dāng)?shù)字化平臺(tái)“識(shí)典古籍”推出:三年將上線萬種儒釋道經(jīng)典

古籍如何獲得“新生”?近些年,越來越多的人投入到讓古籍重獲新生的工作中,作為古籍?dāng)?shù)字化成果之一的“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”研發(fā)的古籍?dāng)?shù)字化平臺(tái)“識(shí)典古籍”測(cè)試版于10月11日正式上線

古籍如何獲得“新生”?

近些年,越來越多的人投入到讓古籍重獲新生的工作中,作為古籍?dāng)?shù)字化成果之一的“北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室”研發(fā)的古籍?dāng)?shù)字化平臺(tái)“識(shí)典古籍”(https://www.shidianguji.com)測(cè)試版于10月11日正式上線。該平臺(tái)涵蓋390部經(jīng)典古籍,主要來自《四部叢刊》,共計(jì)3000多萬字。據(jù)介紹,未來三年,“識(shí)典古籍”將陸續(xù)完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄,并將全部免費(fèi)開放。

就“識(shí)典古籍”的上線,國(guó)家圖書館副館長(zhǎng)、國(guó)家古籍保護(hù)中心副主任張志清、北京大學(xué)數(shù)字人文研究中心主任王軍與抖音集團(tuán)的負(fù)責(zé)人進(jìn)行了分享。

“識(shí)典古籍”網(wǎng)頁截圖


從“識(shí)典古籍”談起:古籍?dāng)?shù)字化難在哪里?

數(shù)據(jù)顯示,我國(guó)現(xiàn)存5000萬冊(cè)/件古籍,其中亟待修復(fù)的大約1000萬冊(cè)/件;而就古籍?dāng)?shù)字化的情況,我國(guó)現(xiàn)存古籍約20萬種,其中有數(shù)字化掃描影像的大概8萬種,實(shí)現(xiàn)文本數(shù)字化的只有3-4萬種,由此可見,大量的古籍亟待修復(fù)和數(shù)字化。

讓古籍重獲“新生”需要三方面共同努力:首先是原生性的保護(hù),主要是指古籍修復(fù);然后是再生性保護(hù),指的是將古籍?dāng)?shù)字化,保存其珍貴的影像資料、為古籍使用者提供閱讀便利;最后是傳承性保護(hù),指的是將古籍里面蘊(yùn)含的信息、知識(shí)活化,讓更多人了解古籍蘊(yùn)含的歷史文化。

我國(guó)的古籍?dāng)?shù)字化還處于初級(jí)階段,面臨技術(shù)難度高、資金缺口大、人才緊張等難點(diǎn)?,F(xiàn)存的20多萬種古籍中,只有8萬種完成影像數(shù)字化掃描,近4萬種完成文本數(shù)字化。據(jù)專家統(tǒng)計(jì),從1949年到2019年,國(guó)內(nèi)共修復(fù)、整理、出版古籍近3.8萬種,要將現(xiàn)存古籍全部修復(fù)整理出來,可能需要300年時(shí)間,若利用人工智能技術(shù)輔助修復(fù)整理,大概二三十年就能完成。

古籍怎樣數(shù)字化?

抖音集團(tuán)企業(yè)社會(huì)責(zé)任部產(chǎn)品總經(jīng)理唐塏鑫介紹,第一步就是要將古籍實(shí)體變成電子掃描版,這一步比較簡(jiǎn)單,最早用微縮膠片,現(xiàn)在主要用電子掃描儀掃描圖片;第二步是通過OCR技術(shù)變成文字版并進(jìn)行校對(duì);第三步是把文字版進(jìn)行整理,變成現(xiàn)代人好閱讀的數(shù)字化文本。

數(shù)字化的過程中也面臨著許多難點(diǎn),比如古籍原文大多數(shù)是沒有句讀的繁體豎排版,存在大量的異體字和生僻字,因此只有讓人工智能算法學(xué)會(huì)更高準(zhǔn)確率地自動(dòng)加標(biāo)點(diǎn)才能保證識(shí)別的準(zhǔn)確性;在呈現(xiàn)端,一個(gè)檢索詞可能在古籍中有十幾種不同的寫法,怎樣準(zhǔn)確地檢索到,這就對(duì)模型準(zhǔn)確性以及搜索技術(shù)形成挑戰(zhàn)。以“識(shí)典古籍”為例,為了更高的效率和更好的閱讀體驗(yàn),也需要對(duì)古籍中的書名、人名、地名等進(jìn)行標(biāo)注,并建立古籍里的知識(shí)圖譜,和百科業(yè)務(wù)打通。

“識(shí)典古籍”項(xiàng)目負(fù)責(zé)人介紹,該平臺(tái)當(dāng)前主要使用了三種技術(shù),包括文字識(shí)別、自動(dòng)標(biāo)點(diǎn)和命名實(shí)體識(shí)別。文字識(shí)別技術(shù),是對(duì)古籍的影印版文字進(jìn)行單個(gè)切分,再進(jìn)行文字識(shí)別和順序識(shí)別。自動(dòng)標(biāo)點(diǎn)技術(shù),是通過序列標(biāo)注的方式對(duì)古籍自動(dòng)進(jìn)行標(biāo)點(diǎn)劃分。命名實(shí)體識(shí)別技術(shù),則是通過序列標(biāo)注識(shí)別文本中的人名、地名、書籍、時(shí)間、官職等信息。據(jù)悉,目前行業(yè)內(nèi)OCR識(shí)別準(zhǔn)確率平均為93%至94%,“識(shí)典古籍”的準(zhǔn)確率為96%至97%。

據(jù)悉,“識(shí)典古籍”書目將持續(xù)更新,后續(xù)將上線手機(jī)移動(dòng)版。未來,“識(shí)典古籍”將向全社會(huì)開放古籍閱讀檢索研究能力,還將實(shí)現(xiàn)全自動(dòng)整理校對(duì),更高效地實(shí)現(xiàn)存量古籍全部數(shù)字化。同時(shí),平臺(tái)也鼓勵(lì)擁有文獻(xiàn)的學(xué)者自行上傳文獻(xiàn),用戶甚至可參與再創(chuàng)作和再闡釋,助力古籍文化傳承和研究。

“識(shí)典古籍”頁面,有查看原版本影像的功能和人名、地名、書名標(biāo)注與檢索功能


“讓文明觸手可及”

北京大學(xué)數(shù)字人文研究中心主任王軍提出,典籍?dāng)?shù)字化要放在整個(gè)中國(guó)典籍傳承的歷史線索中去理解它,“大家可能有一個(gè)疑問是國(guó)家圖書館花了那么大力氣保存典籍,不放在數(shù)字環(huán)境中它也不會(huì)丟,我們?yōu)槭裁催€要將它數(shù)字化呢?因?yàn)槲覀兘裉斓倪@一代人生下來就是用手機(jī)的,古籍雖然還存在圖書館,但如果用的人越來越少,它也是一種中斷,所以我們這一代傳承的責(zé)任就是要把它遷移到數(shù)字化?!?/p>

“我自己想了一個(gè)口號(hào)是‘讓文明觸手可及’——在你的手機(jī)上,在你的平板上,就能接觸到現(xiàn)有的所有典籍,讓文明成為一種可以感知、可以估摸,可以交互的數(shù)字化產(chǎn)品,這是我們打造古籍?dāng)?shù)字平臺(tái)的最終目標(biāo)。”王軍談道。

王軍也暢想了古籍?dāng)?shù)字平臺(tái)未來的發(fā)展趨勢(shì),他認(rèn)為,更重要的是讓典籍文獻(xiàn)跟我們今天的互聯(lián)網(wǎng)信息形態(tài)融合在一起。比如在識(shí)別古籍的專有名詞基礎(chǔ)上再往前邁一步,識(shí)別這些專有名詞之間的關(guān)系,把人名、地名、官名、書名都識(shí)別出來,并試圖抽取人和地和官職之間的關(guān)系,轉(zhuǎn)成圖譜形態(tài),再與百科、各種問答應(yīng)用、旅游產(chǎn)品等聯(lián)系在一起。

現(xiàn)在已經(jīng)有許多古籍活化利用的案例,比如紀(jì)錄片《穿越時(shí)空的古籍》。每一集選一個(gè)主題,用中短視頻形式在卷帙浩繁中四兩撥千斤。比如第一集“古籍里的盛宴”,就講述美食家盧冉從古籍中打撈宋代的食譜,將其復(fù)原為包括“蟹釀橙”“素蒸鴨”等300多道看得見、吃得著的宋代美食。此外,服飾史學(xué)者陳詩宇通過古籍考證古代服飾,將平面的考古資料還原成立體造型,用畫筆勾勒出《山海經(jīng)》神獸的撒旦君、以古籍字體為母版設(shè)計(jì)4萬多個(gè)藝術(shù)字的應(yīng)永會(huì)、在《牡丹亭》中尋找藝術(shù)靈感的張漁,他們的故事也在紀(jì)錄片中一一呈現(xiàn)。

“識(shí)典古籍”的負(fù)責(zé)人們也介紹,未來“識(shí)典古籍”中非常重要的一部分就是古籍活化傳承,包括“古籍巡游記”,會(huì)將古籍里的一些原生場(chǎng)景,通過AR方式復(fù)現(xiàn)出來,讓更多人對(duì)古籍產(chǎn)生興趣。

紀(jì)錄片《穿越時(shí)空的古籍》



熱門文章排行

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)