“我們做古籍?dāng)?shù)據(jù)庫(kù),會(huì)像做紙書(shū)一樣,世世代代做下去?!痹谏虾Ee辦的一場(chǎng)“信息時(shí)代:古史研究的新思路”研討會(huì)上,中華書(shū)局總編輯顧青這樣表示。
2014年,中華書(shū)局首次推出古籍?dāng)?shù)據(jù)庫(kù)產(chǎn)品,定名為“中華經(jīng)典古籍庫(kù)”。第一輯收錄了近300種中華書(shū)局出版的整理本古籍圖書(shū),涵蓋經(jīng)史子集各部,包含了“二十五史”、“通鑒系列”、“新編諸子集成”、“清人十三經(jīng)注疏”、“史料筆記叢刊”、“學(xué)術(shù)筆記叢刊”、“古典文學(xué)基本叢書(shū)”、“佛教典籍選刊”等經(jīng)典系列,總計(jì)約2億字。“建立在中華書(shū)局點(diǎn)校本基礎(chǔ)上,這個(gè)數(shù)據(jù)庫(kù)的質(zhì)量比較高,查閱也比較方便,被吐槽最多的是數(shù)據(jù)太少”,顧青坦言,這個(gè)初期產(chǎn)品遠(yuǎn)不能符合海量數(shù)據(jù)要求,為此,中華書(shū)局成立了專門(mén)的子公司古聯(lián)公司,專攻古籍?dāng)?shù)字化,目前,“中華經(jīng)典古籍庫(kù)”已收錄1274種古籍,約7.5億字,幾乎囊括中華書(shū)局成立至今出版的所有質(zhì)量較高的整理本古籍,中華書(shū)局以外出版社出版的古籍經(jīng)典也被逐漸收入,最終規(guī)模有望達(dá)到30億字,約3、4000種古籍。
古籍?dāng)?shù)字化,對(duì)今人的研究發(fā)揮了什么樣的作用?華東師范大學(xué)古籍研究所所長(zhǎng)顧宏義用了一個(gè)夸張說(shuō)法,“如果不打開(kāi)數(shù)據(jù)庫(kù),簡(jiǎn)直不知道如何進(jìn)行研究?!痹诤芏鄬W(xué)者看來(lái),互聯(lián)網(wǎng)改變了做學(xué)問(wèn)的方式,古籍?dāng)?shù)字化讓學(xué)術(shù)研究發(fā)生了革命性變化,“沒(méi)有冷僻、查不到的史料,只有打開(kāi)、查找數(shù)據(jù)庫(kù)的方式和路徑不對(duì)?!鳖櫤炅x說(shuō),陳寅恪一代的學(xué)人有“童子功”,可以憑借記憶寫(xiě)出引文的大意,而現(xiàn)代學(xué)術(shù)對(duì)于引文的規(guī)范更加嚴(yán)格,今人的舊學(xué)底子也遠(yuǎn)不及前輩,這就需要權(quán)威、準(zhǔn)確、可以直接征引的數(shù)據(jù)庫(kù)。然而,數(shù)據(jù)庫(kù)的出現(xiàn)并不意味著對(duì)于史料的閱讀、掌握可以缺省。“過(guò)去我們做學(xué)生時(shí),導(dǎo)師表?yè)P(yáng)一篇論文,可能包括‘史料很豐富’,而現(xiàn)在的問(wèn)題往往是史料太豐富了,一看就知道是從某個(gè)數(shù)據(jù)庫(kù)中拉下來(lái)的。文獻(xiàn)與文獻(xiàn)之間的關(guān)系,哪些更為重要,需要數(shù)據(jù)庫(kù)有更為科學(xué)的檢索方法,也需要查詢者有更強(qiáng)的閱讀和辨別能力。”
華東師范大學(xué)古籍研究所所長(zhǎng)顧宏義
古籍?dāng)?shù)字化有非常廣闊的運(yùn)用天地,除了“中華經(jīng)典古籍庫(kù)”這樣面向?qū)W術(shù)界的產(chǎn)品,在教育等很多領(lǐng)域也有可為空間。中華書(shū)局正在開(kāi)發(fā)一款針對(duì)普通讀者的古籍?dāng)?shù)字化產(chǎn)品,計(jì)劃收錄500種經(jīng)典古籍、1000篇經(jīng)典古文,包含注釋和翻譯,力求人人都能看懂。顧宏義則“爆料”,他的同事、華東師范大學(xué)古籍研究所副研究員方笑一在擔(dān)任《中國(guó)詩(shī)詞大會(huì)》命題專家時(shí),就是利用“中華經(jīng)典古籍庫(kù)”查找核對(duì)各類資料。
古籍?dāng)?shù)字化發(fā)展空間巨大,但顧青坦言,推廣“中華經(jīng)典古籍庫(kù)”仍然步履艱難,“市面上類似的數(shù)據(jù)庫(kù)非常多,很多比我們做得早、數(shù)據(jù)量也更大”。然而,這些數(shù)據(jù)庫(kù)的通病是基本都是未經(jīng)標(biāo)點(diǎn)的原始版本,錯(cuò)訛較多。“我的看法是,古籍整理的數(shù)據(jù)庫(kù)一定要以古籍整理的標(biāo)準(zhǔn)為原則,有些數(shù)據(jù)庫(kù)采用自動(dòng)識(shí)別技術(shù),正確率達(dá)到99%,看似不錯(cuò)了,但一般出版物的差錯(cuò)率只有萬(wàn)分之一?!鳖櫱嘈稳?,目前古籍?dāng)?shù)字化的網(wǎng)絡(luò)生態(tài)“近似于叢林社會(huì)”,“弱肉強(qiáng)食、沒(méi)有法則”,“有些公司上門(mén)來(lái)推銷他們的數(shù)據(jù)庫(kù),一看,這里頭有的書(shū)就是從我們這兒扒的”。
中華書(shū)局總編輯顧青
在顧青看來(lái),版權(quán)問(wèn)題是困擾古籍?dāng)?shù)字化的一重困難,其次還是經(jīng)費(fèi)問(wèn)題,“看起來(lái)錢(qián)很多,實(shí)際上還是投入不足”。他介紹,古籍?dāng)?shù)字化分為三類,一是古籍保護(hù)的數(shù)字化,即原物掃描、原樣復(fù)制,多為圖書(shū)館層面進(jìn)行;其次是古籍整理的數(shù)字化,其成果可以作為文本來(lái)使用,“中華經(jīng)典古籍庫(kù)”即屬此類;再次是古籍應(yīng)用的數(shù)字化,包括開(kāi)發(fā)國(guó)學(xué)應(yīng)用游戲、教育軟件等等。這其中,尤以古籍整理的難度最高,投入仍嫌不足,“只有懂古籍的人才能做好古籍,而在古籍整理的數(shù)字化中,偽專家、假行家太多了?!?/p>
“中華經(jīng)典古籍庫(kù)”的遠(yuǎn)景定位是”體現(xiàn)新中國(guó)成立以來(lái)古籍整理的全部成果”,不僅中華書(shū)局出版的每一本紙質(zhì)書(shū)都將盡快做成電子書(shū)和數(shù)據(jù)庫(kù)進(jìn)行分享,也要收入其他出版社的優(yōu)秀資源,“拿到授權(quán)和數(shù)據(jù)”。目前,鳳凰出版社、齊魯出版社、華東師范大學(xué)出版社等6家出版社已經(jīng)加入“中華經(jīng)典古籍庫(kù)”,作為國(guó)內(nèi)古籍整理的另一大巨頭,顧青介紹,上海古籍出版社與“中華經(jīng)典古籍庫(kù)”的合作也在商談之中,有望以股份制合作形式展開(kāi)。
“不斷長(zhǎng)大——數(shù)據(jù)越來(lái)越多,準(zhǔn)確可信,活的——功能越來(lái)越豐富強(qiáng)大”,在顧青看來(lái),一個(gè)符合時(shí)代需求的古籍?dāng)?shù)據(jù)庫(kù)必須符合以上三點(diǎn)要求。能否有一個(gè)權(quán)威的數(shù)據(jù)庫(kù)結(jié)束目前市面上各色數(shù)據(jù)庫(kù)雜亂、差錯(cuò)頻頻的局面?顧青笑道:“目前的形勢(shì)下,正版數(shù)據(jù)庫(kù)能活下去就好,不敢奢望‘滅了別人’。但我們會(huì)努力做下去的?!?/p>