甲骨文是指我國古代用于占卜記事而在龜甲或獸骨上契刻的文字,是我國迄今發(fā)現(xiàn)的最早的一種成熟文字系統(tǒng),在我國文字發(fā)展史上占有重要地位。隨著計算機技術的發(fā)展,利用計算機技術對甲骨文信息處理已經成為甲骨文研究、考釋和應用的一個新課題。隨著計算機信息技術的發(fā)展,古文字的數字化研究、印刷和出版等領域對甲骨文字形的需求越來越高,如何能讓計算機像處理現(xiàn)代文字一樣處理甲骨文字,成為計算機學者和文字與語言學者共同關注的課題。但是,多年來,在甲骨文數字化過程中,一直存在3個難以解決的問題:一是甲骨字難以定形,甲骨字字形復雜,存在較多的異體字和合體字,甲骨字不像現(xiàn)代漢字,很難確定每一個甲骨字的字形結構和類型;二是甲骨字難以定量,大量的未釋字和新出土的甲骨字難以表示;三是甲骨字難以輸入計算機。為此,許多學者試圖通過研究和設計字形庫來解決計算機中甲骨文字形的顯示和打印問題,通過設計各種各樣的輸入編碼方案來解決甲骨文的輸入問題。多年來的實踐證明,對于規(guī)范的現(xiàn)代漢字,可以使用這樣的辦法去解決,但對于甲骨文字,這一方法并不完全適用。首先,甲骨文字形復雜,存在較多的異體字和合體字,并且還有近2/3的字沒有完全考釋出來。其次,甲骨文字形的規(guī)范性不像現(xiàn)代漢字一樣有一個統(tǒng)一的標準,從近幾年出現(xiàn)的不同甲骨文字形庫來看,許多學者在甲骨文字形的認同方面存在很大的差距。香港中文大學的沈建華和曹錦炎確定了6000多個甲骨文字形(包括異體字) ,給甲骨文研究帶來了極大的方便。但是,由于過度“規(guī)范化”,其中很多字形已經脫離了原始字形所表達的意義,有的還存在部件結構和位置的錯誤。在古文字數字化新環(huán)境中,以字庫形式建立起來的甲骨文檢索系統(tǒng)雖然適合文本形式檢索,但是原有缺陷被放大,并且顯現(xiàn)出若干新的問題。