可比語料庫作為近年來語料庫研究的熱點方向之一,可廣泛應用于語言學研究和自然語言處理領域。本體是一種基于語義網技術的知識表示方法,它與可比語料庫的融合式研究是對可比語料獲取、組織和應用方法的一次革新,將更好地發(fā)揮可比語料庫的效能并擴展其應用領域。經過前期調查分析,國內外鮮有俄漢可比語料庫相關研究,未見基于本體的俄漢可比語料庫相關成果。本研究首先在理論層面分析了可比語料庫研究的現(xiàn)存問題,提出將本體引入可比語料庫研究的思路,并以此為基礎提出了基于本體的可比語料庫理論構想。隨后在實踐層面將該理論構想運用到了面向俄漢可比語料庫的烏克蘭事件多語言復合型本體構建、基于該本體的俄漢新聞及維基百科可比語料獲取、語料庫構建和語料庫應用等核心問題的研究中。本研究所取得的成果:一,本研究所提出的基于本體的可比語料庫理論構想由“一對關系、三個模型和四個問題”組成,闡釋了本體與語料的層次關系,建立了基于本體的單語料、語料庫和語料可比關系模型,在理論上討論了面向可比語料庫的本體構建、基于本體的可比語料獲取、語料庫構建和語料庫應用問題。第二,本研究所構建的面向俄漢可比語料庫的烏克蘭事件多語言復合型本體(мопкус)由表征領域知識和描述存儲語料的2大類及8個子類組成,包含數(shù)據(jù)屬性46個,對象屬性9個,實例60733個(領域知識類實例4525個,語料描述類實例56207個)。第三,本研究所構建的基于MO幾KYC的俄漢可比語料庫包含新聞原始語料3554篇,維基百科原始語料1670篇,其中包括中文語料163萬字,俄文語料132萬詞;以領域相同、發(fā)布時間相似對齊俄漢新聞可比語料文本50148對,以俄漢維基語言鏈接對齊維基百科可比語料文本835對,并對俄漢語料各層面的可比程度進行了評估計算,為語料庫的應用奠定了堅實的數(shù)據(jù)基礎。第四,在所構建的基于本體的俄漢可比語料庫基礎上探討了三個應用問題:復雜語料調用與語義查詢、基于多維度特征的可比度評估以及跨語言文本推薦與信息整合,并研制了相關軟件系統(tǒng)。