《抄襲檢測研究》以文本的抄襲檢測為研究對象,探索了抄襲檢測的語料庫構建、Web環(huán)境下的抄襲源檢索和高模糊抄襲檢測的文本對齊的問題、數(shù)據(jù)、架構和模型。《抄襲檢測研究》共9章,第1~3章介紹了抄襲檢測的概念、類型和框架,綜述了抄襲檢測的方法;第4章介紹了現(xiàn)有抄襲語料構建方法,提出了基于自然標注的抄襲語料構建方法;第5和第6章對抄襲源檢索開展研究,描述了基于排序學習的源檢索查詢生成模型和關注檢索結果聚合性的源檢索過濾模型;第7~9章,對抄襲檢測的文本對齊開展研究,提出了基于排序學習的抄襲文本匹配模型、句法和語義交互的釋義文本深度匹配模型以及基于序列標注的文本對齊模型。