本書充分應用信息管理及相關學科知識,根據(jù)當前天文海量數(shù)據(jù)管理中存在的關鍵問題,重點開展存儲與檢索、傳輸、歸檔3個方面的關鍵技術研究。最后,以兩個射電望遠鏡的數(shù)據(jù)管理為例[明安圖射電頻譜日像儀(MUSER)和平方公里陣列(SKA)射電望遠鏡],通過數(shù)據(jù)仿真、實例化測試、性能對比、理論分析來驗證本書相關內容的正確性。具體說明如下:①針對海量射電天文觀測數(shù)據(jù)記錄的高效存儲與檢索需求,基于觀測數(shù)據(jù)具有固定的采樣間隔和固定數(shù)量的連續(xù)觀測數(shù)據(jù)記錄按序存放在文件中的時序數(shù)據(jù)特征,本書提出了一種以集合中的補集思想為核心的面向時序數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng),即負數(shù)據(jù)庫系統(tǒng)。負數(shù)據(jù)庫系統(tǒng)將文件中存在記錄及首尾記錄之間丟失記錄的元數(shù)據(jù)信息視為全集,把文件中首尾記錄之間丟失記錄的元數(shù)據(jù)信息看成補集,通過補集構建出來的文件邏輯結構關系,能夠推導出文件中存在記錄的元數(shù)據(jù)信息。本書給出完整的形式化定義及嚴格的理論證明。實測結果表明:在記錄入庫、數(shù)據(jù)檢索及要入庫的記錄數(shù)方面,負數(shù)據(jù)庫系統(tǒng)比需要存儲文件中所有存在記錄的元數(shù)據(jù)信息的常用數(shù)據(jù)管理系統(tǒng)分別快18.8倍、快1.5~6.9倍及減少(N-2)/N×100%(N指文件中的固定記錄數(shù))。進而說明,負數(shù)據(jù)庫系統(tǒng)能夠在大幅降低存儲開銷和記錄數(shù)的同時提供較高的檢索性能。②針對海量射電天文觀測數(shù)據(jù)的跨區(qū)域高速傳輸需求,本書提出帶狀態(tài)檢測和重傳功能的兩路異步消息傳輸模型——高效消息傳輸模型。該模型是指用兩路異步消息傳輸來分別單向高速傳輸數(shù)據(jù)消息和反饋消息,通過超時重傳來確保數(shù)據(jù)消息送達接收方,以及通過實時狀態(tài)檢測來決定是否繼續(xù)向接收方發(fā)送消息。該模型能夠克服當前很多遠程數(shù)據(jù)傳輸技術都使用的出錯重傳方法存在的需要等待對端反饋消息而降低數(shù)據(jù)消息傳輸效率的不足?;诟咝鬏斈P蛯崿F(xiàn)了一套高效數(shù)據(jù)傳輸系統(tǒng),該系統(tǒng)的性能測試結果表明:在傳輸文件為數(shù)百kB時,該系統(tǒng)獲得的平均傳輸速度比現(xiàn)有系統(tǒng)快將近40倍;同時,在數(shù)百MB這個量級和使用較少的并發(fā)數(shù)時,該系統(tǒng)獲得的平均傳輸速度達到1172 MB/s(該速度基本上實現(xiàn)了10 Gb/s網絡帶寬的滿負載),比現(xiàn)有系統(tǒng)快將近3.4倍。進而說明,實現(xiàn)的高效數(shù)據(jù)傳輸系統(tǒng)有效地提高了數(shù)據(jù)傳輸性能,縮短了數(shù)據(jù)傳輸時間。③針對海量射電天文觀測數(shù)據(jù)在進行高可靠性歸檔時盡可能降低數(shù)據(jù)冗余的需求,本書提出基于糾刪碼的歸檔模型——低冗余歸檔模型。該模型是指將糾刪碼技術集成到帶狀態(tài)檢測和重傳功能的兩路異步消息傳輸模型中的數(shù)據(jù)消息接收方而形成的歸檔模型。該模型能夠克服現(xiàn)有系統(tǒng)使用副本技術歸檔時存在的高數(shù)據(jù)冗余的不足。基于低冗余歸檔模型和RS(4,2)算法實現(xiàn)了一套低冗余歸檔系統(tǒng),該系統(tǒng)的性能測試結果表明:在相同的實驗環(huán)境下,該系統(tǒng)獲得的平均異地歸檔速度是現(xiàn)有系統(tǒng)未啟用3副本策略時的1.4倍,且只需要增加50%的額外存儲開銷就能達到基于3副本策略時需要200%的額外存儲開銷才能達到的數(shù)據(jù)可靠性;并發(fā)數(shù)和HWM是該系統(tǒng)調優(yōu)的關鍵參數(shù)。進而說明,實現(xiàn)的低冗余歸檔系統(tǒng)具有較高的歸檔速度,能以較低的數(shù)據(jù)冗余獲得較高的數(shù)據(jù)可靠性。