正文

05 統(tǒng)計(jì)學(xué)家的大數(shù)據(jù)“狂想曲”(3)

看穿一切數(shù)字的統(tǒng)計(jì)學(xué) 作者:(日)西內(nèi)啟


Hadoop

系統(tǒng) 對(duì)數(shù)據(jù)進(jìn)行分散處理的JAVA(一種程序語(yǔ)言)軟件工作模式,主要負(fù)責(zé)分散處理“最關(guān)鍵的部分”。最近,我們所聽(tīng)說(shuō)的大規(guī)模數(shù)據(jù)分散處理軟件大部分都是基于Hadoop系統(tǒng)運(yùn)行的。

AWS平臺(tái) 亞馬遜開(kāi)發(fā)的數(shù)據(jù)庫(kù)和數(shù)據(jù)分析云計(jì)算服務(wù),也能夠?qū)?yīng)大數(shù)據(jù)的分散處理。

非結(jié)構(gòu)化

數(shù)據(jù) 以甲骨文為首的傳統(tǒng)數(shù)據(jù)庫(kù)(RDB)是以“構(gòu)造化的表”與“表之間的聯(lián)系”為基礎(chǔ)對(duì)數(shù)據(jù)進(jìn)行保存和檢索的。這種傳統(tǒng)的數(shù)據(jù)庫(kù)形式無(wú)法很好地進(jìn)行整理的數(shù)據(jù)被稱(chēng)為非構(gòu)造化數(shù)據(jù)。

(續(xù))

NoSQL RDB的處理是使用結(jié)構(gòu)化查詢(xún)語(yǔ)言(SQL)記述的,使用其他不同方法保存數(shù)據(jù)進(jìn)行處理的方法就被稱(chēng)為NoSQL。

KVS Key Value Store的簡(jiǎn)稱(chēng)。RDB是以既定的格式對(duì)表和表之間的聯(lián)系進(jìn)行處理,而KVS則是利用表中的值(Value)和值之間的聯(lián)系(Key)來(lái)對(duì)數(shù)據(jù)進(jìn)行處理。對(duì)包括非結(jié)構(gòu)化數(shù)據(jù)的大規(guī)模數(shù)據(jù)進(jìn)行分散處理非常方便。

R語(yǔ)言 開(kāi)源的統(tǒng)計(jì)分析用語(yǔ)言。全世界的專(zhuān)家們可以隨心所欲地制作分析方法并且將其公開(kāi)的庫(kù)。那些買(mǎi)不起收費(fèi)軟件的貧窮學(xué)者們都喜歡使用這個(gè),最近忽然受到了大家的關(guān)注。似乎可以直接從Exadata系統(tǒng)、Greenplum系統(tǒng)甚至“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”軟件(SPSS)之中直接調(diào)用R語(yǔ)言庫(kù)。與“大數(shù)據(jù)”相關(guān)的商品和專(zhuān)業(yè)術(shù)語(yǔ)如表2–1所示。

通過(guò)高速化的數(shù)據(jù)處理,網(wǎng)站就算面對(duì)大量增加的用戶(hù)也能夠提供快捷的服務(wù),公司內(nèi)部系統(tǒng)也能夠在短時(shí)間內(nèi)收集指定的數(shù)據(jù)并且完成作業(yè)。由此應(yīng)該也會(huì)帶來(lái)人工費(fèi)的節(jié)約與效率的提高。我們所聽(tīng)到的“大數(shù)據(jù)技術(shù)的成功體驗(yàn)”多數(shù)來(lái)自這些方面。


上一章目錄下一章

Copyright ? 讀書(shū)網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)