同理,因為大數(shù)據(jù)是建立在掌握所有數(shù)據(jù),至少是盡可能多的數(shù)據(jù)的基礎上的,所以我們就可以正確地考察細節(jié)并進行新的分析。在任何細微的層面,我們都可以用大數(shù)據(jù)去論證新的假設。是大數(shù)據(jù)讓我們發(fā)現(xiàn)了相撲中的非法操縱比賽結果、流感的傳播區(qū)域和對抗癌癥需要針對的那部分 DNA。它讓我們能清楚分析微觀層面的情況。
當然,有些時候,我們還是可以使用樣本分析法,畢竟我們?nèi)匀换钤谝粋€資源有限的時代。但是更多時候,利用手中掌握的所有數(shù)據(jù)成為了最好也是可行的選擇。
社會科學是被“樣本 =總體”撼動得最厲害的學科。隨著大數(shù)據(jù)分析取代了樣本分析,社會科學不再單純依賴于分析經(jīng)驗數(shù)據(jù)。這門學科過去曾非常依賴樣本分析、研究和調(diào)查問卷。當記錄下來的是人們的平常狀態(tài),也就不用擔心在做研究和調(diào)查問卷時存在的偏見 ①了?,F(xiàn)在,我們可以收集過去無法收集到的信息,不管是通過移動電話表現(xiàn)出的關系,還是通過 twitter信息表現(xiàn)出的感情。更重要的是,我們現(xiàn)在也不再依賴抽樣調(diào)查了。
艾伯特 -拉斯洛·巴拉巴西( Albert-László Barabási),和他的同事想研究人與人之間的互動。于是他們調(diào)查了四個月內(nèi)所有的移動通信記錄——當然是匿名的,這些記錄是一個為全美五分之一人口提供服務的無線運營商提供的。這是第一次在全社會層面用接近于“樣本 =總體”的數(shù)據(jù)資料進行網(wǎng)絡分析。通過觀察數(shù)百萬人的所有通信記錄,我們可以產(chǎn)生也許通過任何其他方式都無法產(chǎn)生的新觀點。
有趣的是,與小規(guī)模的研究相比,這個團隊發(fā)現(xiàn),如果把一個在社區(qū)內(nèi)有很多連接關系的人從社區(qū)關系網(wǎng)中剔除開來,這個關系網(wǎng)會變得沒那么高效但卻不會解體;但如果把一個與所在社區(qū)之外的很多人有著連接關系的人從這個關系網(wǎng)中剔除,整個關系網(wǎng)很快就會破碎成很多小塊。 ③這個研究結果非常重要也非常的出人意料。誰能想象一個在關系網(wǎng)內(nèi)有著眾多好友的人的重要性還不如一個只是與很多關系網(wǎng)外的人聯(lián)系的人呢?這說明一般來說無論是一個集體還是一個社會,多樣性是有額外價值的。這個結果促使我們重新審視一個人在社會關系網(wǎng)中的存在價值。
大數(shù)據(jù)洞察
我們總是習慣把統(tǒng)計抽樣看做文明得以建立的牢固基石,就如同幾何學定理和萬有引力定律一樣。但是統(tǒng)計抽樣其實只是為了在技術受限的特定時期,解決當時存在的一些特定問題而產(chǎn)生的,其歷史尚不足一百年。如今,技術環(huán)境已經(jīng)有了很大的改善。在大數(shù)據(jù)時代進行抽樣分析就像是在汽車時代騎馬一樣。在某些特定的情況下,我們依然可以使用樣本分析法,但這不再是我們分析數(shù)據(jù)的主要方式。慢慢地,我們會完全拋棄樣本分析。