但是相撲比賽的一個比較特殊的地方是,選手需要在 15場聯(lián)賽中的大部分場次取得勝利才能保持排名和收入。這樣一來就會出現(xiàn)利益不對稱的問題。當(dāng)一個7勝 7負(fù)的摔跤手碰到一個 8勝 6負(fù)的對手時(shí),比賽結(jié)果對第一個選手來說極其重要,對他的對手則沒有那么重要。列維特和達(dá)根發(fā)現(xiàn),在這樣的情況下,需要贏的那個選手很可能會贏。這看起來像是對手送的“禮物”,因?yàn)樵诼?lián)系緊密的相撲界,幫別人一把就是給自己留了一條后路。
沒有可能是要贏的決心幫助這個選手獲勝呢?答案是,有可能。但是數(shù)據(jù)顯示的情況是,需要贏的選手的求勝心也只是比平常高了 25%。所以,把勝利完全歸功于求勝心是不妥當(dāng)?shù)?。對?shù)據(jù)進(jìn)行進(jìn)一步分析可能會發(fā)現(xiàn),與他們在前三四次比賽中的表現(xiàn)相比,當(dāng)他們再相遇時(shí),上次失利的一方要擁有比對方多 3~4倍的勝率。
這個情況是顯而易見的。但是如果采用隨機(jī)采樣分析法,就無法發(fā)現(xiàn)這個情況。而大數(shù)據(jù)分析通過使用所有比賽的極大數(shù)據(jù)捕捉到了這個情況。這就像捕魚一樣,開始時(shí)你不知道是否能捕到魚,也不知道會捕到什么魚。
一個數(shù)據(jù)庫并不需要有以太字節(jié) ①計(jì)的數(shù)據(jù)。在這個相撲案例中,整個數(shù)據(jù)庫包含的字節(jié)量還不如一張普通的數(shù)碼照片包含得多。但是大數(shù)據(jù)分析法不只關(guān)注一個隨機(jī)的樣本。這里的“大”取的是相對意義而不是絕對意義,也就是說這是相對所有數(shù)據(jù)來說的。
很長一段時(shí)間內(nèi),隨機(jī)采樣都是一條好的捷徑,它使得數(shù)字時(shí)代之前的大量數(shù)據(jù)分析變得可能。但就像把一張數(shù)碼照片或者一首數(shù)碼歌曲截取成多個小文件似的,在采樣分析的時(shí)候,很多信息都無法得到。擁有全部或幾乎全部的數(shù)據(jù),我們就能夠從不同的角度,更細(xì)致地觀察研究數(shù)據(jù)的方方面面。
我們可以用 Lytro相機(jī)來打一個恰當(dāng)?shù)谋确健?Lytro相機(jī)具有革新性的,因?yàn)樗汛髷?shù)據(jù)運(yùn)用到了基本的攝影中。與傳統(tǒng)相機(jī)只可以記錄一束光不同, Lytro相機(jī)可以記錄整個光場里所有的光,達(dá)到 1 100萬之多。具體生成什么樣的照片則可以在拍攝之后再根據(jù)需要決定。用戶沒必要在一開始就聚焦,因?yàn)樵撓鄼C(jī)可以捕捉到所有的數(shù)據(jù),所以之后可以選擇聚焦圖像中的任一點(diǎn)。整個光場的光束都被記錄了,也就是收集了所有的數(shù)據(jù),“樣本 =總體”。因此,與普通照片相比,這些照片就更具“循環(huán)性”。如果使用普通相機(jī),攝影師就必須在拍照之前決定好聚焦點(diǎn)。