認為樣本選擇的隨機性比樣本數(shù)量更重要,這種觀點是非常有見地的。這種觀點為我們開辟了一條收集信息的新道路。通過收集隨機樣本,我們可以用較少的花費做出高精準度的推斷。因此,政府每年都可以用隨機采樣的方法進行小規(guī)模的人口普查,而不是只能每十年進行一次。事實上,政府也這樣做了。例如,除了十年一次的人口大普查,美國人口普查局每年都會用隨機采樣的方法對經(jīng)濟和人口進行 200多次小規(guī)模的調(diào)查。當收集和分析數(shù)據(jù)都不容易時,隨機采樣就成為應對信息過量的辦法。
很快,隨機采樣就不僅應用于公共部門和人口普查了。在商業(yè)領域,隨機采樣被用來監(jiān)管商品質(zhì)量。這使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費也更少。以前,全面的質(zhì)量監(jiān)管要求對生產(chǎn)出來的每個產(chǎn)品進行檢查,而現(xiàn)在只需從一批商品中隨機抽取部分樣品進行檢查就可以了。本質(zhì)上來說,隨機采樣讓大數(shù)據(jù)問題變得更加切實可行。同理,它將客戶調(diào)查引進了零售行業(yè),將焦點討論引進了政治界,也將許多人文問題變成了社會科學問題。
隨機采樣取得了巨大的成功,成為現(xiàn)代社會、現(xiàn)代測量領域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對隨機性,但是實現(xiàn)采樣的隨機性非常困難。一旦采樣過程中存在任何偏見,分析結(jié)果就會相去甚遠。
最近,以固定電話用戶為基礎進行投票民調(diào)就面臨了這樣的問題,采樣缺乏隨機性,因為沒有考慮到只使用移動電話的用戶——這些用戶一般更年輕和更熱愛自由。沒有考慮到這些用戶,自然就得不到正確的預測。 2008年在奧巴馬與麥凱恩之間進行的美國總統(tǒng)大選中,蓋洛普咨詢公司、皮尤研究中心(Pew)、美國廣播公司和華盛頓郵報這些主要的民調(diào)組織都發(fā)現(xiàn),如果他們不把移動用戶考慮進來,民意測試結(jié)果就會出現(xiàn)三個點的偏差,而一旦考慮進來,偏差就只有一個點。鑒于這次大選的票數(shù)差距極其微弱,這已經(jīng)是非常大的偏差了。
更糟糕的是,隨機采樣不適合考察子類別的情況。因為一旦繼續(xù)細分,隨機采樣結(jié)果的錯誤率會大大增加。這很容易理解。倘若你有一份隨機采樣的調(diào)查結(jié)果,是關于 1 000個人在下一次競選中的投票意向。如果采樣時足夠隨機,這份調(diào)查的結(jié)果就有可能在 3%的誤差范圍內(nèi)顯示全民的意向。但是如果這個 3%左右的誤差本來就是不確定的,卻又把這個調(diào)查結(jié)果根據(jù)性別、地域和收入進行細分,結(jié)果是不是越來越不準確呢?用這些細分過后的結(jié)果來表現(xiàn)全民的意愿,是否合適呢?
你設想一下,一個對 1 000個人進行的調(diào)查,如果要細分到“東北部的富裕女性”,調(diào)查的人數(shù)就遠遠少于 1 000人了。即使是完全隨機的調(diào)查,倘若只用了幾十個人來預測整個東北部富裕女性選民的意愿,還是不可能得到精確結(jié)果啊!而且,一旦采樣過程中存在任何偏見,在細分領域所做的預測就會大錯特錯。