注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁新聞資訊文化

章邵增:用人類學視野做大數據分析

在人工智能和大數據的浪潮下,每個學科都想跟“數據”沾上邊,與“定量”掛上鉤。而一說起人類學,普通人腦中浮現的或許是,遙遠的叢林部落中調查宗教儀式的圖景,好像與“大數據”毫無關聯。就算近年出現的網絡民族

在人工智能和大數據的浪潮下,每個學科都想跟“數據”沾上邊,與“定量”掛上鉤。

而一說起人類學,普通人腦中浮現的或許是,遙遠的叢林部落中調查宗教儀式的圖景,好像與“大數據”毫無關聯。就算近年出現的網絡民族志,人類學的參與觀察和深度訪談等質性方法也與“大數據”相去甚遠。但真是如此嗎?

在7月25日的“未來人類學家”田野營分享會中,主辦方請來了美國俄勒岡州立大學人類學系助理教授章邵增,舉辦了一期名為“用人類學研究方法來革新大數據分析”的講座。講座由北京大學社會學系的博士生熊志穎主持。北京大學副教授賴立里和在企業(yè)界工作的任玨博士參與了評議和討論。

章邵增提出從人類學的視野出發(fā)來革新大數據分析。在認識論上,可以用考古學來重新定義大數據,而在方法論上,人類學完備又嚴謹的方法是大數據應該借鑒的,能幫助重新認識數據“真實性”問題。

在人工智能和大數據的浪潮下,每個學科都想跟“數據”沾上邊。

在人工智能和大數據的浪潮下,每個學科都想跟“數據”沾上邊。

大數據真實性需要重新定義

章邵增從大數據的真實性入手,認為傳統(tǒng)的數據處理方法需要反思。如今的大數據來自于用戶生成數據和傳感器,量大且雜,在傳統(tǒng)的數據分析中,操作人員將80%的時間都用在了數據清理中。

但是章邵增認為我們忽視了數據清理操作的前提,即真假二元對立的預設。而在此預設基礎上的實際操作比簡單的真假評判和取舍更為粗糙和武斷,有時候操作人員搞不清楚數據真假、有用與否,就倉促取舍,往往只是把方便用的留下了。

但是“假”數據就一定“無用”嗎?誰又能定義“真”和“有用”呢?

章邵增用語言學的例子來說明真和假、有用和無用之間的界限并不是簡單的二元分野。當我們在一個具體的情境中講了句反諷的話,表達的意思可能和字面意思完全相反。

在大數據中也一樣有具體的“情境”,當我們在大數據中開始考慮“人的因素”,很快就會發(fā)現真假二元對立的預設往往是站不住腳的。

用考古學視野來看待大數據

擱置了大數據的真假二元對立,章邵增給了大數據一個“考古學”式的定義:大數據是人類活動遺跡的一部分。

之所以給出這樣的定義,是因為章邵增覺得大數據和考古學有許多“同構”之處。其一,大數據和考古學的證據一樣,往往不完整、不具有代表性。人類活動遺跡經過長期甚至數萬年的滄海桑田,能留下一兩個腳印、幾片殘磚就足以珍貴,很顯然是不完整的。而大數據也只能代表一部分人的一部分行為,大數據再大也往往不是“全”數據。

其二,考古學最常用的方法是考古學推理。推理往往不能表示因果性,只能表示一種相關性。中肯地講,大數據分析一般也不敢宣稱因果性的推斷,而只是從數據中發(fā)現相關性。當然,因其長期的科學傳統(tǒng),考古學的推理則要嚴謹得多。

“考古學”在其他領域也早有應用于考很近的“古”。章邵增舉了“垃圾考古學”的例子,即從一戶人家丟的垃圾包裝袋、外賣盒子等垃圾中推斷出那戶人家的消費行為。在這個例子中,“垃圾”本身就是人類行為遺跡的一部分。

考古學和大數據也早有關聯。90年代的時候就有學者認為互聯網是一個巨大的數字墓地,要對網絡數據進行拯救式的開發(fā)。在傳媒研究中也借鑒了考古學的思路,即把網絡數據當成文化制品。

章邵增總結了大數據和考古學結合的好處:重視數據解釋性的價值,把數據放在情境當中去做推理,這樣才能看到數據的歷史,去解讀那些有偏差、甚至是有偏見的數據。

人類學為大數據提供了情境

當然,僅用考古學的視野來重新定義大數據是不夠的,章邵增還提出在這個新定義的基礎上,再納入人類學的其他方法來追溯和重建大數據的產生和使用的情境,從而更有效地分析和解讀大數據。

為什么孤立地使用大數據往往成問題?章邵增用“路燈效應”來解釋:好比在路燈下尋找丟失的鑰匙,操作起來是很方便,但實際上是非常片面和局限的,找不找得著是很值得存疑的。

而人類學具有探索情境最謹慎和科學的方法,可以為大數據提供情境式的分析。拿人類學里最具代表性的“民族志”方法來說,我們可以把大數據看作人類學的一塊新的民族志“田野”,去參與式地觀察數據的形成過程,去訪談生成、處理和使用數據的人。

民族志學者也早已對大數據分析有所警惕和反思,并提出人類學的“小數據”或者說“深厚數據”——即來自于人類學民族志研究的“深描”(Deep Description)——對認識人類行為和社會文化是不可或缺的。人類學家的傳統(tǒng)數據可能很小,來自于一個社區(qū)或者是一小群人,但是因為有了對情境的深入探索,這些數據的厚度遠超過大數據。

章邵增總結道,我們可以納入人類學(考古學加民族志)的方法來處理大數據,在情境當中去理解大數據。更重要的是重新定義大數據的真實性問題,不再把數據清理當作數據分析之前的一個獨立的步驟,而是把所有數據都拿過來,在分析和解釋的過程中去解決數據的真實性和質量這個問題。

精靈寶可夢GO是前幾年大熱的一款手機游戲。

精靈寶可夢GO是前幾年大熱的一款手機游戲。

精靈寶可夢GO中的隱形偏見

精靈寶可夢GO(Pokémon GO)是前幾年大熱的一款手機游戲。游戲公司把現實中的地圖導入游戲之中,然后在街角和路口設置許多精靈,游戲玩家在這個真實世界和虛擬世界結合的空間中去尋獲精靈。游戲公司表示此游戲旨在鼓勵人們離開電腦桌,多多出門走動鍛煉,與真實世界展開連結。

但是在章邵增和他的合作者對游戲的數據庫進行分析時,發(fā)現許多人進行“位置惡搞”。有些人會使用網絡機器人用遠程方式虛擬地操作“抓精靈”,還有人會把手機綁在無人機或者寵物狗身上去難走的地方“抓精靈”。

這種“惡搞”會造成大量與實際位置不一樣的數據,按傳統(tǒng)的眼光來看,這些行為就屬于“作弊”,這些數據也會被游戲公司定義為假數據而棄之不用。但是章邵增及其合作者認為這些數據有其背后的價值所在。

于是他們在地理信息系統(tǒng)(GIS)和大數據分析中融合了人類學民族志的方法,去親自參與這個游戲并訪談那些“惡搞者”,從而更有效地解讀數據背后的行為動機和社會意義。

結果證明,“定位惡搞”背后,確實反映了諸多結構性的問題。許多“惡搞者”反映游戲中精靈資源分布不平等,集中在大城市中心,而郊區(qū)和農村鮮有。章邵增及其合作者進一步分析了精靈的地理分布問題,結果發(fā)現在美國紐約,精靈集中在白人聚集區(qū),極少在黑人居民區(qū)。游戲公司的精靈分布,背后隱藏了城鄉(xiāng)不平等、種族偏見等問題。

章邵增和他的合作者還發(fā)現了游戲背后隱藏的商業(yè)因素。在日本東京,由于麥當勞和游戲公司達成了合作,游戲公司就在麥當勞門口設置精靈點,來幫助麥當勞吸引顧客。但是麥當勞代表的快餐文化違背了游戲公司宣傳的健康生活理念——資本的虛偽可見一斑。很多進行“位置惡搞”的人恰是通過挑戰(zhàn)精靈資源分布的不平等,和商業(yè)資本的虛偽來實現自己智力、技能、道德和情感上的滿足。

因此,這些表面上的假數據,實則是真實的數據,因為他們都來自于人類真實的行為遺跡。而且是有用的數據:都能夠幫助商業(yè)公司重構商業(yè)戰(zhàn)略。再進一步說,這些數據可以用來研究人的游戲行為,還可以去開拓新的人文地理學的研究方向。

附:“未來人類學家”夏令營是由一群熱愛及樂于分享人類學知識和方法的年輕人組織和籌辦的系列科普教育活動。該活動由法國社會科學高等研究院博士候選人王希言發(fā)起,其后得到了許多知名學者的支持和幫助。截至目前,“未來人類學家”夏令營已在北京、陜西省安康市等地舉辦多次活動。

熱門文章排行

掃描二維碼
Copyright ? 讀書網 www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號