大數據不太make sense 新潮流倡「厚數據」

撰文:李立峯
出版:更新:
不少基於大數據而出來的研究,給人的感覺是太data-driven,得出的結果不見得有什麼重大的概念性意義,甚至根本不太make sense…大數據涉及一個客觀存在的現象和如何處理這現象的一系列「高端」研究方法,厚數據更像是一種基本學術取向和態度…做研究,到最後最重要的不是數據有多少,而是能說明什麼。
李立峯
現在互聯網世界的特點之一,就是可以產生很多network data(網上圖片)

潮流興講「大數據」,雖然能說得清楚大數據是甚麼的人好像不多。前一陣子,一位經濟學家對大數據的形容,在一些研究生之間廣泛流傳:

「大數據就像青少年的性愛。人人都在談論它,但沒有人真的知道怎樣做。每個人都以為其他人正在做,所以每個人都說自己也正在做。」(Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it)

以大數據分析互聯網世界

我自己到目前為止沒有做過什麼大數據研究,但由於在學院是研究學部主任,負責碩士生和博士生的課程安排,所以無論自己將來碰不碰這東西也好,至少有責任去思考有沒有需要調整課程內容。例如很多美國的大學,甚至個別中國大陸院校的傳播學研究生,在學習基本統計學的時候,已經不再用什麼 SPSS 了,而是順道學習一些程式語言,如「R」。又例如 network analysis 是存在已久的東西,只是過往傳播學研究很少會遇上需要動用到network analysis 的數據。但現在互聯網世界的特點之一,就是可以產生很多 network data,所以 network analysis 也「紅」了起來,課程對此也可能要有回應。

【李立峯:監測輿情 控制社會 大數據成政府企業最新利器】

你去Amazon買書,Amazon會告訴你其他人也購買了另外那一些書,那就是靠「大數據」計算出來的。但那些書本之間有什麼關係?它不會分析。(網上截圖)

用大數據研究 結果卻不太make sense

不過,很多人其實私底下對運用所謂「大數據」來進行社會科學研究,仍抱有很多疑問,其中一個原因,是到目前為止,雖然也有一些很出色的運用到「大數據」的研究(如哈佛大學的 Gary King 對中國互聯網審查的分析),但不少基於大數據而出來的研究,給人的感覺是太 data-driven,得出的結果不見得有什麼重大的概念性意義,甚至根本不太 make sense。就像你去 Amazon 買書,將一本書放進購物車後,網頁會告訴你,購買了剛剛那本書的人也購買了另外那一些書,那就是靠「大數據」計算出來的。但那些書本之間有什麼關係?它不會分析。

固然,如果我們只是在做生意,我們是否理解那些書本之間的關係,可能並不重要。一些提倡大數據的人就認為,數據充足時,單憑數據就可以做到很準確的預測,所以數據可以取代理論。但對大部分做社會科學研究的人來說,研究的目的除了是讓我們可以預測一些現象的發生外,更重要的,是理解該些現象。太 data-driven 是行不通的。

人們想知道的不是你的研究發現,人們想知道的是你能根據你的研究發現說些什麼。(網上圖片)

兩者無必然衝突 最重要是數據能說明什麼

所以,近兩三年,有學者開始提倡厚數據(thick data)。

五月中旬到高雄的國立中山大學參加了一個學術研討會,就以網絡調查和厚數據為主題。據我了解,提出厚數據這說法的,首先是一些人類學家。「厚」這個說法,來自因人類學家 Clifford Geertz 而聞名的概念「thick description」(但其實並不是 Clifford Geertz 原創的概念)。Thick description 通常譯作深描,指的是能夠帶出現象的社會和文化意義的描述。厚數據,簡單來說,也就是能從中挖掘出社會和文化意義的數據。

但若再進一步問,怎樣才能得到厚數據,厚數據應如何分析,其實也不一定有很確切的說法。厚數據跟大數據無必然衝突,大數據也可以很「厚」。也可以說,大數據涉及一個客觀存在的現象(網絡上超級龐大的資訊和內容),和如何處理這現象的一系列「高端」研究方法,厚數據更像是一種基本學術取向和態度。從這個角度看,強調厚數據,是一個有用的 reminder。

讀博士的時候,論文導師令我印象最深刻的說話之一是:

「人們想知道的,不是你的研究發現,人們想知道的是你能根據你的研究發現,說些什麼。」

同樣道理,做研究,到最後最重要的不是數據有多少,而是能說明什麼。

(本文章純屬作者意見,不代表香港01立場。)