監測輿情 控制社會 大數據成政府企業最新利器

撰文:李立峯
出版:更新:

上文指不少社會科學學者對「大數據」有點戒心,因為當大家開口閉口都在講大數據時,好像有點讓方法主導着研究問題。
不過,作為一種客觀存在的現象,我們又不能無視大數據。
而若果我們不是專門談應該如何進行社會科學研究,大數據在社會上不同領域中的應用,的確有很厲害的成績。

【上回講到:大數據不太make sense 新潮流倡「厚數據」】

有學者指出,通過輿情監測來防範網絡事件,結果只是使得民意得不到適當的表達和抒發,是「輿情消滅了輿論」。(資料圖片)

Google Translate運用大數據 翻譯愈趨準確

舉例說,Google Translate就是以「大數據」為基礎的。世界上有多少東西比語言更複雜?與其讓電腦學懂不同語文的文法,不如叫電腦按照互聯網的海量數據,計算出以某語言表達出來的一句說話,在另一語言中相對應的寫法是什麼。所以,如果你在Google Translate嘗試英譯中:

  輸入「Anthony Wong」,它會給你「黃秋生」。那顯示黃秋生是網絡上最經常對應着Anthony Wong而出現的中文字;

  輸入「Beckham」,會出現「貝克漢姆」。始終,大陸有七億網民,「貝克漢姆」比「碧咸」更常出現;

  輸入「My friend Tony Leung will give me a ride」,Google Translate會給你「我的朋友梁朝偉會送我一程」。

除了我的朋友其實不是梁朝偉之外,這句話翻譯得頗準確。的確,一些最常見的和基本的語句,Google Translate是應付得來的。

由於Google Translate依賴的是大數據,網絡上相關的數據愈多,它的翻譯愈準。曾在Google工作的中大新傳學院同事就說,Google Translate處理主要歐洲語言之間的翻譯,比處理中英之間的翻譯好。除了是因為歐洲語言之間可能較相近之外,也是因為在網上,兩種主要歐洲語言相互對照的文本,比中英對照的文本多。

由於Google Translate依賴的是大數據,網絡上相關的數據愈多,它的翻譯愈準。(網上截圖)

大機構應用大數據 影響社會運作和人們生活

不過,談到這裏,也帶出了另一個問題,大數據「愈大愈有用」,而最有能力運用和處理超級龐大數據的,就只有為數不多的大機構了。至於他們如何處理和利用從網絡上可得的數據,以及他們設定的運算公式是什麼,大家都不太清楚。

問題是,社會的運作又愈來愈受這些大數據的運算左右。這也成為社會科學學者近年對大數據的研究焦點之一,即是並非嘗試以大數據作為方法去處理研究問題,而是以大機構對大數據的應用,作為分析和批判的對象。例如美國法律學者Frank Pasquale去年就出版了《黑箱社會》(The Black Box Society)一書,闡釋金融機構和網絡公司對大數據的使用和運算,如何影響社會的運作和人們的生活,並強調政策和法例應該如何要求這些機構做到透明和具問責性。

內地以大數據作輿情監測 「黃金4小時法則」消滅輿論

如果放在中國大陸的環境中,值得一提的,是大數據的政治應用,也就是所謂輿情監測。《人民日報》旗下的《人民網》在2008年成立了輿情監測室,專門監測網絡輿情,並出版《網絡輿情》雜誌供政府參考。幾年下來,輿情監測在中國大陸已經成為一項頗具規模的產業。除了中央政府外,各地方政府和部門以至商業機構,都希望能進行跟自己相關的輿情監測,幫助各機構編寫相關程式、挖掘數據,並進行分析的輿情公司亦應運而生。

在過去三、四年間,中國大陸抗爭性網絡事件的發生頻率和產生的影響,比之前幾年少得多。很多學者認為輿情監測就是主要原因之一,因為輿情監測使政府部門可以迅速回應網絡現象,「防患於未然」。《人民網》便提出了「黃金4小時法則」,認為政府要在突發事件發生後4小時內有適當回應,定義事件,並搶到網絡輿論的主導權。

在過去三、四年間,中國大陸抗爭性網絡事件的發生頻率和產生的影響,比之前幾年少得多,很多學者認為輿情監測就是主要原因之一。(網絡圖片)

不過,這也代表,中國的輿情監測,並非先讓輿論出現,然後嘗試聆聽和了解;而是在輿情有異時,運用各種方法避免負面民意的爆發。所以,也有學者指出,通過輿情監測來防範網絡事件,結果只是使得民意得不到適當的表達和抒發。北京大學胡泳教授的說法,是「輿情消滅了輿論」。

無論如何,大數據除了是一個現象或一種潮流之外,也可以成為一種社會控制的手段,不止是研究者,公民對此也應該有所警覺。

(本文章純屬作者意見,不代表香港01立場。)