【人工智能．一】AI學習靠他們　數據標註員究竟是什麼？　

數據標註員可謂近年伴隨人工智能衍生的新職業，如今在業界和學界都有共識：優質的數據是人工智能的基礎，人工智能產業帶動數據服務需求，未來這行業還需要海量的數據。數據並非憑空而出，你用鍵盤敲下的每個字，隨手用美顏相機拍的自拍照，工作日高峰期塞車的場景，無論是圖片、語音或其他形式，都可以成為產業鏈所需的「食材」——數據。這些原始「食材」，需要篩選、辨識、打上標籤，經過加工後餵食給機器，才能使機器具備智能。這個過程正是成千上萬的「王利利們」正在從事的行業。他們拿到數據，用一個個點、線、框，描繪和制訂具體的標準與定義，教會機器什麼是眼睛、鼻子和嘴巴。此乃《貴州大數據》專題報道之四

貴州盛華職業學院的學生，在課餘時間來到夢動科技公司當數據標註員實習生。（梁鵬威攝）

22歲的王利利是貴州一所職業學校的大三學生，學市場營銷專業。早上起床，她習慣拿起手機，用語音輸入搜索天氣和新聞，手機根據語音要求，自動讀出頭條新聞。王利利是畢節黔西人，有時候在宿舍講方言，手機的語音識別也暢通無阻，「我不知道是經過怎樣的處理，感覺真的很神奇。」神奇與滿足感交織於王利利的心中，她知道手機上的語音輸入功能，離不開自己的工作。她不僅是一名即將畢業的大三學生，還是有着兩年多工作經驗的數據標註員，是隱匿在人工智能浪潮中，站在人工智能背後的人。

根據2017年「普華永道」發布的人工智能預測，直至2030年，人工智能產業帶來的全球經濟效益總計將達15.7萬億美元（約122萬億港元），其中中國AI效益的GDP佔比為26.1%，高達7萬億美元（約55萬億港元），屬於全球第一。人工智能已經進入信息處理、零售、金融、城市治理、教育、醫療、工業製造及智能家居等領域，未來還將鑽進人類日常生活的方方面面。這個產業的興起，不僅標誌着科技水平的飛躍，產業鏈下游亦激發人們對數據市場的重視，重新形塑勞動密集型產業。

人工智能浪潮方興未艾，預料未來五年的數據需求持續上升，人力和人才都成為箇中關鍵。（梁鵬威攝）

人工智能背後的人

距離貴陽市區約一個多小時車程的黔南州百鳥河數字小鎮，正以數據服務吸引大眾關注。貴州盛華職業學院約於2009年成立，隨着一代代信息技術浪潮席捲，學校目前正依託人工智能、VR技術發展來確立專業領域。除了王利利，還有許多學生在課餘前往來離學校不遠的夢動科技實習，從事數據標註的工作。

2013年左右，王利利還在讀高中，第一次聽到「大數據」三個字。那時候她走路上學，心裏琢磨着，要是能通過大數據記錄步行時間，根據數據調整步伐就好了，「那時候覺得大數據是用來解決一些問題的」。考上貴州盛華職業學院後，在大一上學期碰巧聽到「大數據+俱樂部」的宣講會，好奇心終於萌芽，她成為了夢動的實習生。兩年前剛成為數據標註實習生時，接手的任務比較簡單，屬於眾包項目的圖片分類，「用鼠標點、點、點就可以了」。剛開始做起來非常快，一天能做幾千張，結算方式公開透明，三天時間就拿了幾百塊錢，對王利利而言，那是一種「標得很上癮的感覺」。王利利的父母都在老家務農，生活負擔沉重。讀大學後，王利利能夠自己承擔生活費，有時剩下的工資還能補貼家用。數據標註的工作多做多得，她有一股衝勁。

眾包項目不穩定，有數據的時候才有工作。她大二做了語音項目後，工作就變得穩定了。現在的項目大多是電腦視覺和語音識別的任務。語音識別的項目，有時一天工作七小時，標註的有效時段只有一小時，音頻裏面包括很多嘈雜的場景，對於訓練算法來說，什麼都需要考慮。比較累的標註任務，或許屬於人臉識別。根據客戶需求會有不同的標註方法，複雜的情況下，需要在一張臉上標註超過100個點。眉毛、鼻子、嘴唇和臉頰等不同部位的標註數量都有明確規定，臉部線條上的點距需要均分。這種任務費時較久，一天可能只標示50張圖。

如今人臉識別已經是最為廣泛的應用場景之一。例如進入京東的無人超市，需要先在京東App上傳個人相片，進入超市通過攝影鏡頭檢測匹配面容後，方可進入。不僅零售業，城市治理或安全防範領域已經開始應用人工智能的人臉識別技術。其中最知名的人臉識別，包括過馬路時通過攝影鏡頭識別亂過馬路的行人。深圳市於2017年4月啟用「智能行人闖紅燈取證系統」，一年內抓拍行人闖紅燈事件近14,000宗。被抓拍到不良行為的人，經過系統識別、後台分析數據信息後，其人像圖片會於馬路邊的屏幕上實時曝光。

數據標註員王利利認為，能投身大數據潮流中，是神奇的事。（梁鵬威攝）

王利利積累了豐富的標註經驗，現在已經成為審查環節的負責人，有時候其他人標得不夠好，她便說，「你自身幻想一下，如果刷臉的時候，別人把你的錢用完了，你是不是很心疼。」看到AI應用出事，她也會感到難過。曾有車禍原因來自自動駕駛系統無法識別某些場景，這與數據標註場景不夠全面不無關係。

除了家鄉的縣城，王利利去過最遠的地方就是貴陽了。「我去（貴陽市區）醫院的時候會坐公交，從玻璃窗看到外面播放大數據，用數據分析貴陽租房、哪裏的人密集或不密集、交通會不會擁擠，還會出現哪裏住房標稀疏，幫人找工作……我覺得大數據真的很神奇，能夠利用數據，把貴陽市的情況都展現在一個屏幕上。我看到的時候，感覺很欣慰。」王利利的笑容明朗，「人工智能發展在風口浪尖上，相當於我們已經站在前端了。」

事實上，人工智能市場的確在迅猛膨脹。根據中國信息通信研究院的數據，2017年中國人工智能領域市場規模達216.9億元人民幣，與2016年相比增加52.8%。在技術領域佈局上，電腦視覺領域更是「拔得頭籌」，佔有37%。

近五年人工智能企業在2016年漲幅最高，初創企業數量超過340家，而主攻數據分析類的企業就佔據四成。（梁鵬威攝）

有多少人工，就有多少智能

業界廣泛流行一句話，「有多少人工，就有多少智能」，這句話也被王利利記在心裏。人工智能的時代，的確不能忽略智能是由「人工」（在背後工作的人）鋪墊而成的。

近五年，中國人工智能企業數量迅猛增長，逾1,500家AI公司先後誕生，其中2016年漲幅最高，初創立的企業數量超過340家，而主攻數據分析類的企業就佔據四成。不少AI數據服務科技公司在這兩年拿到了超過千萬元（人民幣）級別的A輪融資，能夠提供整天數據服務的公司，包括數據方案的設計、數據採集與標註等，已能獲得過億的A輪融資。

AI基礎服務供應商倍賽（BasicFinder）便是乘着行業潮流，分得一杯羹的數據服務公司。倍賽的創辦人杜霖在大學期間，就讀於上海交通大學最好的電腦班，他在大學就培養了對電腦視覺的熱愛，並利用數據挖掘技術做了搜索引擎營銷的工具，通過創業撈得第一桶金。那是人工智能還未成為熱潮的時候。

（梁鵬威攝）

杜霖回憶道，2014年國內的深度學習技術興起，當時他與同伴花了六個月時間做了一個實驗，訓練模型用了兩個月便取得綜合識別率高達90%的客觀結果。他意識到剩下三分之二的時間，都是用來採集有效數據，並對數據進行分類和標籤，還需要找人負責處理數據，不斷迭代後才能訓練出穩定的模型。

那時起，杜霖的團隊發覺要將數據作為人工智能行業的入口。「技術是會隨着時間的發展，成本愈來愈低的，但真正的門檻是數據，我們認準當時deep learning（深度學習）是基於supervise（監督）。」所謂的監督，是電腦需要人來教很多東西，「我們認準這個算法在短時間內不會取得重大突破，所以當時就在探索可以做什麼。我們預測數據量一定會膨脹，需求一定會成指數級地爆發，每個行業都會有數據梳理和打標籤的需求，以及整個（數據）生命周期管理的需求。」2017年，倍賽科技正式對外運營，如今已經獲得兩輪融資，2018年至今，數據業務已經有十倍以上的增長。

「那時候還沒有把AI領域的數據重視起來，但我們看到，真正的AI是由數據堆起來的。那會兒大家都覺得模型和技術是門檻，其實最終大家已經發現，數據是真正的門檻，因為所有做模型的公司，都在積累自己的數據，而且行業裏模型差異不是非常大。」杜霖表示。

曾有交通事故的原因是自動駕駛系統無法識別部分場景，數據標註場景的工作不可小覷。（梁鵬威攝）

數據是一個絕對的門檻。杜霖透露，現在做人臉識別的大公司，人臉數據量起步都是過億的，若只有幾十萬人臉數據想做一個start-up（初創公司），「你連門都擠不進去」．

海量數據都能直接用來訓練模型嗎？事實上，非結構化的數據，屬於一種負文本、負媒體，而結構化指的是一種關係型的數據。如果只是單純拿到一張相片，便屬於非結構化數據，需要通過打標籤的方式來處理這些數據。杜霖表示，一般只有30%的數據不需要打標籤，而一開始模型都是由打標籤的方式串連起來的。

「AI行業是離不開打標籤的數據，數據誰來打標？一定是人來打標，一定是人把自己對於事物的理解交給電腦，你可以理解成是一個基於統計學的模型，統計學的模型裏面，你只有見過的樣本數愈多，理解能力愈強，用人的理解來說，就是見多識廣。」杜霖解釋。以一個停車場的圖片場景為例，數據標註員會將密密麻麻的車輛分門別類，儘管圖片像素不高、車輛重疊難以辨別，都能細緻地打上標籤。

夢動科技公司數據標註員的電腦屏幕。（梁鵬威攝）

數據標註是勞動密集型產業

深度學習的場景愈發複雜，數據需求量不斷增加，愈來愈多人加入數據標註員的隊伍，儘管他們有如隱形人一般，很少被人看見。事實上，多家數據公司的負責人向我們證實，這兩年的數據需求的確如大爆炸般增長。遍布全國的數據工廠或小作坊，也如雨後春筍般野蠻生長，大家都想搶佔先機，分一杯羹。

一開始科技巨頭會組建自己的數據團隊，但因數據需求量飛速增加，他們必須將任務外判出去。因此也催生了更多數據標註工廠。但也有初創公司會組建自己的團隊，負責自己的業務。杭州一家無人駕駛初創公司，便有70人左右的數據標註團隊，工作量穩定，每日標註量達到2,400個。

數據標註工廠或小作坊，更多集中於能滿足低廉勞動力的三、四線城市，例如河北、河南、山東、山西等的城市。數據標註員一般也有大專學歷水平，有時甚至連本科生也會從事這個行業。甚至有說法是，有些小作坊的老闆，在街上找十個人就能成立一間公司。目前行業內沒有明確的從業者數據，但據估計，應該至少有十萬人成為全職的數據標註員。

據統計，目前至少有十萬人投身數據標註員行業。（梁鵬威攝）

另一種方式是數據眾包。位於北京的龍貓數據公司亦於2016年正式進入AI領域，推出數據眾包服務平台。龍貓的市場負責人康萌表示，目前App的用戶數量已經達到500萬人，用戶散落全國各地。這是一種快速、便捷地積累數據的方式，包括語音或不同場景的採集和標註。

一般的數據標註流程是由科技巨頭將任務外包給數據服務公司，數據服務公司或者再分配給下游的數據工廠或小作坊。經過層層分包，數據標註員拿到的薪金並不多。「（這個工作）就像在富士康工作。」香港大學社會學博士黃丹對數據標註行業進行初步調研時，有數據小作坊的老闆這麼描述這個行業。她指出，數據標註是一種低收入的行業，並且枯燥無聊，「他們會說自己的工作和富士康工人沒有區別。」黃丹問一位曾經做過數據標註的人，離開這個行業的原因，對方拋下三個字：「快瞎了。」

曾經做過數據標註的人，離開的原因是「快瞎了」。（梁鵬威攝）

要撈一桶金並不容易，行業存在的另一個問題是流動性強，很多小作坊的員工做了一段時間便離開了，老闆們都很着急。進入市場太快，接不到任務、拿不到資源，很容易變成一份朝不保夕的工作。「他們就是朝不保夕者，不穩定無產者，工作沒有了就再找一個。」黃丹說。

天津大學人工智能學院朱鵬飛教授長期關注AI領域，他指出，「數據在人工智能領域，相當於勞動密集型的產業。整個數據產業，如果拿未來三年有一千億產值來說，這裏面大概有10%的工作屬於數據採集、清洗、標註、加工。」朱鵬飛打了個比方，「現在中國有很多數據工廠，它和之前加工襯衫、紡織是差不多的，只不過他們操作的對象變成了數據。」海量數據難免會有質量參差不齊的問題，香港大學新聞及傳媒研究中心副教授傅景華指出，如何保證標註質量？雖然會有質量檢測，但若控制不得當，數據可能會產生問題。

延伸閱讀：【人工智能．二】躲在AI背後　數字勞工無保障最易被取代？

上文節錄自第139期《香港01》周報（2018年11月26日）《站在風口浪尖教人工智能學習的人》。

重溫《貴州大數據》系列文章：【大數據．一】用大數據重新定義人　當經濟窮省貴州遇上高科技【大數據．二】數據鐵籠管人管事　大數據非收集私隱？【大數據．三】數字化時代爭議四起　社會惡果有待分解

瀏覽更多周報文章︰【01周報專頁】《香港01》周報各大書報攤及便利店有售。你亦可按此訂閱周報，閱讀更多深度報道。

【人工智能．一】AI學習靠他們 數據標註員究竟是什麼？

【人工智能．一】AI學習靠他們　數據標註員究竟是什麼？