【開放數據】政府「資料一線通」7成資料屬水份 一圖睇清有啲乜

撰文:梁逸風 簡浩德 林炳坤 蕭輝浩
出版:更新:

近年世界各地力推智慧城市,港府亦努力追隨潮流談開放數據。2015年《財政預算案》,政府宣布以數碼格式免費發放公共資料,而「資料一線通」網站亦於同年3月革新。
截至現時網站有6,751項資料,不過《香港01》逐項資料深入分析後,發現當中不少是「水份」,例如同一項資料的中文繁體、簡體和英文版本分拆成3項資料;又或是同一項資料按年份或月份分拆上載網頁。另外,網站內有不少資料的檔案格式令市民難以使用。
剔除內容重疊的「水份」後,真正的資料僅餘2,000多項。

資料整理:李樂欣、劉愛霞、鄭曉琪、梁節儀

註:記者在2月5日統計「資料一線通」在開放源碼軟件CKAN上建立的數據集目錄,計算出當時網站上有139個PDF檔案。及後記者於2月24日與資科辦總監楊德斌進行專訪,訪問中楊德斌曾指PDF檔案為「machine readable(機器可閱讀)」。訪問後記者於3月3日再以相同方式統計網站資料數目,並無發現任何PDF格式文件。不過記者於3月16日中午12時統計,發現「資料一線通」其他文件一頁內有1,296個PDF檔案。

資科辦於3月16日晚上7時39分補充,今年開始重組「資料一線通」網站內PDF格式的資料,其中1,000個檔案於1月28日被移至「資料一線通」其他文件一頁;另於2月9日將餘下130個PDF格式資料移至「資料一線通」其他文件一頁。

手機App用戶請 按此 觀看互動圖表

自2011年起,政府將公共資料放上「資料一線通」(data.gov.hk)入門網站,內容包括實時交通資訊、天氣資料、公共交通工具路線及收費等,供市民免費下載使用,甚至可免費作商業用途。

政府開放數據網站 7成資料「發水」

登上「資料一線通」網站,你或會被琳瑯滿目的資料淹沒。不過,資科辦只是搬字過紙式將各部門的電子文件上載網站「開放數據」。網站除了常用的試算表外、還充斥不少圖片、影片、新聞稿、網誌、年報等其他材料。其中建築署上載了政府45座精選建築不同角度的相片,合共810張圖像檔案,已佔總資料數目至少11.9%。

單是和合石火葬場以及和合石橋頭路靈灰安置所和紀念花園,就合共有29張相片。

圖為建築署的「開放數據」:和合石橋頭路靈灰安置所和紀念花園圖片,而建築署共開放了810張政府建築物圖片,佔開放數據資料逾一成。(建築署圖片)
+1

政府部門亦將同一項資料的各種語言版本、或不同時期的資料分拆成多項數據。以空氣質素健康指數為例,環保署將記錄逐個月上載,並將每月記錄的繁體中文、簡體中文和英文3個版語版本分拆成3項資料。這項數據由1999年7月至去年9月,合共已累積450個檔案,佔網站的6,751項資料的6.7%。

+3

資料只是「報告」而非「數據」 更多資料收在枱面下

現時不少政府開放的數據大多已預先處理,不一定提供分項數字,限制了這些數據的可塑性。以海關提供的「出入境管制站旅客流量」數字為例,數字只列出2013年到15年部分出入境管制站旅客流量總和的數字,但每小時人流變化、旅客國藉、性別比例、年齡層等均欠奉。資料愈多樣愈仔細,會有利民間智慧作出過去意想不到的實用深入分析和調查。

此外,「資料一線通」並未集合所有部門的公開資料,各部門會另行透過不同渠道發放資料。以過境人數為例,運輸署、入境事務處、立法會分別有文件公開郵輪碼頭、各管制站平均每日抵港及離港旅客人次、過境穿梭巴士乘客人次、車輛交通流量等詳細資料,但格式為最低等的PDF,部分更只以折線圖方式顯示,市民需花費功夫才能撮取數據。

除此以外,由多個政府部門聯合提供數據的「地理資訊地圖」,上有法定古蹟、流動電話網絡覆蓋、遠足路線、文化和運動設施、學校、圖書館及醫院等大量空間資料,又有區議會選區或校網向量圖形格式(Shapefile)資料,但卻沒有提供API供嵌入用家自行編寫的程式,令數據無法善用。

政府做得差? 政府資訊科技總監:網站優化無止境

資科辦:不只追求數量

負責維護「資料一線通」網站的政府資訊科技辦公室回應指,辦公室並非只追求開放數量,而會收集公眾及業界意見,了解其需要及面對的問題,再與相關部門商討。

此外,政府部門在開放個別資料前,會作全面和詳細的考慮和安排,包括資料是否對社會有用、或涉及部門內部運作、敏感和私隱等資料,亦會考慮額外的處理過程會否加重部門負擔。