【開放數據】重量也要重質?齊看政府數據如何玩殘大學生

撰文:梁逸風 林炳坤
出版:更新:

政府鼓勵「開放數據」但有時好心「好心做壞事」,將開放給公眾的電腦檔案加工成PDF和圖像等檔案,結果不時弄巧反拙,令使用者需要花更多時間想盡辦法撮取所需資料。
《香港01》邀請大學生嘗試利用政府開放數據做功課,齊看同學如何應對。

資料需方便軟件閱讀而不是人

政府不少資料的檔案格式不利市民使用,例如將資料加工成PDF檔案、圖像檔案,結果「好心做壞事」,令使用者需要花更多時間想辦法撮取資料。

以PDF檔為例,這種格式分為純圖檔,以及文字檔,但資料被複製後,難以保持原有排位;試算表內中加有標題和備註,儲存格之間會有空行,某些儲存格又被合併,有時更會在數字旁加星號在備註,由稅務局提供的博彩稅收入統計就犯下以上錯誤。

此外,雖然政府統計處提供大量統計數字,但在「資料一線通」網站中亦畫蛇添足地提供546張以GIF圖像檔案格式儲存的折線圖,檔案解像度僅為408x326像素。用家需要額外花時間自行抄寫,整理資料後再另行輸入電腦。

其實電腦檔案格式質素有高低之分, 「互聯網之父」柏納斯李爵士(Sir Tim Berners-Lee)亦有創立「開放資料五星標準」,PDF和EXCEL檔案分別僅為一和兩星。政府應顧及開發者,提供至少三星級的資料,如CSV、XML、JSON等文字檔案格式,這些資料不像DOC和XLS等格式為微軟公司所擁有,檔案結構亦一致易明,方便電腦快速和大量「閱讀」數據。