《華中師范大學:2018年度中國政府開放數據利用研究報告(44頁).pdf》由會員分享,可在線閱讀,更多相關《華中師范大學:2018年度中國政府開放數據利用研究報告(44頁).pdf(44頁珍藏版)》請在三個皮匠報告上搜索。
1、2018 年度中國政府開放數據利用報告華中師范大學信息管理學院湖北省數據治理與智能決策研究中心國家社會科學基金重點項目(17ATQ006)課題組2019 年 7 月版權聲明本報告版權屬于華中師范大學信息管理學院及湖北省數據治理與智能決策研究中心,受國家社會科學基金重點項目“基于全生命周期的政府開放數據整合利用機制與模式研究”(項目編號:17ATQ006)資助。凡轉載或引用本報告的觀點、數據等,請注明“來源:華中師范大學信息管理學院、湖北省數據治理與智能決策研究中心”。前言數據資源作為國家戰略性資源,是支撐國家治理體系和治理能力現代化的重要基礎。隨著我國信息化發展水平的日益提高,政府、公眾和企業
2、對政府數據資源的采集、挖掘、組織、治理和應用也不斷深化。政府開放數據不僅在于公開政府數據的數量,更在于它的利用1。能否將開放后的數據進行有效的利用,才是使數據發揮其價值的關鍵。因此,在依法依規的前提下,政府應最大限度地開放所掌握的數據資源,調動社會參與主體的積極性,充分利用數據資源,釋放數據價值。2018 年我國政府開放數據工作重點逐步從建設轉變為建設利用兼顧。1 月,中央網信辦、發展改革委、工業和信息化部聯合印發公共信息資源開放試點工作方案,確定在北京、上海、浙江、福建、貴州開展公共信息資源開放試點。針對開放工作中平臺缺乏統一、數據缺乏應用等問題,政府要求試點地區建立統一開放平臺,鼓勵通過政
3、府專項資金扶持和數據應用競賽等方式,支持社會力量利用開放數據開展創新創業,促進數據的社會化利用2。2015 年國務院出臺的促進大數據發展行動綱要要求在 2018 年底前建成國家政府數據統一開放平臺,并開展政府和社會合作開發利用大數據試點,完善金融、稅收、勞動就業、收入分配等領域國民經濟相關數據的采集和利用機制,推進各級政府按照統一體系開展數據采集和綜合利用。因此,對我國政府開放數據利用的情況進行分析,有1馬仁杰,金一鼎.價值實現視角下政府數據利用路徑研究 J.圖書館學研究,2018(13):18+39-44.2中央網信辦、發展改革委、工業和信息化部聯合開展公共信息資源開放試點工作 EB/OL.
4、2019-05-23.http:/ 年的 19 個新增至 2018 年的 62 個。2018 年政府開放平臺的開放數量顯著增加,在建成國家政府數據統一開放平臺的道路上更近一步,試點工作進展順利,為提高政府數據使用效益打下了堅實的基礎。但當前以開放為主要目標的格局缺乏形成對政府數據有效利用的目標導向,已開放的政府數據存在不好找、不好看、不好用等問題。在此背景下,對我國政府開放數據的利用現狀進行分析和評估,通過典型樣本研究,對照相關政策要求和公眾需求發現問題,并提出對策,有助于推進全國范圍內政府數據資源開放與利用?;诖?,華中師范大學信息管理學院與湖北省數據治理與智能決策研究中心聯合發布國內首個政
5、府開放數據利用報告2018 年度中國政府開放數據利用報告(以下簡稱報告)。報告由華中師范大學信息管理學院與湖北省數據治理與智能決策研究中心基于多年科學研究積累和數據的監測分析制作完成,受到國家社會科學基金重點項目“基于全生命周期的政府開放數據整合利用機制與模式研究”(項目編號:17ATQ006)的資助。報告將政府開放數據的利用主體界定為政府、公眾、企業,主要從利用行為、利用效益等方面對主體的利用情況做了具體分析,并對利用數據的典型案例深入剖析,以期增強對政府開放數據利用的認識,為政府數據的有效利用提出合理化建議。1 緒論 11.1 利用背景、意義與作用 11.2 利用定義 21.3 年度主要政
6、策 32 平臺主要內容 62.1 平臺建設 62.2 數據集主題 83 利用行為分析 143.1 利用行為概況 143.2 瀏覽行為分析 153.3 下載行為分析 163.4 利用行為綜合分析 174 利用效益分析 214.1 利用效益綜合評價 214.2 數據開放度 244.3 數據可持續性 254.4 數據可利用性 275 利用案例 295.1 政府層面 295.2 公眾層面 305.3 企業層面 316 結論與對策 336.1 總結 336.2 存在問題 346.3 對策建議 35附錄 391.1 樣本選取與數據采集 391.2 工具選取與研究方法 39目 錄2018 年度中國政府開放數
7、據利用報告11 緒論1.1 利用背景、意義與作用大數據時代,數據資源在國家政治、經濟、社會等方面的發展中扮演著至關重要的角色,其價值也隨著數據量的不斷擴大以及數據類型的不斷豐富而日益凸顯。政府開放數據在促進國家發展、社會進步上具有不可替代的重要作用。1.1.1 利用背景政府開放數據運動在全球范圍內迅速興起,世界各國政府相繼實施政府開放數據計劃,旨在通過網絡門戶或平臺共享開放政府數據。政府機構往往是交通、健康和環境等多個領域中領先的創造者和數據收集者。政府通過開放數據計劃共享數據資源,并鼓勵數據利用主體開發新產品和服務。對于我國而言,2018年是 促進大數據發展行動綱要中要求的開展政府、社會合作
8、開發利用大數據工作的試點年,是推進各級政府按照統一體系開展數據綜合利用的啟動年。大數據作為人工智能發展的重要基礎,云計算作為人工智能發展的重要推動力,機器學習作為人工智能發展的重要條件,三大支撐促進了以人工智能為代表的新一輪信息科技和產業變革。這一變革為推動政府開放數據利用提供了廣闊的思路,在帶來政府職能轉變的同時,也使得公眾需求發生了變化。政府數據是實現“宏觀調控、經濟監管、社會管理、公共服務、生態保護”五大核心職能的基礎,是實現跨地區、跨層級、跨部門、跨系統的數據共享和流通的關鍵所在1。1.1.2 利用意義政府開放數據的充分利用和挖掘具有重要的社會意義,能夠創造社會價值、推動社會創新,實現
9、經濟和社會效益。政府數據具有體量大和可靠性高等特點,蘊含極大的社會價值,需要通過應用程序接口、競賽、智慧城市等各種方式對開放數據充分利用。上海連續四年舉行 SODA 開放數據創新應用大賽,每年都有許多成功的開放數據應用產品產生。例如,參賽者融合政府開放不同的旅游相關的數據資源,研發設計的“數游長三角”全域旅游大數據平臺,為政府提供全景監控、為景區提供實時檢測、為公眾提供長三角的旅游推薦,創造了極大的社會和經濟價值。同時,政府開放數據的利用有利于實現社會的可持續發展。社會各項活動的開展都離不開政府數據的支持。公眾的交通出行、醫療健康、勞動就業、教育文化、環境保護等都需要政府數據。智慧城市建設也需
10、要開放政府數據,如阿里 ET 城市大腦依據城市交通體檢、城市警情監控、城市交通微控、城市特種車輛、城市戰略規劃等場景需求,充分利用政府開放的各類數據,解決杭州交通擁堵等問題。此外,政府開放數據的利用在改變人們的生產方式、生活方式和思維方式上具有重大的實踐意義。政府開放數據利用的過程實質上是政府數據資源再加工的過程,能夠增加全社會數據資源的豐富程度和使用價值。社會對政府所開放的數據進行開發和利用,有1翟云.重塑政府治理模式:以“互聯網+政務服務”為中心 J.國家行政學院學報,2018(06):128-132.緒論緒論2助于制定和改進開放政府數據政策,有利于將企業的生產方式從業務驅動轉變為數據驅動
11、,在此過程中,也改變了人們看待、接收和使用數據驅動的產品和服務的方式。1.1.3 利用作用(1)助力科學預測、實現精準決策通過對政府數據的有效整合、共享開放和深化利用,提高政府數據的關聯分析能力,有利于實現“用數據預測、用數據決策、用數據治理”的政府管理機制,實現基于數據的科學預測和決策,構建數據驅動的國家治理體系,推進國家治理能力現代化。在數據相對缺乏的時代,政府決策者在預測事物發展趨勢時主要結合自身知識和經驗基礎,本質上是一種經驗式決策1。通過開放的政府數據,政府可以基于全面準確的數據做出科學的分析,從經驗式決策走向科學式決策,及時識別公眾需求,從而更加精確地預測和決策。(2)優化業務流程
12、、提高服務效率政府開放數據有助于優化企業業務流程,提高政府的服務效率。政府發布開放數據后,企業通過快速尋找并掌握開放的數據資源,利用已有的數據分析和處理能力,將數據轉換為有利于事務決策的有效信息,從而優化企業的業務流程。此外,政府開放數據催生了一些企業通過提供第三方數據服務盈利2。這類企業1劉曉洋.思維與技術:大數據支持下的政府流程再造 J.新疆師范大學學報(哲學社會科學版),2016,37(2):118-125.2夏義堃.企業開放數據再利用的困境與對策分析 J.電子政務,2018(8):69-80.本身并不創造數據,而是通過搜集整合數據,搭建數據交易平臺,以方便公眾利用的方式滿足其數據需求。
13、例如,眾多微信公眾號及 APP 充分利用工商部門的企業信息為公眾提供企業登記信息查詢服務,通過地鐵及公交線路信息的再利用提供查詢、提醒、電子票進站等服務,在方便公眾的同時提高了政府的服務效率。(3)創新服務模式、推進數據賦能政府開放數據利用通過政府和企業服務模式的創新,推進數據賦能。政府開放數據對于政府服務模式的創新,不僅體現為政府數據的全面整合、政務資源全面共享,行政組織結構、服務流程的優化,更為重要的在于政府服務理念的轉變。政府通過對海量數據的深度分析與挖掘,主動識別公眾的服務需求,打破政府各層級各部門之間的邊界,提供無縫服務。以行政管理理念的轉變和行政組織結構再造為基礎,創新政府服務模式
14、。企業根據自身運營需求,利用政府開放數據并整合自身掌握的其他數據,開發相關應用進行創新,以滿足和提升企業業務需要;或根據欲解決的企業問題,將企業自身數據向社會開放,通過舉辦數據應用大賽,吸引公眾或其他企業進行數據開發利用,提出解決方案。通過對企業全方位、深度、動態、持續的改造,使企業能夠不斷迭代、升級、轉型、優化、創新,提升業務的數據化水平和數據的業務化水平,實現真正的數據賦能。1.2 利用定義政府開放數據是指由政府、政府委托和控制的實體產生的能被任何人自由地利用,再利用和再分配的2018 年度中國政府開放數據利用報告3數據。政府開放數據運動以 2009 年美國奧巴馬政府簽署透明政府備忘錄為興
15、起標志,而后國內外政府和學術界對其高度重視。據 2016 年 4 月發布的“開放數據晴雨表”全球報告(Open Data Barometer)顯示,全球已有 114 個國家加入了這一行列。我國以 2012年“上海市政府數據服務網”的上線試運行為開放數據的標志,截止 2018 年 12 月,全國共有 31 個省級政府建立了地方性政府開放數據平臺(港澳臺地區除外)。從政府部門高度重視政府開放數據以來,政府開放數據的利用也隨之成為研究熱點。政府開放數據與利用是政府部門針對在職能履行過程中所存儲的各種數據面向公眾、企業等開放,供其使用及研究。本報告所提出的政府開放數據利用是指已開放的數據資源滿足人們需
16、求和利用的情況與程度,其本質是資源的有效配置和使用。對于政府開放數據利用的定義,還可以從四個角度去理解:從政府的視角來看,政府開放數據旨在促進促進政府的開放與透明,將具有公共利用價值的數據及時向社會公眾開放。目的是方便公眾使用、促進企業創新、改善公共服務;從利用者的視角來看,開放數據的主要利用主體是社會公眾、企業、社會組織和政府機構,目的是實現數據的增值利用;從利用者的目標來看,社會公眾對于政府開放數據的利用目標主要包括:通過某個數字或者文字信息得到某種事實;將數據轉為可視化的圖標用來提供信息;通過新的界面相互獲取數據并發現更多的數據集;共享整合一些處理過的數據;將數據隱藏在后臺用來服務于某些
17、場景;從利用的方式來看,政府開放數據倡導直接以數據集的形式通過互聯網提供瀏覽和下載,也有其他的方式如對公眾開放API(應用程序接口),提供查詢接口,鼓勵社會進行二次開發,還可以直接提供基于政府數據的應用軟件。1.3 年度主要政策1.3.1 國家政策取向隨著信息技術的高速發展,政府開放數據成為國家重要的基礎性戰略資源。我國也不斷加強對政府開放數據發展的頂層設計,相繼制定了一系列關于政府開放數據的政策,對促進我國政府開放數據的發展有著重要而深遠的意義。2018 年度我國出臺的國家層面的政府開放數據相關政策共計 9 條,為歷年最高。政策內容目的主要包括提升政府網站管理水平和政務服務能力,建設整體聯動
18、、高效惠民的網上政府;進一步推動社會公益事業建設領域政府信息公開工作,推進國家治理體系和治理能力現代化;進一步加強和規范科學數據管理,保障科學數據安全,提高開放共享水平,更好支撐國家科技創新、經濟社會發展和國家安全;做好政府公報工作,著力將政府公報打造成權威、規范、便民的政務公開平臺;大力推進決策、執行、管理、服務、結果公開,不斷提升政務公開的質量和實效,推動轉變政府職能、深化簡政放權、創新監管方式,促進經濟社會持續健康發展,助力建設人民滿意的服務型政府;全面貫徹習近平新時代中國特色社會主義思想和黨的十九大精神,落實黨中央、國務院關于推進依法行政、建設法治政府的部署和要求,切實保障群眾合法權益
19、,維護政府公信力;進一步深化“互聯網+政務服務”,充分運用信息化手段解決企業和群眾反映強烈的辦事難、辦事慢、辦事繁的問題;緒論4為深入推進“放管服”改革,全面提升政務服務規范化、便利化水平,更好為企業和群眾提供全流程一體化在線服務,推動政府治理現代化;推動政務新媒體健康有序發展,政策詳情見附錄。本節通過文本分析的方式分析 2018 年度我國政府出臺的政府開放數據相關政策,得到政策文本高頻詞分析結果,如表 1-1 所示。報告發現“服務”一次共出現444次,頻率為2.0434;“平臺”一詞共出現 208 次,0.9572;“公開”一詞共出現183次,頻率為0.8422;“管理”一詞共出現173次,
20、頻率為 0.8808。結合以上 9 條政策的主要目的,可以看出我國 2018 年度對于政府開放數據的戰略重點主要為政府開放數據的平臺建設與管理,更好的利用政府開放數據;同時力求全面高效的進行政府信息公開,其主要目的為建設人民滿意的服務型政府,增強公民對政府開放數據的利用,維護政府的公信力。1.3.2 地方政策取向為響應國家政府開放數據戰略,加快各地區政府開放數據發展,各地紛紛出臺針對本地區的政府數據發展行動和規劃,呈現出從中央總體規劃逐漸向省級政府部門延伸的趨勢。目前,已有 31 個省級政府出臺表 1-1 國家政府開放數據政策文本高頻詞(出現頻率 0.2500)序號字詞出現頻次出現頻率序號字詞
21、出現頻次出現頻率1服務4442.043414資源810.37282政務4171.919115共享800.36823平臺2080.957216辦事720.33144數據2060.94817發展710.32685信息1960.90218媒體710.32686公開1830.842219推動710.32687管理1740.800820建立690.31758建設1730.796221群眾690.31759社會1370.630522規范660.303710安全1030.47423系統600.276111科學940.432624網站570.262312推進910.418825公報560.257713經濟89
22、0.409626實現560.25772018 年度中國政府開放數據利用報告5了政府開放數據相關意見、方案或規劃等政策文件,呈現出全面開花的格局,為政府開放數據發展營造出良好的氛圍。具體政策內容通過人工篩選結果見附錄。我國各省份 2018 年度關于政府開放數據政策文件數量示意圖,如圖 1-1 所示。為探究我國地方政府對于政府開放數據政策的發展趨勢與取向,同時探究全國各地方政府是否形成以國家政策為中心多點開花全面發展的局面。本節通過文本分析的方式分析 2018 年度我國地方政府出臺的政府開放數據相關政策,得到政策文本高頻詞分析結果,如表 1-2 所示。報告發現“公開”一詞共出現 2073 次,頻率
23、為1.3219;“服務”一詞共出現 1944 次,頻率為 1.2389;“互聯網”和“網絡”分別出現 814 和 795 次,頻率表 1-2 地方政府開放數據政策文本高頻詞(頻率 0.3000)序號字詞出現頻次出現頻率序號字詞出現頻次出現頻率1信息26411.685915建設6760.42792公開20731.321916管理6520.41513服務19441.238917推進6410.40874政務11630.740818規定6080.38325政府11580.734419經濟5900.37686安全10120.64520發布5780.3647負責10030.638621提供5620.357
24、68落實9870.625822債券5620.35769監督8310.5323牽頭5040.319310公共8230.523724網上5040.319311互聯網8140.517325政策5040.319312網絡7950.504526事項4890.306513檢查7890.498127措施4710.300114信用7820.498128加強4710.3001圖 1-1 我國各省份 2018 年度關于政府開放數據政策文件數量示意圖分別為 0.5173 和 0.5045。通過對比國家政策發現地方政府政策取向與國家政策取向有相似的趨勢,表明地方政府開放數據政策緊緊圍繞在國家政策下。同時,現階段政府開
25、放數據政策的重點偏向于網絡建設,尤其是在大數據的環境下,利用網絡來改善政府開放數據的利用情況。平臺主要內容62 平臺主要內容2.1 平臺建設政府開放數據平臺是由政府牽頭,各政務部門共同參與建設的平臺,致力于各政府部門可公開數據的下載和服務,為企業和個人開展政務信息資源的社會化開發利用提供數據支持,推動信息資源增值服務業的發展以及相關數據分析與研究工作的開展?;谖覈_放數據平臺大多數是以“”為域名,因此,本報告以“”為域名進行搜索,截止 2018 年 12 月,全國共有 62 個省、市或區政府建立了地方性政府開放數據平臺(港澳臺地區除外),詳細情況見附件,2018 年政府開放數據平臺地理分
26、布如圖 2-1 所示。本節將從平臺數量、類型、行政級別分布及地區分布四個方面分析 2018 年政府開放數據平臺的建設情況。圖 2-1 2018 年政府開放數據平臺地理分布圖從平臺上線數量來看,2018 年我國新增政府開放數據平臺 36 個,平臺上線數量同比增長 138.46%,當前政府開放數據平臺建設呈現出高速發展態勢。平臺數量的具體增長情況如圖 2-2 所示。圖 2-2 2012-2018 年國內開放數據平臺上線數量與增長率統計圖2018 年度中國政府開放數據利用報告7從平臺所屬的地方政府行政層級來看,目前在已上線平臺的各級地方政府中,市級數量最多達 44 個,省級行政區和副省級城市數量相持
27、,分別為 8 個和 10個。據統中華人民共和國行政區劃統計,全國共有 31個省級行政區(港澳臺除外)、15 個副省級城市和333個地級行政區,其中除副省級城市平臺接近半數外,我國總體上上線政府開放數據平臺的地方占比依舊偏低。具體如圖 2-3 所示。圖 2-3 2018 年國內開放數據平臺行政層級統計圖從平臺類型來看,我國政府開放數據平臺大多為專有式類型,即數據統一匯聚在一個專門的平臺上進行開放,僅浙江、梅州、陽江、肇慶地區的政府開放數據平臺類型為嵌入式,梅州市政府開放數據平臺內嵌于梅州市人民政府網站的“政務公開”欄目,肇慶市政府開放數據平臺內嵌于肇慶市人民政府網站的“用數據”版塊,其專業性和便
28、捷性都落后于專有式平臺。需要特別說明的是,雖然荊門市政府開放數據平臺標題為“荊門市人民政府”,但就其內容和結構看,完全具備專有式平臺的特征,故將其劃分到專有式平臺中。2018 年國內開放數據平臺類型統計詳情如圖 2-4所示。圖 2-4 2018 年國內開放數據平臺類型統計圖從平臺所屬地區來看,我國政府開放數據平臺主要集中分布于華東、華南地區,其中華東地區的平臺數量高達 24 個,占國內平臺總量的 52.17%,華南地區的平臺數量為 12 個,占國內平臺總量的 26.08%,華東華南地區的平臺上線數在全國范圍內處于領先地位。詳情如圖 2-5 所示。圖 2-5 2018 年國內開放數據平臺所屬地區
29、統計圖平臺主要內容8如圖 2-6 所示,結合現有平臺的所屬區域和行政層級可以了解到,平臺總量排名前三的地區分別是華東、華南、華中。其中,華東地區的政府開放數據平臺數量為 29 個,在全國范圍內處于領先地位,值得關注的是,2018 年該地區新增包括濱州、德州、東營等市級政府開放數據平臺共 20 個,占 2018 年全年上線平臺總量的 55.56%,市級平臺建設速度較快,副省級、省級平臺建設速度較緩;華南地區現有政府開放數據平臺共計 15 個,市級平臺建設較省級、副省級平臺具備連貫性,但建設速度進展較為緩慢;華中地區政府開放數據平臺上線總量雖排名第三位,但 2018 年僅襄陽上線了政府開放數據平臺
30、;其余地區現有的政府開放數據平臺總量與 2018 年期間平臺上線數均有待提升??偟膩碚f,2018 年華東地區和華南地區的政府開放數據平臺建設情況較好,并呈現出將建設重點轉移到市級平臺的趨勢,這一趨勢在華東地區表現最為明顯;華中、華北、東北、西南、西北地區平臺建設情況較為緩慢。2.2 數據集主題我國政府開放數據的研究起步較晚,目前僅北京、廣東、貴州等 62 個地方性政府建立了政府開放數據平臺,由于行政級別存在差異,各開放平臺開放數據的側重點與進程差別較大,不適合做全樣本分析。因此,經過多次討論,本報告擬選取廣東、上海、武漢、廣州、哈爾濱、濟南、貴陽和長沙 8 個城市為研究樣本。筆者梳理了上述八個
31、數據開放平臺的主題分類情況,具圖 2-6 2012-2018 年國內開放數據平臺所屬地區與行政層級統計圖2018 年度中國政府開放數據利用報告9表 2-1 部分政府開放數據平臺主題大類分布表平臺主題大類總數主題大類上海政府數據服務網12經濟建設、資源環境、教育科技、道路交通、社會發展、公共安全、文化休閑、衛生健康、民生服務、機構團體、城市建設、信用服務廣州市政府數據統一開放平臺16經濟建設、城市建設、道路交通、教育科技、民生服務、企業服務、健康衛生、資源環境、文體娛樂、機構團體、公共安全、農業農村、財稅金融、勞動人事、信用服務、社會發展哈爾濱市政府數據開放平臺14公共安全、民生服務、經濟建設、
32、文體休閑、教育科技、衛生健康、農業農村、資源環境、道路交通、社會發展、機構團體、城市建設、信用服務、財稅金融貴陽市政府開放數據平臺14生態文明、衛生健康、勞動人事、教育科技、文化休閑、三農服務、交通運輸、公共安全、政府機構、財稅金融、企業服務、信用服務、社會發展、經濟建設開放廣東12資源環境、經濟建設、教育科技、道路交通、社會發展、公共安全;文化休閑、衛生健康、民生服務、機構團體、城市建設、社會資源;武漢政府公開數據服務網12經濟發展、政府機構、農業農村、公共服務、能源環境、教育科技、交通服務、醫療衛生、公共安全、文化娛樂、法律法務、金融服務長沙數據開放11城市管理、建設工程、生育收養、城建住
33、房、自然資源、政府公報、學校教育、醫療衛生、民生服務、社保就業、交通運輸濟南市公共數據開放網20信用、交通運輸、社會保障、地理、教育、生態環境、金融、醫療、衛生、就業、文化、科技、資源、農業、安全監管、質量、統計、氣象、海洋、企業登記監管體如表 2-1 所示。結合現有平臺主題大類的關鍵詞提取結果和詞云來看,關鍵詞權重排名前十的詞語分別是“衛生”、“服務”、“交通”、“建設”、“公共”、“信用”、“民生”、“教育”、“安全”和“財稅”,說明開放數據主要集中在經濟、交通、教育、環保等社會生活領域的各方面。但是,各城市平臺開放的數據主題在數量和名稱上有較大差異,存在同類數據在不同平臺名稱不同,以及不
34、同主題所含的數據同屬一個大類的情況。貴陽與哈爾濱政府開放數據平臺主題大類數量雖然一致,但在具體主題大類上存在不同,如哈爾濱使用的“農業農村”大類標識農業相關數據,而貴陽市政府相應的類別名稱為“三農服務”標識,哈爾濱使用的“交通運輸”大類標識交通相關數據,貴陽市政府相應的類別名稱則為“道路交通”。綜上所述,目前各地的政府開放數據平臺使用的主題分類存在差異,缺乏統一的主題分類標準,在一定程度上阻礙了地區之間政府開放數據的共享與聯通。圖 2-7 2018 年部分政府開放數據平臺主題大類詞云平臺主要內容102.3 數據集數量從國內現有政府開放數據平臺來看,數據集、數據接口和數據應用是平臺開放的主要內容
35、,可以直觀表 2-2 2018 年政府開放數據平臺數據集情況平臺名稱數據集數據接口數據應用數據集總量貴陽市政府開放數據平臺2913480153408開放廣東273194602885武漢政府公開數據服務網220314542271上海政府數據服務網1364646892099廣州市政府數據統一開放平臺123777882023哈爾濱市政府開放數據平臺1062228343349長沙數據開放3202366562濟南市公共數據開放網4772897183392反映出平臺開放數據的規模,2018 年各平臺的數據集情況如表 2-2 所示,其中數據集總量是數據集、數據接口與數據應用三者的數量之和。圖 2-8 201
36、8 年政府開放數據平臺數據集數量統計圖2018 年度中國政府開放數據利用報告11從整體上看,各地平臺開放的數據集數、接口數與應用數呈現不均衡分布,數據應用數量較少。目前貴陽、廣東、武漢所開放的數據集數量排在前三位,開放數據集基數較大,但所開放的接口數占比極??;相比之下,濟南和哈爾濱開放的數據集數量雖少,但所開放的接口數較多。此外,上述平臺所開放的的應用數量遠遠低于數據集數量和接口數量,上海政府數據服務網的應用數最多(89 個),僅占 2018 年上海市開放數據集總量的 4.24%。具體如圖 2-9 所示。2.4 數據集格式開放數據所采用的數據格式應當是開放的格式。開放格式是指文件不需要任何指定
37、或付費的應用程序即可進行訪問,由開放透明的過程定義數據格式標準并且不限制任何人實現其標準。此外,機器可讀性作為開放需具備以下 3 項基本元素之一,要求數據若開放,則應是機器可讀格式。常見的可機讀格式與開放格式,如表 2-3 所示。圖 2-9 2018 年政府開放數據平臺數據集/數據接口/數據應用占比統計圖表 2-3 可機讀格式與開放格式分類表格式開放格式分類可機讀格式xlsx、xls、csv、kml、wms、wfs、txt、rft、xml、json 非可機讀格式pdf、doc、jpg開放格式json、csv、xml、kml、wms、wfs、txt、rtf非開放格式xls、xlsx、odt、do
38、c、docx、pdf平臺主要內容12報告根據BernersLee提出的開放數據五星標準,選取廣東、上海、武漢、廣州、哈爾濱、濟南、貴陽和長沙 8 個城市為研究樣本,對各地區政府開放數據平臺的數據格式進行梳理分級。其中,一星級數據指在互聯網上開放授權以任意格式存在的數據,如 doc、pdf 等格式的數據;二星級數據指可機讀的數據,如xlsx、xls 格式的數據;三星級數據是指以非專屬格式開放的數據,如 csv 格式的數據;四星級數據指的是在三星級數據基礎上利用 W3C 開放標準呈現的數據,如可以提供相應接口的數據;五星級數據則是在以上開放數據標準的基礎上,提供數據發現服務。表 2-4 為各地區政
39、府門戶網站開放數據采用的格式以及分級情況。圖 2-10 為基于 Berners Lee 五星標準的 2018年政府開放數據平臺數據星級統計圖。表 2-4 2018 年政府開放數據平臺數據類型統計表平臺名稱數據資源格式一星級數據二星級數據三星級數據四星級數據五星級數據開放廣東xlsx、csv、xml、json、api、xls、doc41.26%55.29%0.04%3.40%0.00%上海政府數據服務網csv、docx、rar、xml、xls、xlsx、zip5.40%0.86%8.71%85.03%0.00%廣州市政府數據統一開放平臺xls、xml、json、csv1.01%0.18%98.8
40、0%0.00%0.00%哈爾濱市數據開放xls、xml、json、csv7.23%7.53%85.24%0.00%0.00%武漢政府公開數據服務網xlsx、xls、jpg、png、docx、pdf、csv、mdb、swf52.97%13.75%33.27%0.00%0.00%濟南市公共數據開放網xls、xml、json、csv1.68%98.32%0.00%0.00%0.00%貴陽市政府開放數據平臺excel、csv、json、xml、rdf0.00%0.00%100.00%0.00%0.00%長沙數據開放zip、xlsx85.00%15.00%0.00%0.00%0.00%由表 2-4 可知
41、,各地區政府開放數據平臺的數據類型呈現一定的共性與個性。共性體現在上述 8 個地區均無五星級數據,即在開放數據標準的基礎上,未能提供有效的數據發現服務;個性在于各地區政府開放數據類型的分布呈現不均衡狀態。從數據資源格式看,廣東、上海、武漢、貴州的開放數據格式較為豐富,能更好地滿足不同需求的數據使用者更方便快捷地對數據進行增值利用;而長沙地區的政府開放數據格式僅有 zip 和 xlsx,數據類型較為單一。2018 年度中國政府開放數據利用報告13由圖 2-10 可知,上海市政府開放數據平臺中的四星級數據占比最高,為 85.03%,上海市政府數據服務網的上線試運行作為我國開放數據的標志,其平臺數據
42、可機讀性強、開放程度較高,在全國范圍內處于領先狀態;貴陽、廣州與哈爾濱的開放數據平臺中三星數據占比較高,分別為 100%、98.80%、85.24%,說明數據已具備較高的開放性,但利用 W3C 開放標準呈現的數據較少;廣東、濟南政府政府開放數據平臺中二星數據占比較高,數據得可機讀性較好,但開放性較差;武漢、長沙的政府開放數據中一星級數據占比最大,開放數據的可機讀性與開放性都有待提升。綜上所述,2018 年是我國政府開放數據開放的關圖 2-10 基于 Berners Lee 五星標準的 2018 年政府開放數據平臺數據星級統計圖鍵一年,根據 2015 年國務院印發的促進大數據發展行動綱要的要求,
43、我國將于 2018 年底前建成國家政府數據統一開放平臺。在此背景下,本章對政府開放數據平臺建設情況、平臺主題分布、平臺數據集情況以及數據類型情況進行了統計與可視化分析,得出目前我國政府開放數據平臺層與數據層建設的相關結論如下:上線平臺數量呈現高速增長態勢,華東華南地區領跑全國,地區數據集數量規?;延酗@現;開放數據主要集中在衛生、交通、教育、經濟等社會生活領域的各方面,但各城市平臺開放的數據主題在數量和名稱上呈現差異;地區平臺數據類型分布尚不均衡,數據發現服務暫且空白。利用行為分析143 利用行為分析13.1 利用行為概況3.1.1 主題視角下政府開放數據利用行為概況為了揭示不同主題視角下開放
44、數據的利用概況,首先統計各主題數據的瀏覽量、下載量,如圖3-1所示;此外,分析單一及整體樣本中開放數據的平均瀏覽率和平均下載率,如圖 3-2 所示。由圖 3-1 可知,主題視角下瀏覽量排在前三位的是經濟工商、交通出行和民生服務,其中交通出行類數據的單一樣本平均瀏覽率也是最高的,由此可知,經濟工商和交通出行等主題的數據備受用戶關注。此外,結合圖 3-2 可知,仍然有部分主題在該指標的值明顯低于平均值,如政府機構與社會團體主題數據的平均瀏覽率均不足 300 次/條,這表明各主題數據被關注的程度存在差異性。圖 3-1 主題視角下開放數據的瀏覽量和下載量1段堯清,邱雪婷,何思奇.主題與區域視角下我國城
45、市政府開放數據利用現狀分析 J.圖書情報工作,2018(20):65-76.圖 3-2 主題視角下單一(整體)樣本開放數據的平均瀏覽(下載)率3.1.2 區域視角下政府開放數據利用行為概況為了揭示不同區域視角下開放數據的利用概況,首先統計了各樣本區域的瀏覽量和下載量,如圖 3-3所示;同時繪制了單一樣本開放數據平均瀏覽率、下載率及整體樣本開放數據平均瀏覽率、下載率統計圖,如圖 3-4 所示。由圖 3-3 可知,區域視角下,瀏覽量排在前三位的城市是上海、貴陽、武漢;區域視角下,下載量排在前三位的城市是上海、貴陽、哈爾濱,由此可知,上海、貴陽等城市的政府開放數據備受用戶關注。此外,結合圖 3-4
46、可知,區域視角下,單一樣本開放數據平均瀏覽率排在前三位的城市是上海、貴陽、廣州,單一樣本開放數據平均下載率排在前三位的城市是上海、貴陽、哈爾濱,這表明各區域數據被關注的程度存在差異性。圖 3-3 各地區整瀏覽量和下載量2018 年度中國政府開放數據利用報告153.2 瀏覽行為分析3.2.1 主題視角下開放數據瀏覽率瀏覽率能直觀反映用戶對某一主題數據的關注情況,首先運用 R 繪制各主題大類開放數據的瀏覽率折線圖和瀏覽率散點圖,如圖 3-5 所示。其中 X 軸代表10 個主題大類,也即 ti,(i 1,2,.,10)。主題 1-10分別代表:文體休閑、經濟工商、交通出行、醫療健康、政府機構與社會團
47、體、社保就業、能源環境、民生服務、教育科技和公共安全。圖 3-5 主題視角下開放數據瀏覽率折線圖和散點圖圖 3-5 顯示瀏覽率最高主題-經濟工商(約 0.267)(a)單一樣本(b)整體樣本圖 3-4 各地區單一(整體)樣本開放數據平均瀏覽率和下載率是最低主題-公共安全(約 0.054)的 4.94 倍,且這10 類數據中僅有經濟工商和交通出行兩類數據的瀏覽率高于平均值(0.1)。此外結合圖 3-1 和圖 3-2,對比圖3-5中的開放數據的瀏覽率折線圖和散點圖可知,經濟工商類數據的瀏覽率雖然最高,但由其散點圖的分布可知,并非其開放任意一條數據的瀏覽率都很高(大多數落在 0-0.02 以內)。而
48、公共安全類的數據卻恰好相反,雖然該數據集的整體瀏覽率最低,但其開放數據瀏覽率的跨度較大,大多在 0.1-0.25 之間,這表明各主題開放數據整體與部分的特征并不具有一致性。3.2.2 區域視角下開放數據瀏覽率同主題視角下開放數據的瀏覽率一樣,將各區域的瀏覽率折線圖與散點圖繪制在一起,如圖 3-6 所示,便于觀察各地區開放數據的關注程度與狀況。其中,軸代表 6 個城市,即 ci,(i 1,2,.,6)。區域 1-6分別代表:哈爾濱、濟南、上海、武漢、廣州、貴陽。利用行為分析16圖 3-6 區域視角下開放數據瀏覽率折線圖和散點圖結合圖 3-4 和圖 3-6 可知,不論是各區域瀏覽率還是其整體樣本的
49、平均瀏覽率,上海和貴陽都是表現最好的城市。以上海為例,其數據瀏覽率是濟南的166.88倍,同時其整體樣本的平均瀏覽率也達到0.63,遠高于平均值(0.1667)。而濟南正好相反,這兩項指標均排在末尾,其余各地排名稍有變化。此外,上海和貴陽兩地開放的交通出行主題數據的瀏覽率之和占 6地交通出行類數據總瀏覽率的 89.3%。此外,結合圖 3-6 的瀏覽率散點圖可知,上海和貴陽不僅在整體上開放數據瀏覽率高,其散點圖的跨度也較大。其中,瀏覽率落在平均值(1.67)以上的數據量較多;除了上海和貴陽以外,其余城市瀏覽率排名依次是武漢、廣州、哈爾濱、濟南,其中,哈爾濱雖然整體瀏覽率不高,但相應的散點圖跨度較
50、大,且其政府開放數據平臺上存在相當數量的瀏覽率高于平均值的數據。3.3 下載行為分析3.3.1 主題視角下開放數據下載率下載率是對瀏覽率的進一步說明與深化,它在很大程度上能反映出用戶對某一數據的利用情況。同瀏覽率一樣,圖 3-7 所示的是各主題大類開放數據的下載率折線圖和散點圖。主題1-10分別代表:文體休閑、經濟工商、交通出行、醫療健康、政府機構與社會團體、社保就業、能源環境、民生服務、教育科技和公共安全。圖 3-7 主題視角下開放數據下載率折線圖和散點圖由圖 3-7 可知,用戶對經濟工商、教育科技、社保就業和交通出行類數據的利用程度較深,體現在兩個方面。第一,開放數據下載率高于平均值的有
51、4 個主題,即經濟工商(約 0.223)、教育科技(約 0.133)、社保就業(約 0.103)和交通出行(約 0.1);同時,除去社保就業外,其余 3 個主題的整體開放數據平均瀏覽率也均高于相應平均值,這間接表現出用戶對此類數據利用的真實性。第二,經濟工商等 4 個主題數據的下載率之和約為 0.56,占所有主題開放數據下載2018 年度中國政府開放數據利用報告17總量的一半以上,表明它們被利用的程度較高,同時也反映出其余幾類數據的利用程度有待提高。此外,結合圖 3-7 中的下載率散點圖可知,其余各主題下載率分布不均衡。首先,以公共安全為例,其下載率散點圖的跨度雖然較大,但總體上該主題的下載率
52、排在末尾;其次,包括經濟工商在內的大部分主題整體開放數據的平均瀏覽率都不高,其值大多落在 0-0.05 以內。3.3.2 區域視角下開放數據下載率各區域開放數據的下載率反映了用戶對各城市開放數據的利用程度。各區域下載率的折線圖與散點圖如圖 3-8 所示。圖 3-8 區域視角下開放數據瀏覽率折線圖和散點圖由研究報告上文中圖 3-4 可知,上海和貴陽分別作為一個整體,其下載率較高;同時其樣本的平均下載率也占據了較大優勢,例如上海作為開放數據下載率最高的城市,它與最低的濟南相差136倍之多。此外,上海除社保就業外的其他 9 個主題數據均擁有最高下載率,且全都超過平均值(約 0.167),其中教育科技
53、的下載率更是高達 0.798。但同時也有城市的開放數據下載率較低,如武漢的開放數據在各項下載率的指標上均排名末尾。結合圖 3-8 中的各城市開放數據散點圖可知,同各城市開放數據瀏覽率一樣,下載率高的城市,其散點圖的跨度也更大;反之,整體下載率低的城市,其下載率跨度相對來說較小,但這并不代表個各城市開放數據瀏覽率與下載率的變化呈正比。3.4 利用行為綜合分析3.4.1 主題視角下政府開放數據利用行為綜合分析為深入揭示各主題開放數據的利用現狀與親疏關系,對 10 個主題大類做聚類分析。聚類分析是指在事先不規定分組規則的情況下,將數據按其自身特征劃分成不同的群組,各群組內部數據差距盡可能的小,而各群
54、組數據之間的差距盡可能的大。首先選擇聚類指標,由于單一樣本和整體樣本的開放數據平均瀏覽率(下載率)的變化方向一致且一一對應,前者是測算后者的基礎,因此聚類分析主要參考開放數據瀏覽率、下載率和整體樣本開放數據平均瀏覽率(下載率)個指標的相關情況。與此同時,選用層次聚類法,其中個體距離采用平方歐式距離,類間距離采用 Ward聯接,最終聚類結果如圖 3-9 所示。利用行為分析18為了更好地劃分聚類數目,繪制了主題視角下開放數據聚類的碎石圖,如圖 3-9()所示。隨著類的不斷凝聚和類目數量的不斷減少,各類之間的距離迅速增大,碎石圖逐漸趨于平坦。觀察碎石圖可知,當聚成4類之前,各類之間的距離較??;當聚成
55、4類之后,各類之間的距離較大。由此可知,4 類就是該碎石圖的“拐點”,因此聚成 4 類或 3 類較好。經過綜合考慮,本報告最終將 10 大主題聚為 4 類,見圖 3-9()。第一類是“文體休閑”“社保就業”和“教育科技”。僅經過三步就聚成一類,其系數分別為 0.128 和 1.465。社保就業和教育科技類的數據在整體樣本開放數據平均瀏覽率等 3 項指標均超過相應平均值,其余各項指標均排名較前,方差與標準差都較小。這表明與民生相關的數據利用效率較高,教育科技、社保就業和文體休閑是用戶最為關心的日常問題之一,與用戶的距離最近,也進一步說明用戶需求是數據利用的前提。第二類是“經濟工商”。經濟工商在瀏
56、覽率、下載率等 4 項指標中占據絕對優勢,因此自成一類。該類數據較高的關注度與利用率主要是由上海市政府的開放數據貢獻的,此類數據主要涉及某地經濟建設和工商貿易等信息,涵蓋了經濟、工商、統計、貿易、消費、經濟政策信息等方面。用戶尤其是企業用戶對此類數據的關注和需求更大,因此經濟工商類數據各項指標都穩居高位。第三類是“交通出行”和“醫療健康”類數據。它們在第 5 步時與醫療健康聚成一類,二者之間的系數為 5.187。這類數據雖然在總體上瀏覽率與下載率不高,但其整體樣本開放數據平均瀏覽率與下載率卻排在前列。交通出行與用戶的生活聯系緊密,而醫療健康更是全社會關注的熱點,當下“互聯網”交通和電子醫療的出
57、現,大大節約了用戶的時間,便利了公眾的生活。第四類是“民生服務”“能源環境”“政府機構與社會團體”和“公共安全”類數據。它們的 4 項指標均為負,且低于平均值。這一類數據的利用相對不高,用戶對能源環境、公共安全等社會治理領域的問題目前關注還不太多,與用戶意識、需求的緊急性等因素有關。圖 3-9 主題視角下開放數據聚類分析的樹狀圖和碎石圖2018 年度中國政府開放數據利用報告193.4.2 區域視角下政府開放數據利用行為綜合分析為進一步揭示政府開放數據在區域視角下的利用現狀,結合瀏覽率等 4 個指標,采用層次聚類法對各區域開放數據的利用狀況做聚類分析。其中,個體距離采用平方歐式距離,類間距離采用
58、平均組間聯接,最終聚類結果的冰柱圖和樹狀圖如圖 3-10 所示。圖 3-10 區域視角下開放數據聚類分析冰柱圖和樹狀圖由于區域研究樣本較少,因此直接采用觀察法對其聚類數目進行劃分。據冰柱圖可知,當聚成 4 類時,哈爾濱和廣州為一類、濟南和武漢為一類、貴陽和上海分別單獨聚成一類;當聚成 3 類時,哈爾濱、廣州、濟南和武漢為一類、貴陽和上海分別單獨為一類。為了更為細致的分析開放數據利用的分布研究,將 6 個研究樣本聚成 4 類。第一類是哈爾濱和廣州。兩地具有較高的相似性,首先聚為一類,系數僅為 0.043。在 4 個衡量指標上,哈爾濱和廣州的指標排名相差不大,緊跟在上海和貴陽之后,各項指標大多處于
59、中間位置。同時,哈爾濱和廣州開放數據的相似性還體現在其數據開放的起始時間、開放數據的數量、格式等方面,雖然起步較晚,但其政府數據的關注度和被利用情況尚可。第二類是濟南和武漢。這兩個城市之間的系數為0.125,相似度較高。武漢雖然比濟南早 2 年開放數據,開放數據集總量大,有較高的瀏覽率,但由于受到開放格式等因素的影響,武漢開放數據的整體和平均下載率都很低。同樣,濟南開放數據起步晚,數據集數量少,在 4 項指標中的排名都十分靠后。因此與武漢的差距并不明顯,這兩地聚為一類。第三類是貴陽。貴陽雖然開放數據起步較晚,但在不足一年的時間內就取得數據開放指數排名第二的成績。除整體樣本的平均瀏覽率外,貴陽開
60、放數據的其余各項指標均超過平均值,此外,其開放的 9 個主題數據集(民生服務主題暫缺)的瀏覽量均穩居前三,貴陽開放數據的關注程度和利用程度僅次于上海。第四類是上海。上海開放數據的瀏覽率和下載率利用行為分析20均在首位,自 2012 年開放數據以來,上海通過政府引導、提高數據質量、重視用戶參與和數據創新等方式,使得其在各地方政府開放數據中穩居前列。本報告中,上海的開放數據在瀏覽率、下載率等 4 個指標中均排名第一,其中經濟工商類數據的單一平均下載率高達352 次/條,是其他類數據的 2 倍之多。通過研究分析,本報告得出以下結論:第一,從主題視角看,用戶對經濟、民生等與日常生活聯系密切的領域關注更
61、高,10 個不同主題數據的利用現狀呈現出一定的差異性,將 10 個大類的數據根據相似性劃分成了4類:文體休閑、社保就業和教育科技是第一類;經濟工商單獨成第二類;交通出行和醫療健康是第三類;民生服務、能源環境、政府機構與社會團體和公共安全聚成第四類。第二,從區域視角看,不同城市開放數據的利用程度不同,呈現出明顯的高低之分:哈爾濱和廣州為第一類、濟南和武漢是第二類、貴陽和上海分別單獨聚成第三類和第四類。2018 年度中國政府開放數據利用報告214 利用效益分析4.1 利用效益綜合評價政府開放數據利用效益綜合評價主要是從微觀層面的數據與用戶視角出發,采用數據集個數、可機讀格式、開放格式、數據接口 A
62、PI、動態更新、靜態更新、APP應用、評分量、瀏覽量、下載量這10個指標來衡量,各指標詳細情況見附錄。利用網絡爬蟲軟件及人工觀察的方式獲取以上指標的相關數據,并采用熵值法計算各指標數據,得到政府開放數據利用效益評價指標體系的權重如表 4-1 所示。表 4-1 給出了政府開放數據利用效益評價的各項指標及其權值,其中一級指標排序為數據可利用性、數據開放度、數據可持續性和數據數量。在這四項一級指標中,數據可利用性權值最大,說明政府開放數據利用效益評價中最重要的一級指標為數據可利用性,也說明了其評價與數據可利用性具有較高的關聯性。數據可利用性的二級指標分別為 APP 應用、評分量、瀏覽量及下載量,這些
63、指標具有較高的權重,從一定程度上反映了用戶對政府開放數據的需求。根據表 4-1,可以計算得到各地政府開放數據平臺利用效益得分及排名,如表 4-2 所示。結果表明,上海市政府開放數據利用效益得分最高,依次為廣東省、廣州市、貴陽市、哈爾濱市。利用效益分析表 4-1 政府開放數據利用效益評價指標體系權重目標一級指標權重重要性排序二級指標權重重要性排序政府開放數據利用效益數據數量0.1016826544數據集個數0.1016826541數據開放度0.2351865472可機讀格式0.0781678267開放格式0.0657721459數據接口 API0.0912465756數據可持續性0.125916
64、0123動態更新0.05741324510靜態更新0.0685027678數據可利用性0.5372147871APP 應用0.1220529645評分量0.1511049352瀏覽量0.1283776934下載量0.1356791953利用效益分析22通過對政府開放數據利用效益的結果分析,可以得到以下四個結論。(1)政府開放數據利用效益與數據可利用性的關聯性最高。數據可利用性所占權重最大,說明政府開放數據利用效益評價中最重要的一級指標為數據可利用性,而數據可利用性的二級指標為APP應用、評分量、瀏覽量、下載量,這些二級指標從一定程度上反映了用戶對政府開放后數據的利用情況。從數據可利用性中可以看
65、出,上海市的數據可利用性最高,哈爾濱市最差,這與數據的瀏覽量、下載量存在一定的關系。如相對于其余四個政府開放數據平臺來看,上海市的瀏覽、下載情況最佳,而哈爾濱市政府開放數據平臺數據集的瀏覽、下載情況較差,在一定程度上影響了數據可利用性的權重,也表明了哈爾濱市所開放的數據集主題、內容等不能滿足用戶的需求。(2)上海市的政府開放數據利用效益最佳。根據利用效益得分及排名可知,上海市政府開放數據利用效益最佳,依次為廣東省、廣州市、貴陽市和哈爾濱市。上海市政府開放數據平臺的利用效益排名主要得益于平臺的數據可利用性。在數據可利用性方面,上海市政府開放數據平臺具有 APP 應用多、數據評分高、表 4-2 各
66、地政府開放數據平臺利用效益得分及排名省/市排名數據數量數據開放度數據可持續性數據可利用性利用效益得分上海市10.01839910.03981340.12504090.48387480.6671282廣東省20.10168270.07816780.05256140.18486620.4172781廣州市30.01066180.08644160.09510340.16456850.3567753貴陽市40.07694740.14517930.03468370.05932360.3161340哈爾濱市50.00000000.13587840.06850280.00924130.2136225數據易于
67、下載和使用、瀏覽量和下載量高等優勢,使其在數據可利用性方面具有最高的得分。而哈爾濱市政府開放數據平臺由于其所提供的數據集個數、數據應用數及各數據集的瀏覽、下載情況都比較少,使其在數據可利用性、數據數量中所獲得的權重比較低,讓其在政府開放數據利用效益評價中處于劣勢地位。(3)各地政府開放數據利用效益具有明顯的層次性。根據政府開放數據利用效益得分,將這 5 個政府開放數據平臺劃分為三個層次:上海市政府開放數據平臺遙遙領先于其余政府開放數據平臺,劃分為第一層次,廣東省、廣州市和貴陽市為第二層次,哈爾濱市單獨為另一個層次。(4)政府開放數據利用效益的評價研究是一個動態變化的過程。這與數據提供者、門戶網
68、站以及用戶的利用狀況、關注度等都有一定的關系。隨著大數據環境、政府機構的觀念、用戶需求的改變等,政府部門開放數據的方式、內容等都應隨之不斷變化,則評價指標體系和權重也應該在新的環境下進行調整和完善。針對以上政府開放數據利用效益的評價指標數據及評價結果,對上海市、廣東省、廣州市、貴陽市和2018 年度中國政府開放數據利用報告23哈爾濱市這五個政府開放數據平臺提出些許建議。(1)對于上海市的開放政府數據實踐來說,上海市是中國開放政府數據項目啟動最早的城市之一,可以說是我國開放政府數據的最佳實踐,其先進的做法,為其他地方的政府數據門戶建設提供借鑒意義。上海市政府數據服務網在2012年12月底正式試運
69、行,2015 年 5 月 7 日,上海市政府數據服務網 2.0 版正式開通,上海市政府數據資源網的開放內容現已基本覆蓋各部門主要業務范圍,涵蓋資源環境、文化休閑、衛生健康、社會發展、民生服務、經濟建設、教育科技、機構團體、公共安全、道路交通這 10 個主題大類,累計開放的數據集數為 1364 個。但其也存在不足之處,與其余四個政府開放數據平臺相比,上海市開放的數據集個數相對較少,上海市應要擴大數據集規模;上海市開放的數據格式均為 XLS 和 CSV,在后期應要增加XML、JSON、RDF 等格式的使用;上海市的數據集動態更新頻率雖然比其他四個平臺高,但是整體的更新頻率比較低,應要加快數據集的更
70、新頻率,以便使用戶能夠快速、高效的使用這些數據集來創造更多的應用價值。(2)對于廣東省的開放政府數據實踐來說,廣東省政府開放數據平臺在數據開放度和數據可持續性存在不足。數據開放度的衡量指標為可機讀格式、開放格式和數據接口 API,數據可持續的衡量指標為數據的更新頻率,分為動態更新和靜態更新。報告中,廣東省所提供數據集的數據格式均為 XLS、XLSX 格式,均為 Excel 表格形式,均為機器可讀格式,但并不是開放格式,該平臺應將提供的數據集格式改為開放性格式CSV,而不是大部分均為 XLS、XLSX 格式;該平臺開放數據集的更新頻率多數為每年更新或不定期更新,不利于用戶及時使用數據,應加快數據
71、集的更新頻率,如每季度、每月、每周或實時更新等;與其他四個平臺相比較,廣東省開放的數據集個數最多,但相應的數據接口數卻最少,該平臺應該多開發相應的應用程序編程接口,增加 API 數量,以及加強開發 APP 應用的能力。(3)對于廣州市的開放政府數據實踐來說,廣州市政府開放數據平臺在開放數據集數量、數據開放度、數據可持續性和數據可利用性均存在不足。廣州市要逐步擴大其開放數據集的規模,特別是要擴大核心數據集的開放,在擴大數據集規模的同時,要增加數據可機讀性、開放性以及數據接口數 API,同時需要加快數據集的更新頻率等等。(4)對于貴陽市的開放政府數據實踐來說,貴陽市政府開放數據平臺在數據可持續性存
72、在一定的不足。貴陽市最重要的是要提高數據可持續性,加快數據集的更新頻率。報告中,貴陽市的動態更新與靜態更新的比例為 0.049661,大部分數據都是每半年更新、每年更新或者不更新,只有極少部分為每季度更新、每月更新和實時更新,不利于用戶及時使用數據。貴陽市應要加快數據集的更新頻率,以便用戶能夠快速、高效的使用這些數據集來創造更多的應用價值。(5)對于哈爾濱市的開放政府數據實踐來說,哈爾濱市政府開放數據平臺在數據數量和數據可利用性存在不足。在數據數量方面,哈爾濱市開放的數據集利用效益分析24個數最少,為 1062 個,應要擴大數據集的規模;在數據可利用性方面,哈爾濱市的瀏覽、下載情況最差,其提供
73、的 APP 應用數也最少,表明該平臺開放的數據集受用戶關注程度較低,應從數據使用和下載的易用性方面入手,提高用戶對數據集的滿意程度。4.2 數據開放度數據開放度是指數據的開放性,主要用來衡量數據的開放程度,其二級指標包括可機讀格式,開放格式以及數據接口 API。4.2.1 可機讀格式數據開放應該是機器可讀的格式,是用來衡量數據是否方便用戶獲取和利用、是否能被計算機自動讀 取 和 處 理,如 XLS、CSV、TXT、XML、JSON、XLSX、WMS、WFS、RFT、XML、RDF 等格式,而 DOC、PDF、JPG為機器不可識別讀取的格式。因為 XLS、XLSX 為常用的Office 軟件格式
74、,CSV 為自動化處理的結構化數據,故大多數政府開放數據平臺一般提供兩種及以上的數據格式。4.2.2 開放格式開放格式是指可下載數據集應以開放的、非專屬的格式提供,任何實體不得在格式上排除他人使用數據的權利,以確保數據無需通過某個特定(特別是收費的)軟件或應用程序才能訪問。如 JSON、CSV、XML、TXT、KML、WMS、WFS、RTF 等,而 XLS、XLSX、DOC、DOCX、PDF、ODT 不屬于開放格式。4.2.3 數據接口 APIAPI 接口指平臺向公眾開放數據的 API 應用程序接口的情況,是否支持以數據調用接口的方式提供數據,滿足部分用戶開發應用程序的需求。上海市、廣東省、廣
75、州市、貴陽市、哈爾濱市這五個政府開放數據平臺提供下載的數據集格式種類比較少,主要為 CSV、XLS、XML、JSON、XLSX、RDF 等數據格式,如表 4-3 所示。相對于美國政府開放數據平臺上所提供的 40 余種數據格式和每一類數據集的多種格式來說,我國的政府開放數據平臺所提供的的數據格式較為單一,且每一種數據集所選擇的供應格式也比較單一。在上海市、廣東省、廣州市和哈爾濱市這四個政府開放數據平臺建設中,均未能達到此水平,只有貴陽市提供的數據格式尚且多一些,貴陽市政府開放數據平臺在數據開放度建設方面較為可行。表 4-3 各地政府開放數據平臺數據格式統計平臺可機讀格式開放格式格式貴陽市政府開放
76、數據平臺CSV、XLS、XML、JSON、RDF哈爾濱市政府開放數據平臺CSV、XLS、XML、JSON上海市政府數據服務網CSV、XLS廣州市政府數據統一開放平臺CSV、XLS、XML、JSON開放廣東XLS、XLSX基于 Office 軟件的 XLS、XLSX 等格式應用較為廣泛,存在使用習慣和兼容性考量,此類數據集才會提供兩種及以上類型的格式,在數據發布標準統一制定2018 年度中國政府開放數據利用報告25后,這類數據集格式的問題可以被標準化。在貴陽市還廣泛提供了 RDF 格式,RDF 是為數據集設置固定的URL 鏈接,有助于用戶發現和鏈接到目標數據集的具體位置。在貴陽、哈爾濱、上海、廣
77、東、廣州這五個平臺中,根據所提供的數據格式逐一進行判斷是否符合機讀條件和開放條件,最后得到貴陽、哈爾濱、上海、廣州、廣東這五個政府開放數據平臺上的數據可機讀比例約為 100%,96%,44%,99%和 100%;開放格式約為 100%,96%,44%,99%和 0%,如圖 4-1 所示。從數據集的開放格式來看,廣東省的開放格式為0,這是由于其平臺上提供利用的數據格式多數為 XLS、XLSX 格式。要想提高其開放性,就得將數據更多得以機器可讀的的數據格式提供利用,如 CSV、JSON、XML等格式,結合廣東省的數據接口數和數據應用來看,該平臺還可以多開發相應的應用程序編程接口,以及加強開發 AP
78、P 應用的能力。4.3 數據可持續性數據可持續性用來衡量各平臺數據集自創建以來是否進行數據更新,主要以數據的更新類型來衡量,更新及時性是由開放數據門戶網站上的每一條數據更新的及時性所決定的。本次主要將其劃分為動態更新和靜態更新。4.3.1 動態更新評估政府開放數據平臺上數據集是否“活躍”的標準之一就是數據的更新頻率,動態更新的數據有利于反應事物的真實現狀,從中挖掘出數據的價值。報告中將每季度更新、每月更新、每周更新、每日更新、實時更新等視為動態更新。4.3.2 靜態更新靜態更新的數據不利于揭示事物的的發展情況,圖 4-1 各地政府開放數據平臺數據集的可機讀格式和開放格式數量統計利用效益分析26
79、更不利于數據價值的挖掘。部分政府開放數據平臺所開放的數據集更新不及時或長時間不更新容易導致門戶網站失去活力。從用戶角度來看,若長時間在網站上找不到滿足自身需求的數據,便會逐漸失去對政府的信心。報告中將不更新/一次性更新、不定期更新、每年更新、每十年更新、每五年更新、每半年更新、按需更新、自定義更新等視為靜態更新。貴陽市、上海市等五個政府開放數據平臺上數據集更新類型主要包括每半年更新、每年更新、每季度更新、每月更新、實時更新、不定期更新、一次性更新/不更新、每周更新、每天更新、自定義更新等其他多種更新類型。通過對各地政府開放數據平臺數據集進行統計分析發現,僅有 9.11%的數據可以每季度、每月、
80、每周、每日、實時更新,其余 90.82%的數據更新頻率為每半年、每年、不定期、自定義或一次性更新,如表 4-4 所示。表 4-4 各地政府開放數據平臺數據更新頻率分布城市每季度每月每周每日實時每年每半年不定期一次性其他自定義上海市1021810019388100610廣東省47207006100501466000貴陽市62440041968144871600廣州市6452744182881054002581哈爾濱市00000001059030合計9.11%90.82%同時,將各地政府開放數據平臺上開放的數據集的更新頻率進行匯總,統計結果如圖4-2所示。從圖4-2中可以發現,數據集更新類型大多數
81、為每年更新和不定期更新,占比分別為 48.16%和 36.15%。由此可見,當前在各地政府開放數據平臺上已開放的數據多數為靜態數據,數據更新不及時,嚴重限制了數據利用主題對各數據集的開發利用。圖 4-2 各地政府開放數據平臺數據集更新頻率統計2018 年度中國政府開放數據利用報告274.4 數據可利用性APP 的應用、數據的評分量、數據的瀏覽量和下載量是體現用戶對數據的關注度和數據價值的重要表現形式。對于數據可利用性的評估,主要是從微觀層面的用戶視角來進行分析,當前研究大多數都從瀏覽量、下載量、評分量等角度來衡量開放數據的利用效果,故數據可利用性主要是以 APP 應用、評分量、瀏覽量及下載量來
82、衡量。4.4.1 APP 應用應用開發情況指的是將政府開放數據轉化為實際應用的情況,只有將這些政府數據轉化為便于實際用戶使用的應用,或者對數據進行深一步的挖掘分析出有用的價值,政府開放運動的意義才得以體現。APP 應用是指各平臺是否有將數據開發成相應 APP 應用程序,為公眾提供便民服務的功能。報告中的 APP 應用評價主要是以各政府開放數據平臺已經公布的 APP 應用個數來進行。APP 應用的個數直觀地反映了公眾參與數據治理的積極程度。4.4.2 評分量用戶的評分是直接體現了用戶對數據提供者以及數據本身的一種使用體驗,是用戶對數據質量等內容是否滿意最直接的體現。評分量體現了數據應用的質量,從
83、某種程度上反映了數據開放是否真的提高了公民參與社會治理的熱情以及社會治理的效率。報告中的評分量主要是以平均評分來進行衡量。4.4.3 瀏覽量與下載量瀏覽量和下載量從某種程度了體現了公眾對于政府數據的關注程度和用戶在政府開放數據平臺上的參與程度,主要是用戶對數據開放后的行為表現。瀏覽量是指用戶對平臺數據集的訪問情況,下載量是指用戶對平臺數據集的下載情況。數據的瀏覽量和下載量的多少會影響用戶對數據的關注和利用效果,報告中主要以瀏覽量、下載量這兩個指標來評估當前已經開放的數據集的利用情況。為衡量各地政府開放數據平臺數據集的整體關注程度,報告中引入平均瀏覽量和平均下載量,用平均瀏覽量和平均下載量來衡量
84、數據集的瀏覽、下載情況,即將各平臺數據集的總瀏覽量、總下載量除以該平臺的數據集個數。通過抓取上海市、廣東省、貴陽市、廣州市和哈爾濱市 5 地政府開放數據平臺數據,統計開放數據集的瀏覽量、下載量,并計算其平均數據集瀏覽量和平均數據集下載量,結果如表 4-5 所示。利用效益分析28上海市政府開放數據平臺所開放數據集的個數雖然較少,但其在瀏覽和下載方面均高于其余四個平臺,表明其開放的數據集滿足用戶的需求,從而激勵民眾進行獲取和利用;而哈爾濱市政府開放數據平臺無論是開放的數據集個數,還是在瀏覽和下載方面都比較少,說明其開放的數據集質量不高,主題內容未能滿足用戶的需求,同時對開放數據的宣傳推廣等方面也做
85、的不到位,其數據利用行為還需進一步激發。表 4-5 各地政府開放數據平臺數據集的瀏覽量與下載量情況城市數據集個數(個)瀏覽量(次)下載量(次)平均瀏覽量(次)平均下載量(次)APP 應用數(個)評分量(分)上海市13645077130141588337221038891660廣東省2731634578674424823242736024.17貴陽市2325142028260099661125815121廣州市1237656903801515316582552.5哈爾濱市10623471341096953271034892018 年度中國政府開放數據利用報告295 利用案例目前針對政府開放數據的
86、利用案例還不夠深入,仍需要進一步思考、探索,以促進政府開放數據更好地投入實際應用。本節將通過政府、公眾、企業的利用案例,介紹 2018 年政府開放數據的利用現狀,以期為促進政府開放數據的開放利用提供借鑒與參考。政府開放數據使用對象主要有政府、公眾、企業等類型。目前政府開放數據的利用仍以發布開放數據資源為主,鼓勵政府、公眾、企業等進行創新,從開放數據中挖掘其價值,指導生產生活實踐,同時保障政府開放數據使用對象自身的知情權、參與權、監督權和表達權。政府開放數據方興未艾,仍有巨大的發展空間,其蘊含的價值也有待開發,各方應攜手合作、共同挖掘、互惠互利,為政府開放數據的蓬勃發展貢獻力量。5.1 政府層面
87、相較于公眾和企業,政府在政府開放數據中的角色既是數據開放者,也是數據利用者。政府對于政府開放數據的重視與利用,能有效促進政府信息公開工作服務水平,不斷拓展政府開放數據的開放范圍、增強公開實效。政府在政府開放數據中是強有力的領導者、全方位的政策制定者、決定性的數據供應者、游刃有余的協調者、不可或缺的推進者,也是有重要影響力的關鍵用戶。11夏義堃,丁念.開放政府數據的發展及其對政府信息活動的影響 J.情報理論與實踐,2015,38(12):1-6+19.案例 1:雄安數字孿生城市建設(1)案例背景政府開放數據是雄安數字孿生城市建設中必不可少的一環,政府各部門需開放大量數據促進城市治理,優化建設方案
88、,實現科學決策。2018年 4 月 20 日,河北雄安新區規劃綱要 明確提出建設數字孿生城市,報告指出要堅持數字城市與現實城市同步規劃、同步建設,適度超前布局智能基礎設施,推動全域智能化應用服務實時可控,建立健全大數據資產管理體系,打造具有深度學習能力、全球領先的數字城市。(2)利用實例2018 年底,雄安新區已完成全域 5G 網絡覆蓋;完成雄安國家級互聯網骨干節點建設;建成“雙千兆”網絡和覆蓋全區的窄帶物聯網,落地示范 5G+VR 360景區旅游、無人機“天地一體化”生態監測、智慧護林等,并開展了智慧停車、智慧燈桿等物聯網應用示范。根據國家戰略部署要求,積極開展 5G 網絡規劃建設,并將其與
89、現代農業、工業制造業、現代服務業相融合,全面融合政府開放數據,致力于將雄安新區打造為具有高精度城市信息、全域智能設施布局、安全高效智能專網以及智能城市大腦操控的數字孿生城市。將來預計將以未來城市、5G 應用、量子、北斗、自主可控數字城市等聯合實驗室為依托,以聯通 5G 網絡為支撐,聚合產業鏈上下游合作伙伴,持續開展新技術、新業務的創新應用實踐,聯合開發利用政府開放數據與企業數據,助力雄安新區數字孿生城市建設。利用案例利用案例30(3)結論與建議雄安新區數字孿生城市建設無法脫離政府開放數據的支撐,政府需制定更為詳細的政府開放數據政策,進一步擴大政府開放數據的范圍、提高政府開放數據的質量。政府開放
90、數據對于雄安新區提高城市管理科學化、精細化水平,建設高質量、高水平的社會主義現代化城市,具有不可估量的意義與價值。5.2 公眾層面公眾作為政府開放數據最廣泛的利用群體之一,可通過利用政府開放數據行使監督權與進行科學決策。由于政府開放數據的利用門檻較高、要求較高的數據抽象能力,公眾難以進行復雜的數據分析,故通常會選擇處理較為簡單的數據信息或使用經過加工的二次信息。公眾中存在非營利組織和科研群體等較為特殊的用戶,此類用戶規模較小,但也致力于開放政府數據的生態建設。而從事政府開放數據相關研究的科研人員,因為自身科研工作的需要,往往會較多使用到政府開放數據,對其進行深入探究與思考,挖掘隱藏在數據背后的
91、巨大價值,為保障政府開放數據持續、有效利用提供參考與建議。案例 2:“數游長三角”全域旅游大數據平臺(1)案例背景從 2015 年至今,上海連續四年舉辦 SODA 開放數據創新應用大賽,凝聚了眾多大數據人才,推動了大數據產業的發展。2018 年,江浙皖三省加入大賽并首次開放長三角數據,以“數聯長三角眾創新生活”為主題,充分利用長三角豐富的開放數據資源、雄厚的大數據產業基礎,以及扎實的產學研基礎及人才,服務長三角更高質量一體化發展。主題為“數聯長三角眾創新生活”,旨在凝聚社會各界大數據創新力量,搭建開放數據創新應用、跨境數據發展的交流合作平臺,聚焦推進長三角大數據技術發展,共話大數據產業前沿。(
92、2)利用實例由上海對外經貿大學工商管理學院師生參與的作品“數游長三角”全域旅游大數據平臺,集合了技術公司、高??蒲泻驼畱萌搅α?,綜合運用十多種大賽數據及其他公開數據,進行產品設計、算法研發和數據挖掘,經過激烈角逐,最終獲得此次大賽“優秀獎”。工商管理學院師生研發設計的“數游長三角”全域旅游大數據平臺融合 10 種不同的數據資源,進行政府大數據與其他社會大數據整合處理分析從而實現政府開放數據開發利用,最終提供 3 款產品和服務,包括為政府提供“長三角旅游全景監控中心”;為景區提供“景區實時檢測服務”;為公眾提供“長三角旅游推薦”。此產品有助于實現數據共享的社會價值,打造長三角全域旅游大數據
93、產品,為公眾假期出行旅游提供便利。(3)結論與建議SODA開放數據創新應用大賽是政府聚集公眾之力,以“數據眾籌、應用眾包、問題眾治”為理念,他山之石用以攻玉,面向全社會征集大數據解決方案,是較為成熟的政府開放數據利用大賽模式。此類比賽聯2018 年度中國政府開放數據利用報告31動政府、企業與社會公眾,促進政府開放數據的價值挖掘與開發利用、提高政府開放數據利用效率,值得其他政府部門對于政府開放數據的利用進行研究、思考與借鑒。5.3 企業層面企業作為具有較大政府開放數據需求與較強數據分析的利用者之一,對于促進政府開放數據具有極其重要的意義。企業可將開放政府數據應用于經營管理的各個環節,有助于企業進
94、行產品預測、科學決策、制定發展方向,提高企業的社會與經濟效益。通過對政府開放數據有效利用,企業可以在獲得經濟利益的同時間接服務公眾,從而有效地促進政府開放數據運動的發展。然而,目前的研究更局限于政府與企業之間的合作與共享,更多樣化的協同利用模式仍然很少1。企業所擁有的較為強大的技術能力,能充分發揮政府開放數據的經濟和社會效益。案例 3:阿里 ET 城市大腦(1)案例背景2018 年 11 月 15 日,央視以堅持發展“楓橋經驗”中國基層社會治理現代化之路為題的專題片智惠于民,報道了大數據、人工智能等新技術在提升社會治理現代化方面的進展,其中城市大腦協助衢州、余杭等地推進科學決策、高效服務得到了
95、高1湯志偉,郭雨暉.我國開放政府數據的利用:基于CNKI 的系統性文獻綜述 J.情報雜志,2018,37(07):176-181+65.度評價,成為新時代“楓橋經驗”的延伸2。城市大腦將用于解決杭州交通擁堵等問題,目標是依據城市交通體檢、城市警情監控、城市交通微控、城市特種車輛、城市戰略規劃等場景需求,讓數據幫助城市來做思考和決策,將杭州打造成一座能夠自我調節、與人類良性互動的城市。(2)利用實例余杭城市大腦作為智能中樞,匯聚大量物聯網設備、視頻設備數據,可指揮全區 6 個消防隊、10 個專職消防隊、60 個微型消防站,以及 120、110、水務、電力等多個聯動部門。2018 年 9 月 17
96、 日上午,杭州余杭消防大隊進行了一次特別的演練:上午10點57分,阿里云 ET 城市大腦報警,湯加錦繡社區星韻北路有火情,需派出 1 輛水罐消防車救火,同時向 120、110、水務、電力等聯動部門推送信息,消防車、救護車等立刻出發進行救援。此次行動聯合各政府部門,通過對政府數據的綜合分析處理實現警情預判與特種車輛調配,體現了阿里 ET 城市大腦服務的智能性與高效性,表明了政府開放數據中蘊含的巨大價值。(3)結論與建議阿里 ET 城市大腦整合政府在交通運輸過程中產生的大數據,將其應用于城市交通體檢、城市警情監控、城市交通微控、城市特種車輛、城市戰略規劃等實際場景中,結合企業強大的交通大數據分析能
97、力,為城2阿里云 ET 城市大腦的央視 7 分鐘:人工智能可以深度參與城市治理 EB/OL.2018-11-16.https:/ 年度中國政府開放數據利用報告336 結論與對策6.1 總結(1)數據獲取平臺狀況2018 年,政府開放數據平臺建設數量呈現不均衡特征,平臺類型多為集中專有式。華東地區和華南地區的政府開放數據平臺建設情況較好,并呈現出將建設重點轉移到市級平臺的趨勢,這一趨勢在華東地區表現最為明顯。華中、東北、西南、西北地區平臺建設情況較為緩慢。從平臺上線數量來看,2018 年我國新增政府開放數據平臺 36 個,平臺上線數量同比增長 138.46%,當前政府開放數據平臺建設呈現出高速發
98、展態勢。從平臺類型來看,2018 年我國政府開放數據平臺大多為專有式類型,即數據統一匯聚在一個專門的平臺上進行開放,僅浙江、梅州、陽江、肇慶地區的政府開放數據平臺類型為嵌入式。從平臺所屬地區來看,2018 年我國政府開放數據平臺主要集中分布于華東、華南地區。華東地區在全國范圍內處于領先地位,市級平臺建設速度較快,副省級、省級平臺建設速度較緩。華南地區市級平臺建設較省級、副省級平臺具備連貫性,但建設速度較為平緩,沒有大幅增長。(2)可供分析數據狀況開放數據是用戶進行分析處理的原材料,其質量直接影響開放數據的利用效果。目前可供分析數據的基本狀況如下。各地平臺開放的數據集數、接口數與應用數呈現不均衡
99、分布,數據應用數量較少。目前貴陽、廣東、武漢所開放的數據集數量排在前三位,開放數據集基數較大,但所開放的接口數占比極??;相比之下,濟南和哈爾濱開放的數據集數量雖少,但所開放的接口數較多。此外,上述平臺所開放的的應用數量遠遠低于數據集數量和接口數量。數據集數量規?;延酗@現,但數據主題覆蓋情況不一,數據類型分布呈不均衡狀態且無五星級數據?,F有數據集在法律服務、宗教信仰等數據主題上存在明顯的缺失。在數據資源格式上,各地區政府開放數據類型的分布呈現不均衡狀態,廣東、上海、武漢、貴州的開放數據格式較為豐富,能更好地滿足不同需求的數據使用者更方便快捷地對數據進行增值利用,但根據 Berners Lee
100、提出的開放數據五星標準,樣本區域內均無五星級數據。(3)利用行為綜合分析綜合來看,用戶對不同主題的數據集利用存在差異。對經濟工商、教育科技、社保就業和交通出行類數據等與民生相關的數據的利用程度較深,利用效率較高。經濟工商類數據是企業用戶關注和需求的重點,而醫療健康類數據則是全社會關注的熱點。相比之下,用戶對能源環境、公共安全等社會治理領域的問題目前關注不多。(4)利用綜合效益政府開放數據利用效益的評價研究是一個動態變化的過程。政府開放數據利用效益與數據可用性的關聯程度最高,是政府開放數據利用效益評價中最重要結論與對策結論與對策34的一級指標。數據集的瀏覽量和下載量具有較強的相關性,在對政府開放
101、數據利用效益的評估中也起到了很重要的作用。不同地方政府的利用效益具有明顯的層次性,上海的開放數據利用效益最好,接下來依次是廣東省政府開放數據、貴陽市政府開放數據、廣州政府開放數據。6.2 存在問題(1)數據獲取平臺 違背平臺集約化建設理念。目前,政府開放數據平臺呈現不均衡的發展趨勢,市級數據開放平臺開始被重點建設,這與平臺集約化建設理念有所沖突,且不利于數據的縱向流通和共享。以省級或副省級平臺作為基礎性平臺在一定程度上即可滿足政府開放數據的需求。平臺區域分布不均衡。數據開放平臺區域分布不均衡,集中分布于華東、華南地區,華中、東北、西南、西北地區開放平臺數量較少。華東地區的平臺建設在全國范圍內處
102、于領先地位,華南地區市級平臺建設較省級、副省級平臺具備連貫性,但建設速度較為平緩。平臺功能有待提升。用戶進行數據資源獲取時,存在數據開放平臺瀏覽界面不夠友好、檢索方式單一且搜索功能不夠精確、排序方法簡單以及難以批量下載的問題。數據開放平臺在檢索結果頁面無法按照用戶的個性化需求進行排序,大多數的平臺都尚未提供批量下載的功能,降低了用戶獲取數據的效率。(2)可供分析數據開放數據的質量會對用戶數據獲取和利用產生影響。當前,政府開放數據存在開放主題及開放機構不夠充分,數據可持續性不高、開放度相對較低、主題分類差異較大、篩選過程質量有待提高等問題。開放主題及開放機構不夠充分。政府開放數據資源整體存在主題
103、及開放機構不夠充分的問題。政府開放數據在科技、交通、經濟、教育、醫療等方面的主體涉及較多,而在法律服務、宗教信仰等數據主題上存在明顯的缺失;在開放機構上,主要涉及各級政府機構和公共企事業單位,但尚未涵蓋政府的所有職能如國防部門等。開放的數據主題領域較少,數據類型分布尚不均衡,更多對用戶有價值的數據亟需開放。數據可持續性不高。在開放數據的可持續性方面,目前存在數據更新頻率頻率慢、更新的規范化程度不夠高的問題。較多數據平臺的數據更新頻率較低或者從未更新,數據老化情況嚴重。數據更新的規范化程度不夠高主要體現為部分數據集更新的元數據標準不夠清晰,存在更新后數據字段重復的問題。開放度相對較低。在數據的開
104、放度方面,存在開放格式不充分、用戶尚不能完全免授權獲取與自由使用數據等問題。我國政府開放數據平臺提供的數據格式較為單一,且每一種數據集所選擇的供應格式也比較單一。大多數的數據在獲取時需網站注冊并進行實名認證,用戶不能完全自由使用數據。主題分類差異較大。各地的政府開放數據平臺使用的主題分類存在差異,缺乏統一的主題分類標準。各個平臺都有一套自身的數據主題分類標準,從而使2018 年度中國政府開放數據利用報告35得各個平臺相互孤立,一定程度上阻礙了地區之間政府開放數據的共享與聯通。數據篩選過程質量有待提高。各主題開放數據整體與部分的特征并不具有一致性,在整體瀏覽率較高的數據集中,并非任意一條數據的瀏
105、覽率都高。因此,在開放數據前期的篩選過程中,針對某一主題的數據,并不能只追求數據的全面性,也需要有一定的針對性,從而在利用過程中減輕用戶的數據篩選負擔。(3)數據利用頻度低,公眾利用意識不強綜合數據集的瀏覽量和下載量分析可以發現,排名靠前的主題數據的瀏覽量和下載量也未超過百萬,在我國的人口基數條件下,開放數據利用的用戶數據所占比例較低,數據利用頻度較低,這在一定程度上反應了全民的開放數據利用意識不強,有待進一步提高。(4)數據利用廣度窄且深度淺用戶對不同主題領域數據的利用情況存在差異,某些主題領域的數據價值有待挖掘。用戶利用的數據主要集中在經濟工商、教育科技、社保就業和交通出行領域,而對能源環
106、境、公共安全等社會治理領域的問題目前關注不多,總體的數據利用廣度較窄。此外,數據瀏覽情況因地而異,各主題數據下載率分布不均衡,整體的數據利用深度較淺,用戶對經濟工商、教育科技、社保就業和交通出行類數據的利用程度相對深入,其他主題領域的數據價值有待進一步挖掘。(5)數據利用效益不高我國還沒有形成政府開發數據的完整產業鏈,產業鏈的上下游尚未形成協作發展模式。企業參與政府開放數據的開發的盈利模式與服務方式還不明確,缺乏大規模的能夠帶動政府數據開發產業發展的龍頭企業,由公眾需求拉動和企業主導開發的政府開放數據共享、開發利用的生態還沒有形成,政府開放數據的整體利用效益不高。6.3 對策建議(1)提升政府
107、開放數據利用意識積極提升社會的開放數據利用意識。一方面,政府開放數據利用的意識有待加強,政府作為開放數據的主體,數據開放在一定程度上打破了原有政府信息資源開發利用框架,數據作為原材料的免費提供,使得政府部門難以壟斷政府數據資產價值的創造,以往成本回收模式和邊際成本模式難以持續運行,以及因擔心開放后的安全問題,部分政府機關從思想上對數據開放存在抵制情緒??梢酝ㄟ^上級政府的強制要求和建立激勵機制進行調節,同時也要加強數據開放的教育工作,提升政府自身數據開放的意識。另一方面,用戶利用政府開放數據的習慣還未養成。用戶產生信息需求時,總是傾向于尋找經過加工的資料,而忽略了具有高價值的政府開放數據。政府可
108、在政策以及各項活動中積極倡導對開放數據的應用,并融合在公共生活的方方面面,從而使公眾在社會活動中能意識到開放數據的價值與必要性。(2)優化政府開放數據質量結論與對策36政府機構在發布數據前應建立和完善質量保障機制,通過對數據源的管理、設立數據的標準規范,開放前的數據清洗等方式提升政府開放數據的質量。另一方面,用戶在使用數據前應進行數據的質量檢查工作,發現問題可及時向數據平臺進行反饋。在管理方面,應結合政府開放數據的現狀,建立數據質量管理流程,提升質量管理的科學性。同時,政府自身或借助第三方機構進行政府開放數據質量的評價與考核,為優化政府開放數據質量提供支撐。(3)促進政府開放數據價值釋放政府開
109、放數據利用的目的在于其價值的釋放,而這與用戶的數據利用能力息息相關。政府應加強對數據用戶的培育,提升其數據利用技能。相關部門可以組織專家學者組成數據開放利用培育團隊,通過公開課、新媒體等渠道推進數據利用技能培訓和教育,為開放數據用戶提供各類指南、工具使用手冊等。對于企業用戶,培育帶動政府數據開發產業發展的龍頭企業,明確其開發利用政府數據的服務方式和盈利模式,充分發揮政府開放數據的價值。(4)提高數據利用率,做到“三好三可”政府開放數據重在對數據的利用,提高數據利用率,做到“三好三可”。圖 6-1 政府開放數據利用“三好三可”標準 好找好找體現在用戶不僅能夠找得到政府開放數據,而且可以找得快、找
110、得準。政府開放數據平臺是用戶獲取開放數據的主要途徑,其設計應做到界面簡潔明了,功能齊全、信息分類合理,要準確地傳遞數據信息,使用戶可以精準獲取信息內容,避免出現信息誤解。盡量使用戶在不需要學習的情況下就可以便捷地開展平臺操作;檢索方面,應豐富平臺的檢索方式和排序方式,滿足用戶在特定情境下的個性化檢索需求。同時,政府部門應逐步加強數據開放平臺的人性化設計,2018 年度中國政府開放數據利用報告37減少用戶注冊和下載數據過程中的繁瑣操作。相關部門應加大技術方面的投入,實現網站對于用戶的快速響應,確保用戶在獲取開放數據時找得到、找得快且找得準。好看好看是使政府開放數據具備較好的視覺體驗,既能看得見,
111、又能看得懂、看得舒適。視覺信息比文本信息更易于接收,數據可視化可以促進用戶快速接收信息,在一定程度上增強了政府開放數據對用戶的吸引力。首先,要確保為用戶提供看得見的政府開放數據,逐步加強政府開放數據的可視化建設。以圖、表的形式展示數據動態變化信息,同時可考慮創造性地利用現代通信工具、多媒體技術或 3D 虛擬現實信息搜索環境等先進的技術來加強計算機生成的虛擬環境的浸入感,使用戶獲得更好的體驗。其次,政府開放數據可視化的界面要簡潔清晰,確保用戶看得懂展現的數據內容。同時,數據可視化的設計要盡量符合美學的設計原則,為數據用戶帶來舒適的視覺體驗。好用好用主要體現在用得著、用得順和用得有效三個方面。首先
112、,政府開放的數據應是用戶關切或能滿足用戶信息需求的數據。政府部門應在確保信息安全的情況下開放多領域多主題的數據,并及時更新,保證數據的完整性和全面性。同時,要加強政府各部門以及不同行政層級政府間的統籌協作,制定各類數據發布、更新標準,公布數據發布日程以及修改說明等。其次,用得順體現在政府開放數據提供的數據格式可以方面用戶進行后期的數據處理,政府在開放數據時應注重提供豐富的數據開放格式。利用政府開放數據的最終目標是能夠滿足用戶需求并產生價值,因此政府可以通過提供有用且高質量的數據來確保用戶利用數據后產生好的效果??晒蚕砜晒蚕淼闹攸c在于數據開放共享的標準和規范設立。目前我國對數據沒有統一的標準,數
113、據口徑不同和格式多樣等都阻礙了數據共享,造成了一個個獨立的信息孤島僅實現內部共享,無法發揮數據的整體優勢。政府應加快建立一套統一的、法定的數據開放共享標準規范,明確開放數據的技術標準和管理標準,同時建立健全政府開放數據共享機制,強化部門協同,以目標為導向,按需共享,規范建設過程,保證共享數據的質量,確保數據共享的安全??伤菰磾祿伤菰词窃u估開放數據質量和可信度的基礎。要加強政府開放數據溯源元數據建設,確保政府開放數據有明確的數據來源、路徑和時間,在元數據中設立明確的相關字段進行標注。目前的政府開放數據元數據中含有相應的溯源信息,但總體質量還不高,溯源能力較弱。因此,需要進一步加強基于全生命周期
114、的政府開放數據利用溯源元數據體系建設??煽刂平φ_放數據利用全過程的管理控制機制,從制度、技術和輿論三個維度對數據開放利用過程提結論與對策38供全方位的保障。制度維度,一方面政府應不斷出臺政府開放數據利用相關政策,并加強政策的推行力度;另一方面,要建立科學合理的開放數據利用管理制度,明確各過程的管理方式和各部門的管理職責。技術維度,理清數據開放利用的業務流程,在數據篩選、開放、共享、下載等各個環節加強控制,明確各環節的技術規范。此外,政府應加強開放數據利用的輿論引導,鼓勵公眾參與到開放數據利用的管控過程中,實現開放數據利用的共治共建共享。2018 年度中國政府開放數據利用報告39附錄1.1 樣本選取與數據采集1.2 工具選取與研究方法附錄聯合發布方華中師范大學信息管理學院湖北省數據治理與智能決策研究中心報告出品團隊段堯清夏立新李玉海婁策群易明陳玲姚蘭劉宇明何思奇王冰清林平周密尚婷