《復旦智庫:2020上半年地方開放數林指數分析報告數據層:浙江(23頁).pdf》由會員分享,可在線閱讀,更多相關《復旦智庫:2020上半年地方開放數林指數分析報告數據層:浙江(23頁).pdf(23頁珍藏版)》請在三個皮匠報告上搜索。
1、001 評估方法 1.1 評估指標體系 1.2 數據采集分析方法 1.3 指數計算方法 指數分析 2.1 數據數量 2.2 數據質量 2.3 數據規范 2.4 開放范圍003003006006008008009012017請參照以下規范:復旦大學數字與移動治理實驗室 . 地方開放數林指數分析報告 數據層 _ 浙江(2020 上半年)R/OL. (2020-07-22) 引用日期,格式為YYYY-MM-DD. http:/ 地方開放數林指數分析報告 數據層 _ 浙江(2020 上半年).pdf.0020031.1 評估指標體系評估指標體系共包括準備度、 平臺層、 數據層、 利用層四個維度及下屬多
2、級指標 (見圖1-1、圖 1-2):準備度是“數根”,是數據開放的基礎,包括法規政策效力與內容、組織與實施、標準規范制定等三個一級指標。平臺層是 “數干” , 是數據開放的樞紐, 包括數據發現、 數據獲取、 成果提交展示、 互動反饋、用戶體驗等五個一級指標。數據層是“數葉”,是數據開放的核心,包括數據數量、數據質量、數據規范、開放范圍等四個一級指標。利用層是“數果”,是數據開放的成效,包括利用促進、有效成果數量、成果質量、利用多樣性等四個一級指標。一、評估方法004 圖 1-1 評估指標體系005 圖 1-2 數據層評估指標0061.2 數據采集分析方法數據層評估主要通過機器自動抓取浙江省數據
3、開放平臺上的數據,結合人工觀察采集相關信息,然后對數據進行了描述性統計分析、交叉分析、文本分析和空間分析。數據采集截止時間為 2020 年 4 月,對“動態更新”這一指標的評測時段為 2020 年 1 月 1 日至 2020 年3 月 31 日。1.3 指數計算方法基于浙江省在各項評估指標上的實際表現從低到高按照 0-5 分共 6 檔分值進行評分,其中 5 分為最高分,相應數據缺失或完全不符合標準則分值為 0。對于連續型統計數值類數據則使用極差歸一法將各地統計數據結果換算為 0-5 分之間的數值作為該項得分。報告對應各項評估指標,以處于全國前 10%、前 25%、前 40%、前 70% 和后
4、30% 五個等級來展示浙江省在該項指標上所處的位置。007008浙江在數據層各項指標上的得分如圖 2 所示。二、指數分析 圖 2 浙江在數據層各項指標上的得分情況2.1 數據數量數據數量是指平臺上開放的有效數據集的數量和容量。009 浙江在該項指標上在全國所處的位置 浙江在該項指標上在全國所處的位置2.1.1 有效數據集總數有效數據集總數是指平臺上開放的真實有效的數據集的數量,不包括空白數據集、虛假數據集和重復數據集。浙江目前在該項指標上的排名居于在評地區的前 70%。2.1.2 有效數據容量有效數據容量是指將一個平臺上可下載的、結構化的有效數據集的字段數(列數)乘以條數(行數)后得出的數據量
5、。浙江目前在該項指標上的排名居于在評地區的前 10%。2.2 數據質量數據質量是指平臺上開放的數據集的完整性、顆粒度、時效性和可獲取性。0102.2.1 優質數據集數量優質數據集數量是指平臺上數據容量大、社會需求高的數據集的數量。報告對在評地區平臺上所有可下載的數據集按照數據容量進行排序,在數據容量相同的情況下再按照下載量排序,最終選出排名居于前 1% 的數據集作為優質數據集。浙江目前在該項指標上的排名居于在評地區的前 10%。浙江省平臺有三個優質數據集進入在評地區優質數據集的前十名(如表 1)。 浙江在該項指標上在全國所處的位置 表 1 浙江平臺上開放的優質數據集0112.2.2 無質量問題
6、無質量問題是指平臺上存在高缺失、碎片化、低容量、生硬格式轉化、限制型 API、標題缺失或不清等質量問題的數據集較少或沒有。其中,高缺失數據集是指數據集中有 60% 以上的空缺數據 ; 碎片化數據集是指按照時間、行政區劃、政府部門等被人為分割的數據集 ; 低容量數據集是指因數據量本身稀少或顆粒度過大等原因造成的數據條數在三行或三行以內的數據集 ; 生硬格式轉化是指平臺將非結構化的 DOC、PDF 等文件生硬地轉化成 XLS、CSV、XML 等可機讀格式。浙江目前在該項指標上的排名居于在評地區的前 25%。2.2.3 數據持續性數據持續性是指平臺能夠持續增加數據集,更新已開放數據集,并留存歷史數據
7、集。浙江目前在該項指標上的排名居于在評地區的前 10%。 浙江在該項指標上在全國所處的位置 浙江在該項指標上在全國所處的位置0122.3 數據規范數據規范是指平臺上的開放數據集在分級分類、開放協議、格式標準、描述說明等方面的規范和完善程度。2.3.1 分級分類分級分類是指平臺根據不同的安全保護要求對數據集標示了不同等級的開放類型,浙江目前在該項指標上的排名居于在評地區的前 10%。 浙江在該項指標上在全國所處的位置013浙江平臺為數據集標注了向社會開放的類型,包括無條件開放與受限開放(如圖 3)。 圖 3 浙江平臺開放數據目錄中標注的開放類型 浙江在該項指標上在全國所處的位置2.3.2 開放協
8、議開放協議是指平臺為數據集提供了有關其開放主體和利用主體的權利和義務的協議,浙江目前在該項指標上的排名居于在評地區的前 10%。014 圖 4 浙江平臺的數據開放授權許可使用協議浙江平臺在用戶獲取數據時提供了數據開放授權許可使用協議(如圖 4)。015 圖 5 浙江平臺提供的數據集下載格式2.3.3 開放格式開放格式是指平臺上開放數據集的格式標準,包括可機讀格式、非專屬格式、RDF 格式和 API 調用標準。浙江目前在該項指標上的排名居于在評地區的前 10%。浙江為平臺上的數據集提供了可機讀格式、非專屬格式與 RDF 格式(如圖 5)。 浙江在該項指標上在全國所處的位置2.3.4 描述說明描述
9、說明是指對數據集的描述與說明,包括元數據提供與 API 說明。浙江目前在該項指標上的排名居于在評地區的前 10%。 浙江在該項指標上在全國所處的位置016 圖 6 浙江平臺的元數據與 API 接口說明浙江平臺為數據集提供了完整的元數據與 API 說明(如圖 6)。0172.4 開放范圍開放范圍是指平臺上開放的數據集在數據主題、參與部門、常見數據集及關鍵數據集方面的覆蓋程度。2.4.1 主題覆蓋主題覆蓋是指平臺上開放的數據集在經貿工商、交通出行、衛生健康、教育科技、社保就業、資源環境等 14 個基本主題上的覆蓋程度,浙江目前在該項指標上的排名居于在評地區的前10%。浙江平臺的數據覆蓋了所有基本主
10、題(如表 2)。 浙江在該項指標上在全國所處的位置0182.4.2 部門覆蓋部門覆蓋是指平臺上開放的數據集所覆蓋到的政府部門的比例,浙江目前在該項指標上的排名居于在評地區的前 40%。2.4.3 常見數據集覆蓋常見數據集覆蓋是指平臺上開放的數據集在常見數據集上的覆蓋程度。報告對在評地區平臺上開放的所有數據集的名稱進行了文本分析,梳理出十四類各地平臺上常見的開放數據集。浙江目前在該項指標上的排名居于在評地區的前 70%。 浙江在該項指標上在全國所處的位置 浙江在該項指標上在全國所處的位置0192.4.4 關鍵數據集覆蓋關鍵數據集是指平臺上開放的數據集在關鍵數據集上的覆蓋程度。報告基于中共中央 國
11、務院關于構建更加完善的要素市場化配置體制機制的意見和地方法規政策要求重點和優先開放的數據領域,結合各地平臺上已開放的優質數據集清單,梳理出五項關鍵數據集。浙江目前在該項指標上的排名居于在評地區的前 10%。 浙江平臺提供了除疫情防控類數據以外的關鍵數據集(如表 3)。 浙江在該項指標上在全國所處的位置定制地方開放數林指數分析報告可在公眾號“復旦 DMG”下方留言或者回復關鍵詞“地方報告”,也可發送郵件到 020聯合發布方合作單位冥睿(上海)信息科技有限公司匯納科技股份有限公司DataMate 數據工作室晴禾(南京)文化有限公司浪潮集團復旦發展研究院中山大學數字治理研究中心上海市靜安區人力資源和社會保障局