《常亞敏-GeoScene時空數據治理能力.pdf》由會員分享,可在線閱讀,更多相關《常亞敏-GeoScene時空數據治理能力.pdf(49頁珍藏版)》請在三個皮匠報告上搜索。
1、GeoScene空間數據治理能力介紹易智瑞信息技術有限公司常亞敏1.數據治理背景2.GeoScene 時空數據治理能力3.GeoScene 數據治理場景及案例4.優勢特性總結目 錄1.數據治理背景DAMA(Data Management Association,國際數據管理協會)數據管理知識體系數據治理是對數據資產的管理活動行使權力和控制的活動集合(規劃、監控和執行)數據治理職能是指導所有其他數據管理領域的活動數據治理的目的是確保根據數據管理制度和最佳實踐正確地管理數據。包括戰略、制度、標準和質量、監督、合規、問題管理、數據管理項目、數據資產估值DCMM(Data Management Cap
2、ability Maturity Assessment Model)數據管理能力成熟度評估模型,工信部牽頭發布數據治理能力域:數據治理組織、數據治理制度、數據治理溝通DGI(Data Governance Institute,數據治理研究所)數據治理框架5W1H法則:WHY,WHAT,WHO,WHEN,HOW,WHERE 數據治理愿景目標、治理內容、利益干系人、行動計劃、治理流程、水平定位數據治理概念Data GovernanceDAMA數據管理知識體系數據治理沒有嚴格的定義,一些國際和國內機構提出了一整套數據治理知識體系和模型框架,用于指導企業級的數據治理活動。通俗的講,數據治理是對數據進行
3、處置、格式化、規范化的過程,解決數據從不可用、不好用到可用、好用的過程數據分析過程往往沒有那么順暢和理想數據存在問題,清洗數據費時費力探索性分析階段,反復進行數據處理與模型驗證為什么需要數據治理收集數據收集數據數據分析數據分析數據處理數據處理數據清洗數據清洗數據融合數據融合Happy families are all alike;every unhappy family is unhappy in its own way.Leo TolstoyLike families,tidy datasets are all alike,but every messy dataset is messy i
4、n its own way.Hadley Wickham,Tidy data tidyr理想的數據分析 VS 實際的數據分析數據數據分析分析數據數據處理處理數據數據融合融合數據數據清洗清洗收集收集數據數據各業務系統積累數十年的數據,即使在當前信息化的問題初步解決的情況下,仍然存在數據產生/管理的混亂;往往通過離線拷貝方式交換數據,數據版本混亂,難以追溯數據的問題缺少統一管理平臺;系統內部,存儲分散、交換困難,難以集中應用、共享成效;跨系統、不同管理組織、不同標準的數據難以統一管理車輛不在道路農田數據壓蓋未融合的數據,難以進行深度分析;如數據分散、質量等問題,也為數據融合制造了困難 歷史數據缺少
5、過程管理 數據分散 數據質量參差不齊 未融合,難以深度挖掘缺少數據治理Garbage in Garbage out時空數據組成1基礎時空數據矢量數據影像數據高程模型數據地理實體數據地名地址數據三維模型數據測繪產品數據2公共專題數據法人數據人口數據宏觀經濟數據民生興趣點數據地理國情普查與監測數據3物聯網實時感知數據實時位置信息、影像和視頻交通、環保、水利、氣象等監控與監測數據4互聯網在線抓取數據采用網絡爬蟲等技術,在線抓取完成任務所缺失的數據時空數據特征2、數據范疇1、來源多樣性4、數據量巨大且快速增長類型:點、線、面3、數據組織結構多樣性城市級手機信令數據,每天超過10億條城市級車輛運行軌跡數
6、據,每天超過1億條國家級國土三調矢量數據超過1TBHDFS文件存儲數據庫存儲格式:Shp、HDFS、PG人類活動產生自然存在空間屬性空間尺度時間特性E116.40N39.9時空大數據治理的問題2、數據的感知如何快速了解數據的信息,洞察數據結構4、計算效率數據量大的情況下,如何高效計算能否采用最新的數據存儲和計算引擎1、數據的組織和管理如何將離散的的、不同來源、類型、存儲格式的數據進行組織管理必要時還需要做數據類型轉換3、數據處理工具是否有全面、易用的工具,應對時空數據的數據質量問題和清洗處理2.GeoScene時空數據治理能力GeoScene時空大數據治理架構應用層算法層數據層技術層 CSV數
7、據讀取 Shp數據讀取 Parquet、ORC數據讀取文件型數據源 Oracle數據源 PostgreSQL數據源 Hbase數據源 FileGDB數據源數據庫數據源分布式文件系統 HDFS云存儲 阿里云 華為云 AWS云存儲 微軟云存儲匯總數據查找位置數據豐富模式分析臨近分析管理數據空間分析工具機器學習工具集數據預處理分類與回歸聚類大數據基礎工具集數據讀取數據輸出數據清洗空間數據檢測數據處理空間幾何計算數理統計計算文本計算大數據分析工具集位置分析數據豐富模式分析臨近分析空間分析模型算子異常值檢測拓撲檢測檢測差異多邊形檢測空幾何檢測工具數據資源數據治理空間分析在線建模資源可管數據可視模式洞察過
8、程追溯任務監控共享協作深度分析自然資源農業氣象交通行業城市治理功能模塊應用場景數據血緣關系追溯GeoScene GeoAnalytics Server PlusSpark分布式計算框架(支持 Yarn,Standalone 及Local 模式)RunPython ScriptGeoScene時空大數據治理流程數據抽取數據轉換數據質檢數據清洗數據融合數據服務數據應用 CSV數據讀取 Shp數據讀取 Parquet、ORC數據讀取文件型數據源 Oracle數據源 PostgreSQL數據源 Hbase數據源 FileGDB數據源讀取數據庫數據源分布式文件系統 HDFS云存儲 阿里云 華為云 AWS
9、云存儲 微軟云存儲連接描述感知監測關系追溯時空數據體檢套餐差異檢測配置檢查策略體檢規則設置定義體檢套餐壓蓋檢測拓撲檢查空值檢測空間投影數據偏移數據清洗節點計算質心提取數據融合數據追加空間融合屬性融合數據狀態管理時空關系追溯時空語義描述屬性連接空間連接大數據分析服務交通大數據手機信令分析自然資源大數據工具服務算子服務模型服務接口服務資源管理服務算子算法工具模型應用決策GeoScene時空數據治理能力多源數據匯集與管理適配多種主流數據存儲類型全流程數據治理覆蓋全流程的治理工具數據狀態與結構感知數據源狀態監控細粒度、多維度結構感知數據血緣關系追溯記錄數據流轉過程中的每一步變化一體化數據體檢套餐式體檢
10、工具合集,提升數據質檢效率分隔文件(.csv、.tsv 和.txt)Shapefile Parquet 文件(.gz.parquet)ORC 文件(.orc.crc)FileGDB(.gdb)PostgreSQLHbaseHDFSGIS Server共享目錄FileGDBPostgreSQLHbaseHDFS共享目錄DataStore數據匯集支持不同數據源接入和抽取轉換兩種方式數據接入:通過注冊資源池實現多種來源、多種格式的數據對接,邏輯注冊,避免數據冗余抽取轉換:支持不同來源數據存儲形式轉換,數據實體抽取,根據需求靈活轉換PostgreSQLOracleGIS ServerHDFSHBase
11、共享目錄2.1多源數據匯集與管理適配多種主流空間數據存儲類型涵蓋關系型、非關系型數據源、文件型數據源、分布式文件系統數據抽取轉換數據匯集支持多種數據格式包括點、線、面空間數據及非空間表數據輸入數據源:輸出數據源:資源池:注冊到GA+大數據平臺中的數據源,統一稱為資源池。非數據集中存儲。連接配置編輯共享刪除2.1多源數據匯集與管理2.1多源數據匯集與管理資源池管理連接:接入PostgreSQL、GIS Server、HDFS、HBase、共享目錄等數據源,細分數據庫類型配置:數據項注冊,支持手動模式與自動模式,查看、統計、清空資源池更新內容編輯:編輯數據源信息共享:共享級別與范圍,設置讀寫權限刪
12、除:刪除數據源注冊信息細分PG數據庫,企業級地理數據庫,PostGIS2.1多源數據匯集與管理數據項管理添加:支持資源池注冊、單項數據注冊、本地文件上傳到資源池配置:配置數據名稱、幾何類型、空間參考、時間字段刪除:刪除數據項注冊信息,不刪除原始數據回溯:追溯數據血緣關系有了數據目錄,下一步是要觀察、初步了解數據信息GeoScene解決數據感知核心問題:有什么、在哪里、如何用,讓用戶更快速、更深刻地感知數據2.2數據狀態與結構感知GeoScene GA+通過解析元數據,動態執行屬性統計,洞察數據結構:數據位置 數據格式 數據類別 數據結構 時空范疇 數據分布 復雜程度普通桌面軟件了解數據大致信息
13、 空間參考 幾何類型想進一步了解數據信息 文件不可讀 數據量大,打開數據加載緩慢,甚至軟件卡死 數據變化不可知2.2數據狀態與結構感知感知數據源狀態監控數據源連接狀態是否正常原始數據變化:更新、刪除、新增感知資源池數據結構數據類型分布數據量分布空間數據幾何類型分布感知數據項詳細結構數據來源文件類型2.2數據狀態與結構感知感知數據源狀態監控數據源連接狀態是否正常原始數據變化:更新、刪除、新增感知資源池數據結構數據類型分布數據量分布空間數據幾何類型分布感知數據項詳細結構數據來源文件類型2.2數據狀態與結構感知屬性字段統計,了解數據分布狀況感知數據源狀態感知資源池數據結構感知數據項詳細結構數據來源文
14、件類型空間幾何類型坐標系字段結構屬性字段統計數據整體復雜度(面數據)提供覆蓋全流程的數據質檢、清洗、處理、融合工具2.3全流程數據治理數據質檢拓撲檢測屬性字段檢測異常要素檢測空間關系檢測要素差異對比檢測數據清洗刪除面積異常多邊形刪除長度異常線刪除字段數據處理多邊形質心提取節點抽稀線轉面空間偏移空間投影多部件轉單部件數據融合圖層融合邊界融合連接要素數據治理:提供常用工具集空間分析、在線建模:更全面、更細粒度的治理和分析工具 數據治理數據質檢針對時空數據常見的數據質量問題,提供多種數據質檢工具2.3全流程數據治理同一要素自相交多部件數據檢測多邊形面積為負數異常多邊形GPS飛點拓撲檢測 檢測拓撲 空
15、間自相交檢測 檢測空幾何 檢測多邊形島 檢測多邊形異常外環 檢測多邊形異常內環異常要素檢測狹長多邊形檢測檢測長度異常線檢測面積異常多邊形空間關系檢測檢測壓蓋多邊形屬性字段檢測檢測異常值檢測空值要素對比檢測檢測差異多邊形常見問題GeoScene質檢工具 數據治理數據清洗、處理、融合對于數據質檢結果,提供對應的數據處理工具2.3全流程數據治理拓撲檢測檢測拓撲(輸出正常要素)幾何拓撲校正檢測空幾何(輸出正常要素)屬性字段檢測異常要素檢測刪除長度異常線刪除字段刪除面積異常多邊形刪除字段屬性過濾變更字段名變更字段類型計算字段補全空值 空間分析共用工程,提供提供了數十種數據分析工具,支持即拿即用、接口調用
16、2.3全流程數據治理聚合點構建多變量格網描述數據集連接要素范圍內匯總匯總屬性重新構建追蹤檢測事件查找相似位置查找駐留位置從多變量網格豐富計算動態統計數據計算密度查找熱點OD分析創建緩沖區分析追蹤鄰域事件計算字段邊界融合合并圖層疊加圖層數據去重屬性過濾拓撲分析空間投影裁剪圖層查找點聚類基于森林的分類與回歸廣義線性回歸K均值聚類高斯混合聚類樸素貝葉斯分類(訓練)樸素貝葉斯分類(預測)決策樹分類與回歸(訓練)決策樹分類與回歸(預測)主成分分析邏輯回歸分析地理加權回歸數據抽取、空間計算、模式分析、機器學習、洞察預測即拿即用分析工具、接口調用 在線建模拖拽式建模,以最細微的分析工具算子,靈活構建業務模型
17、,實現數據治理流程復用零編程,快速上手150+細粒度模型算子業務邏輯直觀計算過程清晰模型可共享,提高協作效率2.3全流程數據治理2.3全流程數據治理 在線建模提供150+模型算子,支撐業務需求靈活組合大數據基礎工具集大數據分析工具集機器學習工具集空間分析相交疊加分析擦除疊加分析聯合疊加分析標識疊加分析差異疊加分析裁剪圖層數據預處理數據去重主成分分析分類與回歸樸素貝葉斯分類(訓練)樸素貝葉斯分類(預測)決策樹分類與回歸(訓練)決策樹分類與回歸(預測)廣義線性回歸(訓練)廣義線性回歸(預測)地理加權回歸分析隨機森林分類與回歸分析(訓練)隨機森林分類與回歸分析(預測)聚類K均值聚類高斯混合聚類點聚類
18、(DBSCAN)點聚類(HDBSCAN)數據處理多邊形多部件轉單部件節點抽稀多邊形質心提取幾何拓撲校正空間偏移線轉面空間投影圖層融合邊界融合追加數據空間連接_一對一連接屬性連接_一對一連接字段計算補全空值數理統計計算最大值最小值平均值求和方差標準差向上取整生成隨機數平方根數值型字段分組統計幾何計算角度計算長度計算平面面積計算測地面積計算一般面積計算多邊形質心計算多邊形部件數計算線節點數計算多邊形節點數計算空間要素節點數統計空間數據檢測檢測空幾何檢測空值檢測異常值空間自相交檢測檢測拓撲檢測多邊形島狹長型多邊形檢測檢測多邊形異常外環檢測多邊形異常內環檢測面積異常多邊形檢測長度異常線檢測差異多邊形檢
19、測壓蓋多邊形檢測連續時空異常點文本計算查找文本從左側提取文本從右側提取文本小寫文本大寫文本從中間提取文本分割文本刪除文本首尾空格Url編碼置換文本數據輸出寫出要素服務(PG庫)寫出要素服務(ES庫)寫出到大數據共享Shapefile格式寫出到大數據共享Parquet格式寫出到大數據共享CSV格式寫出到大數據共享ORC格式寫出到Oracle(ST_GEOMETRY)寫出到Oracle(SDO_GEOMETRY)寫出到Oracle(非空間表)寫出到PostgreSQL(SDE)寫出到Postgis SDE數據庫寫出到Postgis數據庫寫出到PostgreSQL(非空間表)寫出本地Shapefil
20、e寫出本地FileGDB寫出本地CSV文件(空間表)寫出本地CSV文件(非空間表)寫出本地GEOJSON文件寫出本地JSON文件(非空間表)寫出到HBase數據庫寫出到資源池寫出文本數據清洗字段過濾條件過濾范圍過濾多邊形過濾變更字段名變更字段類型刪除字段刪除面積異常多邊形刪除長度異常線刪除連續時空異常點數據讀取讀取托管要素服務讀取大數據文件共享圖層讀取地圖要素服務讀取Oracle數據源讀取Oracle非空間表讀取PostgreSQL SDE數據源讀取Postgis SDE數據源讀取PostGIS數據源讀取PostgreSQL非空間數據源讀取Shapefile文件讀取FileGDB圖層讀取CSV
21、文件讀取GeoJSON文件讀取JSON文件讀取HBase數據源匯總數據四邊形聚合點六邊形聚合點多邊形聚合點四邊形范圍內匯總六邊形范圍內匯總多邊形范圍內匯總屬性匯總獲取數據集樣本獲取數據集空間范圍構建四邊形多變量格網構建六邊形多變量格網連接要素重新構建追蹤匯總中心和離差位置分析檢測事件查找駐留位置查找相似位置模式分析四邊形計算密度六邊形計算密度查找熱點OD分析數據豐富計算動態統計數據從多變量格網豐富數據臨近分析創建緩沖區分析鄰域分組統計追蹤鄰域事件數據洞察的“窗口”了解屬性值和匯總字段統計數據。使用樣本圖層可視化大數據。繪制樣本,而不是繪制一百萬個要素。在針對更長時間和更大規模的處理進行調整前,
22、使用數據樣本運行工作流。2.3全流程數據治理獲取數據集樣本描述數據集獲取數據集空間范圍匯總屬性工具算子定制面圖層的質檢工具合集,一體化、一次性體檢,輸出詳細、交互式的體檢報告2.4一體化數據體檢|體檢報告檢測結果加載至地圖一鍵定位異常要素|體檢套餐2.4一體化數據體檢示例6項問題一次性檢測原始數據:shp文件數據量:3萬檢測內容:檢測自相交 檢測壓蓋多邊形 檢測拓撲 檢測空幾何 檢測多邊形異常外環 檢測多邊形異常內環耗時:1min檢測異常結果:1000+異常要素記錄數據產生的鏈路,便于進行過程跟蹤和回溯處理時間數據存儲類型數據總量分析操作數據詳情2.5數據血緣關系追溯2.5數據血緣關系追溯示例
23、數據抽取檢測壓蓋屬性過濾疊加分析數據去重能力小結強大的數據源匯集能力深刻的數據洞察力全面覆蓋、易用的工具全過程追溯能力更智能的數據體檢策略+3.GeoScene數據治理應用場景及案例業務用戶,直接使用合作伙伴,應用集成用戶和適用場景 調用在線建模模型,業務場景建設和系統集成 調用數據治理工具,形成業務工具集 調用大數據分析工具,提供大數據分析能力 支撐數據中臺建設、各種業務平臺建設自然資源行業交通行業其他行業調查院監測院規劃院信息中心交科院 規劃院信息中心業務處室信息中心業務處室最終用戶GA+提供的數據治理模塊、在線建模模塊、空間大數據分析工具集、以及二次開發接口,為不同用戶群體提供了支撐,同
24、時為數據中臺建設、國土空間基礎信息平臺建設、CIM平臺建設,提供空間基礎設施支撐。工程院房屋數據治理分析場景1、數據概況農村房屋住宅面圖層數據量15萬+數據存在的問題1)字段多達50+,與分析關系不大2)部分字段存在空值和異常值3)數據不能直接參與計算,需要做轉換處理使用在線建模完成數據治理 空間分析模塊進行數據洞察和可視化分析框架房屋數據治理分析場景2、數據預處理數據體檢使用GeoScene GA+大數據分析軟件數據治理模塊中的數據體檢功能對數據進行檢測,并生成交互式體檢報告通過數據洞察查看屬性字段數據分布,以建造時間為例,存在大量空值和異常值。房屋數據治理分析場景2、數據預處理數據過濾1)
25、過濾目標字段:原始數據有55個字段,根據分析目標,過濾分析涉及的相關字段2)過濾房屋類型:數據混合了獨立住宅、集合住宅、住宅輔助用房三類,在后續結構類型細分中內容不同,僅保留研究的目標獨立住宅。2、數據預處理數據清洗1)房齡計算:利用建造時間計算房齡,過濾建造時間為空或者建造時間早于1900年的數據2)戶主年齡計算:默認年齡范圍為0-120歲,通過該功能檢測戶主年齡的異常值,并輸出正常年齡范圍3)變更常住人口字段類型:由于常住人口字段為字符串類型,在進行統計之前需將其轉換為數值型4)房屋結構字段計算:將所有的房屋按照結構類型字典賦予結構屬性5)危房篩選:篩選出有明顯可見的裂縫,變形,傾斜的房屋
26、房屋數據治理分析場景房屋數據治理分析場景房屋數量常住人口數量場景一:房屋分布特征房屋數量、房齡、與常住人口數量、戶主年齡的關系按四邊形范圍匯總,將以上變量連接到漁網中,統計每1k的房屋數量、房屋平均年齡、總常住人口、戶主平均年齡,分析房屋分布與人口分布的空間特征。從空間統計圖中可以看出常住人口與房屋數量呈正相關,房屋集中區域人口也較集中人在哪里,房子在哪里3、分析場景和數據洞察房屋數據治理分析場景房屋年齡Avg=18.2年戶主年齡Avg=53.3歲場景一:房屋分布特征房屋數量、房齡、與常住人口數量、戶主年齡的關系按四邊形范圍匯總,將以上變量連接到漁網中,統計每1k的房屋數量、房屋平均年齡、總常
27、住人口、戶主平均年齡,分析房屋分布與人口分布的空間特征。房屋年齡和戶主年齡分布呈正相關70后,35歲左右完成了置業3、分析場景和數據洞察房屋數據治理分析場景房屋數量場景一:房屋分布特征兩組變量,房屋數量、常住人口數量與房屋年齡、戶主年齡之間呈現負相關。人口遷移趨勢人口和居住分布向縣城的中心區域流動老齡化問題凸顯:老年人的居住環境未來可能成為需要關注的問題常住人口數量房屋年齡Avg=18.2年戶主年齡Avg=53.3歲3、分析場景和數據洞察房屋數據治理分析場景場景二:危房特征墻體是否出現裂縫、變形和傾斜與房屋年齡、房屋結構類型的關系與整體房屋特征相比房屋年齡:平均年齡超出整體水平兩倍結構類型:整體:砌體結構比例最高危房:土木/土石結構比例最高且房屋年齡高于該類型平均水平3、分析場景和數據洞察全部房屋危房18.2年 vs 39.1年44494856房屋數據治理分析場景示例房屋數據治理分析4.產品優勢特性GA+做到了什么?資源資源可可管管數據數據可視可視模式洞察模式洞察共享共享協作協作任務任務監控監控深度分析深度分析過程過程追溯追溯用戶友好,化難為易數據結構洞察一體化數據體檢在線拖拽式建模1全流程覆蓋從數據治理業務場景出發貼合使用流程覆蓋各環節要求23產品優勢特性全方位支撐適配多類型數據源豐富的工具和算子全方位支撐治理需求感謝聆聽