《KSG解決方案:數據湖還是數據沼澤?(18頁).pdf》由會員分享,可在線閱讀,更多相關《KSG解決方案:數據湖還是數據沼澤?(18頁).pdf(18頁珍藏版)》請在三個皮匠報告上搜索。
1、1KSG 解決方案-數據湖還是數據沼澤?不要讓 數據湖成為 數據沼澤數據湖還是數據沼澤?行業報告資源群行業報告資源群免責申明:1.本內容與原報告無關;2.原報告來源互聯網公開數據;3.原報告僅限社群個人學習,如需它用請聯系版權方;4.如有其他疑問請聯系微信1.進群即領福利報告與資源合編,內有近百行業、萬余份行研、管理及其他學習資源免費下載;2.每日分享學習最新6+份行業精選及3個行業主題資料;3.群友報告需求咨詢,群免費交流;4.本群僅限行業報告交流,禁止廣告及無關信息。掃碼進群 長期有效掃碼進群 長期有效2KSG 解決方案-數據湖還是數據沼澤?簡介越來越多的企業開始將他們的數據視為一項重要資
2、產,因為數據可以幫助他們提高運營效率和盈利能力。隨著人們收集時序數據方面的能力不斷增強,相應的技術也逐漸增多,幫助人們深度理解這些數據。我們該如何選擇正確的技術和方法來解決我們的業務問題呢?關于作者John de Koning 是工業數據處理方面的一名成功顧問,在石油和天然氣行業打下了堅實的基礎。作為殼牌公司的技術和創新經理,約翰在加工制造和生產數據方面采用了創新的方法,每年可以為公司創造 5 億美元的價值。他在公司層面引入數據架構,為制造和生產數據提供上下文、對數據進行集成和聚合,他是行業的領導者。他的經驗和見解是這本白皮書的基礎。本白皮書著重于幫助行業領導者們了解各種數據處理技術的特點,以
3、及如何與企業數據湖計劃相結合,綜合使用這些技術為企業時序數據處理提供最佳解決方案。3KSG 解決方案-數據湖還是數據沼澤?時序數據解決方案有好多種。其中的一些解決方案甚至把自己裝扮為數據管理的圣杯,并主張將傳感器和機器數據直接傳輸到數據湖和云端,隨后再對數據進行組織。但是工業數據流的性質以及已經存在的傳統自動化設備該如何處理呢?特別是在工業數據環境領域,自動化系統的生命周期可長達 20 年,更換設備是一項巨大的投資。從這些數據源向數據湖發送原始數據壓根行不通,因為這些遺留的數據源根本就沒有數據接口。數據訪問應簡單而可行,但應能支持企業范圍內的報告和分析。時序數據的解決方案體系結構應遵循一些嚴格
4、的規則:1.連接性確保企業解決方案能夠連接各種(傳統)數據源和未來的新數據源。2.時序能力系統應當能夠處理時序數據(高保真、按時間索引、與時間同步)。3.上下文系統應當能夠基于資產/設備,在各個數據流之間建立易于理解的關系,讓用戶能夠在設備級別輕松比較、查看和分析數據,而無需成為 IT 專家或數據科學家。4.可訪問流程用戶應當能夠分析數據,并對數據進行可視化呈現,從而優化使用生產設施。5.安全性確保生產設施安全可靠!不要讓意外的后門進入您的自動化系統。管理概述數據湖是企業收集和存儲來自各種原始數據的簡單方法,無需事先了解數據將如何使用。但為了通過數據來驅動業務成果,這些數據應當是有組織的、并且
5、是可訪問的。沒有結構,數據湖就會變成沼澤。多種先進的實時軟件系統能夠與企業數據湖軟件集成,幫助收集和構造數據,進而可以有效使用數據。4KSG 解決方案-數據湖還是數據沼澤?目前可用的數據湖技術常常只有一種形式,尚無能力以有效和高效的方式應對上述關鍵規則。為了確保來自各種(傳統)源系統的數據能以正確的時間戳登錄到云中、及時同步并具有正確的上下文,添加專門為此目的而設計的基礎架構層非常重要。時序數據處理技術和數據湖技術(云或內部部署)的結合將為企業的各個層面帶來靈活性和重要性:(a)在生產層面確保數據安全并可訪問;(b)在企業層面,允許為數據賦予上下文,并對數據進行整合和匯總,以實現更好的業務決策
6、。結合實時架構和數據湖技術,可以提供不同的解決方案。根據上述規則,OSIsoft PI System 工具包與數據上下文自動化工具(如 Element Analytics 提供的工具)的技術組合是解決方案架構的主體策略,可支持運營方面的時序數據需求和企業的數據湖計劃。專用的集成工具可以輕松地與云端以及企業內部的 Microsoft、SAP 或 Hadoop 的企業數據倉庫和數據湖技術集成。全球能源企業這樣的大公司已經證明,通過引入企業工具和流程進行主動監控、基于例外的監控、旋轉設備監控、基于狀態的維護,余量可視化等,這樣的技術組合可以輕松實現每年 5 億美元的收益。所有這些舉措將會延長正常運行
7、時間,提升設施效率。圖 1:混合環境5KSG 解決方案-數據湖還是數據沼澤?傳統的數據倉庫技術使用預定義的數據模型來描述數據庫。其優點是用戶可以預先知道數據結構的外觀,缺點是不夠靈活。由于新數據源的出現,以及人們期望從數據中了解更多,傳統的數據倉庫已經無法跟上數據模型的快速變化。變化速度是壓倒性的,通過構建數據模型和數據庫框架,傳統的工作方式越來越難以持續。另外,傳統的(數據)變更管理方式將不再適用,因為隨著數據模型的快速變化,版本控制將很難實現。在數據湖環境中,原始數據以原始狀態推送到存儲。這可以是結構化、非結構化,blob 形式等。與數據倉庫一樣,您不需要預先定義數據元素如何相互關聯(數據
8、模型),當您從數據湖中檢索數據時才創建數據關系。這也是數據湖的主要缺點。借助數據庫和數據倉庫,業務人員(而非 IT 人員)可以在復雜的數據模型中查詢數據,而數據建模工作是由 IT 專家事先完成的。在數據湖的情況下,用戶需要具有數據科學家的知識,才能分析各種數據塊并將它們連接在一起以便合理使用。表 1 總結了數據倉庫與數據湖的關鍵特征。表 1:數據倉庫與數據湖過渡到數據湖數據倉庫與數據湖比對結構化,處理數據結構化/半結構化/非結構化的,原始的寫的架構處理讀的架構海量數據的高昂費用 存儲專為低成本存儲而設計不夠敏捷、配置固定敏捷高度敏捷,可以根據需要進行配置和重新配置成熟安全性成熟商務人士用戶數據
9、科學家等等6KSG 解決方案-數據湖還是數據沼澤?工業環境中的“完美世界”“完美世界”非常簡單。您想要訪問所有可用的數據(內部和外部)、以任意組合查詢數據、運行合成分析以查找缺失的部分、使用您喜歡的工具將正在查找的信息進行可視化。但是,現實往往并非如此。與實時的時序環境相結合時,需要關注的核心問題是(傳統)數據源的多樣性、網絡延遲和可靠性、數據延遲、數據流的時間同步以及數據流之間的上下文關系。圖 2:數據處理的“完美世界”。缺了什么?7KSG 解決方案-數據湖還是數據沼澤?工業環境中“完美世界”的絕佳替代方案由供應商生態系統提供的混合模式將有助于彌合“完美世界”與技術局限性之間的差距。根據公司
10、規模和生產設備不同,時序數據源的多樣性可能很寬泛??赡軙羞z留下來的控制系統和自動化系統,特別是那些擁有多處生產地點的老公司,它們可能使用了不同品牌的系統,每種品牌又有許多不同的類型,每種類型還會有各種不同的版本。從這些數據源向數據湖發送原始數據壓根行不通,因為這些遺留的數據源根本就沒有數據接口。此外,設施位置可能會引起重大的數據可靠性問題。為避免數據丟失,通過低帶寬(如衛星)連接的遠程設施需要額外的功能支持。另一個重要方面是安全性。為確保設施的完整性和安全運行,接口技術必須非常安全。將先進的實時時序系統添加到混合模型中可以解決數據湖技術中的關鍵問題。下表顯示了具體的益處。圖 3:系統特性概述
11、8KSG 解決方案-數據湖還是數據沼澤?實時時序世界中數據處理的最優化數據湖技術和時序數據架構的結合將有助于解決“完美世界”的核心問題。在這種情況下,時序數據架構會收集來自現場的所有數據。時序數據架構還將確保用戶可以在當地查看遠程的現場數據,并進行處理和報告(邊緣計算)或將數據提供給實時優化系統或高級控制系統。通過避免網絡可用性和數據延遲問題,這種邊緣計算在生產過程中可以確保運行和監視設備時所需的數據和系統的可用性。對數據進行集成和標準化訪問的益處時序系統和數據湖的集成為企業的運營和商務提供了“一站式”數據訪問模式。這使企業范圍的報告、企業大數據分析和企業應用程序在各種用例中的交付成為可能。這
12、些企業應用程序和報告可以在整個企業范圍內通過一個平臺復用。由于公司內設備定義是相同的,因此在整個公司重復使用案例非常容易。來自某個位置的最佳實踐可以在其他位置以非常低的成本重新部署,從而快速創造價值。當 IT 架構具有一致的數據訪問方法以及一致的數據模型構建方式時,可以非常輕松地為每種設備類型構建一套一致的分析,并將其部署到整個企業的所有設施上。這避免了在不同設施上重新開發;應用程序的開發和部署將變得非常敏捷;最重要的是,實現價值的時間非???。全球能源企業這樣的大公司通過引入企業工具進行主動監控、基于例外的監控、旋轉設備監控、基于狀態的維護,余量可視化等,可以輕松實現每年 5 億美元的收益。所
13、有這些舉措將會延長正常運行時間,提升設施效率。在能源領域,熱交換器的使用非常普遍。熱交換器的結垢是一個嚴重的問題,因為它會減緩生產或造成意外停機。技術人員需要在所有設施中解決這個問題,他們試圖發明一種方法來預測熱交換器的結垢情況。然而,這種努力往往會因為重復工作而導致大量的返工。9KSG 解決方案-數據湖還是數據沼澤?集成了數據湖的時序數據架構時序或實時架構技術的選擇取決于企業的特點和要求。實時架構系統的市場有以下幾種情況:基于供應商的自動化,如霍尼韋爾 PHD、或橫河 Exaquatum 等 基于開源系統的 InfluxDB、Graphite 和 Prometheus 基于大型設備供應商,如
14、西門子 XHQ 獨立于供應商的系統,如 OSIsoft PI System基于自動化供應商的時序數據架構像霍尼韋爾和橫河這樣的自動化供應商有他們自己專用的實時架構。這些工具很好地集成在他們的自動化工具包中。缺點是與其他工具包相比,這些工具的分析能力有限,不能很好地整合到大數據環境中。開源的時序數據架構InfluxData 等系統起源于從聯機系統收集實時信息以進行性能監控和警報。2013 年推出 InfluxData 后不久,用于收集實時數據的接口在社交媒體中迅速擴展。其用例在物聯網世界持續延展。InfluxData 是各種開源計劃的整合:Telegraf 用于連接、InfluxDB 用于時序數
15、據存儲、Chronograf 用于可視化、Kapacitor 用于檢測和警報?;谠O備的時序數據架構西門子等設備供應商需要專門的系統來優化他們提供的服務。他們需要時序系統對大型旋轉設備(如風力渦輪機)進行遠程監控。渦輪機市場的增長也推動了這些平臺的發展?;讵毩⒐痰臅r序數據架構獨立供應商開始填補數據收集、分析和可視化等方面的空白。兩個供應商在這個領域脫穎而出:開發了 InfoPlus 21 系統的 AspenTech 以及開發了 PI System 時序數據架構的 OSIsoft。InfoPlus 21 更專注于小規模、類似 MES 的功能和本地工廠;而 OSIsoft PI System
16、 則被設計為一個通用的實施架構,管理范圍從風力渦輪機等單一資產到整個工廠。需要捕獲、共享和分析數據的企業、企業社區、供應商和監管機構都可以使用 PI System。支持不同類型數據源(450+)的各種接口是 OSIsoft PI System 工具包的主要優點之一。數據沒有任何障礙便可進入系統。這意味著客戶不需要額外的開發或意外的 IT 成本來連接數據源。同時,具有流式分析功能的完整上下文引擎可確保捕獲數據的巨大體量和多樣性,并將實時數據轉化為有價值的信息供不同的人員使用-從工廠工程師到從事數據湖工作的數據科學家。10KSG 解決方案-數據湖還是數據沼澤?功能概述表 2:基礎架構功能比較11K
17、SG 解決方案-數據湖還是數據沼澤?表 2:基礎架構功能比較-續12KSG 解決方案-數據湖還是數據沼澤?為使數據驅動業務成果,必須對數據進行組織并確保數據可訪問。沒有結構,數據湖就會變成沼澤。個別數據點對于靠近生產設施的工程師來說具有價值。工程師通常會詳細了解設施的建造方式以及如何查找每個數據點。但是,當報告、監控或分析發生在本地環境之外時,為海量可用數據點添加結構、進行管理并提供上下文就變得尤其重要。通過名稱了解單獨的數據不再是一種選擇。示例:考慮大型設施中圍繞單個潤滑油泵的上下文數據。每個泵都有一個參數,用于定義泵名稱、功耗、出口壓力、出口流量、出口溫度和過濾器壓差。此外,組織中的任何人
18、都應該知道泵所在的地理位置、它在流程中的位置以及流過泵的物質。鑒于泵的多樣性及其不同的應用和流程,在缺乏上下文的環境下簡單對“泵”進行比較沒有任何意義。圖 4:將操作數據流式傳輸到多個應用程序數據上下文是成功的關鍵13KSG 解決方案-數據湖還是數據沼澤?采用了模板方法后,復雜的數據上下文更易于被所有用戶訪問。使用模板,用戶不必搜索數據流的多個標簽名稱,也不需要知道標簽的名稱。他們需要知道的只是泵的名稱。對于其他參數,您也不再需要知道數據流名稱。在將泵添加(實例化)到系統時,您在特定的泵與該泵的實際數據流之間建立了該連接。一旦所有資產都在資產模板上建模,訪問數據就變得非常簡單。這使得非 IT
19、人員可以輕松使用這些數據,而且構建應用程序和報告將變得非??焖偾乙子诓渴?。然而,所有可用系統的缺點之一是需要大量的人力來建立數據流和資產定義之間的連接。問題不在于自行構建模板,而是將模板的實例連接到現場的測量點。使用更大的 100k+系統數據流時,這會耗費大量的人力和產生昂貴的成本。圖 5:利用 Element Analytics 加速實現數據結構與基于云的應用程序集成資產數據建模數據轉換高級分析元素平臺運營數據微軟 Azure 云前提就 OSIsoft 的 PI System 而言,可以使用工具包來自動化操作,從而顯著減少構建模板以及將數據流映射到結構中所需的工作量。該工具包由 Elemen
20、t Analytics 提供,可將創造價值的時間縮短 80。數據科學家不僅需要考慮數據的背景,還需要考慮如何準備數據。這項工作需要花費大量精力。數據科學家需要通過選擇數據集、清理數據、匹配數據、以正確的布局對數據進行格式化等操作來準備數據。對于希望利用時序數據進行高級分析的數據科學家來說,這是最大的挑戰。敏捷的自助數據準備工具,如 OSIsoft 的 Business Integrators,結合使用 Element Analytics 等工具,有助于為不是 IT 專家或數據科學家的商業用戶開放大數據分析。像 Cemex 這樣的公司已經表明,分析前準備傳統的時序數據需要 6 個月的時間,而使用
21、正確的工具可以將準備時間減少到四分鐘。OSIsoft 工具包敏捷并且用戶友好,使用它可以顯著減少從商業創想到實際價值的時間。此外,IT 專家和數據科學家不需要更多的參與,它可以顯著降低同一業務價值的總體擁有成本(TCO)。14KSG 解決方案-數據湖還是數據沼澤?結論工業數據處理的完美世界尚不存在。將原始格式的生產和運營數據全部推送到中央大數據存儲區將導致數據沼澤,而不是數據湖。只有專業的數據科學家才能挖掘數據中的價值。在工業環境中,對所有實時數據進行預處理至關重要。為數據引入上下文是確保業務用戶可以利用數據優化運營的必要條件。這意味著在工業環境中,數據湖與實時基礎架構的結合將帶來大數據處理的
22、所有優勢,如:連接到非常多樣化的生產和自動化世界 通過結合所有數據,數據科學家能夠發現有價值的 項目 企業應用程序開發和報告是通過為所有資產提供標準化數據模型的“一站式”數據來實現的 運營人員可以通過結構化和靈活的方式直接訪問實時數據,優化日常運營圖 6:企業運營基礎架構是確保數據能夠分析,進而支持數據計劃的基礎。15KSG 解決方案-數據湖還是數據沼澤?OSIsoft PI System 在生產和自動化級別(接口和連接器)上的無縫集成,以及在商務智能級別與云和數據湖的無縫集成使 OSIsoft 的 PI System 基礎架構成為一種非常受歡迎的產品,可以彌補生產和數據湖之間的差距。此外,P
23、I System 構建在自助服務模型上,使用時不需要額外的軟件開發和復雜的 IT 基礎架構。無需大型(昂貴)的 IT 團隊,OSIsoft PI System 就能成功實施。大多數業務創新可以由關鍵業務用戶(主題專家)自己完成。易于集成、無需進行額外開發以及使用簡單這些特性大大降低了這類基礎架構的總體擁有成本(TCO)。OSIsoft PI System 與 Element Analytics 等供應商的集成,將會增強數據建模和分析能力,并將所有的企業數據全部集成到數據湖平臺內。這些舉措為企業輕松實施大數據處理并快速實現大數據價值提供了一個理想的環境。行業報告資源群行業報告資源群免責申明:1.
24、本內容與原報告無關;2.原報告來源互聯網公開數據;3.原報告僅限社群個人學習,如需它用請聯系版權方;4.如有其他疑問請聯系微信1.進群即領福利報告與資源合編,內有近百行業、萬余份行研、管理及其他學習資源免費下載;2.每日分享學習最新6+份行業精選及3個行業主題資料;3.群友報告需求咨詢,群免費交流;4.本群僅限行業報告交流,禁止廣告及無關信息。掃碼進群 長期有效掃碼進群 長期有效 版權所有2017 KSG Solutions 提及的所有公司,產品和品牌均為其各自商標所有者的商標。關于 KSG SOLUTIONSKSG-Solutions是一家服務和咨詢公司,專注于工業信息系統。KSG-Solutions成立的目的是通過實施基于現成IT產品的智能解決方案,幫助工業公司通過安裝資產創造更多價值。這些解決方案將有助于提高資產可用性,提高完整性,降低能耗,提高整體生產力。40多年油氣專業經驗以及30多年實時數據處理和MES系統經驗,構成了KSG解決方案所提供服務的基礎。有關信息,請訪問我們的網站 www.ksg-solutions.nlWPLSZH4-102617