《IBM:多云世界數據藍圖(12頁).pdf》由會員分享,可在線閱讀,更多相關《IBM:多云世界數據藍圖(12頁).pdf(12頁珍藏版)》請在三個皮匠報告上搜索。
1、專家洞察 多云世界 數據藍圖 IBM 商業價值研究院 掃碼關注 IBM 商業價值研究院 官網 微博 微信 微信小程序 主題專家 Tony Giordano CBDS 數據平臺服務 高級合伙人兼副總裁 IBM Services 全球主管 tony-anthony-giordano-3111091 Mehdi Charafeddine IBM Services 副合伙人, 解決方案主管架構師 Dan Sutherland IBM Services 數據平臺 杰出工程師,首席技術官 dan-sutherland-4661a67 Becky Carroll IBM Services 認知業務決策支持,
2、 認知與分析 副合伙人 Tony 在績效營銷、大數據和分析、信息監管、客戶關系 管理和項目管理方面擁有超過 25 年的全球專業服務經 驗,并且在金融服務、生命科學、零售和汽車等領域擁 有豐富的行業經驗。 他撰寫過兩本關于信息管理的書籍。 Mehdi 是一位技術領導,在實施大型復雜項目方面聲譽 卓著, 他善于從全新角度看待問題, 運用新方法解決問題。 Mehdi 還是開源技術的忠實擁護者,不斷探索對客戶具 有潛在價值的新技術。這既需要對軟件有深入的了解, 還要準確掌握 IBM 客戶能夠接受的風險 / 回報率。 Dan 擅長幫助客戶將戰略業務愿景轉變為創新解決方案, 同時,還不斷探索邊緣技術。他是
3、解決復雜數據架構和 設計問題的能手,定期提供咨詢服務,對象主要是以海 量數據為中心的大型項目,通過建議項目的關鍵組成部 分,即堅實可靠的數據架構和設計方法,確保成功實施 解決方案。 Becky 在幫助大型企業的業務領導將傳統業務流程轉變 為新業務模式方面,擁有超過 25 年的豐富經驗。她曾領 導過多個項目,涵蓋大數據和分析、認知和人工智能、 數字和社交業務戰略與分析、CRM 以及客戶服務等領域。 Becky 的工作涉及眾多行業,包括高科技、電信、娛樂 與媒體、金融服務、航空公司、汽車、工業品、生命科學、 游戲、教育等。Becky 擁有電子工程和計算機科學的學 士學位以及營銷管理的工商管理碩士學
4、位。 計劃周詳、執行有力的數據戰略 有助于避免多云環境中出現令人 措手不及的意外情況。 談話要點 管理多個云環境中的應用和數據的數據戰略 和架構 對于當今在多云環境中運營的企業而言至關 重要。 業務驅動的數據戰略應當與企業不斷發展的 多云架構全面整合 防止出現數據孤島,避免應用難以訪問。 強大的數據戰略應專注于業務轉型機遇 避免被任何特定的云“鎖定”,并使用 DataOps 方法自動為數據科學家執行準備 工作,從可用數據中獲得盡可能多的信息。 在多云世界中移動數據 隨著越來越多的企業從初步嘗試轉為深入采用云技術,他 們都體驗到了多云環境的優勢和挑戰。多云環境的優點顯 而易見:有助于提升創新能力
5、,改進產品和服務,并實現 敏捷的業務流程。1 事實上,IBM 商業價值研究院 (IBV) 最近的一項調研表明, 全球 85% 的受訪企業已經在多云環境中開展運營。2 到 2021 年,96% 的受訪企業計劃使用多個云環境。3 眾多企 業正在將其自身重塑為“數字化”企業,將人工智能 (AI) 置于重要業務流程的核心。隨著數字化的不斷推進,業務 重心會逐漸向多云環境偏移,因為通常需要從不同的云供 應商那里獲得基于云的服務。但是這種遷移絕不僅僅是將 現有架構遷移到云端的新位置那樣簡單。 每個云供應商都有自己的架構方法。每個供應商組織數據 的方法可能與其他云環境并不兼容。如果精心設計的戰略 沒有考慮到
6、解決這種不兼容問題,那么企業可能會遇到性 能不理想以及成本高于預期的情況。 挑戰的根源在于數據的性質及其快速增長。當企業增加所 使用的服務和應用的數量時,數據會呈指數級增長。但真 正的問題并不在于數據的數量,而在于數據所在的位置。 數據所在位置通常取決于收集和創建數據的位置。 1 2% 24% 68% 70% 9% 28% 數據整體架構有助于在整個企業 范圍實現更理想的數據可視性和 可用性。 這種由不同的業務單位或職能部門創建的分散數據被稱為 “數據孤島”。孤島的存在嚴重影響了數據的易用性。數據 可能重復,但以不同的方式組織,因此很難相互關聯。由于 收集數據的方式不同,可能導致數據出現不一致。
7、企業中其 他部門的應用可能不知道這些數據的存在,或者無法訪問這 些數據。 由于幾乎所有企業很快都將開始多云環境運營,因此隨著企 業將流程、應用和數據包分散到多個云環境中,內部數據孤 島造成的負面影響將會不斷加?。ㄒ妶D 1)。 圖 1 98% 的受訪組織表示,他們計劃在未來三年內使用混合云 環境 0-1 個云環境 2-9 個云環境 超過 10 個云環境 目前 未來 3 年 來源:IBV 2018 年多云管理調研,Q2 和 Q3。 Q2 你們整個企業目前使用多少個云服務和平臺? Q3 您計劃未來三年內在整個企業中使用多少個云服務和平臺? 2 這些新情況引出了一個重要問題:企業如何才能成功地應對 多
8、云環境運營所帶來的復雜性、高成本和延遲問題? 答案是什么呢?那就是在多云世界中定義 “數據整體架構” , 也成為“數據藍圖”。 數據整體架構幫助企業輕松駕馭 多個云環境 數據整體結構 (data fabric) 是數據資產組織方式的概念性表 示或架構。這種藍圖是正式的結構,用于在整個企業中定 義和查看數據,并且獨立于任何特定的基礎架構或云計算 需求。 數據整體架構有助于在整個企業范圍實現更理想的數據可視 性和可用性。它用于指導如何維護和監管數據。它基于這樣 一個概念:業務流程可能隨時發生變化,但支撐它們的數據 一直保持穩定。 數據被分組到稱為“中心”或“湖”的集合中,以實現可視 性和可訪問性。
9、數據整體架構有助于避免或緩解數據孤島、 低可靠性和低可擴展性、依賴于原有系統以及成本效率低下 等問題。但是要在多云環境中有效開展工作,數據整體架構 必須能夠適應不同的使用模式。 下面我們舉三個例子,展示企業如何在不同的云環境中分配 工作負載、應用和數據。 管理平臺 部署平臺 用戶體驗服務 統籌服務 內容服務 洞察服務 數據管理服務 數據中心組件 使用層 統一層 原始數據采集層 Relational HDFS Parquet Hive Mongo Columner 快速采集服務 實時數據采集 批量采集 安全 IBM Cloudpak AWS 示例 1 在第一個例子中,一家公司希望使用 AWS 中
10、已有的數據來運 行 IBM Cloudpak 中提供的分析包。它的數據采集和管理服務 圖 2 通過架構組件在整個多云環境中管理數據 3 位于一個云環境中,只有一個特定的分析服務從另一個 云環境調用這些數據(見圖 2)。 Relational HDFS Parquet Hive Mongo Columner 管理平臺 部署平臺 用戶體驗服務 統籌服務 內容服務 洞察服務 數據管理服務 數據中心組件 使用層 統一層 原始數據采集層 快速采集服務 實時數據采集 批量采集 安全 IBM Cloudpak AWS Azure 要在多云環境中有效開展工作, 數據整體架構必須能夠適應不同 的使用模式。 示例
11、 2 在第二個例子中,企業既被 Azure 上低廉的應用價格所吸 引,同時又希望其他現有流程保留在 AWS 上。因此,該 公司的原始數據采集功能以及數據統一和使用功能被分散 4 到不同的云環境中。該公司還訂購了 IBM Cloudpak 上 的分析服務(見圖 3)。 圖 3 通過數據中心層在整個多云環境中管理數據 Relational HDFS Parquet Hive Mongo Columner Google Cloud AWS 管理平臺 部署平臺 用戶體驗服務 統籌服務 內容服務 洞察服務 數據管理服務 數據中心組件 使用層 統一層 原始數據采集層 快速采集服務 實時數據采集 批量采集
12、安全 Azure 示例 3 在第三個例子中,該公司出于獨特的需求,要求各個 業務部門在不同的云環境中運營,但同時選擇將涵蓋 圖 4 管理多個云環境中的數據 5 所有其他云環境的關鍵跨業務職能(例如,安全)保留在 Azure 中(見圖 4)。 合適的數據戰略能夠預測變化, 幫助企業保持靈活性。 正如上面三個例子所示,這種新的多云現實創造了更多新的 選擇和機遇。但同時也給 IT 領導帶來了新的挑戰。近期市 場情報顯示,82% 的 IT 領導擔憂如何將所有這些云環境與 傳統 IT 環境銜接。4 73% 的受訪者表示,他們需要采用更 好的方式,更有效地在多個云環境中移動應用、工作負載和 數據。67%
13、的受訪者擔心如何以一致的方式管理這種新的 多廠商云與環境組合,而不會帶來新的安全與合規風險。5 為了應對這些挑戰,我們推出了三項指導原則,幫助企業 制定和執行數據戰略,以便順利遷移到多云環境并在其中 運營。 原則一:業務轉型之時,向云遷移之日 我們的數據顯示,降低成本仍然是對多云環境投資的重要戰 略考量因素。然而,一些企業在從多云投資中實現成本節省 方面遇到了困難,遲遲無法收獲成果。根據我們與客戶合作 的經驗, 許多企業都面臨著成本上升的問題, 在某些情況下, 甚至高達 300%。為什么會這樣? 遷移到云端會放大原有 IT 格局的現有缺陷。云供應商對數 據傳輸和網絡使用的收費比大多數內部 IT
14、 組織要高得多。 因此,孤島型數據(大多數原有系統無法避免的現實)在從 一個云環境遷移到另一個云環境以供各種應用使用時,會產 生巨大的成本和性能問題。 6 因此,向云端遷移之時,需要審視當前的業務流程和數據管 理,評估哪種改變方式有助于控制成本以及最大程度發揮新 多云環境的潛力。這不是簡單的 IT 討論或者重組當前數據 的問題。業務部門和 IT 部門必須密切協作,一切以業務需 求和價值為導向,并由業務部門高管負責牽頭。 但也存在一個挑戰,那就是快速變化的技術格局:今天適用 的工具可能明天就毫無用處。此外,轉型機遇還意味著,遷 移原有系統可能需要采用新技術,而不是繼續重復使用現有 技術,比如 H
15、adoop。 原則二:預測并規劃未來發展、變化和創新 在遷移到多云環境時,企業應該避免“供應商鎖定”。云提 供商和產品在不斷快速變化,他們所支持和提供的技術也是 如此。因此,最適合企業的產品或服務也會隨著時間的推移 而不斷改變。 合適的數據戰略能夠預測變化,幫助企業保持靈活性。在某 種情況下,企業可能希望將數據和應用從一個云環境遷移到 另一個,擴展存儲和處理能力而不產生負擔,并將數據存儲 在最適合數據科學和工作負載的位置。 為了預測變化, 企業的數據戰略必須包含三個關鍵組成部分: 容器化、無服務器能力和實用的數據設計。 Yara:數據和多云數字農業平臺 總部位于挪威的 Yara 是全球最大的化
16、肥生產商之一,該 公司的愿景是幫助全世界以可持續的方式消除饑餓。為 了通過數字化引領核心業務模式創新,Yara 著手構建世 界領先的數字農業平臺。 在構建該平臺的過程中,Yara 集中精力制定并實現獨立 于云平臺的戰略,確保能夠對所有環境實施一致的數據 監管和數據安全策略。該公司還專注于 DataOps,自動 執行數據功能,讓數據科學家能夠專心從事數據模型和 創新工作。 該平臺為全球農戶提供整體數字服務和即時農事建議, 通過增加現有農田的糧食產量,最終避免毀林開荒。 Yara 數字平臺的目標是覆蓋全球 7% 的耕地。 獨立于云平臺的數字農業數據平臺采用按使用量付費的 商業模式,并且為 Yara
17、 提供兩項數據服務:Weather Data 和 Crop Yield as a Service。這些加速器是眾多創新 中的第一批;開放創新層使 Yara 能夠創建突破性的新算 法,為農戶提供知識和決策洞察。 7 “容器化”是指企業將數據應用打包成不依賴于單個云實施 的“容器”。容器化的應用可在多個云環境和操作環境中運 行。這樣,企業就能夠隨著生態系統的發展而遷移應用和數 據,特別是在各種流程越來越多地跨云互動的情況下。企業 也不會完全依賴于特定的云來運行業務的某些部分。 變化的另一個方面是新應用和服務生成的海量數據。企業基 本上不可能擴大數據管理團隊的規模以及增加與存儲和處理 數據相關的成本
18、。而無服務器戰略可以提供幫助。 企業不需要保留一定規模的資源(例如,1000 臺服務器), 而是由云供應商負責根據數據和使用需求的逐漸增加、使用 高峰或減少而縮放資源。企業為所使用的資源付費,可以將 主要精力放在支持運營所需的業務案例和代碼上,而無需關 注運行所需的 IT 資源。無服務器戰略與容器化一起,有助 于降低新部署在復雜性、技能和成本方面的風險。這種方法 幫助企業既不受云供應商的限制,也不受技術的限制。 預測變化的第三個要素是適當的數據結構設計。在為傳統報 告、數據科學、數字化和運營用例等設計數據結構時,務必 將工作負載部署在靠近相應數據的位置,以便減少網絡流量 并降低成本。數據設計還
19、應包括涵蓋多個云提供商的數據策 略,以確保安全性、合規性以及數據生命周期管理。這些數 據設計要素可整合為一系列統籌管理的數據工作流程,覆蓋 多個云提供商。 原則三:將 DataOps 添加到 DevOps 企業應當借鑒 DevOps 如何在過去十年左右給應用開發帶來 了革命性的變化。部署自動化可以幫助開發人員加速測試和 證明自己的工作。數據科學家現在需要一場類似的革命,他 們發現 DataOps 就是自己所要的:讓拖慢進度的工作實現 自動化。 目前,數據科學家需要花費大量時間準備、驗證和清理數據 源,然后使用這些數據源訓練數據模型。他們花在數據模型 設計上的時間少得驚人,而這是數據科學家工作中
20、價值最高 的部分。如果能夠自動執行數據準備和訓練工作,那么就可 以將數據科學家解放出來,從而為企業帶來更多洞察,最終 實現新的價值。 8 數據戰略、文化與人員 如果沒有閱讀文化,即使汗牛充棟,也毫無用處;同樣 道理,有了海量的數據和最具創新性的數據工具,仍需 具備適當技能的人來使用它們,而企業文化必須提供這 方面的支持。人們需要數據以及從中獲得的洞察,也需 要在工作的特定環境中使用數據。相同的數據可能對不 同的用戶有著不同的意義??茖W家認為有用的洞察,可 能與開發人員、產品經理、營銷人員或流程專家需要的 洞察完全不同。 特別是當人工智能應用于超大數據集時,意義和上下文 就變得至關重要。應該提出
21、的正確問題是什么?這些是 用于提供答案的正確數據嗎?如果這是正確的數據類型, 我們能否信任它?我們能否相信針對該數據運行的人工 智能算法,以及人工智能正在接受的訓練(包括它正在 接受的實際訓練數據)? 成功的數據戰略應包含所需技能和培訓的清單,以及旨 在培養充滿活力的數據文化的長期計劃:激勵人們從數 據中獲得最大價值,并且有能力這樣做,企業也支持這 樣做。 如何開始 制定與多云計劃整合的數據戰略并應用以上列出的原則, 這看似頗具挑戰性,但可采取一些步驟加以應對。 1. 制定業務轉型戰略,明確考慮并利用多云能力,有效 管理數據以充分發揮這些能力的作用。 2. 考慮多種技術,確保讓數據存儲位置靠近
22、使用位置, 并且在多云環境中妥善監管數據。 3. 確定耗費數據科學家大部分工作時間的低價值任務, 并使這些任務實現自動化。這樣就可以將數據科學家 解放出來,有更多時間從事更有價值、更具戰略意義 的工作。 準備好了嗎? 貴企業對哪些核心業務流程進行了 優先級排序并研究了轉型可行性? 貴企業采取了哪些措施以營造適合 多云環境的數據文化? 貴企業將如何應對與位于不同云環 境中的數據相關的法規? 9 關于專家洞察 專家洞察代表了思想領袖對具有新聞價值的業務和相關技 術主題的觀點和看法。這些洞察是根據與全球主要的主題 專家的對話總結得出。要了解更多信息,請聯系 IBM 商業 價值研究院: 。 備注和參考
23、資料 1 IBV survey Assembling your cloud orchestra: A field guide to multicloud management (2018). Steve Cowley, Lynn Kesterson-Townes, Arvind Krishna, Sangita Singh. 2 Ibid. 3 Ibid. 4 IDC Cloud Forecast 2018-2020 Market sizing + CAGR; BCG & McKinsey Study conducted for IBM Multicloud + Priority concer
24、ns. 5 Ibid. 6 Source: IBM Institute for Business Value hybrid cloud survey (2016). 7 Internal IBM measurement, IBM Global Business Services. 8 IBM client experience Copyright IBM Corporation 2019 IBM Corporation New Orchard Road Armonk, NY 10504 美國出品 2019 年 10 月 IBM、IBM 徽標、 及 Watson 是 International
25、Business Machines Corp. 在世界各地司法轄區的注冊商標。其他產品和 服務名稱可能是 IBM 或其他公司的商標。以下 Web 站點上的 “Copyright and trademark information”部分中包含了 IBM 商標 的最新列表: 本文檔為自最初公布日期起的最新版本,IBM 可隨時對其進行更 改。IBM 并不一定在開展業務的所有國家或地區提供所有產品或 服務。 本文檔內的信息“按現狀”提供,不附有任何種類(無論是明示 的還是默示的)的保證,包括不附有關于適銷性、適用于某種特 定用途的任何保證以及非侵權的任何保證或條件。IBM 產品根據 其提供時所依據協議條款和條件獲得保證。 本報告的目的僅為提供通用指南。它并不旨在代替詳盡的研究或 專業判斷依據。由于使用本出版物對任何組織或個人所造成的損 失,IBM 概不負責。 本報告中使用的數據可能源自第三方,IBM 并不獨立核實、驗證 或審計此類數據。此類數據的使用結果均“按現狀”提供,IBM 不作出任何明示或默示的聲明或保證。 國際商業機器中國有限公司 北京市朝陽區北四環中路 27 號 盤古大觀寫字樓 25 層 郵編:100101 39028739CNZH-00