《亞馬遜云科技:亞馬遜云科技白皮書人工智能機器學習和生成式AI云采用框架(55頁).pdf》由會員分享,可在線閱讀,更多相關《亞馬遜云科技:亞馬遜云科技白皮書人工智能機器學習和生成式AI云采用框架(55頁).pdf(55頁珍藏版)》請在三個皮匠報告上搜索。
1、 摘要與概述 亞馬遜云科技白皮書 亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 2024,Amazon Web Services,Inc.或其附屬公司。版權所有。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 ii 亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架:亞馬遜云科技白皮書 2024,Amazon Web Services,Inc.或其附屬公司。版權所有。未經許可,不得將 Amazon 的商標和商業外觀用于任何非 Amazon 的產品或服務,不得以任何可能引起客戶混淆或貶低、誹謗 Amazon 的方式使用。非 Amazon 擁有的所有
2、其他商標均歸其各自的所有者所有,無論其是否屬于 Amazon 的附屬公司、關聯公司或其資助成立的公司。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 iii 目錄 摘要與概述.i 人工智能概述.1 亞馬遜云科技 CAF-AI 概述.2 亞馬遜云科技 CAF:云采用框架.3 您是否實現了卓越架構?.3 人工智能云轉型價值鏈.4 您的 AI 轉型歷程.6 基礎 AI 能力.8 業務視角:AI 時代的 AI 戰略.10 戰略管理.11 產品管理.12 業務洞察.13 產品組合管理.14 創新管理.15 新能力:生成式 AI.16 人員視角:AI 優先的文化和變革.17
3、新能力:機器學習熟練度.18 人才轉型.19 企業對齊.20 文化演進.21 治理視角:管理 AI 驅動的企業.22 云財務管理.23 數據策展.24 風險管理.25 負責任地使用 AI.26 平臺視角:AI 基礎設施和應用.27 平臺架構.28 現代應用程序開發.29 AI 生命周期管理.30 數據架構.31 平臺工程.32 亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 iv 數據工程.33 預配和編排.34 持續集成和持續交付.35 安全視角:AI 系統的合規性和保證.36 漏洞管理.37 安全治理.38 安全保障.39 威脅檢測.40 基礎設施保護.41
4、數據保護.42 應用安全.43 運營視角:AI 前景的運行狀況與可用性.43 事件和問題管理.44 性能和容量.45 總結.46 貢獻者.47 延伸閱讀.48 文檔修訂記錄.49 重要須知.50 亞馬遜云科技名詞解釋.51 亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 人工智能概述 1 亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 加速云驅動的人工智能轉型 發布日期:2024 年 2 月 13 日(文檔修訂記錄)在本白皮書中,我們對亞馬遜云科技人工智能、機器學習和生成式 AI 的云采用框架進行了概述。該框架描述了一種思維模型,供致力于用人工智能創造商
5、業價值的企業參考??蚣苤忻枋隽丝蛻羝髽I在提升人工智能和機器學習能力的過程中所經歷的發展歷程。我們提煉了一系列基礎能力,用以構建這一發展歷程,幫助企業提高人工智能成熟度。最后,我們概述了這些基礎能力的目標狀態,并解釋如何逐步培養這些能力,在此過程中創造商業價值,從而提供規范性的指導。人工智能概述 人工智能(AI)是一個寬泛的領域,旨在構建或至少模仿能夠執行傳統意義上需要人類智能才能完成的任務的智能機器。這些任務可能包括從理解自然語言和視覺感知,到決策和解決問題等各個方面。許多人工智能系統的一個共同點是追求概率結果本質上是生成高置信度的預測或決策,通常能夠反映人類判斷的復雜性。這樣一來,這些系統就
6、可用于自動化或增強知識型工作?,F如今,很大一部分人工智能建立在機器學習(ML)的基礎上,后者是人工智能的一個分支,專注于開發使計算機能夠從數據中學習并基于數據做出決策的技術。機器學習模型不依賴顯式編程,而是從樣本中歸納總結,使其在眾多應用中具有高度的通用性。機器學習領域的各種技術包括深度學習,后者是一個專門的細分領域,旨在利用多層神經網絡來分析數據中的復雜因子。深度學習特別擅長處理圖像和文本等非結構化數據,并在圖像和語音識別等諸多復雜任務中取得了突破。生成式 AI 給深度學習帶來了一項全新的能力,使人工智能能夠生成或創作可能具有原創性的新內容。由于能夠生成模仿人類思維和推理能力的輸出,這門創新
7、的分支學科越來越多地獲得人們的認可。算力的增長、數據的可用性和算法創新使生成式 AI 成為了可能,為從娛樂和藝術到科學研究的廣泛應用鋪平了道路??偟膩碚f,這些分支學科和技術反映了人工智能層級化卻又相互關聯的發展趨勢,每個層級均致力于開發能夠自主執行日益廣泛的任務的系統。人工智能的應用和能力有望持續快速拓展,成為我們日常生活不可或缺的一部分,同時也將成為解決復雜問題的重要工具。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 亞馬遜云科技 CAF-AI 概述 2 圖 1:人工智能、機器學習、深度學習和生成式 AI 的分類 亞馬遜云科技 CAF-AI 概述 亞馬遜云科技
8、人工智能、機器學習和生成式 AI 云采用框架(CAF-AI)既是您開啟人工智能、機器學習和生成式 AI 歷程的起點,也是指導您持續前進的指南。該框架旨在為您在這些專業領域的中期規劃和戰略提供啟發和指導。在團隊內部討論以及與同事、亞馬遜云科技合作伙伴協作時,都可以將其作為人工智能戰略探討的參考資料?!吧墒?AI 以鮮有的創新方式激發了人們的想象力。生成式 AI 已經徹底出圈,不再局限于研究人員和開發者的小圈子,從增強消費者體驗到解決復雜的企業問題,它展示了無所不包的應用潛力。無論是生成類似人類創作的文本,借助 AI 協助程序員生成代碼片段,還是通過智能聊天機器人實現客戶互動的自動化,它似乎帶來
9、了無盡的可能。除這些應用領域以外,生成式人工智能還充當了催化劑,重新構想了技術如何以史無前例的可擴展性、定制化和智能化融合來增強人類的能力并拓展我們的邊界?,F如今我們已經站在了大規模采用的邊緣,這項技術的潛力不僅在于更高效地完成任務,更在于從根本上重新定義各行各業的可能性?!盇mazon 首席執行官安迪賈西(Andy Jassy)人工智能(AI)通過邏輯、if-then 語句和機器學習手段讓計算機模擬人類智能的任何技術 機器學習(ML)人工智能的一個分支,致力于利用機器在數據中搜索各種模式,以自動構建邏輯模型 深度學習(DL)機器學習的一個分支,致力于構建多層深度神經網絡,以完成語音和圖像識別
10、等任務 生成式 AI 由基于海量語料預訓練的大模型驅動,通常稱為基礎模型(FM)注:展望未來,“人工智能(AI)”一詞將作為涵蓋其所有子學科的總稱使用。當提及 AI 的特定領域時,我們會使用生成式 AI 或機器學習等具體名稱,以便與更寬泛的人工智能領域區分開來。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 亞馬遜云科技 CAF:云采用框架 3 您可能會重點關注并優化特定階段的技能,也可能會使用整個文檔來評估成熟度,指導近期需要改進的領域。具體取決于您在 AI 發展歷程中所處的階段。CAF-AI 是一份不斷完善和更新的總結,也是一份企業采用人工智能時需要考慮的所有
11、事項的索引,致力于幫助您超越單一的概念驗證(POC)。我們的目標是為客戶提供與亞馬遜云科技云采用框架(CAF)一致的規范性指導,以便他們成功實施人工智能。在一系列基礎企業能力的基礎上,亞馬遜云科技 CAF 提供了規范性指南,全球數千家企業已成功利用這一指南來加速其云轉型歷程。在亞馬遜云科技 CAF-AI 中,我們仍然依賴這些基礎能力,但我們也豐富了其中諸多能力,使其囊括人工智能所要求的變化。此外,我們還確定并增加了企業在人工智能歷程中應考慮的新的基礎能力。亞馬遜云科技 CAF:云采用框架 過去十多年來,亞馬遜云科技構建了亞馬遜云科技云采用框架(CAF),為客戶的云采用戰略奠定了堅實的基礎。在該
12、框架的發展過程中,我們在很大程度上避免將其局限于特定技術,而是超越了云本身,以確保來自不同行業的廣大客戶都能采用其中的洞察和思維模型。然而,人工智能是一種全新的技術,對所有垂直領域和大多數客戶均產生了巨大的影響。我們構建了 CAF-AI,旨在幫助我們的客戶利用云技術來加速 AI 采用歷程。您是否實現了卓越架構?亞馬遜云科技卓越架構框架旨在幫助您了解在云端構建系統時所做決策的利弊。該框架基于六大支柱,您可以學習設計和運營可靠、安全、高效、經濟且可持續系統的架構最佳實踐。利用 亞馬遜云科技管理控制臺 中免費提供的 Well-Architected Tool,通過回答每個支柱的一系列問題,根據這些最
13、佳實踐評估您的工作負載。在機器學習剖析中,我們重點闡述了如何在亞馬遜云科技云中設計、部署和構建您自己的機器學習工作負載。機器學習剖析對亞馬遜云科技卓越架構框架中描述的最佳實踐提供了補充。如需獲得更多云架構專家指導和最佳實踐(參考架構部署、圖表和白皮書),請參考亞馬遜云科技架構 中心。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 人工智能云轉型價值鏈 4 人工智能云轉型價值鏈 人工智能已從小眾技術一躍成為了功能強大且應用廣泛的業務能力,機器學習現在正推動新一輪的創新浪潮。在這股創新浪潮中,數據是發明的源泉,而機器學習賦予了企業一種全新的能力,不僅能夠描述過去,還能
14、預測未來,并制定有意義的行動計劃。由于這種能力能夠影響所有市場和企業,各行各業都在加大對人工智能的投入。這種投資可以通過提升客戶洞察力、提高員工工作效率和加速創新來建立競爭優勢。這一趨勢的驅動力來源于人工智能在跨越垂直和水平用例的廣泛問題空間中的適用性。值得注意的是,能夠運用人工智能的業務問題空間并非單一的功能或領域,而是在所有業務功能和所有行業領域均有巨大的潛力。在人工智能的確能帶來經濟效益的市場,它有望重塑競爭格局。對于數十年來一直無法以經濟高效的方式解決的問題,或者無法通過人工智能以外的技術手段解決的問題,人工智能能夠提供相應的解決方案和解決路徑,因此其帶來的業務成果可能會產生深遠的影響
15、。舉例來說,大型人工智能模型涌現出了的一種新的能力,即在幾乎沒有額外數據輸入的情況下實現特定領域的功能,正使各企業為之震撼,并幫助企業實現差異化能力。這主要歸屬于生成式 AI 這一領域,目前已經產生廣泛的關注度和對技術的想象。然而,這類模型的開發、應用及調優可能是一項非常復雜的任務。圖 2:亞馬遜云科技 CAF-AI 的轉型價值鏈(粉色和品紅色標注的部分均為我們在此基于原始云采用框架構建的維度)。技術 流程 組織 產品 人工智能(包括生成式 AI)基礎能力 業務 人員 治理 平臺 安全 運營 降低業務風險 改善 ESG 提高營收 提高運營 效率 業務成果 轉型層面 亞馬遜云科技人工智能、機器學
16、習和生成式 AI 云采用框架 亞馬遜云科技白皮書 人工智能云轉型價值鏈 5 面對不斷變化的市場格局和快速發展的人工智能領域,上圖為人工智能的采用提供了一種思路。1.人工智能為您的企業帶來新的能力。2.有了這些新能力,您和您的企業就能努力創造切實的業務成果。成果可能多種多樣,例如降低業務風險(如檢測生產線上損壞或有缺陷的零件),改善環境、社會和治理(ESG)績效(如自動匯總并標記環境保護合規報告),增加新的營收來源和現有的營收(如向客戶推薦個性化產品和服務),或者提高運營效率(如將差旅收據分類并映射到內部預訂代碼)。然而,實現這些業務成果取決于您采用人工智能的能力。3.要采用人工智能,您的企業需
17、要實現至少四個層面的轉型:a.技術:側重于構建技術能力,再實現人工智能的使用和采用。b.流程:側重于利用人工智能的力量實現業務運營的數字化、自動化、優化和創新。c.企業:您的業務和技術團隊需要協調一致,通過人工智能為客戶創造價值并實現您的戰略意圖。d.產品:利用人工智能的能力建立新的價值主張(產品、服務)和營收模式,以此重塑您的商業 模式。4.要實現這些層面的轉型和人工智能應用的落地,取決于您在業務、人員、治理、平臺、安全和運營方面的基礎能力。想要成功采用人工智能,您需要規劃您的這段歷程:從您對人工智能能力的認識開始反推。明確您在不同階段預期達到的業務成果。規劃您的企業必須經歷的業務轉型。發展
18、推動這一歷程的基礎能力。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 您的 AI 轉型歷程 6 您的 AI 轉型歷程 任何大規模的技術采用計劃都是一場漫長的征程,尤其是在采用 AI 等快速演進的技術時。盡管每個企業都有著其獨特的技術轉型和采用歷程,但我們已經觀察到了成功采用 AI 的模式。因此,為了幫助客戶降低這一過程中的風險,亞馬遜云科技 CAF-AI 憑借數千名客戶的經驗,編寫了以下最佳實踐觀察報告。盡管如此,每個企業在 AI 領域的探索歷程仍然是獨一無二的。在踏上或推進您的 AI 轉型歷程時,請考慮以下四個關鍵要素,如圖 3 所示:1.歷程的目的地,即您想
19、要實現的業務成果,并以此為起點進行反推。2.作為歷程的驅動力,AI 飛輪是一個良性循環,其中初始的優質數據(及時、相關、有價值且有效的數據)被用于訓練或微調 AI 系統,然后由該系統產生預測性結果。這些預測性結果對業務成果產生積極影響,進而促進與客戶建立更多或更深層次的關系,從而激發產生更多或更優質的數據(網絡和飛輪效應)。3.您的數據和數據戰略是保持 AI 飛輪運轉的源動力。4.您的基礎能力決定了 AI 采用的成敗。圖 3:亞馬遜云科技 CAF-AI 云轉型歷程 在開啟這一歷程時,請遵循迭代和漸進式改進原則。我們還建議您與您的亞馬遜云科技聯系人(例如您的客戶支持團隊)進行溝通,從而獲得亞馬遜
20、云科技機器學習戰略顧問、企業戰略顧問和機器學習顧問的協助。在完成初步評估后,技術采用周期將開始,具體包括以下四個階段:技術 流程 組織 產品 人工智能(包括生成式 AI)基礎能力 治理 平臺 安全 運營 降低業務風險 改善 ESG 提高營收 業務成果 業務 數據策略 人工智能/機器學習飛輪 啟動啟動 對齊對齊 擴容擴容 構想構想 開始開始:評估評估 人員 轉型層面 提高運營效率 亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 您的 AI 轉型歷程 7 構想階段:這一初始階段主要聚焦于構想 AI 如何助力加速您的業務成果,即根據您的業務目標,對轉型機會進行識別并進行
21、優先排序。將您的轉型計劃與關鍵利益相關方(即能夠影響并推動變革的高級管理人員)以及可衡量的業務成果關聯起來。在早期階段,請務必明確這些計劃和機會所依賴的數據資產和數據來源。從機會出發,反向追溯數據需求。對齊階段:這一階段側重于基礎能力的構建。識別跨企業的依賴關系,并明確利益相關方的關注和挑戰。與其他技術相比,AI 的采用更是一項跨職能工作。因此,在構想階段設定的目標上進行內部對齊至關重要。這有助于您制定提升云和 AI 整體就緒度的策略,確保利益相關方的認同和持續支持,并推動相關的企業變革管理活動。啟動階段:這一階段重點是交付從早期概念驗證到生產部署的試點項目,展示增量業務價值。這些試點項目應對
22、企業和業務產生顯著影響,并從應用 AI 中獲得實質性的效益。無論成功與否,這些試點項都能為您未來的發展方向提供借鑒。吸取試點的經驗教訓,有助于您在全面擴展至生產環境之前調整戰略和方法。擴展階段:這一階段側重于在生產環境中擴展試點項目,以實現廣泛且持續的價值。這里的“擴展”不僅指擴大解決方案或計劃的技術能力,還包括它們在業務和客戶中的影響力。此活動可將您的業務活動轉化為客戶價值。在這些周期中進行迭代時,要認識到單個周期內可實現的極限。擁有雄心壯志并設定遠大目標固然十分重要,但試圖在一個周期中完成所有事情可能會導致企業內部產生挫敗感。因此,也請務必將宏大的愿景拆解成多個務實、可行的小目標及其可衡量
23、的關鍵績效指標(KPI)。這樣,每邁出一步都能讓企業更接近目標。不要試圖一蹴而就,而要在 AI 轉型歷程中逐步發展基礎能力,提高 AI 就緒度。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 基礎 AI 能力 8 基礎 AI 能力 要在 AI 轉型歷程中持續迭代,需要在業務、人員、治理、平臺、安全和運營方面具備采用 AI 的基礎能力?!盎A能力”指的是企業通過流程部署資源(如人員、技術及其他有形或無形資產)以實現特定目標的能力。下圖列出了與 AI 采用高度相關的基礎能力(以粉色標注),而灰色部分則表示在 AI 采用過程中保持不變的現有 CAF 能力。圖 4:亞馬遜
24、云科技 CAF-AI 基礎能力 例如,在業務視角章節中提及的產品管理能力。盡管產品管理能力對于成功開發基于云的產品必不可少,但在云端 AI 服務方面,產品管理的實施方式有很大不同。在本文的后續章節中,我們將指出 AI 采用過程中的偏差和特定需求。其他能力請參閱亞馬遜云科技云采用框架的原始文檔。這些能力分別由哪個管理層級的利益相關方負責,這取決于具體的企業情況。通常,多個利益相關方會對一項或多項能力有共同的興趣。為了幫助您更好地瀏覽本文檔,我們列出了與各個視角相關的典型利益相關方:業務視角:這一視角有助于確保您的 AI 投資加速您的數字化和 AI 轉型目標,促進業務成果轉化。我們豐富了這一視角中
25、的諸多能力,闡釋如何讓 AI 成為核心驅動力,降低風險,提升客戶產出和成果,從而有效制定 AI 戰略。典型利益相關方包括首席執行官(CEO)、首席財務官(CFO)、首席運營官(COO)、首席信息官(CIO)和首席技術官(CTO)。人員視角:這一視角作為 AI 技術與業務之間的橋梁,旨在培養持續成長和學習的文化,讓變革成為業務的常態。我們通過關注在 AI 時代對未來競爭優勢影響最大的能力來擴展亞馬遜云科技 CAF:合適的人才、他們所使用的語言,以及將這些人才凝聚在一起的文化。典型利益相關方包括首席人力資源官(CHRO)、首席信息官(CIO)、首席運營官(COO)、首席技術官(CTO)、云總監,以
26、及其他跨職能的企業領導者。業務 人員 治理 平臺 安全 運營 新能力:生成式生成式 AI 新能力:機器學習熟練度機器學習熟練度 新能力:負責任地使用人工智能負責任地使用人工智能 戰略管理 創新管理 商業洞見 產品組合管理 產品管理 文化演進 人才轉型 組織對齊 風險管理 數據策展 云財務管理 平臺架構 現代應用程序開發 數據架構 平臺工程 數據工程 預配和編排 持續集成/持續交付 漏洞管理 安全保障 安全治理 威脅檢測 基礎設施保護 數據保護 應用安全 事件與問題管理 性能與容量管理 云采用框架所涵蓋但人工智能未觸及的領域云采用框架所涵蓋但人工智能未觸及的領域 戰略合作伙伴關系 數據變現 數據
27、科學 加速變革 轉型領導力 云熟練度 組織設計 規劃與項目管理 效益管理 應用組合管理 數據治理 事件響應 身份與訪問管理 可觀測性 事件管理(人工智能運維)變更與發布管理 配置管理 補丁管理 可用性與持續性管理 應用管理 亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 基礎 AI 能力 9 治理視角:這一視角有助于您統籌 AI 計劃,在最大化企業利益的同時,將轉型相關的風險降至最低。我們特別關注風險的變化特點,以及 AI 開發和擴展相關的成本。此外,我們為這一視角引入了一個新的 CAF-AI 能力:負責任地使用 AI。典型利益相關方包括首席轉型官、首席信息官(C
28、IO)、首席技術官(CTO)、首席財務官(CFO)、首席數據官(CDO)和首席風險官(CRO)。平臺視角:這一視角能夠幫助您構建一個可擴展的企業級云平臺,既能運行 AI 驅動或增強的服務和產品,又能開發新的定制化 AI 解決方案。我們豐富了這些能力,以闡明 AI 開發與典型開發任務的不同之處,以及從業者該如何適應變化。典型利益相關方包括首席技術官(CTO)、技術領導者、機器學習運維工程師和數據科學家。安全視角:這一視角幫助您實現數據和云工作負載的保密性、完整性和可用性。我們的報告分析主要依賴亞馬遜云科技 CAF 的最佳實踐,但進一步擴展了如何推斷可能影響 AI 系統的攻擊向量,以及如何通過云來
29、應對這些攻擊向量的方法。典型利益相關方包括首席信息安全官(CISO)、首席合規官(CCO)、內部審計負責人以及安全架構師和工程師。運營視角:這一視角幫助您確保云服務,尤其是 AI 工作負載,能夠滿足業務需求。我們提供關于如何管理運營中的 AI 工作負載、如何保持它們的運行狀態以及如何確??煽康膬r值創造的指導。典型利益相關方包括基礎設施和運營負責人、機器學習運維工程師、站點可靠性工程師以及信息技術服務 經理。上述每個視角都存在自然或邏輯的順序。您可以按照這一順序來提升能力,為您的 AI 轉型歷程確定當前的行動領域。下圖展示了一個示例順序,以及與經驗豐富的 AI 戰略實施者共同進行的評估。這有助于
30、確定企業已具備的能力及其成熟度。圖 5:亞馬遜云科技 CAF-AI 基礎能力(按照成熟度和演進排序)業務 人員 治理 平臺 安全 運營 培養基礎能力并改善云就緒狀況培養基礎能力并改善云就緒狀況 戰略管理 產品管理 戰略合作伙伴關系 產品組合管理 商業洞見 數據變現 數據科學 創新管理 新能力:生成式生成式 AI 轉型領導力 加速變革 云熟練度 新能力:機器學習熟練度機器學習熟練度 人才轉型 組織設計 文化演進 風險管理 數據治理 新能力:負責任地使用人工智能負責任地使用人工智能 規劃與項目管理 應用組合管理 數據策展 云財務管理 效益管理 平臺架構 持續集成與交付 平臺工程 現代應用管理 數據
31、架構 新能力:人工智能人工智能/機器學習生命周期管理機器學習生命周期管理 數據工程 安全治理 威脅檢測 應用安全 身份與訪問管理 事件響應 基礎設施保護 漏洞管理 數據保護 安全保障 變更與發布管理 配置管理 事件管理人工智能運維 可觀測性 性能與容量管理 事件與問題管理 應用管理 補丁管理 可用性與持續性保障 組織對齊 數據治理 預配和編排 亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 業務視角 10 業務視角:AI 時代的 AI 戰略 云技術賦予了企業加速創新的能力,而 AI 和機器學習等新技術范式實現了全新的企業能力、產品和服務。多年以來,復雜的決策過程、
32、非結構化的決策信息數據或不斷變化的決策環境等業務問題,難以通過計算機科學的方法來解決。機器學習領域的最新進展已經改變了這一現狀?,F如今,那些需要機器進行視覺識別、理解語言、從歷史數據中學習并預測結果的問題,突然之間都有了解決方案。這些新興且觸手可及的機器學習能力,正在挑戰成熟企業長期以來的市場假設,比如回避駕駛輔助和自動駕駛的汽車公司。因此,業務視角關注的是能夠直接幫助企業充分利用這些用例的能力?;A能力 解釋 戰略管理 借助 AI 和機器學習解鎖新的商業價值。產品管理 管理數據驅動和 AI 增強或驅動的產品。業務洞察 利用 AI 的能力回答模糊問題,或根據歷史數據進行預測。產品組合管理 明確
33、可行的高價值 AI 產品和計劃并確定優先級。創新管理 挑戰長期以來的市場假設,為現有業務帶來創新。新能力新能力:生成式 AI 利用大型 AI 模型的通用能力。數據變現 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。戰略合作伙伴關系 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。數據科學 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 戰略管理 11 戰略管理 借助 AI 和機器學習解鎖新的商業價值。機器學習可以催生新的價值主張,進而推動業務成果的提升,例如降低業務風險、增加營收、提高運營效
34、率以及改善環境、社會和治理(ESG)績效。因此,您應當首先為您的 AI 技術采用計劃定義一個以業務和客戶為中心的核心目標,并為其制定一個切實可行的逐步推進戰略。在制定任何采用戰略時,必須確保其基于可實現的(短期且可衡量)或有抱負的(長期且難以衡量)業務影響,充分利用 AI 帶來的新能力。制定策略時要全面考慮采用 AI 的短期和長期影響。從現有的業務和客戶問題出發,反推 AI 能夠如何對這些問題產生影響。在逐步確定 AI 機會的優先級時,須關注如何以及哪些數據能夠推動系統能力的提升。從一開始就考慮任何機器學習產品或服務中 的數據飛輪效應,即新數據推動系統改進,進而擴大客戶基礎,反過來又增加了企業
35、能夠從中受益的數據量。在構建這種數據飛輪時,您需要思考所獲取的數據是否能為您的價值主張提供一道防御性壁壘(即稀缺且成本高昂的資源)。鑒于 AI 技術已經對市場格局產生了廣泛的影響,我們必須考慮到,在不久的將來,客戶很可能會對您的產品和服務能力提出更高的期望,而 AI 能力正是這些期望的一部分。針對每一個 AI 機會,我們需要評估是否需要構建全新的 AI 系統、調優或調整現有系統,還是直接采用現有的 AI 系統。例如,如果您期望利用基礎模型涌現出的無所不包的新能力,但缺乏從頭開始創建它們的能力,那么您應專注于根據您的特定需求進行系統定制。如果您的目標是創建一個推動業務發展的特定領域通用系統,那么
36、您應更多地投資數據基礎建設。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 產品管理 12 產品管理 管理數據驅動和 AI 增強或驅動的產品。構建和管理基于 AI 的產品可能是一項重大挑戰,因為 AI 系統的開發和生命周期與傳統軟件和云產品有所不同。無論是開發,還是運營以及持續創造基于 AI 的任何產品的成果(如直接預測),都存在潛在的高成本不確定性,需要特定的應對策略。在構建 AI 產品或將 AI 嵌入產品時,應從客戶和用戶預期的價值增益出發反向追溯,將可衡量的業務代理映射到 AI 系統可以支持、豐富或自動化的各個決策點。對于每一個決策點,均需在機器學習解決方案
37、領域內定義潛在的指標(例如,在金融領域,檢測欺詐交易的價值增益如何轉化為預期的貨幣收益,以及相關的機器學習驅動的交易分類器的準確性或召回率),并明確對應的機器學習問題(如分類問題、意圖提取問題、生成式 AI 等)。這些明確定義的機器學習問題及其各自的解決方案共同構成了機器學習可為您的產品帶來的價值增益。至關重要的是,這些機器學習解決方案對您和您的產品提出了特定的數據要求,因此必須挖掘每項解決方案的 4V 數據特征。在自下而上構建這一知識體系的過程中,請確保將業務、數據、管理層和機器學習領域的利益相關方納入解決方案的評估中。機器學習產品將數據、特定領域的專業知識和技術融為一體,形成了一個可以預測
38、,有時還能提供指導意見的系統。因此,數據、業務領域知識和技術這幾個方面的人員都必須參與其中,缺一不可。請通過適當的生命周期管理來鋪就基于 AI 的產品演進之路,考慮用戶如何與基于概率的 AI 系統輸出進行交互(例如,在系統置信度較低時優雅地處理失敗情況),并評估您的解決方案在被采納后可能產生的影響,以確保負責任地使用 AI。在正確界定您的產品的機器學習能力范圍并提升 AI 產品管理能力方面,有幾個關鍵問題至關重要。例如,采取實驗性、通常有時間限制的方法來降低機器學習組件的風險,并從一開始就考慮如何將這些實驗中的學習成果轉化為生產級系統。同時,這也意味著需要在系統信息流中設計反饋循環(或明確防止
39、其發生),從而通過如數據網格(或數據區域)和數據湖架構等技術,以及團隊和產品組之間的知識傳遞(例如通過 SageMaker Model Cards 實現),讓更廣泛的企業能夠基于其他機器學習系統的輸出構建新的 AI 產品。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 業務洞察 13 業務洞察 利用 AI 的能力回答模糊問題,或根據歷史數據進行預測。商業智能(BI),主要涵蓋描述性分析和診斷性分析,通常是企業采用 AI 的起點。然而,除描述性和診斷性分析以外,機器學習還賦予了預測性乃至指導性能力,這兩者共同構成了 AI 發展的道路。關鍵要認識到,分析與商業智能部門
40、的范圍,與企業對 AI 驅動部門所期望的有所不同。如今,許多企業需要領域專家(SME)來篩選見解,并從數據中找出某些觀察結果的原因(即“為什么”)。然而,通過 AI 技術的運用,商業智能開始輔助這些領域專家,通過識別“為什么”和“如果會怎樣”來為他們提供新的見解,進而融入他們的思考過程。數據和 AI 因此一躍成為預測性決策的驅 動力。從商業智能實踐過渡到 AI 驅動的實踐,全面提升分析層次時,突破瓶頸的有效方法是,利用診斷性分析算法來找出影響問題陳述的關鍵變量或根本原因。企業成熟度分析不應局限于各個部門,要考慮如何促進成熟企業與不太成熟企業之間的交叉融合,加速您的 AI 歷程。在轉型初期,一個
41、行之有效的方法是,建立一個與您的云計劃密切相關的分析卓越中心(不一定專門針對 AI)。這樣的卓越中心(COE)可通過普及 AI 的使用來提供數據驅動的預測和分析,從而創造即時價值,推進您的宏偉目標。最重要的是,養成使用 AI 來指導重大業務決策的習慣,因為這將促使員工認識到 AI 對實際業務成果的價值。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 產品組合管理 14 產品組合管理 明確可行的高價值 AI 產品和計劃并確定優先級。機器學習計劃的挑戰在于,必須在不犧牲長期價值的前提下展示短期成果。在最壞的情況下,短期思維可能導致技術性的 AI 概念驗證(POC)僅停
42、留在技術階段,因為它們過于關注與業務無關的技術細節。在明確機器學習計劃和產品、確定優先級以及實際落地時,您的首要目標必須是實現可衡量的業務 成果。關鍵是從小目標著手,達成這樣的目標可以增強企業內部的信心,讓員工認識到 AI 可以在業務的其他領域發揮作用。同時要考慮,您正在通過多個 AI 項目和產品解決哪些更大的客戶和業務問題,并將其整合成一個產品組合,由低層次的項目為高層次的項目提供支持。某些 AI 能力無法一蹴而就,而是需要在彼此的基礎上構建。例如,在金融行業,在向客戶推薦新產品之前,您必須能夠對當前重要的內容進行分類,因此交易分類是下一步最佳報價行動的前提。您的產品組合中的每一層都應該為整
43、個企業創造額外的價值。接下來,在這個產品組合中引入 AI 飛輪設計,通過產品組合提供的價值推動業務成果,而這些業務成果反過來又能夠產生并創造更多的數據,使產品組合自身受益。這一飛輪不必局限于單一產品層面,而是可以貫穿整個產品組合。隨著產品組合的發展和擴大,確定對外采購還是自主開發的優先級變得至關重要。要克服“非我發明”的情結,充分利用外部現成的解決方案。為此,應當提前而非事后才去探索市面上已有的用例和解決方案及其成熟度。同時還應調查哪些解決方案需要定制建模,并通過選擇合適的 AI 產品和云環境來提高 AI 人才的工作效率。應意識到,單單在技術層面上管理您的組合,就已經是一項復雜的任務。為確保稀
44、缺的 AI 人才保持較高的工作效率,您需要果斷大膽,并克服分析性癱瘓。最后,隨著您的組合的增長,企業內部越來越多的部門開始使用 AI,請確保您的業務部門、團隊以及您所依賴的亞馬遜云科技合作伙伴之間能夠進行高效協作(請參閱 Amazon DataZones、Amazon Redshift 和 Amazon CleanRoom)。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 創新管理 15 創新管理 挑戰長期以來的市場假設,為現有業務帶來創新。如本部分引言所述,機器學習為企業帶來了全新的能力。在許多情況下,這些能力可能會顛覆現有的業務和價值鏈。各行各業都已經見證和感
45、受到了這種通用技術的力量,因為 AI 研究的長遠目標就是復制或者至少模仿人類智能。以往只有人類才能完成的知識性工作、處理復雜信息、推理洞察并采取行動,現在均可通過先進的基礎模型和生成式 AI 來實現。在您的創新路線圖和創新管理實踐中,可通過切實可行的短期價值主張來接軌 AI 研究的這一中長期目標。為此,首先要從內部和外部兩個方面入手,探索不斷變化的客戶期望和需求。CAF-AI 提出的業務成果可指導您識別這些需求和期望。分析采用驅動或融合了機器學習的產品價值鏈,區分三種創新:通過流程改進等降低成本;通過產品改良提高營收和利潤的創新;通過提供創新產品和服務開辟全新營收渠道。利用機器學習,將之轉化為
46、內部利益相關方和外部客戶的獨特優勢。將機器學習與自動化相結合,解鎖新能力、增強現有能力并減少工作量。挖掘并深入開發您所訪問的數據中蘊含的特定領域知識。為您的 AI 系統設計一個良性的數據價值鏈,以持續創造價值。一些基于機器學習的產品只有經過時間的積累和迭代才能不斷完善,您的創新周期可能比某些公司習以為常的周期更長,但不必因此氣餒。在為基于機器學習的產品逐步構建起單一產品線的同時,也要將數據提升為價值創造過程中的頭等要務,構建供內部使用的數據產品,從而為整個企業的創新鋪平道路。除了這種自上而下的創新管理方法,還要在內部的 AI 倡導者中開展自下而上的運動。這些倡導者可以是業務主管、產品經理、技術
47、專家,也可以是企業高管。要在宏偉目標和可實現目標之間取得平衡。普通軟件系統和軟件環境主要靠獲取更多用戶來提升自身的價值,而機器學習系統的價值主要取決于提高其效率的數據。因此,管理 AI 創新就是要落實數據策略,而不只是僅將歷史數據存檔。隨著可管理、可訪問的高質量、高價值數據在整個企業中不斷積累,您的 AI 創意和項目將變得極具吸引力。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 新能力:生成式 AI 16 新能力:生成式 AI 利用大型 AI 模型的通用能力。AI 技術的總體目標是構建高通用性的系統,并能以極低的成本應用于諸多復雜的問題空間。在這項工作中,生成式
48、 AI 便是一個非常強大的分支。這種 AI 技術能夠生成新內容和新創意,包括生成對話、故事、圖像、視頻和音樂等。生成式 AI 由基于海量數據進行預訓練的超大模型(通常被稱為基礎模型,FM)提供支持。這些基礎模型的潛力在于能夠跨越不同領域和任務實現泛化。這些基礎模型將以某種方式影響您的企業和業務,因為它們能夠極大地降低知識性工作的成本。在計劃采用這一強大的 AI 技術分支時,您需要考慮三個因素。在構建此類基礎模型時,您是否需要:1.從零開始,專門為您的業務量身定制?2.微調預訓練模型,利用其已經習得的能力?3.直接采用供應商提供的現成基礎模型,無需進一步微調?在這三者之間做出選擇是至關重要的。正
49、確的選擇取決于您的業務場景。通常,要真正釋放這些大型模型的價值,就意味著要用您在特定領域的數據為模型提供上下文(第 2 種選擇),再將模型應用于各種任務。這是因為,經過預訓練的大模型已經涌現出了一些新的能力(如推理能力),而要從零獲取這些新能力(第 1 種選擇)需要付出高昂的成本。因此,在使用基礎模型和生成式 AI 時,可利用經過預訓練的模型的適應能力和從少量數據(甚至零數據)中學習的能力。對于許多企業而言,這意味著需要針對自身的業務問題選擇合適的基礎模型,再利用特定領域的數據或客戶專屬數據對這些模型進行定制(例如指令調優和少樣本學習)和微調。和其他 AI 系統一樣,生成式 AI 系統和基礎模
50、型的效能和差異化能力,很大程度上取決于您的數據策略和數據飛輪。無論您選擇哪種方式,都應重視所使用的數據質量,因為數據會影響到模型在生產環境中的行為,而且要為生成式 AI 系統建立防護措施是非常困難的。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 人員視角 17 人員視角:AI 優先的文化和變革 可靠、可重復地采用 AI 創造價值,不僅僅是一項技術挑戰。任何 AI 計劃的成敗都取決于保駕護航和推動落地的人員。雖然 AI 作為一種通用技術將影響各行各業,但只有員工接受 AI 的能力,企業才能取得成功??紤]到優秀 AI 系統的落地需要利益相關方、業務部門和實踐部門之間
51、的協作,這一點尤為重要。人們常常談論 AI 取代人力勞動的潛力,而實際上,AI 更多地扮演著豐富、補充甚至賦能人類工作的角色。雖然某些領域有望實現自動化,但當前的 AI 技術主要在于幫助人類完成在人看來特別復雜的任務。我們觀察到,倡導 AI 優先的企業降低了運營成本、增加了營收,員工也得以從事更具挑戰性、更有意義的工作。凝聚企業力量、培養合適的人才,并在發掘有價值的商業問題時使用相同的語言,是這一視角的重點所在。文化為上在采用 AI 的歷程中更是如此。這一視角包括下表所列的七項能力。典型利益相關方包括 首席信息官(CIO)、首席運營官(COO)、首席技術官(CTO)、云總監以及跨職能部門領導者
52、和企業領導者?;A能力 解釋 新能力:機器學習熟練度 建立共同的語言和心智模型。人才轉型 吸引、啟用和管理 AI 人才從使用者到構建者。企業對齊 加強和依托跨企業協作。文化演進 文化為上在采用 AI 的歷程中更是如此。變革型領導 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。云熟練度 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。企業設計 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 新能力:機器學習熟練度 18 新能力:機器學習熟練度 建立共同的語言和心智模型。人工智能和機器學習的界限
53、和語義范疇并沒有良好的界定。二者還承載著各種心智模型和情感解釋。因此,從內部統一利益相關方對這些術語的理解至關重要。要傳播對這些術語內涵大體一致的認識,進而確定對其感興趣的利益相關方,即潛在的內部 AI 倡導者。一旦第一層解讀在企業內部普及開來,接下來就需要著手解決第二層,即更為技術性的解讀問題:AI 項目及其需求在術語使用和重視程度上可能存在差異。從產品管理實踐到工程和數據科學實踐,各方需要就有效合作所需的共同理解達成一致。一個行之有效的方法是,定義不同實踐之間的銜接詞匯,例如如何在機器學習中衡量成功,以及如何在業務領域中衡量成功。通過機器學習熟練度和機器學習文化培訓來實現對齊,因為這有助于
54、您在整個企業中獲得支持。在助力業務負責人適應機器學習用例的獨特方面以及設定客戶期望方面,這種理解可能會變得至關重要。最后,無論是在企業內部還是對于客戶,都要考慮如何才能以最佳的效果傳達 AI 的產出成果??紤]到客戶的心智模型和對術語的解讀有所不同,要讓 AI 系統體面地面對失敗,同時維持客戶的信任度,是一項極具挑戰的任務。使用合適的語言并具備合適的熟練度,不僅能提高溝通效率,還能降低構建有??蛻衾娴南到y的風險。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 人才轉型 19 人才轉型 吸引、啟用和管理 AI 人才從使用者到構建者。吸引、留住和再培訓能夠推進 AI
55、戰略的人才,是 AI 成功的關鍵因素之一。AI 戰略的成功需要多個角色的參與。有些角色可以外包,而有些角色只能由內部員工擔任。首先,您的 AI 戰略領導者需與您的業務緊密聯系,從內部推動價值創造。這個角色很難外包給第三方公司。招聘或培養諸多亟需的角色來支持這些領導者,從而取得 AI 采用的成功:技術人才(如數據科學家、應用科學家、深度學習架構師和機器學習工程師)。管理路線圖并識別需求的非技術產品人才(如機器學習產品經理、機器學習策略師和機器學習布 道師)。招聘戰略應與整體的 AI 戰略和目標保持高度一致:資深的博士生可能適合雄心勃勃的大型科研項目,但最好能與那些同業務聯系緊密的同事(如機器學習
56、策略師)形成互補。讓部分現有人才轉型到 AI 崗位,有利于 AI 在整個企業中的采用。如果您計劃基于成熟的解決方案、基礎模型,或者引入企業能力范圍之外的 AI 成果來構建 AI 能力,招聘機器學習工程師和深度學習架構師是較為明智的選擇。除了這支內部團隊之外,建議您盡早與合適的亞馬遜云科技合作伙伴合作,避免您的 AI 計劃無法落地。人才匱乏時,要對外傳播 AI 愿景,啟動能產生成果、吸引新人才的項目。從一開始就要認識到留住 AI 人才的困難,因為這類人才歷來都是供不應求。另一個因素是,現實世界的 AI 與通常驅使人才涉足 AI 領域的學術工作有著顯著的不同。要應對這一差異,盡可能創造機會,讓您的
57、 AI 專家開展合作、出席會議并撰寫白皮書。然而,人員流失總是在所難免。要具備靈活性,建立招聘流程,及時補充人才,在人員流失時保持資源到位。我們在 CAF-AI 的其他部分中提到的流程,對于在面對人員流失時保持業務穩健至關重要。要為 AI 員工持續提供再培訓機會、學習在 AI 領域表現出色所需的新技能。這種方法的另一個優點是,員工既可以積累深厚的業務知識,又能夠執行項目。最后,要認識到 AI 領域的人效比要高于其他領域。優秀的小團隊通常比大團隊表現得更好,因為這類工作更多是智力性工作,而非機械性工作。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 企業對齊 20
58、企業對齊 加強和依托跨企業協作。當 AI 成為各企業的首要考慮因素時,第一步通常是成立一個自成一體、被賦權的、獨立運作的單位,以此傳播和傳遞 AI 的價值和知識。AI 卓越中心便可發揮這一作用,招聘和培養專注于 AI 的團隊。要確保企業的匯報線與 AI 戰略的利益相關方對齊,并縮短高層的匯報線。這是為了確保在需要時能夠快速做出決策和變更,并讓新團隊找到自己的節奏。同時,關鍵是要將此類卓越中心的激勵措施與您的戰略、業務和您的客戶(最重要的維度)對齊。一個常見的錯誤是,一手建立起來的 AI 團隊無法創造業務價值。隨著時間的推移,您的人才轉型應能夠讓您企業中的更多人和其他構建者有效地使用卓越中心和現
59、有的 AI 服務,并有效地開展協作。要杜絕“非我發明”的心態,如果云上已有解決方案可滿足您的業務需求,企業就不必從零開始構建。確保您的卓越中心和人才培養一種工程思維,認識到維護不同系統的成本,并建立機器學習運維最佳實踐,從而在文化中引入 DevOps 思維。隨著此類部門、其他內部構建者和 AI 人才的發展,應培養數據驅動的產品思維來推動您的數據飛輪。不僅要讓企業內不同業務部門共享和管理數據,還要打造一個充滿活力的數據產品生態。但是,不要為了數據產品本身而構建數據產品。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 文化演進 21 文化演進 文化為上在采用 AI 的
60、過程中更是如此。發展 AI 優先的文化是一個漫長而富有挑戰的過程,因為這通常需要打破舊有的心智模型。在傳統的云開發和軟件開發中,文化焦點在于賦權構建者將復雜的規則和系統編寫成代碼。而 AI 更多地依賴于這樣一種文化:尋找正確的輸入,以生成期望的輸出。為避免以技術為中心的文化,需要擁抱這樣一種心態:構建者、企業和其他利益相關方要基于業務機會和客戶需求著手解決問題,再進行反推,直至解決諸多 AI 挑戰。反推意味著預先確立業務環境變化的預期結果,再思考“要實現這一變化需要做什么”。在某種程度上,這就是 AI 系統的構建方式:定義預期的輸出,然后尋找能產生該輸出跡象的輸入?;谶@種價值驅動的思維模式,
61、關注構建 AI 優先文化的基礎要素:將試驗心態與敏捷工程實踐相結合 跨團隊和跨業務部門的協作與依賴 自下而上和自上而下地發掘 AI 機會 以客戶價值為導向設計全面兼容的 AI 采用方案 您可以通過以下方式開始培養 AI 優先的文化:鼓勵構建者敢于嘗試 AI 系統,不是為了嘗試而嘗試,而是因為構建 AI 系統本身就需要不斷探索,找出可行的解決方案,避免走進死胡同。采用路徑明晰的現有 AI 服務有助于降低風險。在鼓勵嘗試的同時,根據 AI 的不確定性調整敏捷思維方式。要認識到,面對復雜項目時,您無法可靠地預估所要投入的時間和工作量,因為許多業務價值較高的復雜 AI 問題尚未解決。在這種情況下,要加
62、倍投入那些有望產生最大客戶價值的項目。擁抱這樣一種文化:各團隊以數據作為紐帶,共創價值。不要建立脫離業務的數據科學團隊,而要營造一種能驅動協作飛輪的文化。倡導這樣一種文化:能在企業各個層面發現、認可和實現價值。這包括領導層要激勵和提拔敢于挑戰現狀的員工。營造這樣一個環境:對 AI 影響和應用的關注不只是紙上談兵,更要落實到決策過程中。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 治理視角 22 治理視角:管理 AI 驅動的企業 管理、優化和擴展企業的 AI 計劃是治理視角的核心。將 AI 治理納入企業的 AI 戰略中,對于建立信任、大規模部署 AI 技術,以及攻
63、克挑戰、推動業務轉型和增長至關重要。通過推動一致性,AI 治理能夠促進與企業目標的對齊,并確保 AI 技術的運用符合倫理規范并得到有效的管理。為此,AI 治理框架在企業中創建一致的實踐,以應對企業風險、符合倫理規范的部署、數據質量和使用,甚至是監管合規性,并管理 AI 工作負載的不同成本模式。制定一套可擴展的 AI 部署流程和標準,能夠幫助企業將 AI 計劃從個別業務部門推廣至整個企業,進而在更大范圍內創造持久的業務價值。建立 AI 治理實踐需要與企業的 AI 戰略緊密協調。第一步是確認所有關鍵的利益相關方,并組建一個由多個業務單元的代表組成的團隊。該團隊的職責如下:定義治理目標,包括合規目標
64、與倫理目標,并識別具有潛在風險的領域。制定涵蓋數據、透明度、負責任 AI 和合規性的政策和指南。確立相應的機制,以監控 AI 系統、性能、合規性和偏差,并根據預定義的閾值確定需要采取的 行動。持續修訂成果和現有政策,以確保與業務目標和 AI 安全對齊。在治理視角中,我們針對治理過程中遇到的挑戰描述了若干解決方案,并介紹了一項新的能力:負責任地使用 AI。這是未來在 AI 領域獲得競爭優勢的決定性因素?;A能力 解釋 云財務管理 在云端規劃、測算和優化 AI 使用成本。數據策展 基于數據目錄和數據產品創造價值。風險管理 利用云服務來緩解和管理 AI 固有的風險。負責任地使用 AI 通過負責任地使
65、用 AI,持續推動 AI 創新。規劃和項目管理 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。數據治理 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。效益管理 該能力未針對 AI 進行增強,請參閱亞馬遜云科技 CAF。應用組合管理 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 云財務管理 23 云財務管理 在云端規劃、測算和優化 AI 使用成本。在云端管理 AI 項目需要針對訓練和推理的成本結構進行規劃。在為單個項目制定預算,以及為 AI 計劃制定整體的撥款預算時,就需要提前考慮這一點。
66、關于 AI 生命周期中的這種成本結構,這里提供了一個鋸齒形成本(或者稱為低/高/低/高成本階段)的示例:初期您可能面臨較高的成本,以建立構筑解決方案所需的數據,或者提高數據的質量。但如果您的數據已準備就緒,初始成本可能很低。接下來是一個變數較大的概念驗證階段。雖然大多數 AI 相關的概念驗證項目的算力成本可能較低,但有一些技術方法可能會迅速讓成本變得十分高昂,例如(在生成式 AI 的背景下)訓練大型模型,或者為特定領域的機器學習模型進行持續的重新訓練。在此類情況下,您可利用專門打造的 AI 硬件來降低成本,比如由 Amazon Trainium 提供支持的 Amazon Elastic Com
67、pute Cloud(Amazon EC2)Trn1 實例,或是由 Amazon Inferentia2 提供支持的 Amazon EC2 Inf2 實例。如果您擁有合適的人才、AI 服務和亞馬遜云科技合作伙伴,您可借助他們的專業知識來評估用例不同階段和整體 AI 戰略所需的資源。如果可行,核算一下對一個機器學習指標進行漸進式改進需要投入的成本,以此決定如何優化您的投資。系統完成第一次迭代后,下一個階段(即打造最小可行產品)可能需要較高的成本;例如,推廣系統的能力,或者獲取對于用戶采用至關重要的邊緣案例和長尾數據。如果您的用例需要用到生成式 AI 的能力,您可以直接使用或微調基礎模型,這將對成
68、本產生顯著而積極的影響,因為您的供應商已經承擔了模型的初始訓練成本(例如,Amazon Bedrock Titan 基礎模型)。AI 模型部署完畢后,推理本身在很大程度上取決于請求量,在很多情況下,推理的成本是比較低的。否則,您可采用專門構建的 Amazon Inferentia 架構。在這一階段,監控模型指標并標記漂移,可提醒您發生的變化,并確定是否有必要重新訓練您的算法。在云端,您可以利用擴展資源的低成本優勢。與此同時,在整個 AI 生命周期中,跟蹤成本并標記所有的資源和機器學習工作負載也很重要。在確立成本可視化機制之后,分析數據、訓練和推理的成本隨時間的變化就變得至關重要。各類問題(文本
69、、預測、文檔處理等)會層出不窮,它們的初期成本并不高,但隨著數據量的增加,成本會呈線性增長。還有一些依賴音頻和語音數據的 AI 問題,它們的啟動成本較高,即使是在概念驗證階段也需要明確的目標,以免產生意外的費用。將您的 AI 愿景與業務目標對齊,應當能指導您如何確定工作范圍;建立一套機制來權衡模型成本和模型性能,這對于維持正投資回報率至關重要。此外,數據獲取成本在很大程度上受到企業圍繞其數據流程建立的機制的影響。針對新數據和主數據的獲取建立一個標準流程,這是降低成本的關鍵,將數據保存為 AI 可用的格式亦是如此(減少復制/讀取/復制或抽取、轉換、加載(ETL)的需求)。而通過治理良好的數據服務
70、和零 ETL 模式,您可在云端解決所有這些挑戰。此外,始終將您的 AI 計劃與潛在的業務目標聯系起來。倘若涉及新的營收來源,就要假設有多少收益與哪些成功標準相關,并將業務價值轉換為您的 AI 指標。如果未能認識到負責任地使用 AI 的必要性所帶來的潛在成本,就可能會低估 AI 系統的總體成本,因此在評估成本時務必將這一點考慮在內。由于這一點很重要,我們在治理視角的內容后面新增了負責任地使用 AI 這一能力。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 數據策展 24 數據策展 基于數據目錄和數據產品創造價值。您獲取、標記、清洗、處理、交互數據的能力,將加快您的進
71、度,縮短價值實現周期,并提升模型的性能(如準確性)。當模型因準確性而停滯不前時,可考慮回過頭來豐富、增加或改進輸入算法的數據。這通常比單靠重構模型或竭力榨取模型百分之一的性能要容易。以機器學習為中心的數據收集對于實現您的 AI 路線圖至關重要,您應該和其他領導應思考以下問題:“我們能否通過普及數據訪問和使用來推動 AI 創新?”“我們是否將數據視為一種產品?”“在整個企業中能否發現我的數據?”這些問題的答案通常不是非黑即白,而是介于兩者之間。但關鍵是要記住,一切都是為了強化一種文化:將數據視為現代發明的起源。將數據等同代碼看待,視其為業務的重中之重,而非事后諸葛。數據質量評估及圍繞治理制定的規
72、則既能加速數據的利用,也可能阻礙所有進展。平衡這兩方面的需求,并使用恰當的工具使整個企業都能進行創新至關重要。為數據集指定直接負責人或數據管理員,這有助于構建穩健的數據生態系統。從小處著手,再持續擴展您的數據網格,這樣可以保持數據飛輪的持續運轉。確保不同類型的用戶能夠通過不同的方式訪問和發現數據。這種方法讓您能更全面地了解環境中正在進行的工作,避免出現數據治理框架外未經許可私自開展數據運維(DataOps)的現象。易于使用、人類可讀的數據存儲庫、數據目錄和數據字典,可為企業的數據資產提供一個集中有序的數據和元數據倉庫,確保不同技能水平的團隊都能發現、理解、協作處理數據,并開始利用數據創造業務價
73、值。這大大加快了針對其他用例所需的額外投資成本做出決策的速度。提升數據潛力的方法多種多樣,例如購買外部數據源,通過機器學習算法增強或創建合成數據,通過眾包團隊來標注內部數據,甚至改變業務實踐以自動生成和捕獲數據。確立決定何時使用每種資源的良好實踐,這一點非常重要。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 風險管理 25 風險管理 利用云服務來減少和管理 AI 固有的風險。雖然每項新技術都會帶來一系列新風險,但由于 AI 模型的非確定性,管理 AI 系統設計和開發過程中的風險以及 AI 部署、長期運營和應用中的風險充滿挑戰。其中就包括一些財務風險。首先,在開發
74、過程中要考慮沉沒成本的風險,因為 AI 開發項目的結果難以提前保證(優化系統輸出與專門構建系統以實現該目標存在本質的區別)。需要確立可靠的實踐,比如使用模型卡和對抗性輸入等手段,并建立可靠的機制,比如概念驗證、最小可用產品和最小可行產品,以降低和控制風險。其他風險則屬于法律和倫理范疇。這些風險既包括由當地立法機構分類的風險,例如歐盟界定的風險,也包括 AI 本身固有的風險,例如隱藏的反饋循環、未校準輸出的誤解,以及可能對不同人群產生負面影響的意外結果。同時,還需考慮其在專業領域、企業乃至社會層面的使用和影響(例如,回音室效應或對客戶行為的長期影響)。如需了解更多信息,請參閱負責任地使用 AI。
75、應優先開發和采用在必要時(不限于安全關鍵環境)可約束系統的安全措施和架構。確保子系統故障不會傳播并加劇下游的 AI 系統問題。思考哪些主題是相關的,比如可解釋性、透明性和可詮釋性。管理這些風險時,不僅僅針對單一受 AI 影響的決策或行動,而是要貫穿整個流程或更大的系統運作中。要認識到數據和現實世界概念隨時間漂移可能給系統帶來的長期挑戰,并致力于加固系統以防范惡意行為者(參見安全視角:AI/機器學習系統的合規性與保障)。最后,不要低估在某些領域將人工智能系統提升到與人類同等水平所面臨的復雜性挑戰。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 負責任地使用 AI 2
76、6 負責任地使用 AI 通過負責任的 AI 實踐,持續推動 AI 創新。直到最近,許多企業在開發人工智能解決方案時,往往只專注于技術層面以及追求特定的業務目標,而忽視了負責任地使用這項強大的新技術。然而,人們日益認識到 AI 系統是基于海量數據進行學習的,但學習結果并不總是符合預期。這使得關注負責任的 AI 實踐變得至關重要。負責任的 AI 實踐是促進 AI 持續創新的關鍵,并確保在符合倫理、透明、無偏見的前提下開發、部署和使用 AI 解決方案。隨著 AI 應用范圍的擴大及其影響力的增加,這一點變得尤為重要。因此,在 AI 項目的整個生命周期中,尤其是在初期階段,就應當考慮并解決負責任地使用
77、AI(RAI)的問題。您應成立一個由多個業務部門的代表(如研發、人力資源、多元化與包容性、法務、政府與監管事務、采購以及公關部門)組建的 AI 治理委員會,與 AI 領導團隊緊密合作或加入其中,以確保 AI 解決方案對員工、客戶和整個社會安全無害。該委員會應負責監督和指導 AI 技術的開發、部署和使用,確保其是符合倫理的、負責任的,并負責推動與行業法規保持一致并遵守 AI 相關的立法。隨著時間的推移,您應考慮負責任 AI 對設計、開發和運營的影響。您應思考您的系統如何影響個人、特定的人群、用戶、客戶以及整個社會。鑒于 AI 在云端快速擴展的能力,您需要考慮如何融入關鍵的負責任 AI 維度,比如
78、可解釋性、公平性、治理、隱私、安全、健壯性及透明度,并考慮技術如何影響不同的文化和人口結構。將負責任的 AI 理念作為您的 AI 愿景的重要組成部分。這包括制定深思熟慮的原則和指導方針,闡明如何負責任地使用 AI,以及 AI 將如何影響您的計劃。特別是,需要納入算法公平性、多元化和包容性以及偏見 檢測。盡可能在設計上將可解釋性融入 AI 生命周期中,并確立識別和發現預期和非預期偏見的實踐??煽紤]使用合適的工具來幫助您監控現狀并提示風險。利用最佳實踐來推動負責任使用 AI 的文化,構建或利用系統來協助您的團隊檢查這些因素。雖然在算法投入生產前采取負責任的 AI 實踐會產生前期成本,但從中長期來看
79、是值得的,因為這可以減輕人工智能可能帶來的負面影響。特別是當您計劃構建、微調或使用基礎模型時,要了解新出現的關注點,比如模型“幻覺”、版權侵權、模型數據泄漏和模型“越獄”等。務必詢問原始供應商或提供商是否其開發過程中采取了負責任的 AI 方法,并了解其具體實施細節,因為這會直接影響到您的業務案例。注:亞馬遜云科技負責任地使用 AI 團隊針對這一課題撰寫了一份白皮書。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 平臺視角 27 平臺視角:AI 基礎設施和應用 隨著 AI 和機器學習算法及其用例的進步,用于運行這些算法的系統和流程可能很快就會過時。正如在任何高效的制
80、造流程中一樣,您需要為 AI 開發構建系統和平臺,以確保產出統一、穩定的產品。這里所說的產品,實際上是由算法驅動并為企業創造價值的成果。打造一個與您的基礎能力相匹配的平臺,有助于塑造競爭優勢并加速創新步伐。一個能夠降低風險的平臺應當具備可靠性、可擴展性,并且能夠兌現其承諾提供基礎能力,這些基礎能力用于支撐與本文其他視角一致的長期業務價值。支持 AI 的平臺需遵循一系列設計原則,確保各組件目的明確,意圖一致,并隨著時間的推移涵蓋機器學習生命周期的方方面面。其核心在于管理和訪問分布式及受治理的數據,這些數據需按照滿足個別消費者特定需求的方式進行準備和提供。此外,平臺還需支持通過端到端的綜合開發體驗
81、來開發新型 AI 系統。充分利用現有的 AI 能力和基礎模型也是至關重要的。一旦這些模型經過訓練,就可以通過編排、監控并隨后分享以集成到應用、系統或流程中,以供下游消費者使用。這些活動由平臺賦能團隊監督,他們持續根據收到的反饋進行迭代,以實現持續改進?;A能力 解釋 平臺架構 實現可復制的 AI 價值的原則、模式和最佳實踐?,F代應用程序開發 構建架構卓越且 AI 優先的應用程序。AI 生命周期管理和機器學習運維 管理機器學習工作負載的生命周期。數據架構 設計符合預期目的的 AI 數據架構。平臺工程 構建具有增強功能的 AI 環境。數據工程 為 AI 開發實現數據流的自動化。預配和編排 開發、管
82、理和分發獲得批準的 AI 產品。持續集成和持續交付 加速 AI 的發展。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 平臺架構 28 平臺架構 實現可復制的 AI 價值的原則、模式和最佳實踐。隨著機器學習開發日臻成熟、從研究驅動型的技術走向工程實踐,可靠地、可重復地基于其應用創造價值就變得越來越重要。平臺架構的目標是,綜合考慮不同的 CAF 視角的輸入,設計一個與業務目標相契合的基礎架構,確保 AI 生命周期的采用和賦能。首先,要了解平臺利益相關方的成熟度和能力,以及他們對于機器學習技術棧的需求:您是否試圖啟用預構建的現成 AI 服務、低代碼和自動機器學習功能,
83、讓非專業人士也能訪問 AI?還是希望支持專業人士在其 AI 開發生命周期中使用和定制機器學習框架、直接訪問基礎設施?特別是當您涉足生成式 AI 領域時,這些問題對平臺架構有著重大的影響??蓮娜齻€層面考慮 AI 相關的具體需求:1.計算層:AI 的訓練和推理可能會對硬件有很大的需求,可能需要大量的算力資源(用于基礎模型)。除了消費保護措施外,性價比也是為您的企業設定標準的關鍵因素之一??煽紤]采用性價比優于傳統 CPU 或 GPU 的專用硬件,以降低成本。2.機器學習和 AI 服務層:規劃您的平臺如何支撐機器學習與 AI 服務的開發、部署與迭代過程。機器學習服務需賦能技術專家群體,例如,進行定制模
84、型的訓練或調優(如基礎模型),而 AI 則應確保能夠便捷地調用模型與功能(如生成式 AI 領域訓練成本高昂的中大型基礎模型)。盡管這種區分并非總是涇渭分明,但各類需求存在差異。3.消費層:此層面向您的 AI 能力的下游用戶。既可以簡單到一個儀表板應用,也可以復雜到通過 Prompt 工程對基礎模型進行增強,或是利用特定的生成式 AI 架構,比如檢索增強生成(RAG)應 用等。在搭建平臺的過程中,需細致分析行業特有的法律要求,這些要求對數據管理、模型開發流程及部署均有影響(例如數據的強制性分類),并據此設定相應的防護措施。要投入時間明確各項標準,例如關于數據隱私和數據治理的標準,并分發給下游團隊
85、供其使用。接下來,簡化合規環境和基礎設施的配置,從而加速 AI 新用例的開發和部署。通過了解您的團隊可能如何使用“人在回環”和“人機監督”功能(它們是 AI 工作流程中重要的檢查點),為您的平臺整合反饋回路。最后,確定機器學習特有的監控需求,比如在模型行為變化時進行偏見檢測、可解釋性分析并安排人工復審。設計模塊化的 AI 價值鏈至關重要,因為它能支持獨立擴展與更新。這種模塊化方法有助于加速數據標注流程,并明確劃分不同組件的所有權和責任歸屬。在選定標準化的云原生解決方案時,必須綜合考慮成本、可靠性、可恢復性及性能等因素。所有這些最佳實踐以及設計指南和標準,都應發布至一個中心知識庫,以供企業內所有
86、實踐者訪問。實施反饋機制及衡量平臺采用度的指標,能夠為您的 AI 項目持續提供洞見,助力您做出明智的決策。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 現代應用程序開發 29 現代應用程序開發 構建架構卓越且 AI 優先的應用程序。隨著 AI 技術的成熟,它深刻影響著應用開發的方方面面:1.AI 增強型應用開發:通過 AI 技術提升軟件開發生命周期(SDLC)的效能。利用 AI 服務和工具賦予應用生成及自動補全特性,或通過識別潛在的代碼問題來簡化審查流程,同時通過確保開發過程高效無誤,實現性能和測試的自動化。從創意構思到軟件維護,全面重塑軟件開發生命周期的各個
87、環節。2.將 AI 作為產品的差異化要素:將 AI 融入軟件之中,不僅能提升用戶體驗,甚至可成為價值主張的核心。AI 能夠增強軟件的功能性,確保其緊密貼合用戶的實際需求與期望,最終打造出深受用戶歡迎的產品。在開發此類應用時,需考慮數據在系統中的流轉方式、如何影響 AI 系統、產生何種輸出、消費者和客戶如何解讀這些輸出,以及這些輸出如何進一步生成可用于迭代的新數據。在進行架構決策時,應以 AI 領域成熟的設計原則為基準。3.AI 模型開發:在將 AI 融入軟件開發的過程中,考量改造現有模型、利用開源方案或構建定制化解決方案變得尤為重要。隨著現代應用程序開發的不斷演進,掌握 AI 技術已成為日常開
88、發不可或缺的一環。針對特定使用場景,您或許需要更高程度的個性化定制,即運用特定的數據對模型進行微調,以確保模型能夠精準適配您的需求。針對這三個方面,考慮如何將應用程序和開發流程分解為更小、更易管理的部分。將微服務或多元模型方法與敏捷實踐相結合,以此提升靈活性,加快交付速度,更有效地應對變化。此方法在 AI 開發中尤其有益,因為 AI 開發需要大量的迭代測試、實驗及優化。需在開發團隊中樹立清晰的認識:用戶及客戶對 AI 系統的感知的確存在差異,而且眾多用戶缺乏與這些系統進行有效交互的心智模型。也就是說,與客戶和用戶直接交互的 AI 應用都將從對其用戶體驗(UX)的重新審視中直接受益。注:亞馬遜云
89、科技卓越架構框架機器學習剖析為工作負載和架構設計模式和最佳實踐提供了權威資料。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 AI 生命周期管理 30 AI 生命周期管理 AI 生命周期管理分為架構視角與工程視角,這兩個視角隨企業能力的成長而逐步完善。架構視角側重于 AI 生命周期管理的設計、規劃和概念層面。管理機器學習工作負載的生命周期是一項復雜任務,需要綜合性的方法。它有三個重要組成部分:1.識別、管理和交付業務成果和客戶價值。2.構建和發展 AI 解決方案的技術組件。3.整個生命周期中 AI 系統的運維,也稱為機器學習運維(MLOps),對于更大的模型而言則
90、稱為基礎模型運維(FMOps)。鑒于這三個組成部分均較為復雜,我們在卓越架構框架:機器學習剖析中提供了詳盡的指導。不同的 AI 策略對這三個組成部分會有不同的著眼點。例如,如果您的總體目標是通過定制模型來推動新產品開發,那么您對生命周期管理的看法將不同于借助公開可用的服務來提高內部運營效率這一策略的看法。無論采取何種方法,都應采用集中化的存儲庫和版本控制系統來存儲 AI 工件,并跟蹤模型譜系和數據 譜系。工程視角工程視角著重于 AI 生命周期管理的實施與運作。為簡化這一流程,實施機器學習運維實踐至關重要,以實現 AI 模型部署和監控的自動化,減少人工干預,提升可靠性,縮短部署時間,并增強可觀察
91、性。確保遵循一套明確的流程來管理 AI 生命周期,涵蓋從構思到部署再到監控的全過程。該流程應包括數據收集和存儲、模型訓練和部署、模型監控和評估(CAF-AI 的運維章節),以及性能監控等步驟。這有助于盡早發現缺陷,支持模型的持續演進。最后,要建立一個自動化的框架,重新訓練您的 AI 模型,例如,在性能下降或有新數據送達時進行重新訓練。為了更好地了解您相對于行業最佳實踐所處的現狀,可借助亞馬遜云科技合作伙伴或亞馬遜云科技評估您的機器學習運維成熟度,并基于機器學習運維和生命周期框架做出決策。這些流程和標準是防止系統僅依賴于機構知識的最佳防范手段,有助于減少 AI 技術債務。數據團隊通常過分關注硬性
92、的機器學習指標,而忽視了這些指標如何影響業務指標,這是生命周期管理不足的表現。無論采用何種路徑,都要確保您為機器學習運維建立的流程和標準是可重復的。這些機器學習運維最佳實踐還有助于確保您的科學團隊不會因建模而疲憊不堪,而是專注于成果,避免因大量并行實驗而分心。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 數據架構 31 數據架構 設計和發展符合預期目的的 AI 數據架構。數據是 AI 技術的關鍵。隨著數據類型和數據量的爆炸式增長,傳統的數據架構亟需變革。特別是,AI 對存儲、管理和分析提出了新的需求,以應對其日益增長的復雜性,因為 AI 正逐漸成為商業決策的核心
93、。記住,AI 工作負載不僅需要大量的數據,還需要多樣化的優質數據來進行模型訓練和驗證。由于這些數據來自多個來源,通常具有不同的格式和結構,傳統數據架構受數據傳輸和數據類型方面的限制,往往無法有效管理如此多樣化和大規模的數據。因此,要深入研究現代數據架構的演進。這些架構將數據湖、數據倉庫和其他專用的數據存儲結合在一起,減少了治理的復雜性,同時實現了數據的傳輸,這是 AI 的一個關鍵層面。在當今的企業中,三種架構成為了主流:數據倉庫(吞吐量經過優化的結構化倉庫)、數據湖(從各種數據孤島聚合數據,并充當中央數據庫的作用)和業務應用專屬倉庫(NoSQL 數據庫、搜索服務等等),每種架構均支持不同的用例
94、。然而,在這些倉庫存取數據可能具有挑戰性而且代價昂貴。因此,隨著數據傳輸對于 AI 系統來說越來越重要,您需要增強架構以滿足數據傳輸的需求:由內向外:數據最初從各種來源(數據庫和結構良好的電子表格等結構化數據;或媒體和文本等非結構化數據)匯總到數據湖中。隨后將數據的一個子集傳輸到專用的存儲載體中,以便用于特定的分析任務,比如搜索分析或構建知識圖譜。由外向內:數據起初存放在適合特定應用的專用存儲中。例如,為了支持在云端運行的游戲,應用可能會使用特定的存儲載體來維持游戲狀態和排行榜。此類數據隨后被遷移至數據湖中,以便開展更全面的分析,以提升游戲體驗。外圍:這涉及在專用數據存儲載體之間傳輸數據,例如
95、從關系型數據庫遷移到 NoSQL 數據庫,以滿足諸如報告儀表板的特定需求。為了保持 AI 團隊的高速運轉,需要以可行且無縫的方式實現這種數據傳輸。隨著 AI 技術的快速發展,具備這種靈活性至關重要。由于數據在 AI 領域至關重要,數據幾乎等同于機器代碼,AI 和數據架構之間的界限變得日益模糊?,F代數據架構使得企業能夠將數據本身視為一種產品?,F代數據架構并非靜態結構,而是設計成流轉的結構,能隨著新數據類型和技術的涌現而適應變化。因此,要研究各種新興的數據架構原型,如現代數據架構、分布式數據網格和數據集市等,并構想一個統一的平臺或生態系統,以容納所有類型的數據。最后,定期反思當前架構,預先考慮訪問
96、模式和需求,并選擇適合目的的架構。制定計劃,確保您的數據集易于發現、記錄完整且易于理解。建立元數據原則或數據文檔化標準,用以描述數據,包括數據含義、與其他數據的關系、來源、用途和格式。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 平臺工程 32 平臺工程 為 AI 構建具有增強功能的合規環境。云技術從根本上改變了企業使用先進 AI 基礎設施和服務的方式。通過普及 AI 的使用,企業可簡化其 AI 工作流程,并利用規模經濟帶來的巨大優勢。因此,設計合理的 AI 平臺可讓您的 AI 團隊以更低的成本實現更多成果。要相應地設計您的平臺,為不同的利益相關方(如開發人員、
97、數據團隊和運維人員等)提供簡化和抽象,減少他們的認知負擔,同時增強其工作方式的創新能力:AI 服務:通過簡化平臺與開箱即用的 AI 服務之間的連接來賦能您的團隊,考慮到預構建模型和特定應用場景,并直接融入現代數據架構。機器學習服務:在云端,開發人員可使用專為 AI 應用的開發和部署而設計的特殊環境。在考量 AI 模型的訓練和部署時,此類托管型機器學習服務就變得不可或缺。它們能高效處理機器學習系統工程中固有的、復雜且耗時的流程。借助這些服務,您將為 AI 團隊重新分配寶貴的時間,投身于更具戰略意義的項目。機器學習基礎設施:通過托管平臺中高度專業化的底層 AI 基礎設施,為您的團隊減輕繁重的負擔,
98、從而賦能您的團隊。請記住,AI 團隊的賦能通常不在于擁有基礎設施,反而經常因基礎設施而受限,導致業務價值無法實現。云端的主要優點之一是其實現常規任務自動化的能力。盡可能地實現機器學習平臺任務的自動化,因為它可加快流程、減少人為錯誤,并確保一致性。您的 AI 解決方案越復雜,專屬的機器學習運維實踐的相關性就越強。從一開始就要在您的平臺中融入特定的 AI 監控工具。這些工具會跟蹤 AI 工作負載的性能、針對其運作提供有價值的洞見、幫助及早識別問題。反饋機制會影響模型微調和超參數配置。通過實時監控工作負載,企業能夠更好地保障其 AI 應用處于最佳性能,并能夠迅速解決出現的任何問題。盡管云端提供了極大
99、的靈活性,但采取防護措施至關重要。通過實施指導原則或限制條件作為管控手段,確保開發者在既定的最佳實踐和安全參數范圍內工作,從而降低風險并確保負責任地使用資源。構建一個安全網,既要鼓勵創新,也要確保創新活動絕不損害企業的安全性、合規性或性能標準。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 數據工程 33 數據工程 為 AI 開發實現數據流的自動化。由于數據是任何 AI 戰略和開發過程的第一要素,數據工程就顯得極為重要。它不應是事后考慮的環節,而應成為企業和團隊內隨時可用的能力。由于數據被用于主動塑造 AI 系統的行為,所以正確開展數據工程至關重要。數據準備工具是
100、開發過程的重要組成部分。雖然實踐本身并沒有根本性的改變,但其重要性和持續演進的需求卻日益增加??紤]將數據管道和實踐直接整合到 AI 開發過程和模型訓練之中,通過精簡無縫的預處理實現這一目標??煽紤]從傳統的提取、轉換和加載(ETL)過程轉向零 ETL 方法。通過此種數據工程方法,可減少數據實踐和 AI 實踐之間的障礙。賦能 AI 團隊將不同來源的數據整合成一個單一的、統一的視圖,使之成為一種自助服務能力。配合可視化工具和技術,幫助 AI 和數據團隊以可視化的方式探索和理解其數據。盡可能確保數據的準確性、完整性和可靠性。在工作流程中專門設計用于機器學習的數據模型或轉換(標準化、一致且文檔齊全),以
101、促進數據的有效處理與管理。這將顯著提高 AI 應用的性能,并減少開發過程中的障礙。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 預配和編排 34 預配和編排 開發、管理和分發獲得批準的 AI 產品。由于 AI 系統在不同的開發和部署階段對基礎設施的需求會顯著變化,預配和編排在現有的云策略中值得重新審視。了解您在 AI 轉型歷程中所處的位置,及其與機器學習運維成熟度的關系??紤]到您的消費者、數據工程師、數據科學家、開發人員和業務分析師在履行其角色時,有著不同的需求和要求。要找出方法,為不同的用戶(尤其是技術知識有限的用戶)提供自助式 AI 環境配置。這一點可通過創
102、建已獲平臺架構批準的目錄、組合和產品來加以實現。目錄可分發給終端用戶,其中的產品可用于消費。產品可定義為基礎設施即代碼,并可通過個性化的門戶網站來部署,或通過符合(由平臺團隊管理的)企業政策的持續集成和持續交付管道加以部署。一個常見的應用場景是,建設一個個性化的門戶網站,為數據團隊提供預定義的notebook和計算資源,以便他們能夠快速針對新的業務問題進行試驗,而不必等待平臺團隊預配資源。對于需要一整套工具的數據科學家等高級角色,可將目錄配置為部署整個 AI 環境,包括提供基礎模型加速器訪問權限。要考慮到 AI 模型的訓練或調優步驟可能需要高性能計算,并使用符合預算和治理約束條件的預批準服務來
103、實現自動化預配。盡可能使用 API 和框架級別的自動化和編排功能。設計用于管理 AI 工作負載部署的各種機制,并簡化底層基礎設施的構建。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 持續集成和持續交付 35 持續集成和持續交付 加速 AI 的發展。在 AI 技術的背景下,針對持續集成和持續交付有兩種截然不同的觀點:第一種是盡可能實現模型開發和部署過程的自動化和強化,例如開發定制化模型的過程。第二種是把 AI 技術本身作為 DevOps 實踐的一部分,利用它簡化持續集成和持續交付。對于第一種觀點,企業可針對 AI 模型的部署和測試實現自動化,賦能團隊以云端速度進行
104、創新。在定制化模型的情形下,目標是實現 AI 工作負載部署和管理的自動化,同時托管復雜的工作流,如數據處理、模型訓練、模型評估、后處理、模型注冊和模型部署等。在實現 AI 開發過程自動化的時候,您會用到專用于機器學習管道的工具,以及傳統應用開發中常用的方法和工具。通過合理的架構和藍圖設計,數據科學家能夠試驗不同的模型,并確保模型在投入生產之前經過了全面的測試。要花時間考慮構建這種能力是否適合您的企業??赏ㄟ^了解生產機器學習模型的產出速度、更新機器學習模型的需求,以及用例的關鍵性和影響來做出決定。隨著時間的推移,模型漂移可能會發生,而且時有發生,因此需要考慮可在多大程度上實現驗證過程的自動化,比
105、如設定重新訓練的閾值。自動化驗證會根據預定義的標準去檢查模型的性能,如果模型性能超出了可接受的閾值,則觸發自動重新訓練或回滾至先前版本。最后,通過整合人工反饋和自動化模型驗證、模型測試和重新訓練等任務,可重復性提高了 AI 工作負載的可靠性,為數據科學家和工程師騰出了寶貴的時間,讓他們專注于更重要的任務。通過整合這些方面,企業能夠以高成本效益的方式迭代 AI 模型,同時確保即使數據和需求發生變化,模型及其封裝的 AI 系統仍保持相關性和有效性。對于第二種觀點,將 AI 本身用于與 AI 有關或無關的開發運維活動,豐富開發流程,并在適當的情況下使用生成式 AI。商業價值的顯著增長往往來源于 AI
106、 直接應用于開發流程之中。因此,探討利益相關方如何在其技術工作流程中采納 AI 至關重要。這可以意味著利用 AI 分析工作負載中的異常,通過 AI 優化代碼級性能,或是根據開發者的 Prompt 生成代碼。在此過程中,始終確保針對開發運維的 AI 應用做好企業級準備,并將安全牢記在心。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 安全視角 36 安全視角:AI 系統的合規性和保證 安全是亞馬遜云科技的重中之重,所有客戶,無論規模大小,都能從亞馬遜云科技對安全基礎設施和新服務的持續投資中獲益。對于正在開發 AI 亞馬遜云科技工作負載的客戶來說,安全是亞馬遜云科技整
107、體解決方案不可或缺的一個組成部分。生成式 AI 是擴展基礎模型以實現業務成果的關鍵推動力,有多種方式可以創建生成式 AI 工作負載。在 AI 的方方面面整合安全性和隱私性,這對于實現業務成果的整體成功至關重要。有關 AI 應用的基本業務案例是解決具體的業務問題,這些問題范圍廣泛,從日常生產力任務的簡單自動化到包含敏感數據的復雜醫療或財務決策??蛇\用風險管理技術來實施本視角中定義的安全和隱私功能,以滿足您的業務需求?;A能力 解釋 漏洞管理 持續識別、分類、修復和減少 AI 漏洞 安全治理 建立與 AI 工作負載相關的安全政策、標準和指南以及相關的角色和 職責 安全保障 根據 AI 工作負載的監
108、管及合規要求,應用、評估和驗證相關的安全和隱私措施 威脅檢測 檢測和減少 AI 工作負載中潛在的、與 AI 相關的安全威脅或意外行為 基礎設施保護 確保用于運行 AI 工作負載的系統和服務的安全 數據保護 保持對用于 AI 開發和使用的數據的可見性、安全訪問和控制 應用安全性 在 AI 工作負載的軟件開發生命周期過程中檢測和減少漏洞 身份及訪問管理(IAM)該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。事件響應 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 漏洞管理 37 漏洞管理 持續識別、分類
109、、修復和減少 AI 漏洞。AI 系統可能存在技術相關的漏洞,您需要對此有所了解,例如 Prompt 注入、數據投毒和模型逆向等漏洞。所有 AI 系統的三大關鍵要素是輸入、模型和輸出。為了減輕工作負載的潛在漏洞,可以采用以下最佳實踐來保護這些組件:輸入漏洞與所有包含模型入口點的數據有關。此類輸入可能是目標模型和分布漂移的來源,在此情況下,惡意行為者可能會試圖隨著時間的推移逐步影響決策過程,或者故意對特定數據引入隱藏的偏差或敏感信息。通過數據質量自動化和持續監控來強化這些輸入。模型濫用是 AI 解決方案中因 Prompt 注入導致的一種漏洞,因為數據和指令相互交錯。另外需要特別注意的是,基礎模型越
110、獄領域發展迅速。需執行輸入有效性驗證,將數據與指令隔離,遵循最低權限原則,將大語言模型(LLM)的訪問權限限定在特定授權范圍內。避免訪問會廣泛影響運維的系統命令、可執行文件和日志操作。模型漏洞與利用模型對真實世界或所見數據的誤讀有關??赏ㄟ^威脅建模來減少有記錄的已知威脅,從而增強您的模型。在使用商用生成式 AI 模型時,審查其數據來源、模型微調的使用條款、以及可能源于模型本身或第三方庫使用的漏洞,這些都可能對您產生影響。驗證是否對模型目標及其結果進行了監控及其是否隨著時間的推移保持一致性,以免發生模型漂移。輸出漏洞與長期同系統交互有關,這可能允許推斷出關于您的模型輸入和屬性的關鍵信息,通常稱為
111、數據泄露。對生成式 AI 而言,需驗證其輸出是否經過清理而不是直接使用,以減少跨站腳本漏洞和遠程代碼執行的風險。以上只是您需要為工作負載考慮到的幾個漏洞。雖然并非所有 AI 系統都會受上述漏洞的影響,但請警惕與您的特定工作有關的風險。定期進行測試、亞馬遜云科技 Game Day 和桌面推演,以驗證按操作手冊規定的補救措施的有效性。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 安全治理 38 安全治理 確定與 AI 工作負載相關的安全政策、標準和指南以及相關的角色和職責。確保針對內部和外部托管的商用或開源模型的使用制定了明確的政策。同樣,如需使用商用生成式 AI
112、模型,請考慮企業敏感數據泄露到商用模型平臺的風險(請參閱數據保護能力)。了解適用于您所在行業或企業的 AI 相關資產、安全風險和合規要求,有助于確定安全工作的優先級,為指定角色分配足夠的安全資源,并提供透明度。AI 帶來的風險可能會造成影響深遠的后果,包括隱私泄露、數據篡改或濫用以及決策失誤。采取穩健的加密措施、多因素身份驗證、持續監控并與風險容忍度框架保持一致(例如 NIST AI RMF),對保障 AI 環境的完整性和安全性至關重要。為您的工作負載的三大關鍵要素持續提供指導和建議:輸入輸入確定數據源和 AI 使用的審批人。在審批過程中,需要全面評估數據相關的風險因素,包括數據的分類或敏感程
113、度、數據集內是否存在受監管的數據、數據的來源和時效性,以及處理數據的合規性和法律依據。為管理風險,需評估用于獲取輸入數據的機制。評估時應考慮數據源的可信度、數據的獲取方式,以及數據存儲和安全措施等因素。驗證數據源的數據分類是否與解決方案的分類一致,例如不允許在公用 AI 解決方案上處理機密數據。模型模型確定創建和訓練模型的角色及其責任。確定與模型發布的作者、審批者和發布者對應的相關角色。為管理風險,需評估模型訓練機制,包括所涉工具和個人,以避免有意或無意引入漏洞。評估模型架構是否存在影像輸出結果的漏洞。確保任何模型的故障模式都能達到模型關閉或進入安全狀態的效果,以避免數據泄露。輸出輸出確定已建
114、立的輸出的生命周期管理。制定分類標準,密切關注可能包含不同數據集或不同分類數據集的輸出結果。為管理風險,建立適當的保護和保留控制措施,根據個人識別信息(PII)等重要性和敏感性對您的數據分類并定義適當的訪問控制。確立數據保護控制和生命周期管理政策。確立遵守隱私法規和其他合規要求的健全的數據共享協議。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 安全保障 39 安全保障 應用、評估和驗證符合 AI 工作負載的監管和合規要求的安全和隱私措施。您所在的企業和您服務的客戶需要對您采取的控制措施抱有信任和信心。隨著客戶和用戶日益意識到 AI 系統存在的安全風險和潛在濫用問
115、題,他們對 AI 系統在安全合規方面達到更高標準的訴求也與日俱增。在設計、開發、部署和監控解決方案時,應優先考慮網絡安全,滿足監管要求,并切實有效地管理 AI 特有的安全風險,同時也要符合您的業務目標和風險承受能力。由法律專家、合規專家、數據科學家和 IT 專業人員進行全面監督,通力協作,透明運作,有助于驗證全方位的保障措施。采取測試程序和補救流程也不失為積極主動的安全保障舉措。持續監控和評估您的工作負載的三大關鍵要素:輸入由于模型訓練和分析通常需要大量的數據,您需要驗證輸入的數據類型是否與模型的目標和輸出結果一致。建立審計機制,以了解既定控制框架的遵循情況。模型確認用戶了解哪些 AI 使用方
116、式是符合企業政策且可接受的。采取政策和控制措施,以驗證企業是否了解 AI 能否適用的對應場景。確定審計機制,以識別模型的數據使用方式,以及 AI 功能在企業內部的使用情況。輸出確定可接受的輸出使用標準,同時注意數據可在何處重復使用或被重新引入其他 AI 模型。建立審查輸出數據的發現或審計機制,以驗證生成的數據是否不會泄露敏感信息或受監管數據,無法被用于推斷或重構此類數據。建立驗證輸出真實性和來源的機制,尤其是針對醫療診斷等可信度要求極高的領域。保護個人隱私要求嚴格遵守道德和法律準則,以防止未經授權的訪問、數據濫用或披露。在發揮 AI 潛力的同時尊重隱私權,有助于建立公眾信任,讓大眾從 AI 能
117、力中受益。參見亞馬遜云科技卓越架構框架中的MLSEC-05:保護敏感數據隱私。建立透明度和知情同意等機制。將數據保留限制在功能所需的范圍內,并訂立數據共享協議。再次強調,需考慮與工作負載三個關鍵組成部分相關的隱私 要求:輸入驗證您了解如何使用受隱私相關法規(例如 通用數據保護條例、加州消費者隱私法、兒童在線隱私保護法、個人資料保護法)約束的數據以及處理數據的法律依據。請考慮到數據駐留地以及存儲和處理數據的地點。為每次使用受監管數據建立隱私影響評估(PIA)或類似的流程。模型在訓練或調整模型時,需考慮是否存在處理數據的法律依據,以及是否能證明數據主體的透明度。確定與潛在的模型數據泄露有關的隱私影
118、響評估或類似流程。輸出考慮受監管數據是否用于訓練其他模型,以及個人數據的二次使用是否受限。建立一個完成刪除權或遺忘權類型的請求的機制。確定審查輸出數據的發現或審計機制,以驗證所生成數據不能用于推斷或重新生成先前已消除身份識別信息的數據。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 威脅檢測 40 威脅檢測 檢測和減少 AI 工作負載中潛在的安全威脅或意外行為。為加強對任何機器學習或生成式 AI 系統的三大關鍵組成部分(輸入、模型和輸出)的保護,可通過以下最佳實踐來檢測并減少對您的工作負載的威脅:輸入檢測 AI 解決方案的威脅對修復可能影響業務的漏洞至關重要。在將
119、輸入數據用于模型訓練之前,您需要對其進行清理,以檢測并消除潛在的安全威脅。持續跟蹤用戶會話的輸入數據,以檢測和減少影響可用性和導致濫用的威脅。模型針對 AI 系統執行特定的威脅建模,并開展威脅搜尋演練以檢測和減少潛在威脅。更新威脅模型和監控措施,納入 AI 特有的威脅概念,包括使用意外的用戶輸入訓練模型、用于內容或訓練的數據集中毒、隱私泄露以及數據篡改等。關聯輸入數據和模型使用的數據,以檢測異?;驉阂饣顒?。輸出監控偏離模型目標的輸出異常,并啟用檢查功能以檢測模型輸出中的敏感數據。建立包含適用于您的工作負載的已識別的已知威脅目錄。建立自動化測試,以驗證檢測能力并整合威脅情報,從而提高效率并減少誤
120、報??紤]利用威脅情報來提高效率和減少誤報。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 基礎設施保護 41 基礎設施保護 確保運行 AI 工作負載的系統和服務的安全。機器學習運維將開發運維實踐應用于 AI 工作負載,而安全措施則需覆蓋構成整個環境的基礎設施。您的 AI 模型可采用安全端點和 Amazon API Gateway 對模型訪問進行速率限制。對于所有內部和外部使用的API,采用 API 安全最佳實踐,并明確創建一個允許列表,以包含來自模型自身 VPC 之外的 API 調用。您可從亞馬遜云科技的Security Reference Architectur
121、e(安全參考架構)入手,根據您的環境建立網絡、計算及存儲方面的安全控制措施。模型一般部署在跨網絡和跨服務器的多重環境中。這些環境之間的通信傳輸應采用加密技術予以保護。需對開發和生產環境進行集中配置,并采取由安全管理員獨立管理的預防和檢測性防護措施。隔離模型訓練等敏感任務的開發環境。確保為終端用戶提供會話隔離,以保持體驗的完整性,防止數據意外泄露。將輸出相應和相關會話數據錄入單寫多讀(WORM)存儲設備中,以滿足合規性和故障排查需求??紤]實施模型漏洞懸賞計劃,以發現和減少可能導致安全問題的邊緣用例。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 數據保護 42 數據
122、保護 對用于對用于 AI 開發和應用的數據開發和應用的數據,需要保持可見性需要保持可見性、安全訪問和控制安全訪問和控制。數據保護在整個 AI 開發生命周期中至關重要,需確保安全治理定義的數據保護政策付諸實施,例如亞馬遜云科技卓越架構框架:機器學習剖析的MLSEC-07:僅保留相關數據中提及的內容。如果使用商用模型來開發生成式 AI,請注意直接使用數據作為模型的輸入可能會導致敏感信息泄露。同樣,讓您的專有或自托管模型訪問受保護數據也會為升級數據相關權限敞開大門。請因地制宜地評估模型使用和服務條款。在預訓練和微調階段為模型開發收集的數據,其安全性在傳輸過程中、靜態存儲時和實際使用時都應得到保障。在
123、進行清理、規范化和轉換等數據預處理操作時,請考慮使用數據 Token 化流程,將敏感數據替換為非敏感數據 Token。為模型使用的所有數據源創建驗證機制,尤其是對用于訓練模型的推理數據。監控并對敏感數據或可能導致敏感級別升級的數據創建警報。利用數據活動監控技術,通過使用情況和頻率等指征來檢測數據訪問模式。避免使用敏感數據訓練模型,因為這可能導致模型輸出在無意中披露數據(例如推理期間發生數據泄露)。標記和標注所有不同環境中的訓練所用數據,并調整數據標記和標注,確保數據標簽符合數據分類政策和標準。驗證非生產和開發環境的數據譜系和數據訪問控制措施是否得當,以防止數據被惡意篡改引發模型漏洞??紤]使用
124、CI/CD 管道將數據推廣到測試和生產環境,以保持數據完整性。記錄并屏蔽敏感數據,同時為數據訪問創建審計追蹤。對敏感數據存儲和設計上本不該存儲指定數據類別(例如機密)的數據存儲采取數據丟失防護技術,并監控敏感數據的意外泄露情況。驗證模型輸出的數據質量,以建立信任,避免產生幻覺。監控模型輸出數據的敏感級別,如果敏感級別上升,則通過編?;蚋綦x響應來觸發重新分類。例如,如果有新的數據集用于模型或模型訓練,則應驗證輸出數據是否符合現有的敏感級別。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 應用安全 43 應用安全 在 AI 工作負載的軟件開發生命周期流程中檢測和減少漏
125、洞。核查模型開發者是否在本地環境和 CI/CD 管道中執行 Prompt 測試和其他安全測試用例,以驗證模型的使用情況。創建并維護測試用例庫,以驗證測試覆蓋率并實現自動化。在所有開發、測試和生產環境中利用與安全掃描集成的數據和模型管道,將所有模型構件存入安全的倉庫中。維護 AI 模型庫存,將模型實例分配給具體確定的技術和業務負責人。驗證已知的訓練模型是否已備份。保留時間點恢復功能,以便受損模型能恢復到已知的良好狀態。保護對模型和數據備份的訪問,以驗證其是否受損,并定期測試模型恢復情況,以便其能夠完全恢復到已知的良好狀態。需跟蹤參數、元數據等與模型和數據開發有關的數據,以確保輸出結果的可追溯性并
126、支持其有效性。為數據集和模型單獨創建并使用運行手冊和測試回滾機制,以便在發生運行或安全事故時執行,為模型提供恢復力。運營視角:AI 前景的運行狀況與可用性 運行機器學習應用對很多客戶而言還是一件新鮮事。在 AI 生命周期管理和機器學習運維的 CAF-AI 新功能中,我們已經介紹了應對這一問題的部分觀點和指導。此外,其余的主要考慮因素均圍繞事件管理和性能展開。為深入探討 CAF-AI 相關的內容,我們建議參閱機器學習運維成熟度框架和亞馬遜云科技卓越架構框架:機器學習剖析,兩者均針對上述挑戰給出了詳盡說明和最佳實踐?;A能力 解釋 事件和問題管理 識別和管理不可預見的 AI 行為。性能和容量 監控
127、并管理 AI 工作負載的性能??捎^察性 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。事件管理(AI 運維)該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。變更和發布管理 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。配置管理 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。補丁管理 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF??捎眯院统掷m性管理 該能力尚未進行 AI 增強,請參閱亞馬遜云科技 CAF。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 事件和問題管理 44 事件和問題管理 識別和管理不可預見的 AI 行
128、為。AI 系統常用于一個人的知識不足以掌握或解決某個問題時。AI 系統的這種屬性讓它很難理解系統的整體行為和邊緣用例,所以很難預見性能在一定時間后的潛在衰退程度。因此,從業者會利用代理和簡化統計來研究 AI 系統。這些簡化的 AI 系統視角在觀察和監控 AI 時非常關鍵。這一現象在開發早期階段已經得到驗證,但在 AI 系統實際投入使用時就顯得尤為重要。務必確立一套實踐,承認 AI 系統雖經驗證但無法完全證實,并且需要持續不斷的控制與觀察。例如訓練服務偏差,即實驗室開發的 AI 系統性能與生產環境中的表現有顯著差異。必要時,應允許客戶和用戶標記標記系統輸出的不理想或錯誤結果,并為他們提供直接報告
129、此類事件的渠道。從一開始,就要為數據變化及隨之而來的性能漂移、訓練-服務偏差、“黑天鵝”事件以及未觀察到的數據點做好準備。在系統允許的前提下,提供從容應對失敗的方法,報告和響應此類事件,從中吸取教訓。請留意系統使用體驗不佳的客戶和用戶,他們的真實使用場景很可能在模型訓練數據中沒有得到充分覆蓋。最終,應預期這些事件會發生,若未曾報告此類事件,反而應當提高警惕。隨著您的 AI 系統的規模和復雜程度不斷增加,這一挑戰將愈發嚴峻。例如,與簡單的決策樹相比,基礎模型的修正和監控難度明顯要大得多。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 性能和容量 45 性能和容量 監
130、控并管理監控并管理 AI 工作負載的性能工作負載的性能。AI 的開發周期與傳統軟件截然不同,因此性能和工作負載特性也有所不同:AI 開發初期主要側重于數據探索,成本和性能要求需要能夠適應眾多差異巨大的工作負載。這些工作負載通常以實驗和訓練為主,需要強大的機器、專用硬件和高效的內存架構。您可以利用云計算來支持這些多樣化的工作負載,因為云能夠動態適應每種工作負載特性,而這些特性在開發生命周期的某些特定點才會偶爾出現。隨著時間的推移,訓練和優化后的預處理逐漸占據主導地位,工作負載特征變得更為穩定和可預見。創新速度將受到您適應這一新特征并在這兩種狀態之間快速、持續切換能力的影響,同時保持開發與生產環境
131、的清晰界限。確保模型構件和支持這些優化工作負載的數據可用來應對潛在的回退需求。一旦模型進入部署和運行階段,應確保針對非功能性要求(如延遲或吞吐量)進行推理優化,并建立成本控制、性能和容量的監控機制。在 AI 生命周期管理能力中,我們介紹了機器學習運維成熟度模型,可參考它獲得更深入的運營洞見。隨著時間的推移,多種類型的工作負載特征會交織在一起,與數據科學家在獨立開發(通常稱為實驗室環境)時所經歷的往往大不相同。您可以深入研究亞馬遜云科技卓越架構框架及機器學習剖析,了解如何在云端設計此類系統的架構。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 總結 46 總結 在本
132、白皮書中,我們對 CAF-AI 進行了概述,介紹了客戶如何企業和構建其 AI 歷程,成功實現這一目標需要具備的能力,以及迭代這些能力的心智模型。本白皮書提及的基礎能力可作為您與 AI 專家進一步研究、學習和探討相關內容的索引。所有這些能力均與亞馬遜云科技云采用框架有關,使企業能夠在思考其云遷移歷程的同時,也能規劃其 AI 發展路徑。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 貢獻者 47 貢獻者 本白皮書的貢獻者名單如下:Alexander Whlke,生成式 AI 創新中心高級機器學習戰略師,亞馬遜云科技 CAF-AI 項目主管 Caleb Wilkinso
133、n,生成式 AI 創新中心高級機器學習戰略師,亞馬遜云科技 CAF-AI 項目主管 Payal Vadhani,亞馬遜云科技專業服務安全總監 Mayank Jain,亞馬遜云科技專業服務首席高級經理 Michael Sinnwell,亞馬遜云科技專業服務高級安全數據分析師 Mark Lieberg,亞馬遜云科技專業服務高級安全顧問 Matias Undurraga,現代化創新轉型項目轉型架構師 Tony Santiago,WW 合作伙伴解決方案架構師,CAF 平臺視角主管 Dr.Saa Bakarada,亞馬遜云科技云采用框架全球負責人 Neil Mackin,機器學習解決方案實驗室首席機器學
134、習戰略師 Shuja Sohrawardy,生成式 AI 創新中心高級機器學習戰略師 Emily Soward,亞馬遜云科技專業服務數據科學家 Margaret Sharp,亞馬遜云科技專業服務參與安全技術項目經理 Ana Echeverri,亞馬遜云科技全球專家部門(WWSO)高級 AI 服務專家,CAF-AI 評估主管 Phil Le-Brun,亞馬遜云科技企業戰略部總監 亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 延伸閱讀 48 延伸閱讀 如需了解更多信息,請參閱:亞馬遜云科技云采用框架(CAF)亞馬遜云科技卓越架構框架:機器學習剖析 亞馬遜云科技卓越架
135、構 亞馬遜云科技架構中心 亞馬遜云科技規范性指南 亞馬遜云科技白皮書和指南 亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 文檔修訂記錄 49 文檔修訂記錄 如需獲取本白皮書的更新通知,請訂閱 RSS 源。變更 描述 日期 更新 更新和擴展了概述章節,增加了安全性、平臺和治理視角。2024 年 2 月 13 日 首次發布 本白皮書首次發布 2023 年 5 月 22 日 注:若要訂閱 RSS 更新,您的瀏覽器必須啟用 RSS 插件。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 重要須知 50 重要須知 客戶需自行對本白皮書中的信息進
136、行獨立評估。請注意,本白皮書:(a)僅供參考;(b)僅代表亞馬遜云科技當前產品與實踐,如有變更,恕不另行通知;(c)不代表亞馬遜云科技及其附屬公司、供應商或許可方做出任何承諾或保證。亞馬遜云科技的產品或服務將“按原樣”提供,不附帶任何明示或暗示的擔保、聲明或條件。亞馬遜云科技對客戶的責任和義務受其與客戶訂立的協議的約束,本白皮書不屬于亞馬遜云科技與客戶之間訂立的任何協議,也并非對任何協議的修訂。2023,Amazon Web Services,Inc.或其附屬公司。版權所有。亞馬遜云科技人工智能、機器學習和生成式 AI 云采用框架 亞馬遜云科技白皮書 亞馬遜云科技名詞解釋 51 亞馬遜云科技名詞解釋 如需獲取亞馬遜云科技最新術語,請查閱 亞馬遜云科技名詞解釋。