《中國開源軟件推進聯盟&IBM:2024可信賴的企業級生成式AI白皮書(195頁).pdf》由會員分享,可在線閱讀,更多相關《中國開源軟件推進聯盟&IBM:2024可信賴的企業級生成式AI白皮書(195頁).pdf(195頁珍藏版)》請在三個皮匠報告上搜索。
1、?1 版權聲明?本報告相關部分版權屬于中國開源軟件推進聯盟或 IBM(中國)有限公司,并受法律保護。轉載、摘編或利其它式使本報告字或者觀點的,應注明“來源:中國開源軟件推進聯盟、IBM(中國)有限公司”。違反上述聲明者,權利將追究其相關法律責任。?2 可信賴的企業級成式智能書?編寫委員會編寫委員會?顧問:顧問:陸群?策劃:策劃:謝東?程海旭?劉澎?梁志輝?孟繁晶?主編:主編:程海旭?劉澤宇?延霞?羅東?張穎?劉曉?孟迎霞?鞠東穎?作組:作組:(按照姓字排列)?默涵?程杰?初德?董琳?樊斐?馮媛?葛巍?韓艷艷?姜朋慧?荊琦?李博?李?廖靜?劉佳怡?劉默馳?隆云滔?忠?徐斌?徐孝天?楊軍?楊悅?元
2、中?袁懌?原雪洲?臧倩?張侃?張明?趙則名?朱茉?莊雪吟?貢獻者貢獻者:(按照姓字排列)?曹嵐?陳棟?丁偉?都娟?何蕾?李變?李玲?劉俊?劉勝利?倪棟?聶錦程?龐崢?沈海軍?孫盛艷?王彩彩?王積杰?王君?吳敏達?楊繼輝?姚勇?張家駒?趙登科?趙蓉?鄭維珺?3?序?成式智能觸發了新輪智能浪潮,智能(AI)正在以前所未有的速度和規模,重塑著我們的活和和作式,在推動經濟轉型和社會進步中展現出巨的潛。?企業是技術與創新轉化為核產的重要載體,那么企業在 AI 時代,如何打造新產具形成新產,幫助企業產銷的產品持續的迭代與進化??可信賴的 AI 的重要性不喻。2019 年,我發表了“評智能如何向新階段”??
3、觸發了業界對智能發展向的熱烈討論。同年 8?份,COPU 提出研發 XAI?的任務,倡議機器學習、深度學習必須克服其的缺陷,打破盒痼疾,建可解釋的機器學習模型,實現可解釋、可信賴的智能,這在國內乃全球都是最早提出這個任務的少數機構之。2020?年 6?,COPU?主辦第 15?屆開源中國開源世界峰論壇,邀請?IBM?副總裁 Todd?Moore?在會上作“可信任智能(反欺詐、可解釋、公平性)”的報告,IBM 程海旭團隊與 COPU 在此話題也進多次研討,?并且應 COPU 要求寫了三篇章回應 COPU 提出的問題。并且,IBM 開源了針對反欺詐、可解釋性和公平性的 AI 具套件,也標志著可解釋
4、性 AI(XAI)的重要進展。IBM 作為全球 AI 治理平臺的領導者,致于將前沿科技轉化為產,為企業提供開放、可信、有針對性的 AI 解決案,共同開啟企業級可信 AI的新時代。?在如何幫助企業采 AI 新技術形成新質產,尤其是當前 AI 技術新異、百模戰,技術重塑業務有其復雜性、差異性與多樣性,在模型的選擇、訓練與調優、數 4 據的準備等技術問題,乃場景價值、投與產出等策略性問題上,都有著不同企業的疑慮與困惑。書對于企業關注的 AI 模型及平臺、數據治理以及 AI 治理等重點領域都有先進經驗與理念的分享。在場景價值,書通過深分析汽、融等業的成功案例,展了 AI 技術如何助企業實現轉型和創新。
5、在未來,智能的發展將繼續以可信、安全為標,依托算法、算、數據為核,幫助企業在 AI 智能時代持續進化,進推動社會智能化的全發展。?本書也強調開源在推動 AI 發展中的重要作。開源不僅促進了技術的透明性,還加速了研發進程,為構建開放、共享、協同、由的 AI 態提供了堅實基礎。相信可信賴的企業級成式智能書的每位讀者都會開卷有益。?陸群教授?中國開源軟件推進聯盟名譽主席?5 前?2024 年 3 李強總理代表國務院在四屆全國次會議上作的政府作報告中,次提出了開展“智能+”動,這表明國家將加強頂層設計,加快形成以智能為引擎的新質產。?在企業端,智能產業的發展已駛快道,“讓 AI 成為核產”已經成為企業
6、領導的迫切需求。據中國信息通信研究院公布的數據,2023 年中國智能核產業規模達到 5784 億元,增速 13.9%?1。根據肯錫研究報告,到 2030 年前,成式 AI 有望為全球經濟貢獻約 7 萬億美元的價值,其中中國有望貢獻其中約 2 萬億美元,將近全球總量的 1/3?2。?AI 不僅可以推動整體經濟和 GDP 的幅增,還將為那些善 AI 的個和組織帶來前所未有的競爭優勢。放眼全球,成式 AI 對科技業將產最為顯著的影響;在中國,先進制造、電與半導體、消費品、能源、銀將是受影響最為顯著的 5 業。?基于此,IBM 聯合中國開源軟件推進聯盟(?COPU,?China?OSS?Promoti
7、on?Union),結合雙對企業應成式 AI 的深刻洞察、技術研究和業務實踐,共同發布此報告,致于推動企業效、可信、負責任地應成式 AI,幫助企業打造新的競爭,成為 AI 時代的真正受益者。?本報告先闡述了成式 AI 的演進和現狀、全球法和治理概況、應前景和商業價值、險與挑戰、企業應的關鍵因素;其次,對企業級成式 AI 的參考架構進了全介紹,包括 AI 模型平臺、數據平臺和服務、治理、基礎撐平臺、AI 應,并展了具有代表性的企業級應成式 AI 的真實案例和實施價值;最后提出企業應成式 AI 的戰略規劃法及步驟,并對成式 AI 的未來發展進了展望。?6 錄錄?引與背景引與背景?.?8 8?1.1
8、?成式智能的定義與演進?.?8?1.2?成式智能應的現狀?.?11?1.3?成式智能的險及全球法、治理概況?.?12?企業應智能的機遇與挑戰企業應智能的機遇與挑戰?.?1616?2.1?成式智能的應前景與商業價值?.?16?2.2?成式智能帶來的技術與技術挑戰?.?19?2.3?成式智能在企業應中的關鍵因素?.?23?三三?企業級成式智能的技術、產品與解決案企業級成式智能的技術、產品與解決案?.?2929?3.1?企業級成式智能參考架構?.?29?3.2?智能平臺和服務?.?32?3.3?數據平臺和服務?.?63?3.4?基礎撐平臺?.?94?3.5?成式智能的企業級應?.?98?四四?成式智
9、能治理成式智能治理?.?117117?4.1?成式智能治理框架?.?117?4.2?融 AI 全命周期?.?118?4.3?成式智能模型治理技術?.?120?7 4.4?成式智能模型治理具?.?125?4.5?成式智能數據治理?.?129?4.6?成式智能在基礎撐平臺治理的新趨勢?.?137?4.7?成式智能治理的指標矩陣?.?138?4.8?成式智能治理的結與展望?.?139?五五?企業級成式智能的規劃與實施法企業級成式智能的規劃與實施法?.?140140?六六?企業應成式智能的參考案例與實施價值企業應成式智能的參考案例與實施價值?.?144144?6.1?IBM 案例?.?144?6.2?
10、其他案例?.?159?七七?企業級成式智能的未來展望企業級成式智能的未來展望?.?166166?參考獻參考獻?.?172172?附錄附錄?watsonx.aiwatsonx.ai 基礎模型庫基礎模型庫?.?178178?附錄附錄?智能指標智能指標?.?180180?附錄三附錄三?名詞解釋名詞解釋?.?190190?致謝致謝?.?193193?8?引與背景引與背景?1.11.1 成式智能的定義與演進成式智能的定義與演進?1.1.11.1.1 成式智能的定義成式智能的定義?成式智能(Generative?AI)是智能技術從上世紀 50 年代開始后,經過專家系統、機器學習兩個發展階段,演進到 201
11、0 年代初出現的種深度學習模型(如圖1)。它通過學習數據分布模式和規律,成質量的本、圖像、頻、視頻四基礎模態,以及跨模態內容成。?例如,通過學習量本數據,成式 AI 可以成具有類似格的章、說、詩歌等本作品。通過學習圖數據分布規律,成式 AI 可以成符合該分布規律的全新圖。通過對頻的深度學習,成符合不同場景需求的數字播報、語客服、智能家居。使深度學習模型對圖像或視頻進分析和理解,再根據特定算法成新的視頻。最后,這些不同的模態還可以實現跨模態轉化和成,如將本轉化為圖像、頻或視頻,將圖像轉化為本、頻或視頻,應于藝術創作、告營銷、教育培訓、醫療診斷等領域。?成式 AI 與之前傳統 AI(也可稱為判別式
12、 AI?Discriminative?AI)最根本的不同在于:創造。成式 AI 具有更的靈活性和創造,可以更好地模擬類的想象和創造,成更加多樣化和全新的數據內容。判別式 AI 則主要專注于已有數據的分類和預測,通過學習數據特征和標簽之間的關系,進模式識別和預測。例如判別式 AI 只可以區分出貓和狗的圖,成式 AI?則可以成逼真的狗的圖。?9 基于這樣不同的技術路徑,成式 AI 與判別式 AI 的成熟程度與應向也不同。判別式 AI 的底層技術相對成熟,在各個領域都有泛的商業應,包括臉識別、推薦系統、控系統、機器、動駕駛等。成式 AI 則在 2015 年前后才開始迅速發展,主要應在內容創造、機交互
13、、產品設計等全新領域。?1.1.21.1.2 成式智能的演進成式智能的演進?成式?AI?技術從?2010?年代初出現后,發展到 2022 年底,主要經歷了三波浪潮:?第波浪潮:第波浪潮:2 2010010-20152015年。型模型蓬勃發展。年。型模型蓬勃發展。?變分動編碼器?(variational?autoencoders,?VAEs)?是第個泛于成逼真圖像和語的深度學習模型,為當今的成式 AI 奠定了基礎,也是當今語模型(large?language?models,?LLMs)的基礎。VAEs 基于編碼器和解碼器塊構建成。具體來說,編碼器將數據集壓縮為密集表形式,在抽象空間中將相似的數據
14、點排列得更緊密。解碼器從這個抽象空間中進采樣以創建新內容,同時保留數據集的最重要特征。VAEs 不僅增強了重建數據的關鍵能,且還可以輸出原始數據的變化形式。?這種成新數據的能引發了系列型模型的快速發展,其中 2014 年出現的成式對抗絡?(generative?adversarial?networks,?GANs)?具有突破性影響。GANs 由成器和判別器組成,通過同時訓練成器和判別器來學習成新的數據實例,以及更具創造性和多樣性的本。?第波浪潮:第波浪潮:2 2015015年年-20172017年。模型規模競賽起云涌。年。模型規模競賽起云涌。?這個階段,成式智能領域出現了越來越多較規模的模型。
15、特別是基于循環神經絡(recurrent?neural?networks,?RNN)和卷積神經絡(convolutional?neural?10 networks,?CNN)的成模型,能夠更好地捕捉上下信息,成更連貫、準確的本,成更加逼真的圖像。?例如,2015 年,在計算機視覺領域,殘差絡(residual?network,?ResNet)取得了突破性進展,這是種深度卷積神經絡,能夠在圖像識別任務中取得更好的效果。2016年,歌推出的 AlphaGo 成為第個在圍棋賽中戰勝類職業選的智能程序,這標志著智能在游戲領域的重突破。?第三波浪潮:第三波浪潮:2 2017017年年-20222022年
16、?;A模型橫空出世。年?;A模型橫空出世。?2017 年,程碑式論“Attention?is?all?you?need”提出種全新的神經絡架構:Transformer。Transformer 使種全新的注意機制來處理序列數據,與之前傳統的循環神經絡需要動設計或學習完全不同。具體來講,Transformer 將“編碼器-解碼器”架構與本處理機制相結合。編碼器將原始本轉換為“嵌”表。解碼器將這些嵌與模型之前的輸出相結合,并連續預測句中的每個單詞。通過填空猜謎游戲,編碼器可以了解單詞與句之間的關系,需任何標記詞性。Transformer 甚可以在未指定特定任務的情況下進預訓練。學習這些強的表之后,就
17、可以使更少的數據來增強模型的專業化平,以便執給定的任務。Transformer 因其全多樣的功能被稱為基礎模型。?同時,這個階段的算出現爆發式增,并隨著互聯、移動互聯的快速發展,數據也迎來指數級增。這為規模監督或半監督的學習法提供了強的數據和算保障,從使得基礎模型獲得巨成功,加速和擴了成式 AI 在企業中的應領域,如動駕駛、機器流程動化等。根據 IBM 發布的2022 年全球 AI 采指數,全球企業采 AI 科技的例持續成,達到 35%,2021 年上升 4%?3。?11 1.21.2 成式智能應的現狀成式智能應的現狀?2 2022022年底今,成式年底今,成式AIAI進到第四波浪潮:更好、更
18、快、更便宜的成式進到第四波浪潮:更好、更快、更便宜的成式AIAI產品。產品。?2022 年可以說是成式 AI 發展的個重要程碑。繼 2022 年 11 30 OpenAI打響 chatGPT 第槍后,全球領先商都快速地發布了的成式 AI 產品,包括亞遜云科技的 Bedrock,微軟 Azure 的 OpenAI?Service,IBM 的 Watsonx,歌的 Bard,阿的通義千問,騰訊的混元,百度的。如果說之前的 AI 模型都是具,這波浪潮的 AI 模型因為有接近全類所有數據的撐,成為腦。據不完全統計,截到2023 年 10,中國的成式 AI 產品已超 300 個。從產品類型來看,主要包括
19、本成、圖像成、視頻成三類,其中本成的市場規模最,占到了整個市場的 60%以上。圖像成市場增迅速,視頻成市場尚處于起步階段。?隨著成式隨著成式AIAI技術的快速成熟,將出現第五波浪潮:殺級應程序技術的快速成熟,將出現第五波浪潮:殺級應程序?(Killer?APP)Killer?APP)的出的出現?,F。?隨著模型產品益增加,模型業競爭將從拼參數階段,過渡到拼落地應階段,會出現殺級應程序。Google 推出 Gemini?1.5 和 GPT-4 你追我趕,競爭激烈。百度在 2003 年 10 17 的百度世界 2023 會上,發布了達模型 4.0 版本,實現了基礎模型的全升級,綜合能 GPT-4 毫
20、不遜。百度同時發布的余款 AI 原應,涉及搜索、地圖、庫、盤,以及 AI 原思維打造的國內第個成式商業智能產品百度 GBI,可以通過然語交互,執數據查詢與分析任務,還持專業知識注,滿更復雜、專業的分析需求?4。2024 年 2 Sora 產品的發布,更是讓視頻成實現了代際躍遷,讓虛擬現實成為可能。?12 1.31.3 成式智能成式智能的險及全球法、治理概況的險及全球法、治理概況?1.3.11.3.1 成式智能的險成式智能的險?成式智能在快速發展的同時,也存在著些潛在的險,其所帶來的與隱私保護、成內容錯誤和幻覺、絡安全、偏與倫理、知識產權等相關的險已經顯現。具體:?數據隱私保護:數據隱私保護:訓
21、練數據如涉及商業秘密、保密信息等,或者未經同意,則可能涉及法收集數據、侵犯個隱私、侵犯他知識產權或其他合法權益的情形。?成內容錯誤和幻覺:成內容錯誤和幻覺:成式 AI 依靠輸的數據進預測和成輸出。但是,它有時會產不準確或完全捏造的輸出結果即“幻覺”。這些幻覺可能會導致錯誤的決策或動,從可能給企業帶來重問題。?絡安全:絡安全:與任何數字具樣,成式 AI 系統也不能免受絡威脅。如前所述,這些智能系統有可能會被誘騙泄露敏感信息。因此,顯然要制定強有的絡安全協議。另種新出現的威脅是“提注”,這是技術會利提來哄騙智能模型泄露本不該泄露的信息。更重要的是,實施這種技術并不定需要級技術技能。因此,席安全官定
22、要全掌握成式 AI 可能遭到破壞的所有式。只有了解每種可能的攻擊途徑,他們才能真正保護的系統并保持強的防御能。?偏與偏與倫理:倫理:智能的公正性取決于訓練智能所依據的數據。如果這些數據中存在偏差,模型可能從訓練數據中學習到偏,進成帶有種族、性別、宗教等的偏內容。此外,還可能會出現其他倫理問題,如使成式 13 智能偽造藝術品、成虛假件、虛假新聞、偽造聲、絡釣攻擊、動化的絡欺詐等,所有這些都是企業需要考慮的問題。?知識產權。知識產權。隨著知識產權領域的不斷發展,2023年或許將迎來成式AI規模應的“Netscape時刻”。隨著公共數據和內容所有權的公平使的相關政策、規則和訴訟不斷增加,成式AI也有
23、可能迎來“Napster?時刻”(指業的知識產權在互聯上公開、低成本地傳播)。事實上,這些險可能會促使企業更加關注專有數據和AI模型。?為了應對這些險,很多國家正在努制定倫理準則、監管政策,勵技術改進,以確保成式智能的安全和道德使。?1.3.21.3.2 全球法、治理概況全球法、治理概況?成式智能的速發展為各國法和監管帶來了新的挑戰。由于智能技術的復雜性,與智能的開發、銷售和使相關的法律問題涉及范圍很,包括絡安全、數據安全、隱私、算法、內容、智能治理、知識產權、市場準、反壟斷與競爭、技術進出等。因此,與智能有關的法亦包括系列的法律法規,不僅包括專規范成式智能的法,還包括治理絡安全、數據安全、隱
24、私保護和上述其他的法。?本章節簡要介紹截 2024 年 3 中國、美國和歐盟關于成式智能的法概況。?中國中國?14 2023 年 7,中國國家互聯信息辦公室(“信辦”)等七部聯合發布了中國部關于成式智能的規定,即成式智能服務管理暫辦法(“暫辦法”)。該辦法 2023 年 8 15 開始執。利成式智能技術向中華共和國境內公眾提供成本、圖、頻、視頻等內容的服務屬于暫辦法規制的范疇。但暫辦法明確將從事成式智能技術研究、開發和應的業組織、企業、學術研究機構、公共化機構等公共服務提供者排除在其范圍之外。?除此之外,中國現有的絡安全、數據安全和隱私保護相關法律法規,連同與智能相關的算法管理、深度合成管理、
25、倫理準則等相關規定,均與暫辦法起,共同建我國成式智能服務的法律框架。?美國美國?在聯邦層上,宮、國會和系列聯邦機構,包括聯邦貿易委員會、消費者融保護局和國家標準與技術研究所,已經提出了系列與智能相關的舉措、法律和政策。在短期內,美國的智能監管將更多地利現有法律來對智能技術進監管,不是通過新的針對智能的法律?5。?歐盟歐盟?2024 年 3 13,歐洲議會以壓倒性票數通過智能法案。該法案預計將在5 或 6 在完所有審批程序后正式效。法案中的相關條款將分階段實施?6。該法案旨在保護基本權利、主、法治和環境可持續性免受險智能的影響,同時兼顧 AI技術的發展和創新?7。智能法案根據險級別對智能的使進分
26、類,禁智能在特定的使,并對險應實施嚴格的監測和披露要求?8。?15 盡管全球對成式智能的法和監管措施在不同國家和地區有所不同,但般來說,些共同的趨勢和原則逐漸出現,很多國家的法重點通常集中在數據隱私、透明度和可解釋性、絡安全、內容審核、知識產權保護、倫理審查和反壟斷等領域。?總的來說,成式智能的法和監管仍在不斷演進,以適應不斷發展的技術和社會挑戰。各國政府和國際組織都在努尋找平衡,旨在確保技術的發展與社會、倫理和法律價值相致。相關法律和政策仍在不斷發展和完善過程中。?16?企業應智能的機遇與挑戰企業應智能的機遇與挑戰?2.12.1 成式智能的應前景與商業價值成式智能的應前景與商業價值?2.1.
27、12.1.1 成式智能的應前景成式智能的應前景?成式智能的最終浪潮:世界模型的通智能(成式智能的最終浪潮:世界模型的通智能(A AGIGI),全新的機協同時代。,全新的機協同時代。?隨著智能被投喂的數據變為切與我們的產、活息息相關的世界萬物時,它會成為基于世界模型的通智能。這個智能將會帶來理解、成、邏輯、記憶能的突破,會出現獨當的各類專業才:數字藝術家、數字設計師、數字程序員、數字程師、數字供應鏈專家等等。我們預計,到 2030 年,全能型、多模態的智能將進步普及,類的產活將進全新的機協同時代。成智能有潛徹底改變現有的經濟和社會框架,就像電和互聯樣。?2.1.22.1.2 成式智能的商業價值成
28、式智能的商業價值?當下,“讓 AI 成為核產”已經成為企業領導的迫切需求。預計到 2030 年,AI將提升類產,帶來達 16 萬億美元的巨價值?9。AI 不僅可以推動整體經濟和GDP 的幅增,還將為那些善 AI 的個和組織帶來前所未有的競爭優勢。不僅如此,AI 還可以幫助類應對和解決諸如研發新藥、改善制造業及品產效率、應對候變化等最為緊迫的挑戰。?IBM?商業價值研究院最新發布的2023 年全球?CEO?調研發現,四分之三(75%)的 CEO?認為擁有最先進的成式?AI?的組織能夠在競爭中獲勝,43%?的?CEO?17 表他們的企業已經在使成式?AI?來為其戰略決策提供信息。企業級?AI?對企
29、業最直接的價值是幫助優化業務流程,從實現降本增效、提產、以及提升客體驗。為了對成式 AI 的商業價值進更加客觀的評估,IBM 商業價值研究院?(IBV)?聯合津經濟研究院,在 2023 年 5 針對美國、澳利亞、德國、印度、新加坡和英國的近 600?名企業管開展了項調研,其中包括美國的?200 位企業 CEO。在此次調研中,我們發現企業管對成式 AI 商業價值的觀點,可以總結為以下三點:?第:對成式第:對成式AIAI的投資回報積極樂觀,但仍存謹慎態度。的投資回報積極樂觀,但仍存謹慎態度。?受訪企業管預計,到 2025 年,基于過去年開發的基準 AI 能,成式 AI 的投資回報率將從 2022
30、年的 7.1%增到超過 10%?10。因此,許多企業都計劃在未來兩年內繼續推動成式 AI 的采。在 2022 年,只有?23%?的受訪管表其組織對成式 AI 進了試點、實施、運營和優化,但預計到 2024 年這例將上升?62%?11。另外,在未來兩到三年內,企業管對成式 AI 的投資預計將增四倍。但是,即使這樣,成式 AI項的投資仍然僅占 AI 總出的部分?10。說明受訪管對成式 AI 的投資還是持謹慎態度。?第:對成式第:對成式AIAI的加速采臨巨壓,但仍在努掌握中。的加速采臨巨壓,但仍在努掌握中。?先,根據 IBV 的調研,64%的受訪 CEO 表正臨著來投資者、債權和貸款的巨壓,要求他們
31、加速采成式 AI。超過半的受訪 CEO 表,他們的員要求加速采成式 AI(如圖?1)?12。?18?圖?1?實施成式 AI 的壓來源?對這樣的壓,企業管快速掌握成式 AI 技術。他們如今對成式 AI 的認知平遠于 2016 年傳統 AI 出現第波發展浪潮時的認知平(如圖?2)?10。?圖?2?企業管對 AI 的認知平變化?第三:成式第三:成式AIAI的應領域較集中,但仍需與企業戰略保持致。的應領域較集中,但仍需與企業戰略保持致。?我們的調研數據顯,前受訪企業管主要關注成式 AI 在三個關鍵領域的應:信息安全與信息技術,客服務、營銷與銷售,研究與創新和產品開發(如圖?3)?11。?19?圖?3?
32、企業管關注成式 AI 的應領域?同時,我們也看到,管前關注的這些優先領域多是那些擁有最成熟 AI 能的領域,并不定是戰略痛點。因此,組織需要根據的戰略能和業務優先事項來明確AI 的應領域,確保 AI 的使符合企業的期戰略,不是將 AI 視為解決所有問題的“靈丹妙藥”。?2.22.2 成式智能帶來的技術與技術挑戰成式智能帶來的技術與技術挑戰?盡管成式 AI 具有闊的前景和潛,但同時也帶來了些新的挑戰。與其他顛覆性技術樣,企業在采成式 AI 的過程中,也需要做出適當的權衡,經過持續不斷的實驗和迭代才有可能取得成功。?2.2.12.2.1 成式智能帶來的技術挑戰成式智能帶來的技術挑戰?成式智能主要包
33、括兩核要素:海量數據、規模算。?先,海量數據會帶來以下先,海量數據會帶來以下8 8技術挑戰:技術挑戰:?20 隱私隱私安全性安全性:智能模型處理量的個數據,隱私和安全性是個重要關注點。保護數據的隱私,防數據泄露和濫是個挑戰,特別是在跨組織或跨邊界數據共享的情況下。采隱私保護的機器學習法和安全數據分析技術,以便在保護隱私的同時實現機器學習的任務。?數據可得性數據可得性:海量、多源、動態更新的數據是訓練模型和進數據挖掘的必要條件。然,對于某些領域和特定任務,獲取夠量和質量的數據是項重挑戰。例如,某些領域的數據可能度稀缺,或者數據的標注常困難和耗時。在這些情況下,使量數據訓練模型可能不切實際。?數據
34、準確性數據準確性:智能模型的訓練需要量質量的數據,并且通常需要對數據進標注。數據質量和標注的準確性是個挑戰,因為錯誤或不致的數據可能導致模型訓練不穩定或性能下降。此外,對于某些任務,如圖像識別和然語處理,數據的標注通常需要類專家參與,這使得數據標注的成本變得常昂。?模型泛化性模型泛化性:智能模型在訓練數據上表現出,但在未過的數據上可能泛化能不。過擬合是個常的問題,即模型在訓練數據上過度擬合,在新數據上的表現較差。選擇適合的模型常重要,這需要仔細地選擇模型的超參數和架構,以便提模型的泛化能。?模型解釋性模型解釋性:?智能模型通常被視為盒,即很難理解模型的決策和推理過程。這在某些應場景中是不可接受
35、的,如醫療和融領域,因為解釋模型的決策對于決策的可信度和可解釋性關重要。為了解決這個問題,研究員正在研究可解釋性的機器學習模型和法,以便更好地理解模型的決策過程。?21 模型適配性模型適配性:在智能模型的開發中,選擇合適的算法和模型架構是關鍵。然,從眾多的算法和模型中選擇最合適的個可能是具有挑戰性的,因為不同的任務和數據可能需要不同的模型來實現最佳性能。?模型可擴展性模型可擴展性:隨著模型規模的增,智能模型的可擴展性和效率成為挑戰。模型需要更多的計算資源和存儲空間,對于實時應或邊緣計算等資源受限的場景是否能效運是個問題。?模型效性模型效性:優化模型的架構和參數,減少模型的計算和存儲需求。采模型
36、壓縮和量化技術,滅模型的規模,提計算效率。使分布式訓練和模型并化技術,提模型訓練和推理的速度和效率。?其次,規模算同樣也會帶來其次,規模算同樣也會帶來3 3技術挑戰:技術挑戰:?算強性算強性:成式 AI 需要處理海量的數據,這就需要強的計算能和存儲能。根據2022-2023 全球計算指數評估報告,成式 AI 計算市場規模將從 2022 年的 8.2 億美元增到預計的 2026 年的 109.9 億美元,其占整體 AI 計算市場的份額也將從 4.2%增到 31.7%?13。?算可性:算可性:對于智能模型的訓練和應,算可性是個重要的因素。由于模型需要量的計算資源,包括性能的計算設備和型存儲空間來存
37、放數據和模型,這對于許多組織和研究員來說是挑戰。除了硬件資源外,絡帶寬和延遲也是影響模型應的重要因素。在分布式系統中,訓練模型通常需要將量的數據從個節點傳輸到另個節點,這需要帶寬的絡連接和低延遲的通信。如果絡連接的速度很慢或者存在量的延遲,那么訓練模型的時間將會增加,這可能會使得組織和研究員難以承受。?22 算算優化性優化性:成式 AI 的訓練和推理過程需要量的計算資源,因此需要不斷優化算法和模型,降低計算復雜度和內存占,提計算效率。同時,在處理規模數據時,如何提單芯算、突破算利率、實現更能效,是算基礎設施需要對的重要挑戰。?2.2.22.2.2 成式智能帶來的技術挑戰成式智能帶來的技術挑戰?
38、除了技術挑戰之外,成式 AI 還會帶來些技術挑戰,主要包括以下 4 個:?監管必要性:監管必要性:成式AI從誕之起,已迅速實現了“消費化”。這種規模采意味著些可以在沒有正式指導的情況下使成式AI。他們在沒有護欄的情況下使成式AI,其為可能法受到監管,并且可能會導致不可預測的后果。如果缺乏適當的監督,組織就法正確識別、量化或管理采新興技術的相關險。在全球范圍內,只有不到60%的受訪管認為其組織已經為AI監管做好了準備,69%?的受訪管預計會因采成式AI受到監管罰款?14。因此,組織需要安全、負責任地利強的成式AI,明確想要實現什么樣的標,以及實現這愿景所需做出的改變。?社會倫理性:社會倫理性:智
39、能模型的發展和應引發了許多倫理和社會問題,包括公平性、透明度、責任和權益等的考慮。因此,需要制定相應的政策和規范來確保模型的公正和可接受性;制定合適的法律法規和倫理準則,確保智能模型的使符合道德和法律要求;開展公開和透明的討論,促進社會對智能技術的理解和參與;注重公平性和權益保護,進數據脫敏和去偏倚處理,避免對特定群體的歧視和偏。?23 環境保護性:環境保護性:基礎模型需要量的計算、存儲和絡資源,這會消耗量能源,產碳排放,給環境保護和候變化帶來了巨挑戰。據研究,訓練個型然語處理模型的碳跡與5輛汽在其整個命周期中的碳跡致相同。因此,企業應該適當考慮相關環保性。同時,社會各界正在研究如何加快模型推
40、理速度、降低算成本、減少能耗,以此來突破預訓練模型的發展制約。?機協同性:機協同性:隨著 AI 時代到來,企業需要快速實現員技能的轉型和提升,來擁抱 AI浪潮。技術加速使每個都變成了“超級個體”,和機器的協作關系重新被定義和劃分。才需要合理地借助具和技術,審時度勢,提升價值與戰。才技能的轉型往往伴隨組織化的更新,優秀公司早已把勵創新和學習的基因扎根在企業化之中。?2.32.3 成式智能在企業應中的關鍵因素成式智能在企業應中的關鍵因素?企業在應成式 AI 時,需要重點關注三關鍵因素:?第個關鍵因素:組織和技能。第個關鍵因素:組織和技能。?根據 IBV 調研,多達 80%的受訪管認為,由于成式 A
41、I 的興起,勞動和技能正在發變化。展望未來,受訪管表才和技術技能關重要,組織將優先建和發展既能幫助員使成式 AI,能完成只有類才能勝任的作技能。隨著成式 AI的益普及,57%的受訪管預計創造技能將變得更加重要。超過半的受訪管認為技術技能、時間管理和優先級規劃能的重要性也會隨著成式 AI 的普及幅增加?15。?24 另外,我們從調研中也發現,87%的管預計成式 AI 將更加泛地增強員的能,不是取代他們(如圖?4)?15。?圖?4?企業管預計成式 AI 對員技能的影響?但是,并所有職能的員都會受到同等程度的影響。從上圖我們可以看到,受訪管預計會成式 AI 取代的最多的三項職能是:營銷、客服務、資源
42、。最不可能取代的三項職能是采購、險和合規、財務。線員可能會受到最的影響,但也可能受益最多。?因此,為了幫助企業全員更好地適應和承擔在不斷變化的作場所中的新和新責任,企業管應全領導并推動成式 AI 轉型。?先,在組織層,從轉變觀念、設定標、建原則、營造化。先,在組織層,從轉變觀念、設定標、建原則、營造化。?從“+AI”的被動思維轉變為“AI+”的主動思維,即在設計之初就以 AI 為中,這將有助于更深地理解成式 AI,增強響應市場形勢變化的敏捷性,并確保投資和資分配與整個組織各個層的持相致。定義成式 AI 采的財務和財務標,并確定具體、可量化的措施,包括希望員積極接受的變。為 AI 的倫理道德使設
43、定界限。成式 AI 模型很強,但必須負責任地使它們。這包括尊重隱私、透明度、公平性和問責 25 制。積極營造試驗化,認識到成式 AI 對所有都是新事物。勵團隊使成式 AI進測試、迭代和改進,并跟蹤成功指標。?其次,在才層,從選育留著。其次,在才層,從選育留著。?了解才資源的來源和分布情況,認識到潛在技能短缺,并將頂尖才分配到競爭優勢最關鍵的領域。評估成式 AI 對員團隊的潛在影響,跨職能重新定義或重新部署,增強技能互補,依靠團隊合,以更好地利成式 AI。并成 AI 技能學院,對具有相應資格的員進再培訓和/或技能提升培訓,不僅優先發展技術技能,還應優先增強協作、溝通和同理。課程還應涵蓋基礎模型的
44、合理使和不當使,從促進負責任的 AI使。在培訓的基礎上,啟動激勵計劃以推動職業發展。?最后,從運營層,最后,從運營層,為了加快為了加快AIAI的采,的采,企業需要企業需要重塑和重建運營模式重塑和重建運營模式。?具體舉措包括:促進跨職能理解,簡化 AI 部署流程,并確保在整個組織中實現成式AI 和基礎模型的優勢;建 AI 集成框架,以便在整個運營中縫部署 AI;建符合監管標準和最佳實踐的穩健型數據與 AI 治理實踐;在不同業務部、技術團隊、數據科學家和決策者之間營造種協作式環境等。?第個關鍵因素:負責任第個關鍵因素:負責任AIAI與倫理。與倫理。?成式?AI?如同當年的“西部淘熱”,對財富的追逐
45、已經超過了規則和法規。但是如果組織太急于求成,未考慮復雜的 AI 倫理問題,就可能會因短期利益損害期聲譽。?根據 IBM 商業價值研究院調研:58%受訪管認為采成式 AI 存在重倫理險,如果沒有新的治理結構或者少更加成熟的治理結構,就法管理這種險?16。然 26,許多管都難以將原則付諸實踐。盡管 79%的受訪管表 AI 倫理對其企業級 AI 法很重要,但只有不到 25%的受訪管實施了 AI 倫理的共同原則?17。?因此,企業可以從以下三個舉措,更好地構建企業負責任的 AI 和倫理體系:?先,先,CEOCEO 不能在不能在 AIAI 倫理問題上推卸責任倫理問題上推卸責任。根據 IBM 商業價值研
46、究院調研,80%的受訪管表,企業領導者(不是技術領導者)應當對 AI 倫理負主要責任?17。CEO 必須掌控全局并為其他開辟道路。除了決策以外,CEO 還必須負責向其他領導者普及關于新興倫理問題的知識。通過將關于可信 AI 的對話提升到其他級管理層和董事會的層,CEO 可以確保這些關鍵利益相關者不會被邊緣化。這樣組織可以加快動速度,同時保持領導層協同致。?其次,其次,通過滿客期望來贏得信任。通過滿客期望來贏得信任。建個值得信任的品牌需要數年的時間,摧毀它只需要天的時間。在數據泄露和不信任的時代,消費者、員和合作伙伴對不以誠信事的企業毫不寬容。根據 IBM 商業價值研究院的調研,37%的消費者曾
47、為了保護隱私選擇更換了品牌?18。69%的受訪員表,他們更愿意接受那些他們認為具有社會責任感的組織的作機會?19。組織內需要建下上的協作信任化,讓 AI 倫理成為每個的責任,并讓 AI 治理成為項集體共同標。同時,組織從內外,需要泛、透明地傳達企業的倫理價值觀。在內部對員進再培訓,確保在作中合理運 AI,避免不當運?AI。在外部,針對合作伙伴開展 AI 倫理和偏識別培訓,強調可信 AI 的重要性。?最后,最后,為所有為所有 AIAI 和數據投資做好倫理和監管準備。和數據投資做好倫理和監管準備。超過半?(56%)?的受訪 CEO 推遲了重投資,等待對 AI 標準和法規建清晰的認識?20。72%的
48、組織將因倫理顧慮放棄成式 AI 帶來的收益?21。企業掌舵者應做好準備,隨時根據監管向的轉變和新出臺 27 的法規做出調整。確保應場景易于解釋,AI 成的件清晰可識別,AI 訓練保持透明且接受持續批判。建歸檔化,持續記錄組織中使 AI 的所有實例和相關治理,有效管理險。通過清單來記錄使 AI 的每個實例,確保 AI 成的資產可以追溯到基礎模型、數據集、提或其他輸。同時將這些源信息植到數字資產管理和其他系統中。?第三個關鍵因素:數據和平臺。第三個關鍵因素:數據和平臺。?成式 AI 模型需要量數據,負責任地提供數據則需要整個組織的協作。根據?IBV最近開展的項調研,60%的組織尚未建致的企業級成式
49、 AI 法?15。?在混合云旅程中得更遠的組織更有可能發揮出成式 AI 的優勢,因為云轉型需要更全的數據法。但是,主要利云來降低各孤領域成本的組織,可能需要重新審視其法,通過打通孤島實現互聯互通。IBM 商業價值研究院的研究表明,約五分之三的受訪管表混合云和成式 AI 在創造價值是相互關聯的。另外 40%的受訪管仍在竭讓其多個不同平臺保持協同致?15。?統數據可能是項艱巨的任務,但如果缺乏明確的標,那么可能會得不償失。不過,基于可靠數據構建的混合云和成式 AI 平臺,可以開啟通往更有價值的全新態合作的。近三分之的受訪管表,成式 AI 可以改善并加速與態系統合作伙伴的數據共享?15。?因此,企業
50、可以從以下三個打造協同致的數據和平臺:?先,企業應先,企業應評估并了解創建成式評估并了解創建成式 AIAI 例的數據和混合平臺需求例的數據和混合平臺需求。這就需要了解企業所擁有的數據類型,以及處理和分析此類數據的計算要求。依據這些需求,設定平臺的選擇標準,以持使成式 AI 和相關基礎模型。這些標準可能包括:例特異性,成本(模型開發和運營費),相關數據的可性和可訪問性,預測精度與計算效率之間的 28 平衡,安全措施和協議,所需的定制化程度,系統整體性能,跨不同環境的可移植性,法律和監管標準合規性。?其次,需要評估當前和潛在合作伙伴的實,從中甄選出能夠有效滿混合平臺需其次,需要評估當前和潛在合作伙
51、伴的實,從中甄選出能夠有效滿混合平臺需求,并能為創建差異化優勢助的態系統合作伙伴,共創成功。求,并能為創建差異化優勢助的態系統合作伙伴,共創成功。企業需要聯合這些態系統合作伙伴,確共同的標,使致的指標,并采零信任安全實踐,全位提整個態系統的安全性。企業可以利開放式混合技術,為組織和合作伙伴態系統創建致、可擴展和優化的通平臺。?最后,最后,將基礎模型集成到運營中將基礎模型集成到運營中,推動規模部署時,推動規模部署時,需要需要確??梢詳U展這些模確??梢詳U展這些模型,不會影響業務成效或導致運營中斷。型,不會影響業務成效或導致運營中斷。這就需要強的模型管理、性能監控和持續改進機制。同時,由于基礎模型需
52、要訪問量、多樣化且可能敏感的數據集,因此要建穩健的數據治理實踐。這包括符合監管標準和最佳實踐的數據收集、存儲、訪問、處理和安全協議。?29 三三?企業級成式智能的技術、產品與解決案企業級成式智能的技術、產品與解決案?3.13.1 企業級成式智能參考架構企業級成式智能參考架構?為更好的應對企業成式智能所臨的挑戰,我們從技術要素、治理要素和規劃實施法三維度進企業級成智能參考架構的討論,并在后續的章節中詳細展開。?圖?5?企業級成式智能參考架構?3.1.13.1.1 企業級成式智能參考架構的技術要素企業級成式智能參考架構的技術要素?從技術度出發企業級成智能架構的重點技術要素包括:模型平臺和服務、數據
53、平臺和服務、基礎撐平臺、企業級應四部分。?章節 3.2 將具體討論模型平臺和服務部分。依托基礎撐平臺層所提供的基礎設施服務,模型平臺和服務部分為上層的智能應提供全的撐,其內部可細分為四個技術層:訓練框架和周邊態、訓練加速框架、推理部署管理,以及模型與數據。這個層的功能實現了從模型訓練到部署和應的完整鏈條,可以從容應對型模型應于 30 企業實際場景中需要克服的諸多挑戰?;谶@些技術功能的撐,我們進步深探討了模型平臺和服務在企業成式智能實施過程中的模型的評估與選擇,數據準備,模型訓練、優化以及典型應等所扮演的。?章節 3.3 將具體討論數據平臺和服務。數據是成式智能的另基,是企業的重要資產,為更好
54、的滿企業對于專有數據的安全合規需要,數據平臺和服務在落地實施過程中持考慮多種部署式相結合,這其中本地部署的場景具備定優勢。為實現質量可信可靠的數據內容,規避“垃圾進,垃圾出”的險,數據治理必須貫徹相關業務活動的始終。隨著智能的發展,在數據平臺和服務層涌現出些新需求,為了更好的管理多樣化海量數據和知識,實現全位的數據管理,新代數據管理平臺演進出了湖倉體的架構。在章中除湖倉體的技術要素之外,我們還注意到開源開放的數據管理技術態能夠加速企業創新,快速適應市場變化。?作為承載成式智能落地的基礎撐平臺,我們以應對規模數據處理,應對算利率,增強機協同三個典型挑戰為例,在 3.4 章節探討了如何在企業數字化
55、轉型的過程中更好的應對成式智能應帶來的挑戰,或現企業級數字化平臺如何更效穩定的服務于企業級成式智能的落地實施。?基于以上技術要素,在 3.5 章節繼展開探討了成式 AI 的企業級應。中參考IBM 的組件業務模型作為法論,從業務賦能,研究開發和設計,供應制造和交付,市場銷售,客互動各個進了闡述。隨著成式?AI?技術的到來,企業對?AI?的應開啟了個新的篇章,也將迎來新的“時代”。盡管“讓?AI?成為核產”已成為企業益迫切的需求,但實際的落地應卻之功。對各不相同的應場景和復雜 31 需求,企業管理者們也產了諸多的困惑。中重點分享了汽、融兩業領域在成式 AI 的成功經驗。?3.1.23.1.2 企業
56、級成式智能參考架構的治理要素企業級成式智能參考架構的治理要素?從企業的度出發,對于成式智能的治理應該融業務周期的各個環節,同時貫穿從 AI 應到基礎設施各個技術層??山忉屝?、透明性、公平性、健壯性、隱私性是企業級成式 AI 治理的五關鍵特征。第四章將討論如何將治理與 AI 全命周期相結合,介紹不同架構層級的相關技術段和具,通過引對應的評估技術和系列量化指標矩陣,從確保在企業級成式智能的可信可靠,幫助企業實現和維護標準的治理平。?3.1.33.1.3 企業級成式智能參考架構的規劃與實施企業級成式智能參考架構的規劃與實施?企業級成式智能架構的成功,離不開統籌的規劃和合理全的實施。第五章將展開規劃時
57、企業需重點考慮的組織要素,并結合成式智能的特點展開了全實施的法步驟:了解現狀、制定標、規劃路徑、確定案、統籌協同、執管理、持續優化。?32 3.23.2 智能平臺和服務智能平臺和服務?3.2.13.2.1 智能平臺和服務的總體功能架構圖智能平臺和服務的總體功能架構圖?如圖?6 智能平臺和服務的總體功能架構圖所,智能平臺的具體功能可以分為訓練框架及周邊態、訓練加速框架、推理部署管理和模型與數據四個層次,實現了從模型訓練到部署和應的完整鏈條,為各種智能應提供了全的持和服務。?圖?6?智能平臺和服務的總體功能架構圖?訓練框架及周邊態訓練框架及周邊態:主要涉及各種智能模型的訓練框架和相關的態系統,包括
58、各種開發具、庫和框架,以及數據處理、模型評估等輔助具。?訓練加速框架訓練加速框架:主要關注如何提模型訓練的速度和效率,涉及分布式訓練框架,以及各種加速算法和優化技術,旨在提平臺的整體性能。?推理部署管理推理部署管理:主要涉及模型的部署、管理和運,推理引擎的選擇和配置,以及運時的監控和管理等作。?模型與數據模型與數據:這層可分為知識程和基礎模型兩部分。知識程介紹構建、管理和利知識庫或知識圖譜的技術,旨在撐和增強基礎模型功能?;A模型部分圍繞 33 將模型應于企業實際業務場景中的關鍵步驟和技術挑戰,從模型的評估與選擇,數據準備,微調與訓練、合作、優化以及典型上層應等進展開。?3.2.23.2.2
59、智能平臺第層:模型訓練框架及周邊態智能平臺第層:模型訓練框架及周邊態?在模型訓練領域,有許多成熟的開源軟件和具可供選擇,它們通常被組合使以構建完整的模型訓練流程,并逐漸形成了豐富的開源態系統。下主要介紹些常的開源軟件和具。?3.2.2.13.2.2.1 PyTorchPyTorch?PyTorch?是個于機器學習領域的智能研究和商業產的開源框架。它于構建、訓練和優化深度學習神經絡,于圖像識別、然語處理和語識別等應。?它為 CPU、GPU、多 GPU、多節點上的并和分布式訓練提供計算持,同時它還擁有許多可于不同領域的特定庫和具,具有靈活且易于擴展的特點,所有這些都使?PyTorch?成為機器學習
60、領域的領先框架?22。?3.2.2.23.2.2.2 TensorFlowTensorFlow?TensorFlow 是個開源深度學習框架,截發稿時,它已成為世界上采最泛的深度學習框架之。TensorFlow 為開發者提供了即時執、計算圖模型、簡單易的API、靈活的架構和分布式處理等功能,可以在多架構和多核系統以及將計算密集型處理作為作任務進分配的分布式進程上運。由于其靈活、可擴展和模塊化的設計,TensorFlow 并不限制開發員只能使特定的模型或應程序,開發員不僅可以實現機器學習和深度學習算法,還可以實現統計和通計算模型?23。?34 3.2.2.33.2.2.3 KerasKeras?K
61、eras?是個基于 Python 的深度學習庫,與其他深度學習框架不同。該項易于學習和使,并且具有在框架之間輕松移植模型的額外優勢。Keras 嘗試定義神經絡的級 API 規范,提供界,同時可以良好的兼容不同低層框架?;?Keras 前端可以在研究中快速構建神經絡模型的原型。Keras 通過項的圖數據結構實現,擺脫了對于底層后端框架的圖數據結構的依賴,使開發者需精通后端框架實現細節?24。?3.2.2.43.2.2.4 TransformersTransformers?Transformers 為提供了可以輕松下載和訓練最先進的預訓練模型的 API?和具。這些模型持不同模態的常任務,包括:?
62、然語處理:如本分類、命名實體識別、問答、語建模、摘要成、翻譯、多項選擇和本成。?計算機視覺:如圖像分類、標檢測和分割。?頻:如動語識別和頻分類。?多模態:如表格問答、光學字符識別、從掃描檔中提取信息、視頻分類和視覺問答等。?Transformers 持 PyTorch、TensorFlow 和 JAX 之間的框架互操作性,這為提供了在模型的命周期的每個階段使不同框架的靈活性,模型也持導出 ONNX 或TorchScript 等格式,可以便地在產環境上部署?25。?35 3.2.33.2.3 智能平臺第層:訓練加速框架智能平臺第層:訓練加速框架?訓練加速框架主要關注如何提模型訓練的速度和效率,涉
63、及分布式訓練框架,以及各種加速算法和優化技術,旨在更快地完成模型訓練過程,從提平臺的整體性能。?3.2.3.13.2.3.1 RayRay?Ray 是個開源的分布式計算框架,由 UC?Berkeley?RISELab?開發,旨在為規模、復雜的分布式應程序提供效、可擴展和易于編程的解決案。相較于傳統的分布式框架(如 Hadoop、Spark 等),Ray 在 API 和具集上有更豐富的持,使得開發者可以輕松地構建分布式應程序,且持主流深度學習框架例如 TensorFlow、PyTorch等。其核優勢在于其簡潔的 API 和度可擴展的架構,提供了種簡單強的式來并化和分布式計算,使得可以輕松地將單
64、di 機程序擴展到型集群?26。?3.2.3.23.2.3.2 ColossalColossal-AIAI?Colossal-AI 是個分布式深度學習框架,它是種于效訓練規模深度學習模型的開源軟件框架。它旨在解決在訓練過程中由于模型和數據規模龐遇到的各種挑戰,例如內存限制、計算資源不和訓練速度緩慢等問題。Colossal-AI 通過使系列優化技術和并計算法,使得在有限的硬件資源下,能夠更快地訓練出更好的模型。Colossal-AI 的核優勢在于其靈活性和可擴展性。它持各種深度學習框架,如 PyTorch、TensorFlow 和 MXNet,并提供了豐富的 API 和具,使能夠輕松地構建、訓練
65、和部署模型。此外,還能夠根據不同的硬件資源進適應調整,以充分利計算資源并提訓練效率?27。?36 3.2.3.33.2.3.3 DeepSpeedDeepSpeed?DeepSpeed 是個分布式深度學習優化庫,由微軟研究院開發,旨在提深度學習模型的訓練速度、減少資源消耗,同時保持模型精度。DeepSpeed 持多種深度學習框架,如 PyTorch,并通過系列技術實現效訓練。由于模型動輒需要上百 GB 的顯存來持訓練和推理,在現有的通 GPU 上很難實現單卡運(如英偉達 V100,A100,H100 等型號),所以必須到多機多卡的架構,DeepSpeed 就為解決這些問題應運,它具有效、易和可
66、擴展等特點,同時為提供了詳細的檔和例,便快速上?28。?3.2.43.2.4 智能平臺第三層:推理部署管理智能平臺第三層:推理部署管理?旦模型訓練完成,就需要將其部署到實際的應場景中進推理。推理部署管理層主要涉及到模型的部署、管理和運,包括模型的優化和壓縮、推理引擎的選擇和配置,以及運時的監控和管理等作。?3.2.4.13.2.4.1 KuKubeflowbeflow?Kubeflow 是由 Google 主導的個開源項,旨在簡化機器學習作負載在Kubernetes 上的部署和管理。它將機器學習領域的各個組件整合到個統的平臺中,使得能夠更輕松地構建、訓練和部署模型。它充分發揮了 Kuberne
67、tes 的彈性和可擴展性,能夠輕松在多個節點上運規模的機器學習作負載。Kubeflow 還提供了個統的開發環境,整合了多個流的機器學習框架和具,這使得團隊成員能夠使他們喜歡的具,并在個共享的平臺上協同作。Kubeflow 通過集成 KServe 等組件,37 使智能模型能夠縫地從研究和開發階段轉移到產環境。這種平滑的過渡可以加速模型的部署過程?29。?3.2.4.23.2.4.2 CaCaikitikit?Caikit?30是個開源的智能具包,通過組開發員友好的 API,使能夠通過統的格式管理模型。它為創建和使針對各種數據領域和任務的智能模型提供了致的數據接。Caikit 通過讓智能模型作者專
68、注于使新技術解決已知問題,簡化了應程序使的智能模型的管理。Caikit 具備以下功能:?將不同社區的模型(例如 Transformers、TensorFlow、Sklearn 等)合并到通API 中管理。?從數據創建模型并運訓練作業。?以數據結構調數據 API 來運模型推斷,需轉為 tensors。?實現了從靜態正則表達式到多 GPU 分發等多種訓練技術,以幫助正確的擬合模型。?將來不同 AI 社區的模型(例如,transformers、tensorflow、sklearn 等),合并到個通 API 中。?可根據特定任務,使新模型更新應程序,需更改客端。?特別的,Caikit 為應程序開發員提
69、供了個抽象層,他們可以通過?API?使?AI?模型,需了解模型的數據形式。?換句話說,模型的輸和輸出采易于編程且不需要數據轉換的格式。?這有助于模型和應程序彼此獨地發展。?38 3.2.4.33.2.4.3 Nvidia?TritonNvidia?Triton?Nvidia?Triton?Inference?Server 是由 Nvidia 開發的開源推理服務器,旨在簡化和加速深度學習模型的部署和推理過程。它持多種深度學習框架,包括 TensorFlow、PyTorch、ONNX 等,使能夠在個統的平臺上部署和管理各種類型的模型,是種分布式且合作的緩存架構,可以加速數據密集型應的 IO 性能?
70、31。?3.2.4.43.2.4.4 NVIDIA?NVIDIA?TenTensorRTsorRT?TensorRT 是個于性能深度學習推理的平臺,可于優化訓練好的模型。在使 TensorRT 優化模型之后,仍然使傳統的 TensorFlow 作流進推理,兼容包括TensorFlow?Serving。TensorRT 還可以進較低精度(FP16 和 INT8)的模型校準,乎不損失準確性。使較低精度模型減少了對 GPU 內存的需求,且能達到更快的計算速度,同時還能使 Tensor?Cores 進計算加速?32。?3.2.53.2.5 智能平臺第四層:知識程智能平臺第四層:知識程?3.2.5.13
71、.2.5.1 嵌(嵌(EmbeddingEmbedding)?嵌(Embedding)是種將對象(如本、圖像和頻)表為連續向量空間中的點的法,其中這些點在空間中的位置在語義上對機器學習(ML)算法具有意義。結果上,嵌使得機器學習模型能夠找到相似的對象。與其他機器學習技術不同,嵌是通過各種算法(例如神經絡)從數據中學習來的,不是明確要求類專家進定義。它們允許模型學習數據中的復雜模式和關系,這是類很難識別的。嵌的使使得模型能夠捕捉詞匯和概念之間的語義關系,從提了模型的語義理解和成能。?39 3.2.5.23.2.5.2 向量數據庫向量數據庫?向量數據庫旨在效存儲、管理和索引量維向量數據。這些數據庫
72、正在迅速引起關注,為成式智能(AI)例和應程序創造額外價值。與傳統的關系數據庫不同,在向量數據庫中,數據點由具有固定維數的向量表,并根據相似性進聚類。這種設計實現了低延遲的查詢使其能夠有效地處理維向量數據,成為以智能驅動的應程序的理想選擇?33。?向量數據庫持對相似性進快速查詢,這對許多企業級成式智能應中是常重要的。對于搜索相似模式或實例的任務,如圖像識別、語義搜索和推薦系統。向量數據庫的發展滿了企業對于在其業務決策中利維數據的不斷增的需求。通過將模型服務與向量數據庫相結合,企業能夠更好地處理規模、維的數據集,為其 AI 應提供更準確、更快速、更靈活的持。關于向量數據庫的更多細節詳 3.3.2
73、.8。?3.2.5.33.2.5.3 知識圖譜知識圖譜?知識圖譜,稱為語義絡,表了現實世界中的系列實體,如對象、事件、情境或概念,并展了它們之間的關系。這些信息通常存儲在圖數據庫中,并以圖結構可視化,因此得名為知識“圖”。知識圖譜由三個主要組成部分構成:節點、邊和標簽。任何對象、地點或都可以是個節點,邊定義了節點之間的關系。?3.2.5.43.2.5.4 GenAI?EngineGenAI?Engine?GenAI?Engine 是種引擎,使能夠輕松訓練、驗證、調整和部署成式 AI 基礎模型以及機器學習能,并且可以在短時間內使少量數據構建 AI 應程序。該引擎構建 40 在現代成式 AI 和機
74、器學習能之上,持多種關鍵例,包括級問答(Q&A)、內容摘要、內容分類以及針對特定的成內容。GenAI?Engine 的靈活性和度集成的特性使其成為構建多種 AI 應程序的理想選擇,為提供了快速、效地利成式 AI 和機器學習能的平臺。?3.2.5.53.2.5.5 檢索增強成檢索增強成(Retrieval?Augmented?GenerationRetrieval?Augmented?Generation,RAGRAG)?型語模型(LLMs)通常對各種主題有著驚的了解,但它們僅限于它們訓練時使的數據。這意味著希望將 LLMs 于私有或專有業務信息的客法直接使 LLMs 來回答問題。檢索增強成(R
75、AG)是種架構模式,它使基礎模型能夠為未包含在模型訓練數據中的專業或專有主題成事實上正確的輸出。通過在的問題和提中加從外部數據源檢索的相關數據,RAG 為模型提供了“新的”(對模型是新的)事實和細節,以此為其響應提供基礎?34。?3.2.5.63.2.5.6 圖數據庫圖數據庫?圖數據庫是種以圖結構存儲數據的數據庫類型,其中數據以節點(實體)和邊(關系)的形式表。圖數據庫可以使圖算法有效地查詢和分析復雜且相互連接的數據。在智能領域,圖數據庫的概念可于構建知識圖譜,將實體和關系表為圖中的節點和邊,有助于 AI 系統理解復雜的領域知識,并持更智能的推理和決策。其次,圖數據庫可于然語處理(NLP)任務
76、,通過存儲語義信息提本理解和成的質量。此外,對于推薦系統、模型解釋、機器學習作流程管理和語義搜索等任務,圖數據庫都提供了強的持。關于圖數據庫的更多細節詳 3.3.2.9。?41 3.2.63.2.6 智能平臺第四層:基礎模型智能平臺第四層:基礎模型?在實際應中,基礎模型的智能解決案在企業業務場景中的落地并僅是單的模型問題,是基于業務需求構建的系統性問題。如圖?7 所,企業在落地基礎模型通常需要經過個關鍵步驟,以確保模型的有效性和可性。先是在眾多模型中選擇并評估最為適宜的模型,利企業內部可信數據對選定的模型進訓練、調優和增強,以確保其在企業應場景任務中表現良好,監控模型在實際應中的表現,并根據反
77、饋信息對模型進調整和優化,在部署過程中,需要考慮到安全性、可擴展性和可維護性等的因素,以確保模型能夠穩定可靠地運。這些階段相互關聯,形成了個循環迭代的過程,幫助企業不斷優化和改進基礎模型的性能和效果。本章節圍繞基礎模型,對模型評估、模型數據準備、模型微調與訓練、模型合作、模型優化、模型應等關鍵技術進介紹。?圖?7?企業基礎模型落地成功的要素與挑戰?3.2.6.13.2.6.1 模型評估模型評估?模型評估直以來都是智能領域的重要議題。從機器學習,到深度學習,再到現在的成式 AI,不同階段的模型評估指標也呈現不同的特點。在機器學習和深度學習階 42 段,模型的主要任務是分類(分類模型)和預測(回歸
78、模型),模型結果是否正確是明確的。分類模型的主要評估指標是準確率、召回率、精確率、F1 等等?35?;貧w模型的主要評估指標是均誤差(MSE)、平均絕對誤差(MAE)和 R-squared 等等。這些法按場景和側重點的不同,以不同的度和法統計計算值和真實值的差異,從評估模型的優劣。但是到了成式 AI 階段,基于通型基礎模型,模型的主要任務變成了本成和圖像成等。成的本與圖是否“正確”具有強烈的主觀性,計算維度也與之前不同。針對以上新出現的問題,在本成領域,提出了 BLEU 和 METEOR 等評估指標。圖像成領域則提出了 Perceptual?Loss 和 Frchet?Inception?Dis
79、tance 等法?36。?隨著語模型的泛應,評估語模型的法也變得越來越重要。語模型的評估有很多不同的側重點。較為重要的是知識和能評估以及對評估。知識和能是基礎模型切能的基礎。知識補全是評估模型知識能的主要段,它基于現有的知識庫,如 Wikidata、LAMA 等,通過將這些知識庫中提供的主題關系對象三元組置空,然后語模型填缺失的部分來進評估。推理能是另個重要能,包括常識推理、邏輯推理、多跳推理和數學推理四個。每個都有特定的數據集于基準測試。如:?常識推理可以使 CommonsenseQA?37問答數據集以及關于社交常識的 Social?IQA?38問答數據集。?邏輯推理是通過給定段字和個問題,
80、模型需要從候選答案列表中選擇最適當的答案。相關的數據集包括 ReClor?39、LogiQA?40和 LSAT?41等,它們都是由標準化測試(學位考試和公務員考試)提供的多項選擇邏輯問題組成的。?43 多跳推理是指通過多個環節的信息得出最終答案的能,是更復雜的推理能。HybridQA?42是前最有代表性的多跳測試基準數據,它的每個問題都與異構的多個信息源(表格和本段落)相關聯,模型需要同時利表格和本信息才能回答,缺少任何種信息都法完全回答問題。?數學推理的數據集則主要來類綜合性考試的數學部分以及數學競賽試題。對評估則更像是某種軟性能的評估,評估模型是否具有倫理價值對能,以及它們是否成可能違反倫
81、理標準的內容。?評估模型的對能前已有商產品,如 IBM 的 OpenScale。同時,些數據集也可以來測試模型的能。如,PROSOCIALDIALOG 是個規模的多輪對話數據集,教導對話系統如何應對有問題的對話內容,數據集涵蓋了各種不道德、有偏的情況,它可以提供基于社會規范的建設性反饋,對話的過程往往需要參與校準。?在選擇應程序的模型時,還需要考慮以模型性能,模型和計算資源需求,語持,協議許可,社區活躍度等關鍵因素。例如,以采納種持中 RAG 應的Embedding 模型為例:?第步,將模型選擇范圍縮到有中持的模型。?第步,可綜合衡量 Chinese?Massive?Text?Embeddin
82、g?Benchmark(C-MTEB)和Hugging?Face?Massive?Text?Embedding?Benchmark?(MTEB)?43等公共測評榜單,選中些性能靠前的模型,例如 Baize?General?Embedding(BGE)系列的 bge-large-zh-v1.5 模型。?第三步,結合應的實際場景制定和采納相關評測指標。關于更多模型評估指標可以參考附錄?智能指標。?44 第四步,結合實際數據進綜合測評,擇優選取。?3.2.6.23.2.6.2 模型數據準備模型數據準備?當企業場景需要超越原始語模型的能時,通常需要對企業內部的數據進收集和整理,對模型進微調和訓練以滿特
83、定場景的需求。這個過程可能涉及多個階段,包括數據的收集、標注和預處理。在這個過程中,企業需要充分了解的業務需求和數據特點,以便選擇合適的數據收集法和具,從更好地滿業務需求。?3.2.6.2.13.2.6.2.1 數據收集數據收集?數據收集的的是從各種來源獲取與問題或任務相關的數據,以便后續的數據清洗、預處理。以下是些常的數據收集來源包括但不限于?44:?公開數據集公開數據集:公開數據集是基礎模型訓練數據的重要來源之,通常由學術機構,企業等組織公開發布,涵蓋了各種數據類型,例如 UCI 機器學習庫、Kaggle 競賽數據集等。?企業內部數據企業內部數據:通常來公司內部各個部和業務領域的運營活動,
84、這些數據對于企業內部決策、業務優化、產品改進等具有重要意義。?合成數據合成數據:在某些情況下,難以獲得夠多樣化的真實數據,可以考慮使合成數據,通過模擬或成數據來模擬真實數據的分布和特征。?數據爬取數據爬?。喝绻麤]有合適的公開數據集,可以考慮從互聯上爬取數據,但需要注意遵守站的使條款和法律規定,以及尊重隱私和版權。?45 實驗設計和數據采集實驗設計和數據采集:對于某些特定的問題,可根據需要設計實驗并收集數據,通過實地觀察、實驗調查、傳感器收集等式來完成,需要考慮數據的多樣性、覆蓋范圍和質量等因素。?3.2.6.2.23.2.6.2.2 數據清洗數據清洗?數據清洗在機器學習中涉及到識別數據中的缺失
85、值、異常值、重復值等問題,并進相應的修正和處理,包括:處理缺失,異常值,重復值,不致的數據格式,特征選擇和轉換(如數值化、標準化、歸化等),類別型數據(如 One-Hot?Encoding 或者 Label?Encoding 等),時間序列數據,數據不平衡等。在實際應中可能需要根據數據集的具體情況和需求進適當的調整和擴展。數據清洗的標是確保數據的質量和可靠性,為后續的機器學習建模和分析提供可靠的基礎。?3.2.6.2.33.2.6.2.3 數據標注數據標注?數據標注,稱為數據注釋,是在開發機器學習(ML)模型時的預處理階段的部分。這個過程涉及到對原始數據(例如圖像、本件、視頻)的識別,然后為這
86、些數據添加個或多個標簽,以指定其上下,使得機器學習模型能夠做出準確的預測。在數據標注的過程中,標記者或專業具被來為數據集中的每個樣本分配適當的標簽。這些標簽可以是對圖像中物體的識別、本的分類、視頻中事件的描述等。通過為數據集中的每個樣本添加標簽,為機器學習模型提供有監督學習所需的訓練數據。?46 3.2.6.2.43.2.6.2.4 數據劃分數據劃分?數據劃分通常需要將數據集分為訓練集、驗證集和測試集三部分進處理。常的數據劃分的法主要包括:隨機劃分、分層劃分、時間序列劃分、K 折交叉驗證等。在實際應中,可以根據具體情況對上述法進調整。需要注意的是,數據劃分應該盡可能保證各個集的數據分布致,以保
87、證模型在各種情況下都能表現出良好的性能。?3.2.6.2.53.2.6.2.5 數據增強數據增強?數據增強(Data?Augmentation)是種于改善模型性能和泛化能的技術,它通過創建原始數據的修改版本來增加于模型訓練的數據量。這些修改可以包括旋轉、縮放、翻轉或其他形式的變換,的是增加數據的多樣性,以幫助模型學習更多的特征和規律,提模型的泛化能。此外,數據增強也可以幫助防模型過擬合,提模型的健壯性。?常的數據增強技術包括:圖像數據增強(如旋轉,縮放,剪裁,翻轉,改變亮度,對度,飽和度等,本數據增強(同義詞替換,隨機插,隨機交換,隨機刪除等),頻數據增強(改變調,量,速度,添加背景噪聲等),
88、數據插值等。隨著成式智能的技術發展,模型的尺越來越,還可采監督數據成,領域數據/專家數據等式來實現增強??山Y合模型的實際應場景、具體需求和數據類型來選擇合適的數據增強法?45。?3.2.6.33.2.6.3 模型微調與訓練模型微調與訓練?般來說,語模型可以通過構造良好的提激發模型的能,種典型的提法是將任務描述或范以然語本的形式表達的上下學習(in-context?learning,?47 ICL)。此外,采思維鏈提(chain-of-thought?prompting)可以通過將系列中間推理步驟加提中來增強 ICL。有的場景通過提法解決問題或者需要過的上下提,這種情況下就會涉及模型微調,常的微
89、調式包括使標簽數據進繼續預訓練、使標簽數據對模型進指令微調、通過強化學習對模型進對微調等。?繼續預訓練優勢是可以容易獲取到標簽數據,常的使場景包括對 LLM 進進多語持的擴展、垂直領域知識的增強,增加 LLM 本度的持等。?指令微調是以有監督的式微調 LLM(例如使序列到序列的損失進訓練),指令微調后 LLM?可以展現出泛化到未過任務的卓越能,為了進指令微調,先需要收集或構建指令格式的實例。構建指令數據集可以通過式、利基礎模型動成、結合使開源指令數據集。由于指令微調涉及多種任務的混合,因此在微調過程中平衡不同任務的例常重要,種泛使的法是實例例混合策略,即將所有數據集合并,然后從混合數據集中按例
90、采樣每種實例。?LLM 有時可能表現出預期之外的為,例如編造虛假信息、追求不準確的標,以及產有害的、誤導性的和有偏的表達,因為模型預訓練使了語建模的標,即單詞預測進預訓練,但這沒有考慮到類的價值觀或偏好。為了避免這些預期外的為,些研究提出了類對,使得 LLM?的為能夠符合類期望,對微調使得 LLM?的為能夠符合類期望?;陬惙答伒膹娀瘜W習(RLHF)使收集到的類反饋數據對?LLM?進微調,有助于改進對的指標(例如,有性,誠實性和害性)。RLHF 采強化學習(RL)算法(例如,近端策略優化(Proximal?Policy?Optimization,PPO)通過學習獎勵模型使?LLM 適配類反饋。
91、這種法將類納訓練的循環中來開發對得 48 良好的語模型,如 InstructGPT。對微調的數據集通常由進精細的設計,成本較,些開源的數據集有 HH-RLHF?46、SHP 等。?由于?LLM?包含量的模型參數,進全參數微調將會有較開銷,于是提出來參數效微調(parameter-efficient?fine-tuning),旨在減少可訓練參數的數量,同時盡可能保持良好的性能。常的于?Transformer?語模型的參數效微調法有適配器微調(adapter?tuning)、前綴微調(prefix?tuning)、提微調(prompt?tuning)和低秩適配(LoRA)等?47。?3.2.6.4
92、3.2.6.4 模型合作模型合作?在實際企業模型應中,對復雜的業務場景需求,通??梢詫⒒A基礎模型和領域模型進合作。通基礎模型具有許多優勢,其中包括強的然語理解能、內置量世界知識、以及具備任務拆解和總結能等特點。這些基礎模型可以解決多個下游任務,為企業提供了泛的應可能性。相之下,專業領域模型則更為精細,雖然部署所需資源較少,但其優勢在于經過專業領域的期訓練和優化,表現出千錘百煉的能。然,專業領域模型的適配性較窄,種領域模型通常只能對接種具體任務,相較于通基礎模型,其應范圍相對有限。在實際情況中,企業往往已經開發了些專針對其特定領域或業務需求的領域模型,因此,將兩者結合起來,可以形成更靈活、效的
93、解決案,并充分利已有的能,最程度地發揮模型的優勢。?些常的模型合作的式包括:?49 模型組合模型組合:將領域模型的預測結果整合到基礎模型中,從擴展基礎模型的知識和提精度。例如,基礎模型可于任務框架擬定和任務分解,領域模型對分解任務進處理,最終由基礎模型對所有步驟的答案進組織整理。?模型堆疊模型堆疊:將領域模型和基礎模型串聯起來,形成個更為復雜的模型。通過增加模型深度,可以提模型的復雜度。例如,基礎模型可對任務從不同維度進定義,領域模型則從不同度回答問題,最終由基礎模型整理所有步驟的答案。?模型分模型分:將任務分解,讓、領域模型各專注于不同的任務。例如,基礎模型處理開放式然語處理任務,領域模型則
94、專注于特定業的語任務。?模型調整模型調整:調整基礎模型的參數,使其更好地適應特定業的語數據。例如,通過模型的對基礎模型的結果進校正,調整基礎模型以適應特定領域的數據集。?3.2.6.53.2.6.5 模型優化模型優化?基礎模型優化是指在設計、訓練和部署型 AI 模型時所采取的系列技術和策略,旨在提模型的效率、性能和可擴展性。這過程涵蓋了模型訓練優化,模型壓縮,推理優化等多個。?3.2.6.5.13.2.6.5.1 訓練優化訓練優化?由于前的型模型往往包含數億、數百億、甚數萬億個參數,這意味著在模型訓練階段需要頻繁進量的浮點運算,對計算能的需求是巨的。例如,要訓練個規模為 Llama-70B 的
95、模型,需要在龐的計算集群上進數之久。這涉及到的時間成本和電成本不容忽視,因此需要考慮如何加快速度,優化整個訓練流程。?50 般,型語模型的結構主要基于 Transformer,其中每層的結構相對固定,因此,常的訓練加速法主要集中在如何實現 Transformer 的并化。在本質上,訓練過程涉及量的矩陣乘加運算,因此必須思考如何降低計算參數的矩陣操作。通常情況下,可考慮采多個計算設備進并計算,同時優化設備間的通信負載以及單個設備上的計算時間,以期望實現并計算時的線性加速。此外,型模型的訓練時間也與訓練數據量密切相關,所以也可通過數據分割來實現并計算,運分治法的思維處理數據內部特征。另外,由于前主
96、流計算設備為 GPU,單個 GPU 的顯存相對有限,難以撐整個模型訓練過程中所需的模型和數據存儲,因此型模型的訓練也必須依賴多 GPU 卡并進。?模型訓練加速的優化案前般包含數據并,模型并,流線并等,并伴隨有使低精度浮點數來降低單次計算所需要的計算或計算時間,且還能降低 GPU 顯存的使量。?數據并化較直觀,在多個計算硬件上分別加載同個模型結構,然后將數據分割成不同的數據集分發到不同的計算硬件上分別計算,尋找數據內部特征,最后將每個計算硬件上的模型尋找到的數據特征進整合,糅個模型,從達到數據的并化計算。?模型并化在分割模型時的度取決于整體訓練模型的所需算的,需保證每個計算單元都能分配到夠的計算
97、量。例如,將模型結構進維(2-dimensional)分割,同時考慮計算硬件的拓撲結構,盡可能讓模型間的通信量少,且信息在絡中傳遞的路徑最短,這樣就能在加速計算的同時減少絡負載,讓整個訓練過程整體最省時,硬件資源利率最化。在模型并化的時候,還會有更細粒度的張量并(tensor?51 parallelism)和流線并(pipeline?parallelism),這些并化需要深理解模型的結構,才能將模型按照不同的切分式來分割并。?在將模型訓練分割并化的加速優化能考慮到極致后,還可以通過模型量化,即前提到的使低精度的浮點數來進計算加速,此外還有算融合等式來進計算的優化。有很多開源項正在研究這些領域,
98、如 vLLM,bitandbytes 等。值得注意的是,由于這些法般牽涉到對模型的修改或是對數值的修改,故可能會存在模型收斂出現問題,或者模型精度出現偏差,往往都需要針對數據集做進步的模型結果調優。?3.2.6.5.23.2.6.5.2 模型壓縮模型壓縮?模型壓縮技術是指的是系列旨在減深度學習模型的體積和計算復雜度,同時保持其性能的法。這些技術對于在資源受限的環境下部署模型、提推理速度或降低能耗都常有,常的語模型壓縮技術包括?48:?模型剪枝通過去除絡中不必要的連接或參數來減模型的。剪枝技術可分為結構化剪枝和結構化剪枝兩種形式。結構化剪枝是指在不考慮模型結構的情況下,去除模型中相關度較低的參數
99、,從達到減模型尺的的。結構化剪枝則是通過剪除模型的整個部分,例如神經元、通道或層,來進減模型的。結構化剪枝不改變模型的結構,剪枝度細致,潛,但需要搭配相關的硬件。相之下,結構化剪枝的粒度較粗,剪枝后會改變模型結構,對模型性能影響較。因此,結構化剪枝可剪枝例通常較結構化剪枝低,但實現技術簡單,不需要相關的硬件配合。不論是結構化還是結構化剪枝,在剪枝后通常需要進后續的微調,以彌補剪枝帶來的模型性能下降。?52 模型量化通過將浮點參數轉換為單字節或更的整數,從顯著減語模型的,它通常包括離線階段(offline?stage)和在線階段(online?stage)兩個主要階段。離線階段的量化過程通常在訓
100、練后進,此時模型已經通過了訓練并獲得了較佳性能。在此階段,將訓練好的模型來分析其權重分布和激活響應等信息,以確定適當的量化策略。這涉及到選擇合適的量化特數(如 8 特、4 特等),以及確定量化的范圍和法(如線性量化、線性量化、對稱量化、對稱量化等?49)。在線階段是指將已經量化的模型部署到實際環境中,以進推理或應。根據硬件持的精度不同,可能需要對參數進反量化操作來進推理計算,以適應硬件的特定要求和限制。此外,在線階段還涉及到模型的部署、配置和優化,以確保在實際應中能夠達到預期的性能和效果。對語模型的量化技術可以分為后訓練量化(PTQ,Post-training?quantization)和量化
101、感知訓練(QAT,Quantization-aware?training)?48。在后訓練量化中,模型在完成訓練后通過將參數轉換為低精度數據類型來實現壓縮,如 GPTQ。相之下,量化感知訓練將量化過程集成到模型的訓練過程中,如 QLoRA。后訓練量化在模型訓練完成后應,簡單直接可快速實現,但可能法充分考慮到量化對模型性能的影響,導致性能損失較;量化感知訓練則集成了量化到訓練中,可以更好地優化模型參數以適應低精度的量化,但可能增加訓練開銷,適合對性能要求的場景。?知識蒸餾:通過訓練個型模型來近似個型模型的輸出。在這個過程中,型模型(教師模型)的“知識”被傳遞給型模型(學模型)。學模型通常教師模型
102、要簡單,因此更適合在資源受限的環境中部署,這種蒸餾式可稱為傳統知識蒸餾(或盒知識蒸餾)?48。對于語模型來說,涌現能蒸餾(或盒知識蒸餾)著重于從教師模型(即 LLM)中提取某種特定的涌現能,并將其轉移給學模型。語模型的 53 涌現能(Emergent?abilities)?50指的是這些模型具備的某些能,這些能在較的模型中并不存在或表現較弱。這些能可能是由于規模數據訓練和模型結構的復雜性產的。根據學習的能的不同,涌現能蒸餾可以細分為不同的類型?48:In-Context?Learning(ICL)蒸餾采結構化的然語提,包含任務描述和可能的任務例,旨在蒸餾語模型的上下學習能。Chain?of-T
103、hought(CoT)蒸餾將中間推理步驟融提中作為學模型的訓練數據,以培養學模型的推理能。Instruction?Following(IF)通過閱讀任務描述來增強語模型在執新任務時的能,不依賴于少量例,旨在蒸餾語模型的指令學習能。?3.2.6.5.33.2.6.5.3 批量批量推理推理?前,語模型推理過程主要受到內存 IO 的制約,不是計算資源的限制。換之,將 1MB 的數據加載到 GPU 所需的時間超過了這些 GPU 計算單元在相同數據上執 LLM 計算所需的時間。這意味著 LLM 推理吞吐量的主要瓶頸在于能夠將批量的數據裝帶寬 GPU 內存中。因此,為了提 LLM 推理的效率,除了優化計算
104、速度外,還需要關注如何更有效地管理和利 GPU 內存。根據 NVIDIA 的報告顯?51,隨著并發數的增加,推理吞吐量通常會有顯著的增加。這意味著優化批處理和并性能是提 LLM 推斷效率的關鍵策略之。?批量推理的技術可分為靜態批處理(Static?Batching)和連續批處理(Continuous?Batching)兩種。批處理的傳統法稱為靜態批處理,即批次的在推理完成之前保持不變。與傳統的深度學習模型不同,由于 LLM 推理的迭代性質,批處理可能會變得棘。由于批處理中不同序列的成度與批次的最成度不同,GPU 的利率較低,如果 54 輸序列也具有相同的,那么每個靜態批處理才可實現最佳可能的
105、GPU 利率。相之下,連續批處理?52不再等待批處理中的每個序列都完成成,是實現了迭代級別的調度,其中批處理是根據每次迭代確定的。結果是,旦批處理中的個序列完成成,就可以插個新的序列,從實現靜態批處理更的 GPU 利率。?3.2.6.5.43.2.6.5.4 推理引擎推理引擎?推理引擎是指于執機器學習模型推理(即模型的預測或輸出)的軟件組件或系統框架。在深度學習領域,推理引擎通常是指能夠有效地將訓練好的神經絡模型應到實際數據上,以產所需結果的軟件組件。這些引擎通常優化了模型的計算和內存使,以提推理速度和效率,并且通常針對特定的硬件架構進了優化,如 CPU、GPU、TPU等。常的推理引擎有 Te
106、xt?generation?inference(TGI),vLLM,DeepSpeed-MII,OpenLLM,MLC?LLM,Ray?Serve,CTranslate2 等?53。?3.2.6.63.2.6.6 模型應技術模型應技術?基礎模型的上層技術賦予了模型更加智能、靈活的特性,使其能夠更好地適應不同的任務和環境。它們幫助企業的基礎模型開發員更快地開發和部署模型應。通過這些技術段,企業能夠更靈活地應對不斷變化的業務需求和環境變化,提模型的適性和性能。?3.2.6.6.13.2.6.6.1 思維鏈提思維鏈提?2022 年,語模型的效果越來越好,并涌現出了強的邏輯推理能。同時隨著模型規模的不
107、斷變,模型也變得更容易被“提”。但是基礎模型在做數學推理和知識推 55 理時的表現還不盡如意。在這樣的背景下,出現了思維鏈(Chain-of-thought,CoT)的概念。思維鏈(CoT)的概念被次提出。這是種改進的提策略,于提語模型在復雜推理任務中的表現。簡單來說,CoT 給基礎模型提供了些相關的上下學習,讓基礎模型更容易給出最終正確的答案,通過把問題分解為多個中間步驟,為模型的為提供個可以解釋的窗,給出如何得出答案的具體分析法,并提供可以被來調試的路徑,實現可驗證性。對于夠的模型,甚可以把思維鏈推理的步驟作為例包含在 few-shot 提中?54。?3.2.6.6.23.2.6.6.2
108、由少多提由少多提?思維鏈提在各種然語推理任務中表現出了顯著的效果,但是,對于那些提中例更難的問題,表現往往不太好,如組合泛化。為了克服這種問題,由少到多提(least-to-most?prompting)提策略被提出?55,其關鍵思想是把個復雜問題分解成系列更簡單的問題,然后依次解決,以前解決的問題的答案有助于解決每個問題。它包含兩個階段,第個階段把個復雜問題分解成系列更簡單的問題,這個階段的提包含演分解的固定例,然后是要分解的特定問題。第個階段依次解決問題,這個階段的提由三部分組成,第個是演如何解決問題的恒定例,第個是之前回答的問題和成的解決案的潛在空列表,第三個是接下來要回答的問題。原問題
109、作為最后個問題追加。?3.2.6.6.33.2.6.6.3 LangLangC Chainhain?LangChain?是個開源編排框架,于使型語模型?(LLM)?開發應程序?56。LangChain?的具和 API 在基于 Python 和 Javascript 的庫中使,可以簡化構建聊天 56 機器和虛擬代理等 LLM 驅動型應程序的過程。LangChain 乎可以作為所有 LLM 的通接,為構建 LLM 應程序并將其與外部數據源和軟件作流程集成提供集中式開發環境。LangChain 基于模塊的法允許開發員和數據科學家動態較不同的提,甚較不同的基礎模型,需重寫代碼。這種模塊化環境還允許程序
110、使多個 LLM:例如,應程序使個 LLM 解釋查詢,并使另個 LLM 編寫響應。著名的?LangChain?具例如:Wolfram?Alpha 提供強的計算和數據可視化功能,實現復雜的數學功能;Google?搜索提供?Google?搜索訪問權限,為應程序和代理提供實時信息;OpenWeatherMap 獲取天信息;維基百科持對維基百科章信息進效訪問等。?3.2.6.6.43.2.6.6.4 MMiniiniC Chainhain?MiniChain 旨在在個型庫中實現核提鏈接功能,它利函數裝飾器和 YAML模板來實現鏈式操作,只需要 20 左右代碼,就可以編寫個簡單的聊天機器,向量數據庫等等。
111、MiniChain 不管理檔和嵌,可使內置 FAISS 索引的擁抱部數據集庫。?MiniChain 可以動成個提頭,旨在確保輸出遵循給定的類型化規范?57。?3.2.6.6.53.2.6.6.5 AI?AgentAI?Agents s?AI?Agents?是種軟件程序,旨在與其環境交互,感知接收到的數據,并根據該數據采取動以實現特定標。AI?Agents?能夠模擬智能為,可以像基于規則的系統樣簡單,也可以像級機器學習模型樣復雜。AI?Agents?使預先確定的規則或經過訓練的模型來做出決策,并且可能需要外部控制或監督。相對于傳統的 AI?Agents,主?AI?Agents(Autonomou
112、s?AI?Agents)是種先進的軟件程序,可以在沒有類控制的情況 57 下獨運。它們可以主思考、動和學習,需類不斷輸。這些代理泛應于醫療保健、融和銀等不同業,使事情運得更順暢、更效。它們可以適應新情況,從經驗中學習,并利的內部系統做出決策。?AI?Agents 的內部結構可以根據具體的應和任務有所不同,它的內部結構由四個關鍵部分組成,分別是 Environment(環境)、Sensors(傳感器)、Actuators(執器)以及?Decision-making?mechanism(決策機制)。AI?Agents?會通過傳感器或其他數據源感知環境。傳感器可以包括視覺傳感器(如相機)、聽覺傳感器
113、(如克)、物理傳感器(如觸摸傳感器)等。這些傳感器幫助代理獲取環境中的信息,例如圖像、聲、位置等。AI?Agents?使適當的知識表法來組織和存儲從環境中獲取的信息。這些信息可能包括先驗知識、學習到的模式或規則?;诟兄降沫h境信息和存儲的知識,AI?Agents?使決策制定機制來成適當的動。這可能涉及使邏輯推理、統計分析、規劃算法或機器學習技術來評估不同動的可能結果和潛在險。決策制定過程旨在使代理能夠選擇最佳動以實現其標。然后,Agents?制定計劃或系列步驟來實現其標。旦決策制定完成,AI?Agents?將執動并與環境進交互。這可能涉及控制執器(如機器的電機)、發送指令(如語助的語合成)或
114、與其他代理進通信。執動后,Agents?會觀察執結果,并將其作反饋以調整下步的決策。最后,在完成上述的執動后,AI?Agents?通過與環境的交互獲得反饋。這些反饋可以來環境中的直接觀測結果,也可以來類或其他代理的指令和評估。Agents?使這些反饋來學習和改進的為。這可能包括使監督學習、強化學習或遷移學習等技術來調整決策制定和動執過程,以提代理的性能和適應能。在現實的業務場景中,AI?58 Agents?在然語處理、機器技術、個性化推薦、還在醫療診斷、融險管理、智能城市管理等領域都展出了泛的應,對?;町a了重影響。?3.2.6.6.63.2.6.6.6 多模態多模態?在智能領域,隨著深度學習和
115、神經絡技術的發展,多模態語模型成為了研究的熱點之。傳統的然語處理模型主要關注本數據的處理,多模態語模型則將本、圖像、聲等多種形式的數據進整合,實現了多模態信息的聯合學習與應。這模型的出現,為機器在不同感知模態下進跨模態的語義理解提供了新的思路和解決案。多模態學習具體可以劃分為個研究向?58:多模態表學習(Multimodal?Representation),模態轉化(Translation),對(Alignment),多模態融(Multimodal?Fusion)和協同學習(Co-learning),常技術如多模態指令調優(Multimodal?Instruction?Tuning?,M-IT
116、)、多模態上下學習(Multimodal?In-Context?Learning,M-ICL),多模態思維鏈(Multimodal?Chain?of?Thought?,MCoT)以及構建任務解決系統的通框架(LAVR)?59等。多模態算法可分為基礎模型和規模多模態預訓練模型兩類?;A模態是多模態的基本框架,在此基礎上改進了許多新的規模多模態預訓練模型。?3.2.73.2.7 I IB BMM 智能平臺智能平臺 watsonx.watsonx.aiai?IBM?watsonx.ai 是 IBM?watsonx 智能與數據平臺的部分,它將基礎模型持的成式?AI?功能和傳統機器學習整合個貫穿 AI
117、命周期的開發平臺,利企業數據調整和指導模型,并通過易于使的具來構建和完善性能提,從滿企業客的需求。利 watsonx.ai,使部分數據,能夠在短時間內構建 AI 應程序。IBM?59 watsonx.ai 提供了多種能,包括模型多樣性和靈活性,可選擇開發的模型、開源模型和第三模型,或構建的模型;IBM?對 IBM 開發的模型提供持,并針對第三知識產權索賠向客提供賠償;IBM?watsonx.ai 提供端到端的 AI 治理,企業可以通過整個公司的可信數據來擴展和加速?AI?的影響,論數據位于何處;同時 IBM?watsonx.ai 持混合式多云部署,提供將企業 AI 作負載集成并部署到所選混合云
118、堆棧中的靈活性?60。?3.2.7.13.2.7.1 基礎模型基礎模型持持?IBM?watsonx.ai 可以訪問?IBM?選擇的?Hugging?Face 開源模型和其他第三模型,包括 Llama?3?and?Mixtral?8x7b,以及經過?IBM?開發的不同規模和架構的基礎模型,包括開源的 Granite 模型和 IBM 定制的 Granite 模型等,以持不同的企業領域和例(如 RAG)。watsonx.ai 當前持的模型可參考附錄?,可的基礎模型持然語和編程語的各種例,并持多種語,可以在 Prompt?Lab 中查看這些模型的可以執的任務類型和 Prompt 樣例?61。?IBM?
119、的基礎模型的?Granite?系列包含系列 decoder-only 模型,可以效地預測和成語。這些模型是使來優質數據集的可信數據構建,涵蓋領域包括融(SEC?提交)、法律(Free?Law)、技術(Stack?Exchange)、科學(arXiv、DeepMind?Mathematics)、學(Project?Gutenberg?(PG-19))等,符合嚴格的?IBM?數據清理和治理標準,經過清理,包括去除仇恨、濫和褻瀆、數據重復以及名單址等。?3.2.7.23.2.7.2 Prompt?LabPrompt?Lab?通過 IBM?watsonx.ai,AI 構建者可以使其中的基礎模型,并使提
120、程構建提??梢允沽奶?、由形式或結構化模式在提編輯器中與基礎模型進交互。多 60 種交互式使可以制定最佳的模型配置,持不同的然語處理(NLP)任務,如問答、內容成和摘要、本分類和提取等。?Prompt?Lab 是個基于圖形界的代碼具,可快速測試不同的模型和提。使 Prompt?Lab,可以快速較使了不同代碼格式和指令的提之間的輸出差異。以 llama-2-chat 為例,可使 Prompt?Lab 對模型進 Prompt 調優,將Prompt 保存成為模板或回話,持查看、導出 Curl、Python 的調代碼等操作?62。?3.2.7.33.2.7.3 Tuning?StudioTuning?S
121、tudio?IBM?watsonx.ai?Tuning?Studio 通過提微調(Prompt-tune)基礎模型,有助于利標簽數據對基礎模型進調優,以獲得更好的性能和準確性。提 v 微調是種效、低成本的法,可以在不重新訓練模型和更新其權重的情況下,讓基礎模型適應新的下游任務。調優完成后的模型,可以在?Prompt?Lab?中被使。IBM?watsonx.ai?Tuning?Studio 的后續版本還將提供模型微調等功能。?使?Tuning?Studio,可以通過調優較的基礎模型,提其在然語處理任務(如分類、摘要和成)上的性能,使其在同模型系列中實現與較模型相似的結果。調優可以基礎模型的多種能
122、,如成特定格的新本,以特定式成總結或提取信息,本分類等。調優的基本流程包括設計與使模型良好配合的提(可借助Prompt?Lab?進提程實驗)、按照格式創建于模型調整的訓練數據、創建調整實驗以調整模型、評估調整后的模型以及部署調整后的模型等,Tuning?Studio 為這個過程提供了基于圖形界的代碼具?63。?61 3.2.7.43.2.7.4 數據科學與數據科學與 MLOpsMLOps?由 IBM?watsonx.ai 基礎模型提供持的具、流程和運時環境,可以幫助數據科學家動構建 ML 模型,通過連接到各種?API、SDK?和資料庫,動化從開發到部署的整個?AI?模型命周期流程。MLOps
123、持以可視化或或使代碼的式構建模型,以公平和可解釋的式部署、監控完整的命周期,利?MLOps?簡化任何具的模型成,并提供動模型重新訓練,其具體功能如表?1 所?60:?表?1?watsonx.ai?MLOps 功能?功能?標?描述?管道編排?創建動化管道?供數據科學家構建、訓練和部署?ML?模型的單協作平臺,持泛的數據源,使團隊能夠簡化其作流程。借助動化?ML?和模型監控等級功能,可以在整個開發和部署命周期中管理其模型。?CPLEX 優化引擎?解決優化問題?使 CPLEX 優化器揭提性分析以改善的業務決策,例如規劃、調度、定價、庫存或資源管理。CPLEX 決策優化引擎應專業的數學算法和基于約束的
124、編程來解決業務標。在 CPLEX 求解器中,可共享表格或視圖,以增強合作并加快洞察。?可視化建模?直觀地開發預測模型?借助易于使的作流程,在統的數據和?AI?平臺上將可視化數據科學與開源資料庫和基于筆記本的界相結合。?62 動化開發?加速完成整個?AI?命周期?初學者可以利?AutoAI?快速,專家級數據科學家則可以加快?AI?開發的實驗。AutoAI?會動執數據準備、模型開發、特征程和超參數優化。?合成數據成器?成合成表格數據?利現有數據或定制數據模式,成合成表格數據集??梢赃B接到現有數據庫、上傳數據件、對列數據進匿名處理、根據需要成盡可能多的數據,以解決數據缺或訓練經典?AI?模型。?63
125、 3.33.3 數據平臺和服務數據平臺和服務?3.3.13.3.1 成式智能數據管理的挑戰成式智能數據管理的挑戰?成式智能訓練過程中需要量的數據,這些數據既有原來傳統數倉(如企業內部現存的關系型數據庫)中積累的數據,也有來本,圖,頻,視頻等多樣性數據的訓練要求。企業要把內部積累多年的數據資產變成智能,需要個數據平臺打通各個數據,打破數據孤島,以統的式提供給模型訓練使。因此,新代平臺要在滿接傳統數倉的同時持新的數據格式,進構建滿模型平臺和服務層數據訪問要求的知識庫。企業需要對數據進不同程度的預處理以滿模型訓練的要求,這過程需要多種數據處理具的持。在使數據的過程中:?貫徹數據治理以滿保護隱私,安全
126、規范的相關法律法規要求。?甄別質量的數據,提訓練的效率。?實現數據甚知識的命周期管理,滿數據,知識不斷更新,不斷迭代的需求。?新代數據湖倉技術正是為了應對前不斷發展的分析和智能需求的,解決海量多樣數據的管理難題的同時保證數據質量(準確,公平等)和數據安全。?3.3.1.13.3.1.1 數據管理技術的發展數據管理技術的發展?隨著企業數字化的發展進程,數據管理系統不斷臨新的挑戰,回顧數據技術管理發展的歷史,有助于我們更好的從發展的眼光看待企業級智能對數據管理系統的新需求。詳圖?8?數據管理發展歷史。?64?圖?8?數據管理發展歷史?在 90 年代中后期,傳統的數據倉庫技術開始出現,主要以關系型數
127、據庫組織結構化數據。數據通過轉換、整合、清理后導到數據倉庫,其中數據存儲的結構與定義的模式(schema)強匹配。這種技術主要于決策持和商業智能,通常綁定在特定供應商,可擴展性有限,對結構化和實時數據處理能有限。?進 21 世紀初,隨著數據量和種類的增,數據湖技術應運,以滿企業對多樣化原始數據、全量存儲和全命周期管理的需求。數據湖從企業多個數據源獲取原始數據,可以是任意類型,從結構化到結構化。這降低了量數據清理的成本,具有靈活可擴展的特點。然,數據湖項也臨些挑戰,包括維護的復雜性、數據質量不佳、對數據科學家的要求以及性能有限。存在數據治理缺失、數據孤和碎化的問題,有時甚形成數據沼澤。此外,數據
128、湖的巨挑戰之是單結構的架構問題。例如,Hadoop 以低成本存儲量數據、持開放的數據格式和動復制可性等表現優異,但是 Spark 作為數據處理框架由于其持數據轉換、流式處理和 SQL 等功能得到泛認可,但不能與現有數據湖環境友好共存,必須外掛專有的計算集群。?65 隨著云計算技術的進步,云數據倉庫得以發展。具體,引了計算和存儲的分離,有效解決了傳統數據倉庫在可擴展性的挑戰。通過增加計算資源,可以確保在處理數據量時仍能保持性能。其中,Snowflake 是個具有代表性的例。它的優勢在于易于管理,但相對于本地數據倉庫成本較,仍然存在供應商鎖定的問題,同時也需要進數據遷移,僅能夠滿些有限的智能(AI
129、)/機器學習(ML)例。?雖然數據湖已經在特定的應場景中已經被證明是成功的。然,隨著成式智能應的企業級落地,企業迫切需要對這些部署進現代化升級,以保護在這些系統中的基礎設施、技能和數據的投資,從滿業務增帶來的數據需求:?數據格式的多樣性需要持更多的開放的數據結構。?數據的快速增需要可擴展的存儲,量數據的處理需要可按需擴展的計算資源。?數據的運維管理,安全需要傳統數倉的事務能。?很明顯,種有效的法是將傳統數據倉庫或數據集市的關鍵特性與數據湖的優勢結合起來。以下個關鍵要素迅速浮出:?具備彈性和可擴展的存儲,以滿不斷增的數據規模需求。?采開放的數據格式,使數據對所有都可訪問,同時對性能進優化,并具備
130、良好定義的結構。?開放的元數據(可共享),能夠持多個消費引擎或框架。?持數據更新(ACID 特性)和事務并發處理。?綜合的數據安全和數據治理,包括數據緣、完整的數據訪問策略定義和執,以及地理分布等。?66 這些要素共同導致了湖倉體的出現。湖倉體是種數據平臺,將數據倉庫和數據湖的優點融合在起,形成統、協調的數據管理解決案。?以 Databricks,Dremio,Starburst 等為代表的第代數據湖倉提供者通常只提供了單引擎,只擅處理商業智能(BI)或者智能(AI)單個作負載,他們依托公有云部署,來持計算和存儲資源的彈性擴展,數據治理能相對薄弱。對于很多企業,數據資產是他們的核資產之,他們需
131、要更多的部署選擇以保證數據被安全合理的訪問以實現數據價值。?3.3.1.23.3.1.2 數據湖倉數據湖倉 vsvs 數據倉庫數據倉庫?傳統數據倉庫沒有實現計算和存儲分離,新代云數據倉庫實現了計算和存儲分離,數據湖倉原持計算和存儲分離。傳統數據倉庫主要是為了結構化和半結構化數據設計的,需要打開額外功能或者使特殊法來持開放數據件和開放的表格式。數據湖倉從設計之初就持結構化和結構化,內部很多件也同樣以開放數據件格式存儲。傳統數據倉庫綁定了專有提供商的查詢引擎,數據湖倉可以根據需要切換不同的查詢引擎。?67 圖?9?數據湖倉對圖?3.3.23.3.2 數據湖倉技術介紹數據湖倉技術介紹?數據湖倉技術的
132、開源態?;钴S,在本章中我們將分章節,從數據格式、元數據管理、查詢引擎、知識庫和聯邦查詢等,介紹開源技術實現。圖?10?湖倉開源技術是個開源技術的概覽。?圖?10?湖倉開源技術?3.3.2.13.3.2.1 數據存儲數據存儲?對象存儲服務、塊存儲服務和件存儲服務是云計算和分布式存儲中常的三種存儲模型?64。?3.3.2.1.13.3.2.1.1 對象存儲服務對象存儲服務?對象存儲服務是種在云計算環境中存儲和檢索規模結構化數據的模型。?在對象存儲中,數據被組織為對象,以對象為基本存儲單元,每個對象包含數據、元數據和唯的標識符,并通過唯的標識符進檢索。對象存儲通常提供松散的致性,并持分布式架構,使其
133、成為云存儲和數據分析的理想選擇。?68 對象存儲通常適于需要存儲、檢索和管理規模結構化數據的場景,例如圖、視頻、檔等。?典型的對象存儲服務提供商包括:IBM?Cloud?Object?Storage?(COS),Amazon?S3?(Simple?Storage?Service),Microsoft?Azure?Blob?Storage(ADLS),Google?Cloud?Storage?(GCS)。開源對象存儲服務包括 Ceph,MinIO。?3.3.2.1.23.3.2.1.2 塊存儲服務塊存儲服務?塊存儲服務將數據劃分為固定的塊,并將這些塊存儲在獨的設備上,每個塊都有唯的地址,允許直接
134、讀寫單個塊。?由于塊存儲提供了低延遲、性能和隨機訪問的優勢,因此它特別適于對存儲性能有較要求的應場景,如數據庫存儲,虛擬機鏡像存儲等,這些特點也使其成為許多企業應的選存儲模型。?典型的塊存儲服務提供商包括:IBM?Cloud?Block?Storage,Amazon?Elastic?Block?Store?(EBS),Microsoft?Azure?Managed?Disks,Google?Cloud?Persistent?Disks。開源實現如 Ceph,GlusterFS,MinIO。?3.3.2.1.33.3.2.1.3 件存儲服務件存儲服務?件存儲服務為提供了類似傳統件系統的層次結構,
135、以件和錄的形式組織數據,并通過絡協議(如 NFS、SMB)提供對這些件的訪問。?由于件存儲允許多個或設備同時訪問相同的件,持件的共享和協作,?因此它常適于需要共享數據和持多協同訪問的場景,如企業共享件、應程序配置件等。?69 典型的件存儲服務提供商包括:IBM?Cloud?File?Storage,Microsoft?Azure?Files,Amazon?Elastic?File?System?(EFS),Google?Cloud?Filestore。開源實現如 GFS,?HDFS,Ceph。?3.3.2.23.3.2.2 數據中常的件存儲格式數據中常的件存儲格式?進制形式存儲的格式因為其更的
136、件體積,更快速的序列化,持跨語等種種特性,成為了數據選的存儲格式。評判個件格式是否適合進制形式存儲,可以從以下點去分析:?傾向更快的寫還是更快的讀取速度。?是否持件分割,并處理數據。?壓縮算法的持,壓縮性能的較。?模式演變(?Schema?evolution)的持。?查詢引擎的適配(例如:Spark 傾向于 Parquet,?Hive 傾向于 ORC)。?數據本是扁平化的,還是嵌套的。?數據讀取是整體讀取,還是少數字段的讀取。?數據是否有頻繁改動,對 ACID 的需求。?3.3.2.2.13.3.2.2.1 存儲與列存儲存儲與列存儲?件格式按存儲式可以分為式存儲和列式存儲。?式存儲是以為單位進
137、存儲,?條數據所有字段都存儲在同個塊上。其寫性能較,保證事務特性更容易,壓縮效果較差。?70 列式存儲是以列為單位進存儲,將同列的內容連續存放在起。其寫性能效率低,當讀取少數列時,性能較,此外列存儲的壓縮效率,較難實現事務特性。?3.3.2.33.3.2.3 開放數據件格式開放數據件格式?本節將介紹三種主流的件格式,Parquet,Avro,ORC,并分析各的優缺點和適應場景。?3.3.2.3.13.3.2.3.1 ParquetParquet?Apache?Parquet 基于列存儲的件格式,并持嵌套格式數據。Parquet 在數據領域的應場景包括 Apache?Spark,Apache?H
138、ive 和 Apache?Impala 等分布式計算框架。此外,作為 Apache?Arrow 的底層存儲格式,Parquet 還提了數據交互的效率。?Parquet 件格式是解析的,其 schema 信息以及其他元數據信息起存儲在件的末尾。Parquet 件是可分割的,因為它在 Footer 中存儲了件塊邊界信息。系統通過讀取這些信息,可以確定是跳過還是僅讀取件的特定部分,從實現更效的讀取,或并處理。對于模式演進,Parquet 持動模式合并,可以從簡單的模式開始,根據需要逐漸添加更多列。Parquet 的優點包括:?列裁剪:只讀取需要的列,實現效的列掃描,減少 IO 操作;?謂詞下推:因為
139、 Parquet 中記錄了每個 Row?group 的列統計信息,包括數值列的 max/min,字符串列的枚舉值信息。這樣可以從源頭過濾掉不符合條件的數據,只讀取需要的數據,進步減少 IO 操作。?更效的壓縮與編碼:因為同列的數據類型相同,所以可以針對不同列使更合適的壓縮與編碼式,降低磁盤存儲空間。?71 3.3.2.3.23.3.2.3.2 AvroAvro?Apache?Avro 是基于存儲的件格式。它可以持動態類型、嵌套數據結構和快速的進制編碼。Avro 將數據定義和數據存儲在個件中,?其中數據定義(Schema)以?JSON 格式存儲,使其便于閱讀和解釋,詳情可參考 IBM 站?65。
140、Avro 的優點包括:?持模式演進。?它可以處理類似缺少字段、添加字段和更改字段等的模式更改。?持跨編程語實現。?持復雜的數據結構,如數組(arrays),?枚舉類型(enums),?maps?和?unions。?3.3.2.3.33.3.2.3.3 ORCORC?ORC 是基于列存儲的件格式。和 Parquet 類似,它并不是個單純的列式存儲格式,仍然是先根據組分割整個表,在每個組內進按列存儲。和 Parquet 不同,ORC 原是不持嵌套數據格式的,是通過對復雜數據類型特殊處理的式實現嵌套格式的持。在 ORC 件中保存了三個層級的統計信息,并實現謂詞下推。ORC 提供了 3級索引,并利這些
141、索引規避部分不滿查詢條件的件。ORC 格式的表還持事務ACID,詳情可參考 Apache 站?66?。OCR 的優點包括:?有多種件壓縮式,并且有著很的壓縮。?提供了多種索引,row?group?index、bloom?filter?index。?持復雜的數據結構。?持事務 ACID。?持謂詞下推。?72 3.3.2.3.43.3.2.3.4 開放數據件格式開放數據件格式總結總結?Avro 是存儲格式,?最的優點是可以解耦數據的產者和消費者,實現快速的數據接升級和兼容性。還有些系統也會選 Avro 格式去存儲 log 件。說到列式存儲,Parquet 前是數據分折領域使最的列存格式,也是使 S
142、park?推薦的存儲格式。Hive 對 ORC 的持更好。ORC 件通常 Parquet 件,ORC 索引可以加快查詢速度。對于 ORC 和 Parquet 的選擇問題,具體還要看其依賴的計算引擎,我們不能脫離了整個態環境去進評判。?3.3.2.43.3.2.4 開放表格式開放表格式?Table?Format 是表的抽象,將數據集件組合起來,以單個“表”的形式呈現,允許和具與表數據效交互,它本并不存儲數據,只是定義了表的元數據信息以及數據件的組織形式、統計信息以及上層引擎讀取和寫的相關 API。?開放式表格式提供了額外的類數據庫功能,簡化了數據湖的優化和管理開銷。這些功能包括?67?ACID
143、事務:保證操作的原性,保證數據的致性?記錄級別的操作:允許單個的插、更新或刪除?索引:提性能,如分區技術?并發控制:允許多個進程同時讀寫相同的數據?模式演化:允許在表的命周期內添加或修改表的列?時間旅:讓您能夠查詢過去某個時間點的數據?73 本章將介紹三種主流的表格式:Iceberg、Hudi、Delta?Lake,并較它們的異同點,更多對可以參考?67。?表?2?Iceberg、Hudi、Delta?Lake 的對?Iceberg?Hudi?Delta?Lake?ACID?持?持?持?多版本控制?持?持?持?時間旅,snapshot 回滾?持?持?持?模式演變?持?有限持?持?數據變更?In
144、sert,Merge?into,Delete,?Merge?on?read?Upsert,?Delete,?Insert,?Merge?on?read,Copy?on?write?Update,Delete,Insert,?Merge?into,?Merge?on?write?分區演變?持?不持?不持?索引管理?否?持?否?件格式持?Parquet,ORC,Avro?Parquet,Avro?Parquet?依賴 Hive?是?是?否,有元數據管理?Apache?Iceberg 可以適配 Presto,Spark 等引擎提供性能的讀寫和元數據管理功能。具有以下特點:?74 Apache?Ice
145、berg 相較于 Delta?Lake 和 Hudi 是更加通化的設計,它完美的解耦了計算引擎底下的存儲系統,便于多樣化計算引擎和件格式,很好的完成了數據湖架構中的Table?Format 這層的實現,因此也更容易成為 Table?Format 層的開源事實標準。Delta?Lake 的定位是流批體的存儲層,其優點就是與?Spark?的整合能,尤其是其流批體的設計,配合 multi-hop 的 data?pipeline,可以持分析、Machine?learning、CDC 等多種場景。另外,開源的 Delta?Lake 是 Databricks 閉源的個簡化版本,它主要為提供個 table?
146、format 的技術標準,閉源版本的 Delta?Lake 基于這個標準實現了諸多優化。Hudi 強調了其主要持 Upserts、Deletes?和?Incremental?數據處理,另特是持 Copy?On?Write 和 Merge?On?Read。具體選擇那種技術架構要結合業務需求來考慮。?3.3.2.4.13.3.2.4.1 Hive?MetaStoreHive?MetaStore?Hive?Metastore(HMS)是 Apache?Hive 中負責存儲和管理元數據的組件。元數據就是描述數據的數據,例如表名、表類型、存儲路徑等信息。當我們存儲張表,它的數據部分會存在件系統中,它的元
147、數據部分通常存儲在 Hive?Metastore 中。Hive?Metastore會將這些元數據存儲在所關聯的關系型數據庫(例如 MySQL、PostgreSQL)中。在 IBM?watsonx.data 中,HMS 使 PostgreSQL 來持久化數據。從?Hive?3.0?開始,Hive?Metastore 已經完全獨于 Hive,?需安裝 Hive 的其余部分即可運,不限于 Hive,其他第三服務也可以使其作為元數據庫服務。換句話說 Hive?Metastore 就像是個圖書管理員,分別類地記錄了書籍的名稱,錄,擺放位置等信息,當讀者需要借些書籍,圖書管理員可以快速地定位并給與這些書籍
148、的詳細信息??偟膩碚f Hive?Metastore 的 75 重要作之,是幫助底層計算引擎效地定位并訪問分布式件系統中的數據源。計算引擎可以通過這些元數據來確認如何解析、授權和效執查詢。Hive?Metastore 中的元數據與數據湖中的數據樣重要。這意味著其元數據必須是持久的、可的,并應該具備災難恢復能。Hive?Metastore 功能架構圖參考 hive 官?68。Hive?Metastore 的主要功能:元數據存儲,元數據管理,元數據查詢優化。?Hive?Metastore 作為元數據和數據件之間的橋梁。提供了數據抽象和數據發現兩個核的功能。當您創建個新表時,與模式相關的信息,如列名、
149、數據類型等,會存儲在Hive?Metastore 的關系數據庫中。Hive?Metastore 并不是完美的,也存在著架構本的缺陷,例如存儲性能瓶頸與容災備份的需求。Hive?Metastore 也在不斷完善,例如引進了緩存機制。IBM?cloud 也提供了完全托管的可的 Hive?Metastore 功能供選擇,詳 IBM?blog?69。?3.3.2.53.3.2.5 數據聯邦查數據聯邦查詢詢?3.3.2.5.13.3.2.5.1 數據聯邦查詢技術的介數據聯邦查詢技術的介紹紹?數據聯邦查詢技術是種先進的數據庫或數據存儲系統的查詢法,泛應于湖倉體化架構。它允許在分布式環境中跨多個分散的數據源
150、執復雜的數據查詢,使不同的能夠縫地在這些分布式數據源上通過標準 SQL、JDBC 或 ODBC 等統查詢式效地訪問數據并且需移動或者集中存儲數據,從節省了建集中數據倉庫的成本,避免了海量數據復制的作量和資源浪費。對于企業構建統數據平臺,量遷移數據成本太,通過數據聯邦查詢技術可以接已有數據系統,加速為成式 AI 提供的統數據平臺接現有的企業數據資產。?76 3.3.2.5.23.3.2.5.2 開源湖倉架構中的數據聯邦查詢技術開源湖倉架構中的數據聯邦查詢技術?基于實現跨多個數據源進查詢和分析時的作原理不同,我們可以將數據聯邦查詢技術分成三類:開源的聯邦查詢引擎、數據虛擬化平臺、分布式數據處理具。
151、雖然它們的作原理不同,但是它們都可以持復雜的聯邦查詢操作。?3.3.2.5.33.3.2.5.3 開源的聯邦查詢引開源的聯邦查詢引擎擎?開源的湖倉架構通常需要能夠持聯邦查詢的開源引擎,以實現在分布式環境中查詢和整合多個數據源。?當聯邦查詢引擎接收到聯邦查詢的 SQL 語句時,通常會解析查詢計劃,并根據各個標數據源的要求轉換成和標數據源相關的 SQL 語句;在轉換后,聯邦查詢引擎可能會進些優化步驟,以確保成的查詢在性能和效率上都能得到優化;然后,聯邦查詢引擎成與標數據源相兼容的原 SQL 查詢語句,直接發送到各個數據源進查詢;最后,聯邦查詢引擎將把從各個標數據源上得到的結果整合到起,最終提供個統
152、的查詢結果。?以下是些常于湖倉架構的開源數據聯邦查詢引擎:?Presto(即 PrestoDB):PrestoDB 是由 Facebook 開發的個開源、靈活、可擴展的分布式 SQL 查詢引擎,持連接多種數據源,包括關系型數據庫(如MySQL、PostgreSQL)、NoSQL 數據庫(如 Cassandra、MongoDB)、數據湖(如 Apache?Hive、Amazon?S3)等,這種多數據源的持使得 PrestoDB 成為個適于復雜數據態系統的查詢引擎。同時它也持在多個數據源中執聯 77 邦查詢。因此,PrestoDB 的靈活性和性能使其成為企業和在 Open?Lakehouse 架構
153、中的個強選擇。?Trino(即原 PrestoSQL):Trino 是?個開源的分布式 SQL 查詢引擎。它是PrestoDB 的分,繼續發展和維護 Presto 的開源項,并提供了許多改進和新功能。Trino?內置了多種 Connector 持多種數據源連接,Trino 的靈活性和性能使其成為數據處理和分析領域的個重要具,特別適于需要在分布式環境中查詢各種數據源的場景,在 Lakehouse 架構中被泛應。?Dremio:Dremio 是款開源的新代助服務的數據湖引擎。它是款完整的產品,通過界化的 SQL 輸查詢數據湖的數據。Dremio 持連接多種數據源,包括數據湖(如 Amazon?S3
154、、Azure?Data?Lake?Storage)、關系型數據庫(如MySQL、PostgreSQL)、NoSQL 數據庫(如 MongoDB、Cassandra)等,也持多數據源的聯邦查詢功能,使能夠輕松訪問和整合不同類型的數據。?Apache?Drill:Apache?Drill 是個開源的分布式 SQL 查詢引擎,?具有敏捷性、靈活性和易性,專為 Hadoop,NoSQL 和云存儲設計。它持多種類型的NoSQL 數據庫(乎可以查詢任何類型的 NoSQL 數據庫)和件系統查詢,它持聯邦查詢,可以通過 SQL 查詢語整合不同類型和位置的數據。?3.3.2.5.43.3.2.5.4 數據虛擬化
155、平臺數據虛擬化平臺?數據虛擬化平臺(Data?Virtualization?Platforms)是種數據集成技術,通過創建個抽象的、統的數據訪問層,使得可以從個單的接訪問或查詢分布在多種數 78 據源(關系型數據庫、NoSQL?數據庫、件系統、云存儲等不同類型的數據源)中的數據,?需了解底層數據源的具體細節。?數據虛擬化平臺能夠對數據進抽象,隱藏了數據的物理位置和格式細節,使得可以以種更簡單、更統的式查詢和操作數據?70。?當數據虛擬化平臺接收到聯邦查詢的 SQL 語句時,先會將查詢請求轉換為邏輯查詢計劃;根據虛擬數據視圖和元數據信息,數據虛擬化平臺進查詢優化,這可能涉及到重寫查詢計劃,選擇合
156、適的執計劃,并利緩存和索引來提查詢性能;然后,數據虛擬化平臺將邏輯查詢計劃轉換為和各個標數據源相關的 SQL 語句,進發送到各個標數據源進查詢;最后,數據虛擬化平臺將把從各個標數據源上得到的結果整合到起,最終提供個統的查詢結果。?湖倉架構通常會利多種數據虛擬化平臺來實現數據的統管理和查詢。如些常的數據虛擬化平臺:Denodo、TIBCO?Data?Virtualization?和 IBM?Cloud?Pak?for?Data。?這些平臺來不同的供應商,為企業級應設計,提供了可靠的技術持、管理功能和監控能,我們可以根據特定需求和架構設計選擇合適的種或多種數據虛擬化平臺來實現數據的統管理和查詢。?
157、3.3.2.5.53.3.2.5.5 分布式數據處理具分布式數據處理具?分布式數據處理具是類于處理規模數據集的軟件具,它們在多臺計算機或服務器上處理可能分布在不同數據源、不同位置中的數據。聯邦查詢技術允許在多個分布式數據存儲之間進查詢和操作,需將數據集中到個單的位置或系統。因此,分 79 布式數據處理具常常與聯邦查詢技術結合使,以持在分布式環境中跨多個數據源進查詢和操作,從實現數據的統訪問和管理。?當分布式數據處理具接收到聯邦查詢的 SQL 語句時,先從各個數據源中提取需要查詢的數據,可以以分布式的式分區加載到分布式數據處理具的數據集中,這樣數據將會在存儲中的多個節點上進分布;SQL 查詢語句
158、被轉換成適于分布式數據處理具的查詢計劃,這個計劃會分解查詢操作,使得可以并處理不同部分的查詢;最終,分布式計算集群中的節點將各的計算結果合并,整合成個統的查詢結果。常的具有Apache?Spark,Apache?Doris 等。?3.3.2.63.3.2.6 開源開源 SQLSQL 查詢引查詢引擎擎?3.3.2.6.13.3.2.6.1 SQLSQL 查詢引擎查詢引擎?SQL 查詢引擎是種軟件組件或系統模塊,于解析、執和處理 SQL 查詢語句。這類引擎能夠接收、解釋和執提交的 SQL 查詢,并從數據存儲中檢索、操作和處理數據,最終返回符合查詢條件的結果。關系型數據庫都內置 SQL 查詢引擎的持
159、,對于數據湖和湖倉,這就需要獨的查詢引擎來實現統 SQL 對各種數據源執操作。獨的查詢引擎不依賴于特定數據庫系統或數據存儲技術,為提供了跨數據源執查詢和分析的能,允許在不同數據存儲系統中進數據聚合、聯接、篩選和分析,提供了更靈活的數據處理和查詢功能。?在湖倉體架構中,多個獨的開源查詢引擎可以被使,以便針對存儲在數據湖中的數據執不同類型的查詢和分析操作。湖倉體架構中常到的些流的開源 SQL 查詢引擎,如:Presto,Apache?Spark,Apache?Hive,Apache?Drill 等。?80 3.3.2.6.23.3.2.6.2 PrestoPresto?Presto 是個性能、分布
160、式的 SQL 查詢引擎,于處理規模數據分析和查詢。Presto 采 MPP(Massively?Parallel?Processing 規模并處理)架構,持分布式計算,能夠運在規模的集群上,實現并發性和可擴展性?71。?Presto 分布式的架構和設計理念,讓 Presto 具備??焖俚牟樵儓趟俣群偷脱舆t,即使在 PB 級別甚更規模的數據量下也能表現出。除此之外,Presto 持標準的 SQL 查詢語,并且可以縫查詢多種數據存儲系統,包括關系型數據庫、NoSQL 數據庫、云存儲等?;谶@些顯著的優勢,Presto 在各個領域都有著泛的應,從數據湖、數據倉庫、實時分析到志分析等,都能發揮出的效果
161、。它的性能和靈活性使得企業能夠快速且靈活地分析處理海量數據,為決策提供更可靠的數據持。因此,Presto已成為許多組織和公司進數據分析和處理的選具之。?3.3.2.6.33.3.2.6.3 Apache?Spark?Apache?Spark?SQLSQL 模塊模塊?Apache?Spark 作為個開源的分布式計算系統,設計于處理規模數據,并持復雜的數據處理和分析任務。Apache?Spark 不是傳統意義上的 SQL 查詢引擎,盡管它最初是為持復雜的數據處理任務設計的(如機器學習、圖分析、流處理等),但它也提供了功能強的 Spark?SQL 模塊,于執 SQL 查詢和操作結構化數據。這種?SQ
162、L 查詢的功能使得 Spark 更易于使,并且使得可以通過 SQL 來處理和分析數據,尤其是對于熟悉 SQL 查詢語的來說更加便。Apache?Spark 架構圖參考?72。Spark 分布式計算架構,可以使在規模數據上執性能的 SQL 查詢和操作。此外 Spark?SQL?提供了個統的?API,允許使 SQL 查詢和常規的 DataFrame?API(類似于關系 81 型數據庫表)來處理數據。Spark?SQL 使 Catalyst 查詢優化器來優化 SQL 查詢計劃,并持標準的 SQL 語法,包括?SELECT、JOIN、GROUP?BY、WHERE 等操作。?除此之外,Spark 與 M
163、Llib(Spark 的機器學習庫)集成,可以縫進機器學習模型的訓練和推斷,并持豐富的數據處理操作,包括數據清洗、轉換和分析。?3.3.2.6.43.3.2.6.4 Apache?HiveApache?Hive?Apache?Hive?68是建在 Hadoop 之上的數據倉庫軟件,它提供了類似于 SQL 的查詢語,稱為 HiveQL,于查詢和分析存儲在 Hadoop?HDFS 中的規模數據集。它最初由 Facebook 開發,于處理他們龐的數據集。它于 2008 年作為開源項捐贈給Apache 基會,并迅速成為 Hadoop 態系統中受歡迎的組件之。?Hive 可以將數據存儲在 Hadoop
164、的 HDFS(Hadoop 分布式件系統)中,也持其他存儲格式,如 HBase 和 Amazon?S3。對于熟悉 SQL 的來說,學習和使 Hive 相對容易,可以直接與 Hadoop 態系統縫集成,利 Hadoop 集群的強功能;但是由于使 MapReduce 等批處理作業,對于實時性要求的場景,Hive 可能法滿,對于些復雜的查詢或規模數據集,性能可能不如其他實時處理引擎。?總體來說,Apache?Hive 在處理規模數據時是個強的具,尤其適合于批處理和對數據進較復雜分析的場景。?3.3.2.6.53.3.2.6.5 Apache?Drill?Apache?Drill?Apache?Dri
165、ll?73是個開源的分布式 SQL 查詢引擎,最初由 MapR 公司開發,其標是提供種能夠實時查詢規模分布式數據的解決案。?82 Apache?Drill 能夠使標準的 SQL 語法直接查詢多種數據源,包括傳統關系型數據庫,件系統數據,NoSQL 數據庫和云存儲等。它可以在查詢過程中縫地處理這些不同的數據源,需預定義模式或進數據轉換。Drill 是為分布式環境設計的,能夠在多個節點上并執查詢,從提查詢性能和可擴展性。能夠在應程序中嵌 Drill 引擎,使得數據查詢和處理能可以被直接集成到應程序中,從簡化了數據分析和應開發的過程。雖然 Drill 主要于批量查詢和分析,但也持實時查詢,通過輕量級
166、的執計劃和查詢引擎,盡可能地提供快速的響應時間。?Apache?Drill 的發展直專注于提供更的查詢性能、更好的兼容性以及更泛的數據源持。其持續改進和發展使得它成為處理規模數據查詢和分析的重要具之,并且在數據格式多樣性和模式查詢有著顯著的優勢。?3.3.2.6.63.3.2.6.6 SQLSQL 查詢引擎的選型查詢引擎的選型?對不同的場景和需求,如何選擇 SQL 搜索引擎?可以先參考下這張表,對這四種SQL 搜索引擎有個更深的了解。?表?3?四種開源 SQL 查詢引擎的較?場景/特性?Presto?Apache?Spark?Apache?Hive?Apache?Drill?交互式查詢?Pre
167、sto 是專注于交互式查詢的引擎,適于需要快速響應查詢的場景。?Spark 雖然可以執 SQL 查詢,但對于規模數據的交互式查詢,性能可能Hive 在交互式查詢性能較差,不太適于需要即時響應的場景。?Drill 適于需要實時查詢的場景,能夠在較短時間內完成對數 83 不如專的 SQL引擎。?據的查詢和分析。?批量處理?Presto 能夠執批量處理,但更擅于交互式查詢,不是最佳的批量處理引擎。?Spark 是通的數據處理引擎,適于批量處理和流處理,具有泛的途。?Hive 專于批量處理和規模數據分析,對于需要對靜態數據集進批量處理的場景較為適。?Drill 也適于批量查詢和處理,但其重點是在模式查
168、詢和實時性能上。?多數據源查詢?Presto 常擅于查詢多種數據源,持各種數據格式和多種數據源的縫查詢。?Spark 也能夠處理多種數據源,但在查詢多種數據源可能不如 Presto 靈活。?Hive 適合于與Hadoop 態系統集成,能夠查詢 HDFS 等存儲系統中的數據。?Drill 專注于模式查詢,持多種數據格式和多數據源查詢。?實時性能要求?Presto 能夠提供較快的查詢響應時間,適于對查詢響應速度要求較的場景。?Spark 在些場景下能夠實現近實時處理,但在某些復雜查詢下性能可能受限。?Hive 在實時性能表現較差,不適合需要即時響應的場景。?Drill 在些場景下能夠提供較好的實時
169、性能,但對于復雜的查詢或規模數據集 84 可能性能不理想。?這些引擎在不同的場景中表現出不同的特點和優勢,選擇哪個取決于具體的使場景和需求。例如,如果需要性能、交互式分析,則 Presto 可能是個不錯的選擇;如果需要個通的數據處理引擎,包括流處理和機器學習,則 Spark 可能更適合。根據具體的業務需求和數據處理標,選擇最適合的引擎才是關重要的。?3.3.2.73.3.2.7 數據處理和注數據處理和注?Apache?Flink?是開源的分布式引擎,于對界限(流)和有界限(批處理)數據集進有狀態處理。流處理應程序旨在連續運,最限度地減少停機時間,并在攝取數據期間對其進處理。Apache?Fli
170、nk 專為低延遲處理、在內存中執計算、實現可性、消除單點故障以及平擴展設計。Apache?Flink 專為流式傳輸優先開發,為流處理和批處理提供了統的編程接。Apache?Flink 提供持的些常應程序類型包括:事件驅動的應程序,數據分析應程序,數據管道應程序。?Apache?Spark 如前所述的設計于處理規模數據除了有強的查詢能之外,也能很好的處理數據的 ETL,原持批處理和流處理,相對于 Flink 原流,Spark 是通過微批處理,延時性略差于 Flink。Spark 更適合快速的批處理。?CDC 變更數據捕獲是種經過驗證的數據集成模式,于跟蹤數據更改,并向必須響應這些更改的其他系統和
171、服務發出警報。變更數據捕獲有助于確保所有依賴數據的系統數據同步,功能正常。Debezium 是 Red?Hat 開源的變更數據捕獲具,持 Mysql,85 MongoDB,PostgreSQL,SQL?Server,Oracle,Db2,Cassendra 等,前沒有直接持 Presto,需要去擴展。?3.3.2.83.3.2.8 向量數據向量數據庫庫?3.3.2.8.13.3.2.8.1 RAGRAG 和向量數據庫和向量數據庫?在專業領域成式智能,企業往往到 RAG 和向量數據庫,參考 3.2.5。這簡單描述了 RAG 的主要組成:?依次是:數據提取?embedding(向量化)?創建索引?
172、檢索?動排序(Rerank)?LLM 歸納成。事實上,乎任何企業都可以將其技術或政策冊、視頻或志轉化為稱為知識庫的資源,從增強 LLM。這些來源可以持客或現場持、員培訓和開發員產等例。除此以外 RAG 還降低了 LLM 泄露敏感數據或產不正確或誤導性信息的可能性。同時也可以降低在企業環境中運基于LLM 的聊天機器的計算和財務成本。IBM 推出的 AI 和數據平臺 watsonx 就包括了 RAG功能?74。?向量數據庫是種特殊的數據庫,它以多維向量的形式保存信息??梢詤⒖?3.2.5.2。向量數據庫在跟 LLM 結合以后,可以有多種式持 LLM,包括:?提供提程的知識庫。?做相似度搜索,分類等
173、。?作為 LLM 模型的緩存。?同時向量搜索也在改變傳統數據庫的搜索能,使數據庫結合向量搜索具備相似度搜索的能。不少傳統的數據庫如 PostgreSQL 就持向量搜索插件的式持向量搜 86 索。根據向量數據是否開源友好、是否是數據庫,向量數據庫可以簡單劃分為下圖四項限。?圖?11?向量數據庫分類圖?75?通常向量數據庫有如下特性:?持向量相似性搜索,它會找到與查詢向量最近的?k?個向量,這是通過相似性度量來衡量的。量相似性搜索對于圖像搜索、然語處理、推薦系統和異常檢測等應常有。?使量壓縮技術來減少存儲空間并提查詢性能。量壓縮法包括標量量化、乘積量化和各向異性量量化。?可以執精確或近似的最近鄰搜
174、索,具體取決于準確性和速度之間的權衡。精確最近鄰搜索提供了完美的召回率,但對于型數據集可能會很慢。近似最近鄰搜索使專的數據結構和算法來加快搜索速度,但可能會犧牲些召回率。?持不同類型的相似性度量,例如 L2 距離、內積和余弦距離。不同的相似性度量可能適合不同的例和數據類型。?87 可以處理各種類型的數據源,例如本、圖像、頻、視頻等??梢允箼C器學習模型將數據源轉化為向量嵌,例如詞嵌、句嵌、圖像嵌等。?向量數據庫絕不僅僅是來進簡單的向量檢索,要想真正提升開發者的開發效率和使成本,需要系統開發者深理解硬件、存儲、數據庫、AI、性能計算、分布式系統、編譯原理、云原等,以確保其穩定性、性能和易性。除此以
175、外,可擴展性、安全性、性能以及成本問題也是所關的。?3.3.2.8.23.3.2.8.2 MilvusMilvus?Milvus 是 Zilliz 于 2019 年 10 正式開源的基于原向量設計的分布式向量云原數據數據庫。它集成了前在向量相似性計算領域較知名的個開源庫(Faiss,SPTAG等),通過對數據和硬件算的合理調度,Milvus 能夠很好地應對海量向量數據。?Milvus 前是最活躍熱度最的向量數據庫,Milvus?2.3.x 提供了 GPU 版本,性能呈現?CPU?版本快?3?-?10?倍。除此以為,Milvus 先后持了范圍搜索,Upsert、Kafka?Connector、A
176、irbyte,動態 schema 等種種特性。Milvus 已有應場景包括:圖檢索系統,視頻檢索系統,頻檢索系統。分式檢索系統,推薦系統,智能問答機器。Milvus 的特點包括:?持 11 種索引類型,是前持索引類型最多的向量數據庫。?持 RBAC。?云原持,可伸縮。?API 檔全。?88 3.3.2.8.33.3.2.8.3 ChromaChroma?Chroma 是 AI 原的基于向量檢索庫實現的輕量級開源向量數據庫。作為后起之秀,Chroma 在 2023 年中發布了第個向產的版本 V0.4,?它的優點是易、輕量,由于剛剛發布所以功能相對簡單。Chroma 簡化了構建 LLM 應程序的過
177、程,?Chroma 下個重要的程碑是從單節點到分布式系統以及提供云服務能?76。Chroma 的主要特點有:?功能豐富:持包括查詢、過濾、密度估計和許多其他功能。?持 LangChain?(Python 和 Javascript)、LlamaIndex。?在 Python?notebook?中運的相同 API 可擴展到產集群。?3.3.2.8.43.3.2.8.4 WeaviateWeaviate?Weaviate 是個開源向量數據庫。它可以縫擴展到數億個數據對象。其憑借易、開發者友好、上快速、API 檔全等特點脫穎出。Weaviate 更適合需要快速集成向量數據庫的開發員。Weaviate
178、的些關鍵特性有:?速度:Weaviate 可以在毫秒內從數百萬個對象中快速搜索出最近的 10 個鄰居。?靈活性:使 Weaviate,可以在導或上傳的數據時對數據進向量化,可以利與 OpenAI,Cohere,Hugging?Face 等平臺集成的模塊。?快速部署:從原型到規模產,Weaviate 都強調可伸縮性、復制和安全性。?搜索擴展:除了快速向量搜索,Weaviate 還提供推薦、摘要和神經搜索框架集成。?89 3.3.2.8.53.3.2.8.5 Q Qd drantrant?Qdrant 可以作為 API 服務運,持搜索最接近的維向量。使 Qdrant,可以將嵌或神經絡編碼器轉換為應
179、程序,于匹配,搜索,推薦等任務。以下是 Qdrant的些關鍵功能:?通的 API:提供 OpenAPI?v3 規范和各種語的現成客端。?速度和精度:使定義 HNSW 算法進快速準確的搜索。?先進的過濾法:允許基于相關量有效載荷的結果過濾。?不同的數據類型:持字符串匹配、數字范圍、地理位置等。?可伸縮性:具有平擴展功能的云原設計。?效率:內置 Rust,通過動態查詢規劃優化資源使。?Qdrant?以 Rust 語構建,提供 Rust、Python、Golang 等客端 API,能夠滿當今主流開發員的需求。Qdrant 更適合追求低成本基礎設施維護的開發員。?3.3.2.93.3.2.9?圖數據庫
180、圖數據庫?圖數據庫是種以圖結構存儲數據的數據庫類型,其中數據以節點(實體)和邊(關系)的形式表。圖數據庫可以使圖算法和遍歷有效地查詢和分析復雜且相互連接的數據。在智能領域,圖數據庫應常泛,可以參考 3.2.5.6。開源的圖數據庫較多,這只例舉其中個:?Neo4j 是前最流也是時間較久的開源圖數據庫,原持圖數據存儲,提供集群,ACID 事務持,持單機部署,可以跟 Spark 集成。?90 JanusGraph Java 實現的分布式圖數據庫,持 ACID,可以跟 Spark 集成,持創建任意多圖。?Dgraph Go 實現的分布式圖數據庫,持 GraphQL 查詢,持多跨數據中復制,持可和可靠性
181、。不持 Spark 集成。?3.3.33.3.3 I IBMBM 湖倉管理具湖倉管理具?watsonx.datawatsonx.data?IBM?在 2023 年 7 發布了湖倉產品 IBM?watsonx.data.?做為新的數據管理的戰略產品,IBM 在 watsonx.data 中投了很多資源,在收購了 Ahana,?成為 Presto 社區的重要貢獻者之來影響查詢引擎的市場的同時,IBM 還在開源的基礎上做了很多增強,詳細架構參考圖?12?IBM?watsonx.data 架構圖。?圖?12?IBM?watsonx.data 架構圖?91 3.3.3.13.3.3.1 多云部署多云部署
182、?部分湖倉提供商只在部分或者有的公有云上提供服務。在實際使中,企業的數據實際可能存在多種云提供商和企業內部數據中。IBM 依賴于 Red?Hat?OpenShift?虛擬化這層,屏蔽不同云的差異,實現了同套實現持混合云部署。這不僅節省了運維成本同時為了企業內部數據共享提供了便捷。數據在成式智能中是企業的重要資產,所以持本地部署,保護企業數據資產,是企業構建統數據平臺的重要考量之。?3.3.3.23.3.3.2 數據治理數據治理?部分的開源實現沒有很好的數據治理,在整個 AI 或者數據分析中,可信的數據才能得到可信的結果。沒有可信的質量的數據輸,很難得到理想的 AI 賦能。質量差的數據是企業獲得
183、質量智能分析的主要障礙,很容易導致“垃圾進“和”垃圾出”的問題。數據資產是企業最重要的核資產,如何安全,合理合規的使數據在整個數據命周期管理中常重要。如果數據使過程存在泄密,不合規等情況,那么沒法開展有效的智能分析。不同智能系統對于定量(結構化)、定性(結構化)數據集的處理能也不盡相同。IBM 在開源的 Presto 的基礎上,不僅構建了內置的數據訪問控制,可以通過不同對象級別做不同的訪問控制來保證數據只有在被給定權限的才能訪問。同時IBM?watsonx.data 跟 IBM?Knowledge?Catalog?集成完成數據質量控制、數據脫敏、和數據命周期管理等數據治理場景,從開始就把數據治
184、理問題考慮到產品中。在 IBM?watsonx.data 產品中可以鍵集成 IBM?Knowledge?Catalog,?并應 IBM?Knowledge?Catalog 中制定的脫敏規則等,在后續通過 Presto 查詢的過程中,數據就嚴格脫敏。?92 3.3.3.33.3.3.3 持圖形,圖像,視頻和持圖形,圖像,視頻和 RAGRAG?隨著短視頻,社交媒體的發展,企業的數據格式不僅僅包含傳統的數倉,數據湖的數據,還有越來越多的圖形,圖像,視頻數據產。watsonx.data 產品內置了 Milvus 服務,可以直接在 watsonx.data 中啟動 Milvus,?通過向量化后對圖形,圖
185、像,視頻做搜索,同時也可以把 Milvus 做為 RAG 的知識庫,完成知識庫構建,知識搜索,再結合LLM 完成最終的答案,傳統湖倉服務沒有包含 AI 新挑戰的向量數據庫,需要企業單獨管理。未來 watsonx.data?會有更多的數據資產到企業知識的場景和功能,站式的服務企業分析和 AI 的數據需求,來滿成式智能的統數據平臺要求。同時watsonx.data 也會引數據治理能到知識庫,完成整體的數據治理。?3.3.3.43.3.3.4?持多查詢引擎持多查詢引擎?watsonx.data 不僅內置了 Presto 做為查詢引擎,同時還內置了 Spark 引擎跟watsonx.data 縫集成,
186、?可以根據的需要使 Spark 引擎注數據,使Presto 引擎查詢數據,或者直接通過 spark 引擎做數據中間處理再插回湖倉,還可以通過 Spark 跟企業內部圖數據庫集成。不僅如此,同樣的數據 watsonx.data 可以通過共享Hive?Metastore 的式使 Db2 查詢引擎或者 Netezza 做為查詢引擎來滿不同的集成和業務需求。除此之外,watsonx.data 還提供了基于 C 語的查詢引擎,前還處于技術預覽階段。?93 3.3.3.53.3.3.5 數據處理部分數據處理部分?watsonx.data 除了跟開源的數據處理產品集成,還可以跟 IBM?Data?Stage
187、 集成,通過圖形化任務編排的式完成復雜的 ETL。未來 watsonx.data 還會跟 IBM?CDC 等其他產品家族的集成,可以實現更多的數據實時注能,也可以通過內置的 Spark 引擎完成數據加處理,提分析和 AI 使數據的效率。?3.3.3.63.3.3.6 安全可擴展安全可擴展?watsonx.data 不僅僅基于很多開源組建,做為企業級產品,watsonx.data 做了很多安全增強,修復了很多安全漏洞,同時做了更多跟第三的集成增強,如在原來 Hive?Metastore 集成上提供了 Kafka?listener 接,允許外部去同步 Hive?Metastore 的變更。作為企業
188、級的產品,watsonx.data 解決很多企業基于開源的升級和運維的痛點,不僅有可靠的安全掃描,版本升級測試,且有企業級服務團隊提供補丁和升級包,這將節省企業運維的成本。?3.3.3.73.3.3.7 開放的態開放的態?watsonx.data 基于開源組建構建,使開放的數據格式和表格式,可以集成開源的各種報表、數據處理和機器學習具。IBM 在 2023 年收購了 Presto 基會兩創始成員之 Ahana,?成為 Presto 開源項的主要貢獻之,IBM 在不停地回饋社區。?94 3.43.4 基礎撐平臺基礎撐平臺?3.4.13.4.1 基礎基礎撐平臺綜述撐平臺綜述?企業通常需要結合實際業
189、務擁有的模型能,訓練私有模型更好的為業務賦能。在這過程中,會遇到來技術和技術領域的諸多挑戰,如安全合規、規模數據處理、算利率問題(章節 2.2.1),以及從常體驗上對于機協同(章節 2.2.2)提出的新要求。?前構建套企業級成式智能平臺需要具備豐富的智能相關知識以應對上述挑戰,這些知識涉及對于模型和業務的理解,混合云平臺上部署應時硬件集成,資源優化在內的。具體在本章節,我們將從技術棧的度討論成式智能如何更好的與混合云相結合,在治理相關章節會討論隨著模型技術在混合云上應,如何利現有混合云領域的技術和模型相結合解決模型在混合云架構落地中的治理能的相關趨勢(章節 4.6)。?圖?13 基礎撐平臺概覽
190、?95 容器編排平臺為上層應(如數據服務平臺,AI 平臺)提供運維管理層的撐。同時實現通過致性的運維管理式將容器部署在異構的環境中(如私有云和公有云之間,或不同公有云平臺之間),如 Kubernetes?77?或 OpenShift?78。為更好的應對模型所帶來的挑戰,我們收錄并整理了以下種常的措施或技術向。請注意,這些措施或技術向在實施階段需要結合實際環境的硬件撐情況。?3.4.23.4.2 基礎基礎撐撐平臺應對規模數據處理平臺應對規模數據處理的常措施的常措施?由于海量、多源、動態更新的數據是訓練模型和進數據挖掘的必要條件。為更好的應對規模數據帶來的可擴展性挑戰(章節 2.2.1),在基礎撐
191、平臺部分可以對數據使的各個環節進優化,常的優化向包含數據靜態存儲和數據流動(如絡傳輸)。在應對可拓展性挑戰的同時,提算可性。?3.4.2.13.4.2.1 存儲整合與優化存儲整合與優化?作為對數據平臺和服務(章節 3.3)的硬件撐,對于數據存儲,提供的全局數據平臺能,持多種應訪問協議互通(如對象、容器、HDFS 等等)適配不同存儲環境,實現數據的整合和調度,結合多種存儲介質(包括磁帶)實現分層存儲環境降低數據總體擁有成本,提升端到端的數據處理效率?79。?3.4.2.23.4.2.2 絡優化絡優化?為了減少規模數據運算時產的絡開銷,絡優化成為基礎撐平臺層的常優化措施之?80。以 multi-n
192、ic-cni?81項為例,在持云基礎設施在運期間動態變化的 96 同時,減少了維護成本,提帶寬利率,通過對于應完全透明的技術實現了底層絡接的最優配置。?3.4.33.4.3 基礎基礎撐撐平臺應對算利率問題平臺應對算利率問題的常措施的常措施?基礎撐平臺為應對在處理規模數據時,提單芯算、突破算利率、實現更能效,這領域的重要挑戰(章節 2.2.1)。通常,先會實現動化硬件適配作,將計算任務和硬件調度在混合云管理平臺上統調度,并在此基礎上,實現優化計算任務的調度案,提能效。?3.4.3.13.4.3.1 硬件適配硬件適配?在硬件適配,通過適應的硬件驅動配置,混合云通過設備擴展框架可以對多種算設備進持。
193、在實際使中,需要考慮配置多個軟件組件,如驅動持,容器權限等,是困難且容易出錯的。諸如 NVIDIA?GPU?Operator?82這樣的項就很好的解決了這難題。?3.4.3.23.4.3.2 任務調度優化任務調度優化?以 Multi-Cluster?App?Dispatcher(MCAD)?83和 InstaScale?84項為例,這類項實現了包括作業優先級在內的資源調度邏輯來更好的利硬件資源。通常提供作業排隊、作業優先級和搶占、超時以及系統之間資源共享的編排的能,甚包括動態擴展云托管混合云集群的能?80,從實現設備利率最化。在 IBM 研究院的博客中?85,分享了通過這種式在分布式訓練運中有
194、效地使 GPU 的實踐。?97 3.4.43.4.4 基礎基礎撐撐平臺平臺增強機協同簡化體驗增強機協同簡化體驗的常措施的常措施?基于控制臺和圖形界引導在混合云平臺上執成式智能相關任務,從簡化的體驗(章節 2.2.2),以便有效地完成包括訓練、測試和監控在內的任務是項挑戰?80。相對于在本地部署復雜的開發環境,同步量訓練數據進訓練的做法,這類簡化體驗的優化,顯著降低了智能研究者進云原技術堆棧的檻,開源項如 CodeFlare?86就很好的解決了這問題。?98 3.53.5 成式智能成式智能的企業級應的企業級應?3.5.13.5.1 成式成式 A AI I 的五模態的五模態?根據內容產模態,成式
195、AI 能夠被分為四基礎模態,包括本、頻、圖像、視頻,每種模態技術都有著獨特的應場景和特點。此外,這四類模態的融合還帶來第五類模態跨模態內容成模式,持創造出更為豐富多彩的成內容?87。?3.5.1.13.5.1.1 本成本成?本內容成可以致分為交互式和交互式兩種。交互式本成包括摘要/標題成、本格遷移、章成、圖像成本等技術。這些技術可以根據不同的使場景,動成符合要求的本內容,提本成的效率和質量。交互式本成是種更加智能化的應式,可以根據的需求和反饋,成更加貼近需求的內容,主要包括聊天機器、本交互游戲等應。?【代表性產品或模型】:JasperAI、copy.AI、ChatGPT、Bard、AI?dun
196、geon?3.5.1.23.5.1.2 頻成頻成?頻成技術是種通過算法和模型成頻的技術。頻成技術可以應于特定場景下的本成語,如數字的播報、語客服等。這些場景化的應可以根據和場景的需求,通過算法成符合要求的語,提體驗和效率。此外,該技術在?C?端產品中也分常,如智能家居、載響、虛擬助等。?【代表性產品或模型】:DeepMusic、WaveNet、Deep?Voice、MusicAutoBo?99 3.5.1.33.5.1.3?圖像成圖像成?圖像成技術是種通過算法和模型成圖像的技術。圖像成技術可根據使場景分為圖像編輯修改和圖像主成。圖像編輯修改技術可實現對圖像的重構和修復,提圖像的質量和清晰度,滿
197、對圖像處理的需求,如圖像修復、臉替換、圖像去印等。圖像主成技術通過算法和模型實現對圖像的主成,可以為提供更加多樣化的圖像服務,如參照圖像成繪畫圖像、真實圖像成素描圖像、本成圖像等。?【代表性產品或模型】:EditGAN,Deepfake,DALL-E、MidJourney、Stable?Diffusion,格?3.5.1.43.5.1.4 視頻成視頻成?視頻成技術是種通過算法和模型成視頻的技術。視頻成技術可以根據使場景分為視頻編輯和視頻主成。視頻編輯技術可應于視頻超分辨率、視頻修復、視頻畫剪輯等。視頻主成技術的核原理是使深度學習模型對圖像或視頻進分析和理解,再根據特定算法成相應的視頻??蓱趫D
198、像成視頻、本成視頻等。?【代表性產品或模型】:Deepfake,videoGPT,Gliacloud、Make-A-Video、Imagen?video?100 3.5.1.53.5.1.5 跨模態成跨模態成?跨模態成是指通過組合不同模態的 AI 技術,實現模態間的轉換和成??缒B成通過實現不同媒介之間的轉化和成,拓展了智能應的領域和應場景,持將不同的信息形式轉化為類可理解的其他形式,例如將本轉化為圖像、頻或視頻,將圖像轉化為本、頻或視頻,從實現更加然、直觀、效的交互式??缒B成技術同時也可以應于各個領域,如藝術創作、告營銷、教育培訓、醫療診斷等,提升AIGC 的產業化和業化應能。?【代表性產
199、品或模型】:DALL-E、MidJourney、Stable?Diffusion,?watsonx?3.5.23.5.2 業務賦能業務賦能?企業在利成式 AI 進業務賦能的過程中,需要構建基本準則,通過開放創新和柔性監管協同發展,達到有針對性地賦能。在具體實施過程中,有效的動舉措為成式 AI的落地提供指引,AI 聯盟的成將成為可靠的第三,為業務賦能保駕護航,同時,成式 AI 與各各業的深度融合,為業務賦能帶來更多的機遇和價值。?3.5.2.13.5.2.1 構建基本準則構建基本準則?先是開放開放,企業應該積極擁抱領先的 AI 技術,并且借助開源社區、開源技術加速創新;其次是針對性針對性,如幫助
200、企業使的數據,開發針對特定場景、能快速產收益的 AI 模型(如 HR 流程動化、客服系統智能化、IT 應現代化等),同時確保符合內部規章;第三是可信可信,這不僅涉及數據的治理、模型的監管,也包括各國、各業的不同的 101 合規要求;第四是賦能賦能,企業需要個上快、可擴展的具平臺,基于的數據來訓練、調優、部署 AI 模型,不只是當個模型的消費者?88。?3.5.2.23.5.2.2?推動推動開放創新開放創新?在成式 AI 即將顛覆創新格局之際,當下正是組織重新評估其創新法的絕佳時機。傳統創新是種封閉的內部流程,僅利組織的內部資源,在嚴格保密的環境中創造驚喜和競爭優勢。但傳統的“封閉式”創新已不能
201、滿當下基于合作的態系統經濟,開放創新是推動業務發展的明智決策。開放創新是種需要共同投資和攜共創的態系統游戲。平均,每投 1 億美元的創新出,組織要與約四家態系統合作伙伴開展合作。開放創新的核是基于共享數據和洞察建合作伙伴關系?89。?隨著成式 AI 嶄露頭,改變創新式已經成為項尤為緊迫的任務。企業管們期望成式 AI 在整個創新命周期中發揮重影響,從構思、發現、評估、執到商業化,以及應于態合作和成果衡量(圖?14?成式 AI 在創新命周期中的影響)。他們不僅將成式 AI 視為創新具箱中的件新利器,更堅信成式 AI 將顛覆現代化企業創新的本質?89。?圖?14?成式 AI 在創新命周期中的影響?1
202、02 為什么許多企業都法充分把握開放創新的商機?簡之,因為這太難了。從絡安全問題、技術障礙到缺乏靈活性,多重挑戰都將阻礙態合作伙伴之間的創新合作。協同內部部并消除創新中的職能孤島已經夠困難的了。再要引外部合作伙伴,并通過“合縱連橫”讓它們發揮能為共同標努,這難度實在令望卻步。?成式 AI 可以幫助企業克服所臨的些挑戰。事實上,多數組織表前正在評估成式 AI 是否可作為開放創新具或正在開展相關試點,主要就是因為成式 AI 能夠改善態合作。?但僅靠成式 AI 法播散開放創新的種。在技術指數級發展的時代,要將愿景轉化為現實,組織必須明確可從與態合作創新中獲得哪些業務價值,以及實現這標需要哪些條件。?
203、3.5.2.33.5.2.3?推進柔性監管推進柔性監管?制度的合法性對于全球創新絡的險有定的解釋,許多學者的研究表明組織合法性是組織發展壯的重要資源。2023 年 5,OpenAI 公司 CEO?Sam?Altman 在美國國會的智能監管聽證會上表需要建個新的法和監管體系以應對 AI 的潛在險。隨著成式智能服務管理辦法(征求意稿)絡信息內容態治理規定絡數據安全管理條例(征求意稿)互聯信息服務深度合成管理規定(征求意稿)等政策法規的相繼出臺,我國正積極開展成式智能的治理實踐。?AIGC 技術的應涉及多個業,例如醫療、融、媒體等,業協會、企業和政府需要通合作,制定適應各領域需求的指導針和標準,勵
204、AIGC 技術在社會中的泛應,協同推動創新。?103 3.5.2.43.5.2.4?制定動舉措制定動舉措?編寫智能動冊,持員將其作為實踐。動冊應是動態檔,根據成功和失敗經驗以及 KPI 列明作清單和程原則。創建在設計中和數據中交匯點運所需的架構和團隊結構?90,這是真正的變推動因素。?堅持檔記錄。讓數據科學家參與作。必須深刻認識到,部署智能模型不是唯的標,也不意味著項的終結。為擴展智能,在模型投成環境后,仍需評估并不斷改進。如果模型法重復運,則意味著不可靠,檔記錄是實現可重復性的重要保證。?注重道德觀念。持續監控智能模型的可解釋性、公平性和強健性。開發檢測算法(道德“機器”),作為搜索意偏及其
205、他問題的虛擬“顯微鏡”。?不僅要實現規?;\,還要進規模創新。采并整合深強的然語處理能,以及符合獨特例的其他前瞻性智能要素,從明顯提升商業價值。整合各種內部和外部數據源,為“最新尖端”技術分配資源,采智能初創企業的思維式。?3.5.2.53.5.2.5?加加 AIAI 聯盟聯盟?通過與態系統合作伙伴合作,尋求幫助??紤]與其他企業開展合作,共同制定和/或影響于治理智能模型的相關標準,提透明度并增進信任。與學術機構、智庫、初創企業以及其他值得信賴的第三開展合作?90。?前,IBM 和 Meta 與全球?50?多個創始成員和協作者宣布成AIAI 聯盟(聯盟(AI?AI?AllianceAllianc
206、e)?91,AI 聯盟由來業界、初創公司、學術界、研究和政府的領先組織構成,共 104 同持智能領域的開放式創新和開放科學。以動為導向,具有明確的國際性,旨在通過泛多樣性的組織在各個領域和地區創造機會,從在塑造智能發展的過程中,能夠更好地反映社會的需求與復雜性。更多信息參閱?92。?AI 聯盟致于培育個開放的社區,使開發員和研究員能夠加速智能領域負責任的創新,同時確??茖W的嚴謹性、信任、安全、保障、多樣性和經濟競爭。通過匯聚頂尖的開發員、科學家、學術機構、公司和其他創新者,我們將聚合資源與知識來解決安全問題,同時提供個平臺,共享和開發符合世界各地研究員、開發員和采者需求的解決案。?隨著模型技術
207、的突破,新輪智能浪潮正在引領各各業快速發展。數據作為此輪變的主要驅動,已成為智能發展的關鍵戰略要素。但國內智能業正在臨質量訓練數據供給不、訓練數據治理平不、數據供需流通機制不暢等挑戰,制約了我國成式智能創新發展。?為破解 AI 數據短缺難題,中國智能產業發展聯盟(AIIA)成“數據委員會”。AIIA 數據委員會擬定 2023 年 10 中旬舉辦成儀式,成后將與智能關鍵技術和應評測信部重點實驗室、中國通信標準化協會數據技術標準推進委員會(CCSA?TC601)等組織加強協同,共同推動產業研究、標準研制、技術應等相關作?93。?3.5.2.63.5.2.6 關注業機遇關注業機遇?隨著成式 AI 與
208、各各業深度融合,其賦能重構的業將會持續增加。根據羅蘭格的評估分析,成式智能將率先對互聯與科技、融和專業服務等知識密集型業帶來較影響,分別帶來?6.5%、6.8%、11.3%的成本下降;其次將賦能教育、通信、105 醫療、公共服務、零售、娛和傳媒等服務型業;對當前數字化程度不的農業、材料、建筑業、能源等傳統業影響相對較??偟膩砜?,成式智能的價值發揮需要堅實的信息化、數字化撐,有望在相關業的研發設計、產制造、運營管理創造巨價值。?成式智能深賦能數字經濟,為各業領域帶來新輪發展機遇。伴隨著成式智能影響規模的不斷擴,賦能各各業實現數字化變與發展。融業領域,成式智能能夠幫助繪制融險圖,協助打擊洗錢等融犯
209、罪。汽業領域,成式智能能夠提載智能語交互效率,還能為動駕駛模型訓練提供質量合成數據,幫助解決動駕駛系統開發過程中的數據和測試難題。更進步,多模態成模型正有望加速推動“多模態感知到決策規劃”的端到端動駕駛落地應。傳媒業領域,成式智能可以根據本提成字、圖、頻、視頻等,為告配上引勝的視覺內容。制造業領域,成式智能可以應于機器視覺、數位分和主導航系統等,實現產線和倉儲物流等環節的化和智能化。農業領域,成式智能可以通過遙感模型測量農作物的勢情況,監測作物病害,預測農作物產量。成式智能的進步性價值將持續推動各業領域質量變、效率變、動變,推動經濟質量發展。?3.5.33.5.3 研究開發和設計研究開發和設計
210、?成式智能在各個領域泛應,前在研究開發和設計環節有很多業務場景,為復雜產品的研發以及相關設計職能帶來極的效率提升。成式智能通過代碼、圖 106 像動成能,可以提供基礎性、重復性的初步設計,提升設計產效率,縮短研發設計周期。?3.5.3.13.5.3.1 提升研究開發效率提升研究開發效率?智能在研發領域的應范圍常泛。例如,在藥物研發領域,利智能具提候選藥物質量、優化臨床試驗設計、降低臨床試驗成本和時間。前些企業利模型賦能藥企新藥研發,通過與跨學科研究團隊合作,推動醫療領域 AI 的可解釋性。?3.5.3.23.5.3.2?提升代碼開發效率提升代碼開發效率?智能編碼助可以提升產效率。旨在提升編碼效
211、率、減少錯誤,簡化測試例的編寫過程,以及提升軟件開發過程的效率和可靠性。例如,根據提供的然語描述或注釋,動成相應的代碼段,從提升編碼效率,減少因動編寫代碼產的錯誤。根據選定的代碼段,動成相應的單元測試例,節省開發員編寫測試例的時間,確保測試覆蓋全,提升代碼質量?94。?3.5.43.5.4 供應制造和交付供應制造和交付?在供應鏈中規劃成式 AI,需要對數據、AI 和動化有整體的認識,增強供應鏈的運營模式,打造智能化的作流。?107 3.5.4.13.5.4.1?提升數據可視化提升數據可視化?在益注重可持續發展的世界中,客期望供應鏈提供從第公到最后公的完全透明度。如果能夠引對數據和 AI 管道的
212、良好治理,智能作流可以讓這種可性成為可能。?但可數據并不總是等同于可消費的數據。這就催了對數據可視化的需求實際上就是將數據轉換為易于理解的格式并進傳遞。與 AI 和分析相結合,數據可視化有助于模擬決策影響、預測運營挑戰、對前瞻性的新戰略進建模,以及在沒有可歷史數據的情況下對選項進評估,尤其是應對些前所未有的情形??梢暬湍M已成為最管理層的關注點超過半(52%)的受訪管希望這些模型能夠提預測性運營的透明度和可性?95。?3.5.4.23.5.4.2?實現供應鏈動化實現供應鏈動化?隨著實時數據推動提模擬效率和預測分析的準確性,企業可以更輕松地制定未來規劃。CEO 正在迅速投資發展成式 AI,以實
213、現供應鏈的動化和簡化。事實上,89%的受訪管表,動化領域的關鍵投資將包括成式 AI。且,19%的受訪管表成式AI 對于其供應鏈動化的未來關重要?96。?數據、AI 和動化是相互依賴的??梢哉f,沒有數據就沒有 AI。AI 則是動化的基礎。正是因此,66%的受訪者表,如果沒有整合于體的數據和 AI 戰略,其組織的數字化轉型計劃就法成功?97。?通常,這種整體思維需要超越企業本。為了提透明度和可性,越來越多的企業管開始將智能作流與其態系統合作伙伴整合在起。事實上,53%的受訪管預計 108 新興技術將能夠通過這些態系統和絡數字連接來提透明度和可性。與現在相,超過兩倍的受訪管預計,到 2026 年,擴
214、展態系統合作伙伴的作流將通過智能動化實現數字化。?3.5.4.33.5.4.3?增強供應鏈運營模式增強供應鏈運營模式?創建學習的模擬系統,以便積極識別、可視化并主動糾正關鍵運營異常。實現事務作度動化,從提運營效率?96。?先,要搶占先機。預測并擁抱顛覆。部署分析、數據可視化和仿真模型,以及于模式識別的成式 AI 功能。在競爭激烈的形勢下,冷靜堅決地采取動,確保供應鏈正常運轉。?其次,將業務關鍵型接觸點置于要位置和中位置。將最關鍵且最具差異化優勢地供應鏈作流與早期地預測性成式 AI 例進協同整合。引關鍵合作伙伴,通過協作加強預測能。確保成式 AI 驅動地件可清晰識別且可審計。?此外,衡量預先建模
215、地積極影響。定期評估成式 AI 驅動式預測分析地績效和投資回報率。設定明確地標,確保這些作能達到預期成效,并根據需要進調整以實現持續改進。?3.5.4.43.5.4.4 打造智能化作流打造智能化作流?企業需要開發敏捷的智能化作流程以快速應對益嚴峻的形勢。?先,在各種計算環境中組裝數據以配置作流,從持智能和度動化。增強智能,打造更加智能化的作流。?109 其次,管理 API 以在應之間共享第三數據源。API 管理可在需要的時間將數據移所需位置。?再次,建事件驅動的架構,以便在檢測到特定情形時可動由數據觸發作流。?3.5.53.5.5 市場戰略和推市場戰略和推?期以來,企業直擁有打造度個性化體驗所
216、需的數據。但這些數據存儲在多個部的不同數據集中,營銷團隊直到現在仍然缺乏整合和利這些數據的能。成式 AI推動了度個性化內容創建和實時數據分析,從為營銷團隊提供實現個性化客溝通所需的動。?3.5.5.13.5.5.1?引領營銷團隊引領營銷團隊?超過四分之(27%)的受訪管預計,在采成式 AI 之后,營銷將實現動化。盡管這對營銷專業來說聽起來很可怕,但全球型告組織 WPP 的席執官Mark?Read 指出,這其中蘊藏著巨的機遇?98。?為了充分發揮其價值,成式 AI 模型需要訪問從營銷、銷售到服務的整個互動鏈的客數據。這意味著,營銷團隊臨著巨的增機會,但也需要拓寬數據隱私與治理視野,以管理品牌險并
217、維持客信任。然,只有 24%的受訪 CMO 表其營銷部分正在與銷售部和客服務部合作實施成式 AI。?重新思考營銷運營模式,實現更有效的機偕關系,讓類專注于更價值的作。增強創造、創新、戰略思維、決策、產品定位和營銷能可幫助營銷團隊提升技能并加速學習曲線。當營銷團隊取得進展之后,CEO 就可以將從中學習到的知識和經驗提煉成路線圖,以幫助其他智能部在整個企業中更有效地整合這項技術。?110 3.5.5.23.5.5.2?專注營銷內容專注營銷內容?將營銷材料與客旅程中的接觸點和關鍵時刻聯系起來,打造更加優質的營銷材料。簡化內容創作流程,讓類專注于更具價值的作,從提產?98。?告別寫作困境。向團隊展成式
218、 AI 如何加速內容制作過程。利基于您組織的數據定制化語模型來協助構思主題、標題、社交帖以及適合不同受眾的消息變體。通過三重檢查消除成式 AI 或類創作的任何內容中的偏。?彌合營銷內容與客需求之間的差距。確定在哪些環節需要內容來推動期望的客為和結果,并利成式智能制作能夠緩解客旅程中特定痛點的作品。?發現主動適應未來作的才。密切關注線員,探索成式 AI 所創造的新。那些從開始就接受成式 AI?的才將獲得洞、領先的實踐和經驗教訓,這有助于定義未來的 MarOps 模型。?3.5.5.33.5.5.3?實現度個性化實現度個性化?每位客都是獨的,但在傳統的營銷儀表盤中,這些個性化數據會被淹沒在聚合數據
219、的海洋中。建個關聯所需的細節信息都被淹沒了?98。?成式?AI?可以將復雜的客偏好與為整合為營銷員所需的切實可的洞察。通過更加迅速、動態地分析來各種來源的客數據,營銷團隊可以了解哪種案最適合特定客,并相應地調整外聯作。從個性化內容和體驗到定制化聊天機器持,成式?AI?可以幫助團隊實時滿客需求。?潛在應的清單不斷增,CMO 應當專注于建強的分析能基礎,以幫助他們跟上變的步伐。例如,78%的受訪 CMO 預計到 2024 年底將使成式 AI 進數據分析 111 并從數字?/?社交渠道中獲取洞察,前這例為 36%。86%的受訪 CMO 表預計到2025 年將使成式 AI 來分析客洞察。?統的數據將在
220、度個性化營銷中發揮關鍵作。為 CMO 賦予對所有接觸點(包括銷售和服務)的營銷技術體系的主權。建多學科營銷和 IT 團隊。協同 CMO 與 CIO 的優先事項,激勵兩者建合作伙伴關系。利成式 AI 建真正對營銷所需的基礎架構、系統和數據集成。?全了解客的需求。消除職能孤島,整合來營銷、銷售和客服務的數據,建客在貴公司業務中的完整個體旅程全貌。?利客數據增強開放模型。將您的客數據打造為最強的品牌差異化因素并防范錯誤信息。同時,利開放和公共模型的速度和可擴展性優勢來打造個性化體驗與產品,并持續保護敏感數據。?3.5.63.5.6 客互動和銷售客互動和銷售?成式 AI 打造的度個性化體驗有望徹底變企
221、業與客及員之間的交互式。利來銷售、營銷和服務智能的真實 360 度客數據,成式 AI 可以打造定制化體驗,并確定“下步最佳動”,從幫助企業吸引特定客。?3.5.6.13.5.6.1 重新設計客體驗重新設計客體驗?先,讓同理成為客體驗的指導設計原則。根據客的關切點來開發成式 AI 倫理,贏得客信任,同時要求態系統合作伙伴也遵守相同的標準。其次,通過為客提供值得信賴的體驗,從獲得數據回報。持續迭代以改進和個性化產品與服務,從實現增和更的投資回報率,將數據來源轉化為數據財富。最后,從客次接觸品牌開 112 始,將成式 AI 融客體驗中。通過成式 AI 推動個性化營銷活動、定向告和直接客外聯,并勵持續
222、客反饋?99。這種銷售數字體驗,將在各各業的企業中被重新定義,個性化定制將成為項標桿,僅僅提供定制化的互動體驗式不夠的,還要求體驗必須是直觀的,能夠在提出要求之前就滿他們的需求。?因此,成式 AI 有望提這些期望,并為企業提供滿這些期望的必要具。事實上,全球受訪管預計成式 AI 將成為未來顛覆其組織的體驗設計式的要趨勢。?3.5.6.23.5.6.2 快速分析客數據快速分析客數據?融服務公司可以使成式 AI 來快速分析其客數據,以及來社交來源和合作伙伴組織的數據,以確定哪些客最有可能采取各種動,從開設新的票賬、投資資產到申請貸款等。然后,成式 AI 可以幫助該融服務企業的管通過個性化策略和動化
223、、即時定制的優惠(翻譯成客的選語)實現真正的對營銷。?3.5.6.33.5.6.3 簡化在線搜索簡化在線搜索?在線零售商可以使成式 AI 來簡化其搜索功能。顧客可以然語(打字或語)描述想要的產品,指定關鍵細節(例如顏、尺或材料),不必使類別和過濾器。他們甚可以包括預算和期望的交貨期,以進步細化搜索結果。在這種情況下,顧客不僅可以輕松獲得所需的產品,還可為零售商提供有價值的數據,以便于指導未來的業務決策。?113 3.5.6.43.5.6.4 提升客服務提升客服務?在客服務領域試點成式 AI 有助于加速企業范圍內的成功部署。在疫情封鎖期間,們清楚看到了客服務可以實現的動化平,但同時缺乏際接觸也帶
224、來了定的損失。借助成式 AI,組織可以充分結合動化與性化的優勢。通過將兩者相結合,客服務將成為個概念驗證項,能夠向企業的其他部展新技術具如何提員滿意度、影響客參與度以及推動創造回報。利成式 AI 改善動回應的質量和對話能,可以快速演如何利 AI 的影響來升級組織內部其他領域的服務。對于多數組織來說,需求和機會都是闊的。例如,多數企業表缺乏審查和重新訓練客服務機器的能,只有半的企業能夠在問題出現時主動提醒客?99。?3.5.73.5.7 業應案例分享業應案例分享?隨著成式 AI 技術的到來,企業對 AI 的應開啟了個新的篇章,也將迎來新的“時代”。盡管“讓 AI 成為核產”已成為企業益迫切的需求
225、,但實際的落地應卻之功。對各不相同的應場景和復雜需求,企業管理者們也產了諸多的困惑。這分別分享個落地的企業專模型問答系統以及汽、融兩業領域在成式 AI 的成功經驗。?3.5.7.13.5.7.1 企業專模型問答系統程化落地企業專模型問答系統程化落地?通模型對于專領域的回答準確率通常低,需要構造企業專模型來滿準確率的要求。企業專模型程化落地主要包含下個階段(詳下圖?15?模型解決案):?114?圖?15?模型解決案?選取合適的模型。通模型使了公開的數據集,通知識,針對專有領域的準確度低,且通模型預訓練要花費量的算成本,對于企業,需要整合考量模型規模和資源消耗,選擇合適的模型不是味追求規模的模型。
226、?訓練專模型。通常要構建企業的專有模型,企業需要提供質量的內部數據集,對模型進訓練。這個階段需要關注數據的質量,數據的治理,建專有的企業知識庫,對專有模型進微調,知識擴充(可以外接知識庫來做增強)。?專模型反饋階段。通過給模型問答提與引導應模型,對模型給出的回答進打分,排序,進步優化模型,不斷更新知識庫,隨著知識的累積,繼續優化模型。?專模型的部署。在整個過程需要個整體平臺覆蓋模型訓練,服務服務應,模型部署等,需要對模型的命周期進管理,并且要求平臺穩定,安全,可擴展。?在整個程化落地的過程既需要科研能,模型能,數據管理能,還需要企業級服務能。既需要對專業領域常了解的專家,產品技術專家,數據科學
227、家,算法程師,架構師等等,可以依托 IBM 研發實驗室進共創。在訓練數據部分要提供數據管理和 115 治理能,模型訓練過程中的快速建模,持續優化和監督能。在平臺部署要持模型的部署,有算和其他硬件資源的持,平臺要有動態資源伸縮能,保持時間訓練的穩定性。?前專模型應中個較典型的案例就是專有智能問答,常的智能問答系統架構可以參考下圖,前端可以問答交互系統(如 watsonx?Assistant)持然語輸,并可以在頭定制些問答流程。企業內部的領域知識通過 embedding 模型存儲在向量數據庫中(如 watsonx.data)作為提程的知識服務。當問答系統把客問答,以及上下發給問答路由,到知識庫做相
228、似度搜索,把搜索結果作為提,提給基礎模型(可以部署在 watsonx.ai?上開源模型或有模型)最終把結果反饋給問答系統。?圖?16?智能問答架構圖?3.5.7.23.5.7.2 汽領域汽領域?隨著電動汽、動駕駛和先進安全功能等尖端技術的引,催了對更復雜、更智能的系統的需求,汽業發了重變化。在推動這些變的具中,成式 AI 脫穎 116 出,成為重塑汽業的股迅速崛起的量。事實上,成式 AI 已經對汽企業產了明顯的影響,可以在業務開發、產管理、財務管理、業務管理、供應鏈、市場銷售、服務售后等多個發揮積極作。具體案例可參章節 6.1。?圖?17?汽業在成式 AI 中的應?3.5.7.33.5.7.3
229、 融領域融領域?融業在使成式 AI 的時候,可以在業務開發與管理、渠道管理、客互動、產管理、運營持、財務險管理以及資源管理各得到很好的應。具體案例可參章節 6.1。?圖?18?融業在成式 AI 中的應?117 四四?成式智能治理成式智能治理?4.14.1 成式智能治理框架成式智能治理框架?圖?19?成式智能治理框架?本框架的核在于打造可信賴的 AI 系統,向 AI 全命周期的全時段,貫穿技術棧的全位治理,圍繞著五個關鍵特征,即可解釋性、公平性、透明性、健壯性和隱私性展開?100。?可解釋性:AI 系統模型做出決策或預測的依據,這些解釋應該可供具有專業知識和能的和公眾所理解。在技術上可以通過知識
230、程,AIX360,數據地圖,數據標準,元數據管理等式提模型和數據的可解釋性。?透明性:AI 系統的相關數據(包括原始數據和使過程中產的元數據)應作為信息披露的內容,如出現在產品說明中或供審計使。在技術上可以通過知識程,模型命周期,模型可視化,數據命周期,數據地圖,平臺的可觀測性等實現 AI 系統的透明性。?118 公平性:AI 系統應確保決策過程和結果不歧視任何個或群體,其表現應與統計學規律以及業務內容相吻合,對所有均公平公正。例如,貸款審批模型對信不良的產的“偏”是合理的。在技術上可以通過偏預防與檢測,數據質量管控等來提 AI 系統的公平性。?健壯性:AI 系統應對外界變化和潛在的攻擊有抵抗
231、,能夠穩定地運,有效處理異常情況和蓄意的對抗攻擊,降低安全險。在技術上可以通過對抗攻擊的檢測與預防,數據質量管控,平臺級的能源規劃等來保障 AI 系統的健壯性。?隱私性:系統必須保護個隱私,確保數據的收集、處理和存儲安全,且遵循相關的隱私保護法律法規。在技術上可以通過聯邦學習,多安全計算,匿名化,差異隱私,數據脫敏,數據安全等技術來保障 AI 系統的隱私性。?基于這五個特征,本章節將會討論如何將治理與 AI 全命周期相結合,介紹在不同技術層的相關技術段和具,通過引對應的評估技術和系列量化指標矩陣,從確保在企業引成式智能的全命周期內滿這些標準,幫助企業實現和維護標準的治理平。?4.24.2 融融
232、 AIAI 全命周期全命周期?Al 的治理不是次性的任務,是貫穿 AI 從引、開發、部署到維護全過程的持續活動。這要求企業在 AI 系統的每個領域都實施相應的治理措施,以緩解企業在與 AI 系統協作時可能引起的險,確保?AI 系統遵守所有相關法律和業標準,保證 AI 系統的穩定性和可靠性,將 AI 戰略與企業的業務標對。以 IBM 的 Ethics?by?Design?and?the?AI?Lifecycle?101和相關章?102為例,通常將治理融 AI 命周期包括以下步驟:?119?圖?20?將治理融 AI 全命周期?整體規劃:設計 AI 治理的總體規劃,分配治理職責,將治理和業務指標相統
233、,建評估式以及采納或建必要指標體系,段。此階段通常明確以下問題:?企業成式智能業務需要遵守哪些法律法規??企業成式智能業務所涉及的數據需要遵守哪些隱私保護要求??數據收集:獲取訓練數據,對數據進探索性分析,創建相關數據和索引,數據脫敏,元數據管理,數據清洗,數據質量分析等。此階段可以幫助識別明顯數據的錯誤,有助于理解數據中的模式,檢測異常值或異常事件,并找到數據之間的關系。需要注意的是,此過程需要遵循隱私數據保護相關的法律法規要求,如數據中涉及個份信息的部分需考慮匿名化處理。?訓練測試:在此階段團隊將數據訓練為模型,并對模型進涵蓋治理相關內容的測試,評估。MLOps 流線的式可以有助于將此過程
234、動化提效率。以公平性治理為例,在模型構建作開始前,可以進數據偏差相關檢驗。相類似的,穩健性,可解釋性治理等相關特性的檢測作也可以在此階段完成。?驗證部署:在模型正式部署到產環境之前,需要驗證其質量,驗證其公平性、透明度、可解釋性、穩健性和隱私性并成相關報告,團隊必須考慮是否適于任何 120 監管或監管要求。包括但不限于發布情況說明書、偏結果、隱私聲明或發布法律聲明。如果模型通過驗證,則將其部署到產環境。?監控管理:基于在產環境上收集到的相關指標數據,評估產環境上模型的質量,公平性、透明度、可解釋性、穩健性和隱私性等功能和功能指標,如記錄模型偏移情況。根據收集數據進分析,如果監測到相關指標出現異
235、常,采取對應動,包括但不限于告警,糾正,重新訓練模型等等。通過持續的優化為以保證模型可信。?4.34.3 成式智能模型成式智能模型治治理理技術技術?4.3.14.3.1 模型可解釋模型可解釋?正如智能如何向新階段中提到的,當前需要打破 AI 的盒狀態?103?,F階段,個可解釋模型/算法來解釋 AI 模型是種嘗試打破 AI 盒狀態的段。AI?Explainability?360 項?104構建了基于不同業務場景,范圍(全局可解釋,局部可解釋),對象(數據,模型),數據格式(本,視頻)度進可解釋算法選擇的決策樹?105。遺憾的是,前這棵決策樹上仍存在空,這和業界對于如何打破 AI 的盒還處于起步階
236、段的狀態致,前可以分為以下類別:?數據可解釋:我們可以通過各種算法如(DIP-VAE,ProtoDash 等),來加強們對于特征值或樣本數據的理解。?模型可解釋:?121 模型全局直接可解釋:對于了解整個決策過程并保證其安全,可靠合規常重要。通??梢詠硖幚頉Q策樹,布爾規則和義線性回歸等模型。?模型訓練后全局直接可解釋:通過后建個解釋模型的式,在盒模型訓練之后解釋盒模型,以 ProtoDash 算法為例,可以更好的幫助們建盒模型決策結果和原始數據之間的聯系,為本次模型決策的結果找到歷史數據中的參考。?模型局部可解釋:此類算法更多的側重于對某條具體數據的解釋。如找到某條數據未能通過審核的依據。以
237、CEM 算法為例,此類算法更多的展現了某個樣本的特征值對決策過程的影響??梢杂谀P蜆颖揪植靠山忉尰蚰P吞卣髦稻植靠山忉?。?4.3.24.3.2 知識程知識程?參考章節 3.2.5,通過知識程可以部分打開模型的盒,語模型存在著局限性,例如幻覺問題,知識新鮮度問題,以及數據安全問題。為了解決這些問題,RAG(Retrieval?Augmented?Generation)檢索增強成技術成為很多企業的選,通過這種架構,模型可以從外部知識庫搜尋相關信息,然后使這些信息來成回應。具體的做法是把私域知識檔進切然后向量化后存儲在向量數據庫中,然后通過向量檢索的式找到最近似的結果,再將其作為上下輸到語模型進歸納
238、總結。知識圖譜,圖數據庫等技術也可以很好的反應實體和數據的關系,來作為輸出的依據,提可解釋性。?122 4.3.34.3.3 模型可視化模型可視化?對于訓練結果,模型可視化可以增強(機器學習)模型的透明性,由于(機器學習)模型常常被視為“盒”,內部的作機制對于最終不透明,這增加了在實際應中建對這些模型信任的難度。因此通過可視化段增強模型的信任度,可視化可以揭模型如何從輸到輸出的具體處理過程,包括原始數據的質量和來源,數據的標注與特征程,學習法和算法,模型訓練,以及模型的評估等,這種透明性幫助理解模型是如何作的,通過不同階段的透明性增加對模型的信任?106。?4.3.44.3.4 防范對抗攻擊險
239、防范對抗攻擊險?模型的健壯性,主要體現在模型防范對抗攻擊的能,對抗攻擊經常發在模型分類的邊界處,基于對抗攻擊的原理,已知對數據和模型存在規避,投毒,推理和反演,模型提取等在內的多種安全威脅。通常,對于對抗攻擊,我們要建指標和驗證機制來將專業領域的知識轉化落地成為對于對抗攻擊的預防機制。在 Adversarial?Robustness?360 項中收納對抗攻擊類型的列表、指標、驗證標準等相關信息并對防御機制進了開源技術實現?107。對抗攻擊的預防可以根據采取措施的階段致分為預處理防御、后處理防御、訓練防御、轉換器防御式。?4.3.54.3.5 模型公平模型公平?公平性算法,可以根據其在命周期中的
240、位置分為預處理,過程預,后處理三類,每個類涵蓋了不同算法的實現。般,預處理類型作于原始數據,過程 123 預作于訓練過程,后處理基于盒模型且法修改數據或學習算法的情況,在不同位置對公平性進處理有各的優勢和不?108。?預處理算法:這類法可以通過調整樣本權重的式成個新的數據集來同時解決群體公平和個體公平問題,但需要注意的是,由于偏存在的式可能會較復雜,因此可能會影響轉化后的數據集的質量和公平性。?處理中算法:通過在訓練過程中添加正則化感知等技術來影響訓練算法中的損失函數從處理偏。?后處理算法:對于只能訪問盒模型的情況,只能采后處理算法。并且可以避免對模型的次訓練,在實際過程中,需要考慮這類算法對
241、模型結果準確性的影響。?4.3.64.3.6 隱私隱私保護保護技術技術?從數據隱私的度,我們看到了多種實現式,如基于密碼學同態加密,聯邦學習,差異隱私,或數據匿名化與模型匿名化等段?;诓煌拿艽a學技術的能和段在 AI命周期的不同環節在進數據隱私保護處理的同時完成了模型訓練等任務。在實際使中可以參考 AI?Privacy?360 項中建的據隱私安全評估流程,和具選擇流程圖。我們需要結合數據隱私保護的實際情況,找到合適的式實現對于模型和數據隱私保護?109。?差異隱私:通過數學能如隨機噪聲來保護個隱私的同時保持數據的統計的準確性。但考慮到不同實現上的區別,有些實現式可能很難與其他維度的算法同時效
242、。?匿名化:通過創建于模型的定制匿名化案,在使訓練數據訓練模型之前對數據進匿名化的式來提模型的隱私能,但是這過程中選擇的標識符可能會影響到模型的識別能。?124 同態加密:基于同態加密對密的運算能,通過對加密數據實施不同的分析和模型解決案。?聯邦學習/多安全計算:各通過協作訓練模型的式減少數據貢獻和交互,增強了數據的隱私性。通常,該法也會和其他法如差分隱私,同態加密,多安全計算相互結合。?4.3.74.3.7 模型漂移模型漂移?模型漂移?110是指由于數據變化或輸和輸出變量之間關系的變化導致模型性能下降。模型漂移會顯著影響模型質量,隨著時間的推移和漂移的積累,原本偏的模型可能會產偏。如果構建模
243、型使歷史的數據和現業務數據存在過偏差,歷史數據的模型可能法正確對現業務數據進預測或判斷,此時可解釋性技術也法效。以下是漂移的典型情況:?元數據漂移?-?Metadata?Drift?當數據的元數據發變化時,會發這種漂移。元數據包含有關數據的上下信息,如數據的架構、標準或類型定義。元數據的變化可能包括值范圍的改變、新類別的引或數據格式的變更,這些都可能影響模型的表現。應該持續監控和探查模型的輸和輸出數據在這些層的漂移,并定期評估模型表現是否隨之發變化。?上下漂移?-?Context?Drift?收集數據的條件或它適的環境也可能發變化。即使數據本沒有變化,周圍環境或適場景的變化也可能使基于該數據的
244、模型準確性降低。例如由于外部因素,市場條件或為的變化可能導致上下漂移。?125 置信度漂移?-?Confidence?Drift?這種漂移涉及模型隨時間對其預測的置信度的變化。這可能是由于輸數據的變化或模型已學習的變量之間關系的變化。當模型的性能指標(如準確性或精確度)開始下降時,通??梢詸z測到置信度漂移。?數據分布漂移?-?Distribution?Drift?指輸數據的統計屬性隨時間發變化。這種變化可以顯著影響模型的性能,因為模型訓練時的假設不再適。例如,輸特征的均值或差的變化或分類問題中類別例的變化都是分布漂移的指標。?4.44.4 成式智能模型成式智能模型治治理具理具?4.4.14.4
245、.1 開源項開源項實現實現參考參考?4.4.1.14.4.1.1 模型可解釋性模型可解釋性?-?AIX360AIX360?AI?Explainability?360?111具包通過多種法和算法持 AI 模型的可解釋性。它包括直接可解釋法和事后解釋法以及相關評估指標,這些法可以是局部的也可以是全局的。這些具適于不同的,從監管者到最終,為決策和合規提供適當的解釋。此具包為險應設計,強調模型的透明性、可解釋性以及消費者對 AI 決策的理解。它還提供了豐富的教程和資源,幫助開發者實施和理解這些法。?126 4.4.1.24.4.1.2 模型公平性模型公平性?-?AIF360AIF360?AI?Fair
246、ness?360(AIF360)?108提供了套綜合具,于識別和緩解機器學習模型中的偏。這包括各種數據和模型的公平性度量法,以及于減少數據集和模型偏的算法。AIF360?持對訓練數據和模型進公平性評估,并提供預處理、過程中處理和后處理的偏緩解策略。具集還包括教程和例,幫助開發者理解和應這些法。相關案例可參智能安全標準化書(2019 版)附錄 B.5?IBM?智能安全實踐?112。?4.4.1.34.4.1.3 模型健壯性模型健壯性?-?Adversarial?Robustness?ToolboxAdversarial?Robustness?Toolbox?AI 對抗健壯性具包(ART)?107
247、提供了套全的具和法,于增強機器學習模型抵抗對抗攻擊的能。ART 持針對各種機器學習框架和任務類型的攻擊法,包括欺騙、數據投毒、模型提取和推斷攻擊。它不僅包括各種攻擊技術,還提供了防御機制,如預處理、后處理、訓練期間的防御和檢測技術,以及對抗訓練法。此外,ART 也提供了系列開發者教程,幫助開發者更好地了解和使這些具。?4.4.1.44.4.1.4 AIAI 模型全命周期管理模型全命周期管理?-?AI?FactsheetAI?Factsheets s?AI 模型全命周期管理涉及從設計、開發到部署和維護階段的全位管理內容。所以需要個系統以結構化的式收集、記錄和報告這些 AI 模型的關鍵信息和元數據
248、。這些信息包括但不限于模型的訓練意圖、業務標簽、訓練數據、模型版本、性能指標、公平性和健壯性評估結果等,以幫助開發者、和監管者全理解模型的為和限制。AI?Factsheets?113項旨在實現這些標,增加 AI 模型的透明性,提升對 AI 系統的信 127 任,并應對法規和監管要求。同時 AI?Factsheets 也有助于在整個開發和部署過程中實現更好的決策和監控。?4.4.1.54.4.1.5 模型模型開源項開源項?-?InstructLabInstructLab?模型開源和開放通常圍繞訓練數據和訓練過程,對于訓練數據和過程,以InstructLab 項?114為例,在實現模型通過 Hug
249、ging?Face 平臺開源共享的同時,公開模型訓練所使的數據集合。其背后通過 Large-Scale?Alignment?for?ChatBots?115技術,實現了模型訓練所使數據的公開透明。該項基于 Apache 許可證發布的策略也允許使者根據私有數據調整的模型,具備良好的商業兼容性。IBM 在博客中?116分享了通過對這項技術的應所取得的成果:?通過 IBM?watsonx 和該技術顯著改進了 Granite 模型。?有效提了模型可解釋性。?緩解了 GPT-4?等專有?LLM?成合成數據的合法性險。?出的對數據可以為更、更具成本效益的模型帶來級功能,以根據企業需求進定制。?4.4.1.
250、64.4.1.6 模模型評估型評估?HuggingHugging?F Face?ace?EvaluateEvaluate?Hugging?Face?Evaluate?117旨在為不同領域的機器學習和深度學習模型(如然語處理、計算機視覺、強化學習等)提供簡單致的評估式和評估指標。它允許通過代碼在本地或分布式訓練任務中評估模型,確保評估過程的致性和可復制性。?Hugging?Face?Evaluate 庫持泛的評估指標,覆蓋了多個機器學習和深度學習領域。128 這些指標包括但不限于本成的準確性(如精確匹配)、分類任務的混淆矩陣、語模型的困惑度(perplexity),以及然語處理任務的 ROUGE
251、 和 BLEU 分數等。?4.4.24.4.2 基于開源的商業產品基于開源的商業產品實現實現?watsonxwatsonx.?governancegovernance?以 IBM?watsonx.?governance平臺為例,該平臺集成了 IBM 現有的些產品能以及開源實現,如 AI?Factsheets,除上介紹的部分開源技術和具之外,還包括以下部分:?4.4.2.14.4.2.1 AIAI 模型監控和評估模型監控和評估?-?IBM?IBM?Watson?Watson?OpenOpenS Scale?cale?AI 治理的核任務是確保智能系統的開發、部署和使過程中的透明度、安全性、公平性等
252、,以實現可信 AI。這需要對 AI 模型的訓練和部署后的表現進持續的監控,并基于可信 AI 各維度的指標對數據和模型進持續評估。附錄?將會詳細介紹這些指標。IBM?Watson?OpenScale?118產品提供了傳統 AI 模型和 LLM 的可信 AI 監控和評估能。?通過抓取模型在線調的交易數據,實時評估模型的質量、數據和模型的漂移、各個特征和特征組的公平性和可解釋性,以此幫助持續提升 AI 模型的可信度。?4.4.2.24.4.2.2 AIAI 模型險管理模型險管理?-?IBM?OpenIBM?OpenP Pagesages?AI 模型治理的另重要維度是 AI 模型的險管理。其重點在檢查
253、和報告模型的運是否符合業標準和法規要求。IBM?OpenPages?119產品可以幫助映射政策、度量和模型多個監管要求,如歐洲 AI 法案,GDPR 等,并持跨法規的模型險評估。同時提供流程引擎和預警策略,滿險事件的快速響應和審計需要。?129 4.54.5 成式智能成式智能數據治理數據治理?數據治理主要包括主數據管理,元數據管理,數據質量,數據標準,數據安全與隱私保護,數據地圖和數據命周期等核功能。數據治理在數據全命周期中發揮著重要的作,經過治理后的數據提供給消費者,才能最化數據產價值。詳圖?21?數據治理功能圖。?圖?21?數據治理功能圖?4.5.14.5.1 主數據管理主數據管理?201
254、8 年中國信通院牽頭編寫的主數據管理實踐書(1.0 版)?120,主數據的定義如下:“指滿跨部業務協同需要的、反映核業務實體狀態屬性的組織機構的基礎信息?!?從定義中可以看出主數據是企業中跨部共享的核業務數據,通過主數據管理,保證主數據的共享性、穩定性和可持續擴展性,解決企業在不同系統中存在的數據孤島問題,降低溝通成本,提升跨部協作能。?實現主數據管理標主要包括以下點?121:?130 建組織機構。主數據的管理不僅僅是個技術問題,由于主數據涉及的業務部,業務流程繁多,主數據的管理需要各部達成共識,共同推進,建組織機構可以有效的推進主數據管理的執過程。同時實現主數據管理往往需要得到層領導的夠重視
255、和授權。?制定主數據管理標準。只有建統的標準化數據模型,才能實現跨部,跨業務流程的數據集成和共享。建完善的主數據實施框架。主要包括系統現狀的分析與評估,明確主數據實現標,指定主數據實施案等。?4.5.24.5.2 元數據管理元數據管理?元數據,或稱為“數據的數據”,是來描述數據的信息,它提供了對數據的詳細描述,使得數據的理解、使和管理變得更加效。元數據不僅記錄了數據的基本信息,如數據的來源、格式和質量等,還包括了數據的結構、規則和約束等更深層次的信息。與元數據相對的是數據本,即元數據所描述的對象,它可以是本、圖像、視頻等任何形式的內容?122。?數據和元數據之間的關系可以類于圖書和圖書錄之間的
256、關系。就像圖書錄通過記錄圖書的標題、作者、出版社等信息來幫助們找到和了解圖書樣,元數據通過記錄數據的相關信息來幫助找到、理解和有效使數據。?元數據有很多分類式,種被泛接受的分類是:業務元數據,技術元數據和操作元數據。?131 業務元數據:業務元數據主要描述了數據在業務過程中的含義和途,它關注數據如何持業務活動。例如,業務元數據可以解釋個數據字段表的是客的姓名還是客的賬號,幫助業務員理解數據的業務含義。?技術元數據:技術元數據關注的是數據的技術層的描述,包括數據的結構、格式、存儲位置等信息。它主要被數據程師和 IT 專業員使,以持數據的集成、管理和維護作。例如,技術元數據可以描述個數據庫表的結構
257、,包括表中的字段名、字段類型和約束等。?操作元數據:操作元數據記錄了數據的操作歷史和狀態信息,如數據的創建時間、最后更新時間、訪問記錄等。它對于監控數據的質量、審計和遵從性管理常重要。操作元數據使得組織能夠追蹤數據的命周期,確保數據的準確性和可靠性。?元數據存儲庫是于存儲和管理元數據的系統。它不僅存儲元數據本,還持元數據的搜索、查詢、更新和維護等功能。通過元數據存儲庫,組織可以有效地管理其數據資產的元數據,提數據的可發現性和可性。?元數據管理的核是要對元數據進規劃、控制和監督的過程,以確保元數據的質量和有效性。個有效的元數據管理策略可以幫助組織實現更好的數據治理,提數據的致性、透明度和可信度。
258、元數據管理通常包括元數據的收集、存儲、維護、共享和使等。?4.5.34.5.3 數據質量數據質量?數據質量在智能實施中關重要的原因有很多,錯誤傾斜的數據會影響模型的結果。并不是所有的數據都是平等,有些數據在整個模型訓練中占據更重要的地位,有些數 132 據更多的是輔助和補充,含量并不。所以對數據進剖析,評估數據的質量的重要性不喻。數據質量的評估標準主要有 6 個,包括:?123?準確性:準確性是指數據記錄的信息是否存在異?;蝈e誤,是評估數據質量的要標準。?致性:致性是指數據是否遵循了統的規范,數據集合是否保持了統的格式。?完整性:完整性是指數據是否存在缺失的情況,數據缺失的情況可能是整個數據記
259、錄缺失,也可能是數據中某個字段信息缺失,不完整的數據可能導致數據的錯誤傾斜,只有完整的數據才是有意義的。?及時性:及時性是指數據從產到可以查看的時間間隔,也叫數據的延時時。過時的數據可能會影響數據分析結果的準確性和可靠度,數據分析師需要定期檢查數據并及時更新。?有效性:有效性是指數據要符合相關業的業務規則。如銀卡、電話、郵箱的格式等。?唯性:唯性是指針對某個數據項或某組數據,沒有重復的數據記錄。?數據質量管理是從數據產到消亡整個命周期的管理,數據質量管理的標是通過可靠的數據提升數據價值,幫助企業開展業務和獲取更多的經濟利益。?4.5.44.5.4 數據標準管理數據標準管理?數據標準是指企業為保
260、障數據的內外部使和交換的致性和準確性的規范性約束。制定數據標準,實現數據標準化是開展數據治理的基礎。?133 企業的數據標準來源常豐富,制定數據標準之前,我們通常需要考慮企業本制定數據標準的需求,為什么要制定數據標準,結合企業內部的實際情況,同時也要考慮外部業的監管需求,是否有國家相關標準參考,結合之上的這些需求規劃數據標準的制定。?DCMM 描述的數據標準包括?121:?業務術語:業務術語標準化保證企業內跨部員對某具體技術名詞理解的致性,提協同作效率和溝通準確性。?參考數據和主數據:參考數據是對其他數據進分類和規范的數據,主數據是跨部之間共享的數據,參考數據和主數據標準化,可以有效的提數據質
261、量和數據可性。?數據元和指標數據:數據元是指表數據的最單元,數據元標準化可以提數據的致性和準確性。指標數據通常于統計分析,為管理層決策提供參考,指標數據標準化提了決策的準確性。?4.5.54.5.5 數據安全數據安全?數據安全體系致分為三個:數據安全戰略,數據全命周期安全,基礎建設安全。?數據全命周期安全包含采集,傳輸,存儲,數據共享與使安全,銷毀安全等等。產品在實現時需要制定數據保護策略和數據保護規則,并根據這些策略和規則對數據進脫敏,實現數據安全共享。?常的數據保護策略包括?121:?數據分類分級:對數據進分類并根據其敏感性和重要性設定安全級別。?134 數據訪問控制:對數據訪問設置權限控
262、制,僅允許授權的能夠訪問相應的數據。?數據加密:對數據進加密,將數據轉化成密顯或者存儲,只有授權的才能查看原始數據。常的數據匿名化技術包括:數據脫敏,泛化,數據置換,數據替換。?數據合規性合法性檢查:確保數據在全命周期中遵守相關法律法規和標準,參考1.3 法律法規部分。?備份和災難恢復:企業應制定合理的備份策略,定期對數據進備份,進異地備份等,同時還需要進災難恢復測試,以保證備份數據的可性和備份恢復的及時性。對數據進備份是保障數據安全和防數據丟失的重要措施。?4.5.64.5.6 數據地圖數據地圖?亞信科技的數據事業部總經理偉在數據資產管理書中提到:?數據地圖是種圖形化的數據資產管理具,它提供
263、了多層次的圖形化展,并具備各種度控制能,滿業務使、數據管理、開發運維不同應場景的圖形查詢和輔助分析需求。由此可以,數據地圖主要解決取數據和數據的兩難題。?數據地圖其實還衍出三個常重要的應:全鏈路分析、緣分析和影響分析。?全鏈路分析可以查找某個對象上下游所有數據鏈路的關系,能夠清晰的看到數據從哪來,被到哪。?135 緣分析通過向上溯源,從找到以某個數據對象為起點的所有相關元數據對象以及這些元數據對象之間的關系。通過緣分析,可以幫助快速定位問題,進差異化分析,指標波動分析等。?影響分析通過向下挖掘,找到下游關聯的所有元數據,反應數據的流向和加過程。通過影響分析,當想修改張基礎表時,可以快速定位這張
264、表關聯的所有下游表。?4.5.74.5.7 數據命周期數據命周期?數據命周期管理是指對數據在整個命周期過程中的管理。從靜態看數據存在成,活動,衰退,歸檔和銷毀各個階段,從動態看數據存在數據采集,存儲,處理,交換,銷毀等階段。數據命周期管理根據數據成的不同階段管理數據,確保數據在各個階段的完整性和準確性,提數據質量。數據命周期管理致分為 5 個階段?124:?數據創建:數據時代,數據的來源異常豐富,但并所有數據對于企業都是必不可少的,必須評估數據與企業的相關性和價值,制定相關的收集策略。?數據存儲:收集后的數據經過清洗和整理,需要根據不同的數據集選取不同的存儲類型,還需要充分評估該存放式的基礎架
265、構是否存在任何安全漏洞,以及是否可對數據進各種不同類型的處理,例如數據加密和數據轉換,同時經過整理后的數據還可確保敏感數據遵守隱私和政府政策的要求,如 GDPR。?數據共享與使:數據經過處理以后,企業可以分享給組織內部或者外部的利益相關者。在數據共享時,可以采取相應的數據保護策略,以防未經授權的數據被訪問或者隱私數據泄漏。在數據使過程中,企業還需要制定數據備份和恢復策略,防數據丟失和災難恢復。?136 數據歸檔:需要定義何時歸檔,歸檔到何處以及歸檔多時間等等。?數據刪除:當數據不在使時,企業需要對數據進安全銷毀。?4.5.84.5.8 數據治理具數據治理具?4.5.8.14.5.8.1 開源實
266、現開源實現?Amundsen,托管在 LF?AI?and?Data?Foundation 的開源項,?主要包含元數據管理,通過結合 Neo4j 或者 Apache?Atlas 提供元數據,持從很多現有關系型數據庫中以及湖倉引擎中抽取元數據,沒有 RBAC 持?125。?DataHub,由 LinkedIn 和 Acryl?Data 開源的項,包含元數據管理、數據發現、數據緣、數據質量控制,持細粒度的數據訪問控制,持 RBAC,允許對元數據進細粒度訪問控制?126。?OpenMetadata?提供了統元數據發現、數據緣、數據治理、數據質量、定義術語以及員協同的開源平臺,持現有部分關系型數據庫、湖
267、倉引擎甚報表系統集成。其數據安全主要是各種 OAuth 認證?127。?Apache?Altas,持元數據管理、數據發現、數據分類、數據緣,通過跟Apache?Ranger 集成可以完成數據脫敏?128。?4.5.8.24.5.8.2 IBMIBM 數據治理數據治理具具?IBM 提供了企業級數據安全治理案 IBM?Knowledge?Catalog,持制定統的數據策略,對多種數據源的元數據統管理,多維度的數據質量分析,實現企業級數據安全管控案。在 IBM?Knowledge?Catalog 內部,內置了多樣化的動化的數據管理功能,使其 137 在增強數據治理發揮著關鍵的作。其中包括:業務術語、
268、定義數據類、業務和技術緣、數據地圖、數據質量規則、數據保護策略和規則、數據脫敏。尤其是其中提供了業加速器、業標準的術語庫、數據類庫和規則庫。便基于開箱即的業資產快速客制化,構建私有的業數據錄。同時提供 GDPR 等法規相關術語和規則庫,滿數據合規使和數據安全的需求。IBM?Knowledge?Catalog 同時提供給了豐富的界持,可以很好的展上下游數據加和轉換鏈路。在數據地圖部分智能動構建資產知識圖譜,可以全、直觀的圖形化展系統、業務域、資產元數據的全貌。這些補充能可以有效加速企業數據錄構建和相關數據治理作的開展。借助動化和智能能,IBM?Knowledge?Catalog 不僅可以簡化元數
269、據存儲庫的建設流程,構建數據質量和安全管理的閉環,還能夠加速業務團隊獲得更全的、可靠的數據,使業務分析師和數據科學家能夠縫地利它們開發規范性智能模型和成智能模型框架。?4.64.6 成式智能成式智能在基礎在基礎撐平臺撐平臺治理治理的新趨勢的新趨勢?基礎撐平臺通??梢酝ㄟ^硬件(如防墻)和軟件(如混合云平臺通常包括的命名空間,控制組,份驗證,組等)實現多種安全策略管理機制。這些安全機制共同協作可以更好的應對成式智能的險(章節 1.3.1),尤其是在數據隱私保護,絡安全,知識產權保護等。(圖?13 基礎撐平臺概覽)?隨著成式智能應的落地與實踐,我們收集到些最新的研究成果和業趨勢資訊,這些信息反映了業
270、界隨著成式智能應在基礎撐平臺部署實施所遇到的新問題和新趨勢。?138 4.6.14.6.1 可觀測性技術可觀測性技術?通過結合云原可觀測性技術,從實現貫穿應層,AI 層,數據層的端到端的跟蹤,以幫助理解和追蹤模型參數,性能指標,業務 KPI 在內的數據變化,并進步將這些觀測到的結果融模型改進的反饋循環中,參考 IBM?Instana 團隊的相關博客?129介紹了通過將可觀測性技術和成式智能相結合以實現將治理融 AI 命周期中監控管理的相關實踐。?4.6.24.6.2 可持續成式智能可持續成式智能?正如章節 2.2.2.3 中提到的,成式智能需要量的能源資源。對數據中能源的總帶寬是有限的,如何在
271、有限的能源帶寬下,更好的規劃和部署成式智能應,從達到最優的服務可靠性,成為了項新的挑戰。根據國際能源署(IEA)的預測,數據中是電需求增的重要驅動,到 2026 年智能相關電的增常需求會幅增?130?;旌显扑哂械撵`活性,如持多云部署和公有云私有云部署相結合的靈活部署式,可以在成本規劃提供更加靈活和豐富的選項。關于這的研究尚處于起步階段,如 Kepler 項可以指定負載的測量 GPU 的能耗?131為后續優化提供數據持,CNCF?TAG?Environmental?Sustainability?132?正在開始和推進這的開源合作。同時們發現,應專業的智能技術平臺作為基礎指導企業應級別的可持續計
272、算,能夠實現能源效調度和利,提升能源接系統的可靠性和質性?133。?4.74.7 成式智能治理的指標矩陣成式智能治理的指標矩陣?指標表參附錄?智能指標。?139 4.84.8 成式智能治理的結與展望成式智能治理的結與展望?成式智能是把雙刃劍,為我們帶來巨機遇的同時也存在不可忽視的險。本框架為負責任地開發和使該技術提供了指導原則和建議,但仍有待不斷完善。我們呼吁所有利益相關參與進來,共同推動成式智能的健康、可持續發展。?140 五五?企業企業級級成式智能的成式智能的規劃與實施規劃與實施法法?隨著智能不斷發展,企業管們正在竭應對成智能對企業的影響。成智能將很可能顛覆傳統業務模式,并改變員的常作式。
273、根據 IBM 商業價值研究院?(IBM?IBV)?最近開展的項調研,五分之四的受訪管表成式 AI 將改變員的和技能,正在合作或計劃利基礎模型并采成智能。它擁有預測分析、機器學習和其他智能技術的能,可以動化重復和繁瑣的任務和流程,并不斷創新?134。?在成智能突然間成為矚焦點的同時,但只有 10%的組織已成功地在多個業務單位和流程中部署了智能。對于許多企業來說,在采成智能時,由于技術種類繁多,單個業務場景可能會涉及到多種技術,多個項間可能會共某項核技術,每個企業必須平衡使這項強的技術的投以及其創造的價值,它需要全企業級別的政策、做法和指導針幫助企業從技術度明確未來主要的技術發展向,同時能持企業更
274、有的性的選擇合作伙伴。?但是前多數企業缺乏全企業級別的成智能的戰略規劃,政策、做法和指導針。許多企業在實施相關項時,并沒有事先進統籌規劃,導致錯誤選擇技術案,項法落地,范圍蔓延,管理復雜難度,運營成本昂,沒有專業團隊等問題,最終導致項失敗或者法產價值。?所以企業在制定合理、全、可實施的智能戰略時,重點可考慮以下要素:?根據企業現狀,競爭優勢以及未來戰略規劃設定總體智能應的標,成功衡量指標,制定相關規劃以滿未來發展需求。?141 衡量智能對業務的影響,深分析和流程優化,評估商業價值,在主動采納新興技術與商業價值之間獲取平衡。?論建還是與合作伙伴合作,需要考慮評估并采取措施規避主要智能險,包括算可
275、性,數據準確性,模型泛化性,模型解釋性,隱私安全性,模型適配性,模型可擴展性,模型效性,社會倫理性,社會環保性。?確保實施的敏捷性和持續優化,讓企業既可短期內獲得階段性商業收益、增強組織的信和持,可以根據實施情況即使調整相應規劃以更好適應業務需求和內外部變化。?建有效的團隊,由業務、技術(智能、數據)、險管理、戰略、法務等多領域才組成的團隊對于組織智能的發展關重要。?企業可以依照以下步驟開展企業可以依照以下步驟開展實施實施相關作:相關作:?第步:了解現狀。第步:了解現狀。?評估企業及所處業當前數字化成熟度,預估現在和未來 5-10 年法規、客、競爭對和核市場在智能領域的發展變化,在此基礎上結合
276、企業的未來戰略設定相關智能應向。?各業可以利成式 AI,結合業交叉的數據,以多元化的調研法,挖掘定量數據背后的邏輯,分析定性內容背后的觀點,客觀和真實地闡述業現狀,評估企業的數字化成熟度,前瞻性地預測業未來的發展趨勢。?第步:制定標。第步:制定標。?142 確定變的關鍵驅動因素?-?從業驅動因素到市場因素。確定如何將智能納企業技術架構和業務結構,制定與現有企業戰略疊加的智能標?-?降低產成本、減少、增加收、創新產品和服務等。?當前,企業臨著激烈的競爭和客不斷變化的需求。為了存和發展,企業必須尋求各種式來提效率和降低成本。通過成式 AI 動化成內容,可以減少操作時間,從提員的作效率。通過優化運營
277、流程、減少成本、節省時間成本等式,成式 AI 能夠幫助企業實現成本下降。調查發現,75%的受訪企業表降本增效是企業應成式具的要的,另外提敏捷性與市場反應速度(36%)、滿差異化產品與服務創新(34%)、增強辦公效率與內部協同(32%)同樣是企業引成式具的主要的?135。?第三步:規劃路徑。第三步:規劃路徑。?根據業務發展需求制定智能應計劃列表,運測序活動以創建有序計劃的初步視圖。確定測試/迭代排序的時間表和相關級資源要求。?第四步:確定案。第四步:確定案。?對業務場景分析,業務部需要與數字化部起對每個應場景進分析與拆解,確定每個業務應具體采的智能相關技術以及案。為所需的投資、回報、資源、品牌發
278、展等創建總體業務評估。?企業前正經歷著迅速增的數據量,隨著業務需求的多樣化,數據類型也呈現出多樣性。在選擇數據案時,必須考慮以種統的式來管理各種不同類型的數據,同時需要確保所選案具備夠的可擴展性,以滿不斷增的數據需求。?143 良好的數據質量是確保模型調試獲得精準輸出的關鍵因素。因此,在制定數據案的初期階段就應當充分考慮數據質量和數據安全性,以確保所建的系統能夠穩健地持企業的數據增和多樣化需求。?第五步:統籌協同。第五步:統籌協同。?根據不同業務應場景對于智能技術的不同需要,分析各項技術間的協同性,并根據需求與能匹配程度制定不同的技術實施策略。將關聯度更強,技術、數據訓練集、甚案復性,在實現基
279、礎設施層,服務組件層,態應層進有效整合,實現良好的技術協同能很好地幫助項有效銜接,減少重復投和復雜管理。?第六步:執管理。第六步:執管理。?制定詳細的執計劃,包括資源、時間、資等。在基礎設施層,服務組件層,態應層三個技術層確定哪些是戰略核,從中短期確定哪些需要企業建,招聘相應團隊。哪些進外包或合作,尋找最合適的技術伙伴。確保建有效的智能管理體系,包括清晰的,流程,指標,質量管控過程。實現團隊敏捷執項,與態各種參與的良好期合作關系,持續管控智能相關險。?第七步:持續優化。第七步:持續優化。?定期結合審核每個項的建設效果以及商業價值,結合外部業在各個業務領域智能的最佳實踐,以及市場的最新智能技術發
280、展,對內部的智能應和管理進優化迭代,確保企業內的智能應與時俱進。?在智能賦能的數字化創新與可持續發展幫助企業在未來發展創建新的競爭,成為智能化時代的真正受益者。?144 六六?企業應成式智能的參考案例與實施價值企業應成式智能的參考案例與實施價值?當下,成式 AI 技術突猛進,善 AI 的企業獲得了更競爭優勢。過去,在數據為先的發展階段,聚焦數據與數據命周期,IBM 提出智能階梯(AI?Ladder)的法,從數據的收集、組織、分析、融合四個步驟為企業規?;渴?AI 奠定基礎。這些作在個現代化的智能階梯當中處于底層,也就是“+AI”的作。今天,企業在積極探索如何將 AI 于企業的應,如何對企業的
281、作流實現智能動化、甚替換現有的作流,最終讓 AI 來完成作企業正從以數據為先的“+AI”階段,步以 AI 為先的?“AI+”?的全新發展階段。?縱觀 AI 的發展歷程,IBM 直處于突破性 AI 科技的前沿,在IDC?2023 年的市場調研中 IBM 被評為全球 AI 治理平臺的領導者。IBM 致于將?AI?嵌企業的戰略核,并致于將前沿科技轉化為產。我們為企業提供開放、可信、有針對性和以實現價值創造為使命的 AI 解決案。這些案整合了 IBM 在軟硬件以及咨詢的全棧能,并且在全球的汽、電、制造業、消費品、融、醫療領域都有的實踐經驗。在此與您分享 IBM 的經典案例。IBM 愿成為您的轉型伙伴,
282、與您攜共創企業級可信 AI 新時代!?6.16.1 IBMIBM 案例案例?6.1.16.1.1 IBM?+?IBM?+?源卓微納源卓微納?+?艾科斯冪:以艾科斯冪:以?AI?AI?會友,共創制造業智能化故事會友,共創制造業智能化故事?源卓微納科技(蘇州)股份有限公司是家在業界處于領先地位的科技公司,專注為端電電路、IC 載板、先進封裝、微機電系統?(MEMS)、泛半導體、太陽能和微納器件制造提供產設備和藝解決案。艾科斯冪信息科技有限公司(X-POWER)是家科 145 技創新公司,為客定制化提供智能化數字化整體集成系統解決案,?2023 年成為 IBM牌合作伙伴。?在產品研發過程中,源卓微納
283、臨著做市場調研和市場評估,投、檢索效率低的挑戰、也不能保證技術調研的準確性、及時性和全性。希望找到種式來幫助研發團隊提作效率。另外,為了贏得客的滿意度,源卓微納對客的承諾是 7*24時的技術持和售后服務,遠程服務 15 分鐘內響應,駐點區域 4時內到達。源卓微納直在尋找合適的智能段來提升售后服務效率。?艾科斯冪與 IBM 合作根據源卓微納的業務需求,選擇了 watsonx?Assistant 做為智能助提供前端和語義理解的能,Watson?Discovery?做為檔存儲和檢索具,并集成了 IBM 最新的 AI 開發平臺 watsonx.ai,為源卓打造了企業級智能問答知識庫。這個體系還利IBM
284、?AI?驅動的應集成案?Cloud?Pak?for?Integration?(CP4I)進應集成。watsonx.ai?為 IBM 企業級 AI 開發平臺,基于最新成式?AI?功能,使數據科學家、開發員和數據分析師能夠利開放直觀的界來訓練、測試、調整和部署 AI。watsonx?Assistant 提供向業務的更智能的對話式?AI?平臺。Watson?Discovery?為 AI?持的智能搜索和本分析平臺。CP4I?具備提升應程序速度與質量的卓越優勢。?項實施之后,全提了源卓微納的研發效率和售后滿意度:?研發售后員登陸 OA 系統,根據登陸 ID,?系統會判斷登錄者有哪些權限。之后到達基于 I
285、BM?watsonx?Assistant?搭建的“智能問答界”;?根據的問題進語義分析、同時基于關鍵字在?Watson?Discovery?知識庫中進檢索返回到?watsonx?Assistant;?146 透過?watsonx.ai?語模型進深加,使得答案更加準確和性化,并將答案返回到?watsonx?Assistant 智能問答界上?源卓微納與艾科斯冪選擇 IBM?watsonx 系列產品是看中了 IBM 案在以下四的獨特價值:?本地部署,數據安全?混合云部署云能,容易遷移?體化的平臺集成能,易上?企業級技術持能?6.1.26.1.2 汽汽-眾基于眾基于 IBMIBM 業財體化平臺構建全預
286、算體系業財體化平臺構建全預算體系?汽-眾汽有限公司(以下簡稱汽-眾)于 1991 年 2 6 成,是由中國第汽集團有限公司、德國眾汽股份公司、奧迪汽股份公司和眾汽(中國)投資有限公司合資經營的型乘產企業,是我國第個按經濟規模起步建設的現代化乘產企業。經過 32 年的發展,汽-眾產能布局已覆蓋東北春、西南成都、華南佛、華東島以及華北天津。累計產銷汽超過 2500 萬輛,銷量規模位列中國乘業第陣營。?在汽業速發展的今天,其上下游產業鏈復雜多變。在轉型升級的過程中,如何做到市場的快速應變、實現業財融合的精細化管理是企所臨的挑戰。汽-眾在轉型升級中,精細化管理的需求越來越旺盛,企業也臨著缺乏全預算系統
287、撐、法持實時測算,以及和 Excel 集成不好等系列挑戰。?147 汽-眾在進了多個軟件產品的對后,選擇了與 IBM 合作,基于 IBM 業財體化平臺 Planning?Analytics?with?Watson 實現了精益化管理標。?通過這案,汽眾實現了:?以財務預算為基礎建覆蓋公司、各部的預算管理系統,建關鍵指標監控與動化分析體系;?提供預算編制全過程的標下達、在線編制、提交匯總,多上多下的審批管控過程能;?利強的分析能來增強預算過程的管控和糾偏,確保經營標的落實;?建多維度的業財融合預算分析能。?全預算管理確保了業務可以按照標組織運營,也保證了汽眾有能根據市場的變化及時做出調整。汽-眾選
288、擇與 IBM 合作,不光因為 IBM 是汽-眾的期合作伙伴,同時也是因為 IBM?Planning?Analytics?with?Watson 業財體化平臺能夠滿企業復雜業務需求,且具備快速建模、彈性應變,以及實時場景的分析、測算能,從實現了企業精細化管理的標,?提升了效益。?6.1.36.1.3 延鋒汽數智之旅延鋒汽數智之旅?延鋒汽的總部位于上海,是家全球性的汽零部件商。延鋒汽在全球 20 個國家擁有 9 家研發基地、240 多個與技術中,員總數超過 55,000,為全球整制造商提供汽零部件產品的設計、開發和制造。對挑戰,延鋒汽的做法是攜像 IBM 這樣技術領先且擁有豐富企業經驗與技術專的公
289、司,共同探索數據為先的數智化之路,實現降本增效與創新發展。?148 場景:場景:AIAI賦能數據實時抽取賦能數據實時抽取解決開源的數據抽取具解決開源的數據抽取具KafkaKafka帶來的運營瓶頸帶來的運營瓶頸?延鋒汽在每個分都部署了套開源的 Kafka 集群,作 MES 系統中多項實時產數據的抽取,提供給各個的 MI 看板系統進查詢和展。?基于 IBM 的案,延鋒的樣板開始采?IBM?Cloud?Pak?for?Integration 中的?Event?Streams?組件來做實時數據的抽取。成數據的應程序從 MES 系統中抽取零配件產班次、產數量、需求數量、返修數量、排序以及其他相關的產數據
290、,發送到對應的數據主題頻道。抓取數據的應程序通過訂閱 Event?Streams 的相應主題頻道,可以直接使相應數據。MI?Skynet?看板系統則可以選取指定的表字段,進后續的儀表板展和預警分析。?通過部署 Event?Streams 這企業級的數據抽取解決案,延鋒汽可以實現鍵部署,開箱即,零宕機滾動升級,時刻擁有最新的 Kafka 穩定版本。同時,組件帶圖形化操作界,乎不需要額外的技能培訓。利安全性和異地復制功能,還能獲取企業級災難恢復能。先進的模式注冊表和豐富的?Kafka?連接器以及可擴展的?REST?API,輕松擴展現有企業資產的范圍。不僅如此,IBM 還提供配套的企業級售后服務、專
291、家咨詢和及時的問題排查,能夠幫助客獲取所需的技術專業知識。?場景:場景:AIAI賦能海量數據速傳遞賦能海量數據速傳遞實現分產間和總部之間海量數據的速傳實現分產間和總部之間海量數據的速傳輸,為智能庫存與預測夯實數據基礎輸,為智能庫存與預測夯實數據基礎?為了實時掌握分布在全球 240 多個眾多間的零部件庫存使情況,延鋒汽利各的監控攝像頭將成千上萬張的實時照快速地傳回總部。起初,智能制造部采傳統的復制粘貼的法來傳輸批量的照件,由于傳輸速度慢、絡延遲明顯、丟包嚴重,需要多次分批次選擇對應照件進復制,這樣既耗時容易誤操作,同時 149 法斷點續傳、法動重連、法定義傳輸速度,主的傳輸帶寬法得到充分利。?在
292、 IBM?團隊持下,延鋒汽僅天時間就完成了美、輕量級的?IBM?Cloud?Pak?for?Integration?-?Aspera?的組件部署,構建起企業級的件傳輸解決案,使延鋒汽的件傳輸速度平均提了 10 倍,節約了等待時間,避免了誤操作,實現了斷點續傳和動重連,并且可以動態配置傳輸帶寬和限速,在不影響?ERP?核系統性能的前提下最化地提了實時監控件的傳輸效率,為實現其智能庫存與預測的愿景奠定了基礎。?場景三:場景三:AIAI賦能效訂單管理賦能效訂單管理將海量外部通訂單動轉為內部訂單將海量外部通訂單動轉為內部訂單?延鋒汽每天收到整和下游商的訂單量巨,之前需要通過根據經驗把通訂單轉為內部訂單
293、,每個每天需要兩名作員花 150 分鐘進分類。即使在這樣的投下,仍伴隨 15%的分類錯誤,給延鋒汽帶來成本和效率的雙重挑戰。?利 IBM?Watson?Discovery 強的然語學習能,延鋒汽成功構建起 AI 模型,?從他們涵蓋了 1.8 億歷史數據、200 多種排列組合、結構化數據和結構化本的混合數據中,學習通訂單對應的內部訂單背后蘊藏的規則,變智慧腦,實現了全動執流程,需操作。?場景四:場景四:?AIAI賦能研發創新賦能研發創新ELMELM助延鋒助延鋒電電優化研發流程,將效率轉化為產優化研發流程,將效率轉化為產?中國汽的產業價值鏈在智能聯汽發展趨勢下,軟件層和智能化層的價值逐漸被挖掘和放
294、,以效研發為牽引,成為企打贏價值戰的致勝關鍵。與此同時,創新迭代和項交付速并,質量管理難度也不斷提升,客對供應商的體量和質量追溯能要求也越來越嚴苛。?150 IBM 汽業程命周期解決案 ELM?(Engineering?Lifecycle?Management)集合了研發效率管理、研發知識管理、研發能構建和研發合規性四個主題,是市場領先的效研發管理解決案。助延鋒電優化研發流程,將效率轉化為產。?場景五:場景五:?AIAI賦能設備管理創新賦能設備管理創新MMaximoaximo助延鋒提升設備管理績效助延鋒提升設備管理績效?隨著延鋒業務的快速發展,已經形成了在全球 20 多個國家擁有 240 多個
295、產基地的龐規模。如何從集團的度科學地持有并管好資產設備,對延鋒提產運營平、降低運營成本、以及實現智能制造都有重要意義。?IBM?Maximo 是全球領先資產設備管理解決案,近年來直與延鋒在這領域緊密合作,助延鋒在快速擴展的過程中實現資產設備的精細化管理,這包括:實現資產設備集團化管理,適應多語、多時區、標準化管理的挑戰;實現資產設備全命周期管理;實現移動化應,提升客效率和體驗;通過精細化的設備運維策略和執,提升運維效率、保障產執并降低備件庫存。?隨著技術的不斷發展,IBM 將 AI 和 IoT 技術不斷地賦能到 Maximo 資產設備管理解決案領域,在物聯監控、設備健康分析、預測性維護以及 A
296、I 維修助等領域都形成了領先的案。隨著延鋒設備管理要求的不斷提升、數據的不斷積累和完善,IBM?Maximo將不斷深化在延鋒資產設備管理領域的應與合作,助延鋒實現智能制造的戰略標。?6.1.46.1.4 蘇州環球科技利智能和動化技術,成功構建企業智能業務流程管理平臺蘇州環球科技利智能和動化技術,成功構建企業智能業務流程管理平臺?蘇州環球科技股份有限公司(簡稱“環球科技”)始建于?1970?年,擁有?50?多年鏈條研發、制造經驗,是國內鏈條業的領頭,也是集鏈條研發、制造、銷售于體的國家新技術企業。近年來,數字化、智能化成為環球科技轉型升級的重要段,公司先后 151 開發部署了?MES、ERP、W
297、MS、質檢系統、供應商管理系統等多個?IT?系統,服務企業各個業務流程。?隨著新業務的快速發展和競爭加劇,環球科技急需實現從產品設計、產、物流、銷售等多環節多業務的緊密配合和上下游聯動,構建統的智能業務流程管理平臺,提升效率、降低成本。環球科技要構建先進的智能業務流程管理平臺,先需要實現跨越不同業務流程間的多個系統的互聯互通,串聯不同流程上的作使的?IT?系統,實現各個業務環節之間的縫連接,快速預警,全流程可視化、可追蹤。?環球科技利?IBM?Cloud?Pak?for?Integration?中的企業服務總線組件?App?Connect?來提供可靠的應集成解決案,構建了統的應集成平臺,解決了
298、系統之間接混亂的問題,?實現了敏捷且輕量的應集成,實現了多種應接聯通、多種數據格式解析處理;還提供了信息同步、異步傳輸能;同時具有安全性、穩定性和易擴展性;具有良好的統計、分析和監控能。?實現現有信息系統的互聯互通是向智能動化的第步。第步需要系統性梳理環球科技業務過程中的、流程、規則及當前 IT 系統架構。過去,環球科技的業務流程執主要靠線下溝通,使得不同部間存在信息斷點,導致從訂單到交付溝通成本,經常難以按期兌現交付。同時,產管理主要依靠經驗判斷,原料臨時采購的情況經常發,存在成本險管理的問題,采購進度追蹤也不及時。?環球科技采?IBM?Cloud?Pak?for?Business?Auto
299、mation?中包含的業務動化作流?(BAW)?的能,作為企業級?BAW?來整合業務系統與管理系統流程審批信息,實現對業務流程全可視并綜合管理。該產品為流程改進和?BAW?命周期管理提供了共軟件平臺,在流程管理和業務規則管理領域體現出優勢,表現出關鍵任務解決案所要求的強 152 性能及穩健性,幫助環球科技建他們所需要的作流和可視化流程平臺。IBM?Cloud?Pak?for?Business?Automation?中除了?BAW,還在智能動化領域提供客所需的規則引擎、檔管理平臺等能,未來可以快速進橫向擴展,持客更多的智能化需求。?前,環球科技利?IBM?Cloud?Pak?for?Busine
300、ss?Automation?建了統的業務動化管理平臺,這個平臺的開發界較簡單,公司的?IT?團隊很容易就可以按照新的業務需求開發新的業務流程;且開發速度快,調試便快速,部署容易;開發出來的流程可以很容易地跟其他系統做整合集成;同時,流程帶內容和規則引擎,滿了環球科技對于簡化規則引擎的需求。不僅如此,該平臺從技術上實現了整體流程可視化,以便對內部復雜的流程進管理,并且能做到流程的合規監控?;诨旌显频鬃?,便客切換不同的底層基礎設施,簡化了在混合?IT?環境下對其應、數據以及業務流程的統管理。?具體實施價值體現在:?數字化的產流程超級動化數字化的產流程超級動化:以前的零件產計劃需要動 Excel
301、計算完成,需要 5 天時間;現在全動計算只需要個時,計劃員作量減少了80%;?不良品的全數字化評審:不良品的全數字化評審:改進后的數字化流程將檢驗員和員的作效率提升,作量減少了 60%;?數據驅動的采供銷體化流程將訂單完成提了 50%。?153 6.1.56.1.5 NASA?NASA?攜攜 IBM?IBM?發布發布 Hugging?FaceHugging?Face 平臺最開源地理空間平臺最開源地理空間 AIAI 基礎模型基礎模型?IBM 與開源 AI 平臺?Hugging?Face?共同宣布,基于美國宇航局(NASA)衛星數據構建的 IBM?watsonx.ai 地理空間基礎模型現已在 Hu
302、gging?Face?發布。它將成為 Hugging?Face 上今最的地理空間基礎模型,也是個與 NASA 合作構建的開源 AI 基礎模型。?在環境條件乎每天都在變化的候科學領域,獲取最新數據仍然是候科學研究臨的主要挑戰。盡管數據量不斷增加(NASA 預估到 2024 年,其新任務將產 25 萬?TB的數據),但科學家和研究員們在分析這些型數據集時仍臨障礙。作為與 NASA 簽署的空間動協議(Space?Act?Agreement)的部分,IBM 在 2023 年初構建了個于處理地理空間數據的 AI 基礎模型?,F在,雙聯業內公認的開源領導者和Transformer 模型庫 Hugging?F
303、ace,共同發布上述地理空間基礎模型,以擴候和地球科學研究中對 AI 技術的訪問和應,從加速創新。?該基礎模型由 IBM 和 NASA 共同訓練,使了過去年在美國陸范圍內的Harmonized?Landsat?Sentinel-2(HLS)衛星數據,并基于洪和焚燒區域的標記數據進了調優。相于前的領先技術,該模型僅使同等條件下半的標記數據,便實現了 15%的效果改進。通過進步的調優,該模型還可以應于追蹤森林砍伐、預測農作物產量、檢測和監測溫室體等新任務。IBM 和 NASA 的研究員還與克拉克學合作,將該模型于時間序列分割(time-series?segmentation)和相似性研究等領域。?
304、IBM?推出的智能和數據平臺?watsonx,使企業能夠利可信數據擴展和加速最先進智能的影響。作為?IBM?watsonx?的部分,地理空間模型的商業版本也將通過?IBM?環境智能套件?(EIS)?推出。在開展?HLS?地理空間調頻作的同時,NASA?和?IBM?還在開發其他應程序,以從地球觀測中提取解,包括基于地球科學獻的型語模 154 型。根據美國國家航空航天局的開放科學準則和原則,這項合作作所產的模型和產品將向整個科學界開放。?6.1.66.1.6 IBM?IBM?利利 watsonxwatsonx 為溫錦標賽帶來由基礎模型與成式為溫錦標賽帶來由基礎模型與成式?AIAI 賦能的數字體驗賦
305、能的數字體驗?全英草地球俱樂部是每年溫布爾登球錦標賽的主辦,保護這項世界上歷史最悠久、最負盛名的球賽事的豐富化遺產對它來說關重要。?1877?年次舉辦錦標賽以來,溫布爾登球賽已匯聚了各各業的球迷,從英國皇室成員、企業主到業余體育迷,他們共同享受著世界上最好的球賽事。?與此同時,社會正在發益巨的變化,現有和潛在球迷的性質、深度和度也是如此。數字技術處于變的前沿,為球迷、媒體和球員提供了新的參與式。溫布爾登球公開賽充分抓住了這些機遇,不僅加強了其已經常強的品牌,且也成為了家數字媒體公司,制作與球相關的視頻、絡和社交媒體內容,并在其數字平臺上發布,包括?W?和?Wimbledon?應程序,以及通過新
306、聞媒體發布。這種創新的基礎是溫布爾登與?IBM?的期合作關系。兩家公司于?1990?年攜合作,并在持續利技術量為溫布爾登觀眾們提供全新、卓越的體驗。?2023?年?6?,IBM 和全英草地球俱樂部公布了兩項在 2023?年溫布爾登球錦標賽?(簡稱“溫”)?上推出的全新球迷數字體驗新功能:?第個新功能是利?IBM?watsonx?的成式?AI?技術,為溫賽期間所有視頻集錦提供成式 AI 球評論解說的功能。?第個新功能是叫做?IBM?AI?Draw?Analysis?的應,這是個為球賽打造的分析應,可以提供套全新的統計數據,以確定每個球員進階決賽的潛。?155 這兩項新功能擴展了溫應和?上的針對球
307、迷的數字具套件,是?IBM?和溫利技術幫助球迷更深地參與溫錦標賽的最新例。?IBM?AI?評論解說:新的?AI?評論解說功能將為觀看賽集錦視頻的球迷提供關鍵時刻的頻評論解說及字幕,球迷可以打開或關閉字幕功能。該具旨在為球迷提供更有地的體驗,讓他們在溫應和?上通過精彩視頻來抓住賽的關鍵時刻。為了開發此項新功能,IBM?Consulting?的體驗設計合作伙伴?IBM?iX?的專家與全英俱樂部合作,利?IBM?企業級?AI?和數據平臺?watsonx?的基礎模型,球的獨特語訓練?AI?;谶@些基礎模型的成?AI?被來成具有不同句結構和特定詞匯的旁和解說,使剪輯的視頻內容更具知識性,也更加引勝。?I
308、BM?AI?Draw?Analysis:引溫球迷數字具的另個新功能是?IBM?AI?Draw?Analysis,這是球領域的個此類統計數據,它使?AI?來確定單打抽簽中每個球員進決賽的可能性。每個球員的進階優勢將通過評級的式來呈現,基于包括球員與潛在未來對的賽以及球員在單打抽簽中的位置與競爭對的較等因素。這新的解將幫助球迷發現單打抽簽中的異常和潛在的驚喜,這個僅通過查看球員的排名是法察覺的.?新推出的兩項新功能將添加到溫應和?上為球迷提供的智能數字具套件中。該套件還包括?IBM?Power?Index?排榜、IBM?Match?Insights?以及個性化推薦和精彩畫集錦等應,這些數字功能使來
309、溫賽每次擊球得出的多達?100,000?多個數據點,由?IBM?Cloud?上的?IBM?Watson?AI?技術進分析,旨在讓球迷更容易了解要關注哪些球員、這些球員與對的較,以及誰可能獲勝等信息。球迷們在整個溫賽期間都可以利這些數字具,持續關注他們喜愛的球員,不斷更新和獲取量定制新解。?156 6.1.76.1.7 美國最的房零售商美國最的房零售商 CampingCamping?World?World?通過通過?AI?AI?驅動的虛擬助重構客體驗驅動的虛擬助重構客體驗?1966?年以來,Camping?World 直專為主和露營者提供產品和服務?,F已發展成為美國最的房和房相關產品和服務零售商
310、,擁有?160?多個?Camping?World?SuperCenter。?2009?年以來,該企業直是?NASCAR?的官房和外品零售商。此外,Camping?World?還與美國職業棒球聯盟建了多年的合作伙伴關系。?Camping?World?深知提供卓越的客服務對于在競爭中保持領先地位關重要。該企業在很程度上依賴其呼叫中來提供與倫的客服務,但在新冠疫情之后,客數量的激增暴露了其現有基礎架構的些問題。隨著數量和流量的增加,客服代理管理和響應時間的缺愈發突出。Camping?World 為三類截然不同的喜歡房活式的客提供服務。第是零售客,第是融服務(如保險)或商品客,第三是經銷商客?!盋am
311、ping?World 有個規模不錯的呼叫中,但法讓位客服代理來滿三個不同業務部的需求。這給呼叫中的員配備帶來了極的復雜性。沒有?24x7?全天候呼叫中也是個期存在的問題。?Camping?World?需要個以為本的解決案,使其運營能夠伸縮,并應對尋求快速幫助的客數量的增加。在尋找最適合的呼叫中現代化路線后,該零售商選擇了?IBM?開發的認知?AI?案。IBM?為 Camping?World 提供了不同的場景,包括構建技術的路線圖,最終使客能夠簡化流程、提客服代理效率,最重要的是極地改善整體客體驗。?該解決案由?IBM?watsonx?Assistant?提供持,縫集成了對話云平臺?LivePe
312、rson,并在所有絡屬性中進了部署,增加了問題和電話功能的覆蓋范圍。它將?Camping?World?客與虛擬客服代理連接起來,使現場客服代理能夠接管更復雜的對 157 話。虛擬客服代理名為?Arvee,通過動態路由和容量管理功能,確保更快、更效的響應時間。Arvee?的潛在客開發功能(尤其是在作時間之后)是該團隊以前沒有的功能,可以讓現場客服代理輕松跟蹤并主動跟進客詢問。?IBM?watsonx?Assistant?可以識別客的意圖,并能將呼叫者轉接有空的現場客服代理以開展對話。實施后,客參與率呈顯著上升趨勢,中斷的對話數量有所減少??偷牡却龝r間越來越短,響應速度越來越快,客服代理的效率也得
313、到了顯著提。借助客服代理桌集成,以及?Arvee?在處理互聯和機短信時主動收集客數據的幫助,現場客服代理可以同時處理多個聊天,從將整體效率提?33%。截?2022?年?3?,客參與度增加了?40%,等待時間降?33?秒。?6.1.86.1.8 花旗銀采花旗銀采 IBMIBM 企業級企業級 AIAI 解決案實現業務數智化轉型解決案實現業務數智化轉型?作為家全球領先銀,花旗銀為超過 2 億客提供服務,并直在積極探索運先進的企業級 AI 技術來增強企業運營。作為混合云和 AI 技術解決案的領先供應商,IBM 為花旗銀提供了套企業級 AI 解決案和服務。?花旗銀擁有全球最的公司審計部之,其中包括 25
314、00 名審計員,他們需要處理量的檔審查和險評估作。鑒于這職能的規模和重要性,花旗銀深知替換現有審計平臺必須謹慎考慮,并且必須對技術合作伙伴充滿信任。在深了解 IBM 的智能解決案后,花旗銀選擇了基于 IBM?Watson?Discovery、IBM?Cloud?Pak?for?Data 和IBM?OpenPages?with?Watson 的級分析解決案,從協助 2500 名審計師協同在個平臺上作。原來個可以完成 40 個審計項,現在個可以完成上千個審計項。同時,IBM 還為花旗銀創建了個 AI 創新空間,以使他們能夠繼續在新審計平臺上 158 應 AI 來進持續創新。通過引 IBM?企業就緒
315、的?AI?和數據平臺 watsonx,花旗銀與 IBM 探索將 watsonx 和基礎模型應于內部管控,以進步實現審計的智能化轉型?;ㄆ煦y內部審計部的?Mark?Sabino?博表:“我們正在研究型語模型?(LLM)?的潛在途,我認為有限的可能。其中個我在考慮內部使的關鍵例是,如何使?LLM?來將您的管控與您的內部政策和法規聯系起來?!?在部署 AI 具時,如何在效率和創新之間找到平衡,離不開靈活、安全、可持續和可擴展的 IT 基礎設施?;ㄆ煦y利開源數據庫 MongoDB 構建了全球最的數據庫平臺,部署在多個全球數據中,并選擇在 LinuxONE 上托管 MongoDB。相較于傳統的 IT 解
316、決案(如增加服務器),LinuxONE 提供了垂直擴展和對數據泄露與絡攻擊的關鍵保護,從優化了數據中的運效率,同時降低了碳跡。與此同時,服務器節能例達到 50%,性能提升 15%,安全性也得到了提升。此外,在 AI 應領域,LinuxONE 也處于領先地位。去年發布的第四代 LinuxONE 搭載了業界個集成的 AI 芯,可以幫助客在規模交易等任務中實現實時 AI 推理能。?花旗銀技術基礎架構部常務董事 Martin?Kennedy 表:隨著我們業務的增和變得越來越數字為先,采傳統的 IT 解決案會增加更多的物理服務器,同時增加所需的樓層空間。采托管在 IBM?LinuxONE 上的 Mong
317、oDB,則可以提供垂直擴展和針對數據泄露與絡攻擊的關鍵保護,有助于優化數據中,同時降低我們的整體碳跡。?6.1.96.1.9 BlendBlendow?Groupow?Group 攜攜 IBMIBM 獲得基于獲得基于 AIAI 的法律分析變量的法律分析變量?于瑞典法律知識和情報傳播的前沿,Blendow?Group 已成為法律新聞、教育和專家分析的關鍵資源。Blendow?Group 需要仔細分析、總結和評估數法律件,從法院裁 159 決到法和判例法。由于這些分析基于量的信息,在有限的員資源下,Blendow?Group 需要個可擴展的解決案。?為了應對這挑戰,Blendow?Group 與
318、IBM 合作,應基于 IBM?AI 開發平臺watsonx.ai 以及 IBM 全棧的軟硬件能獲得了法律分析中的變量。watsonx.ai,是個專為今天與未來的業務設計的?AI?開發平臺。它結合了?IBM?Watson?Studio?的功能和利基礎模型能的最新成式?AI?的功能,使數據科學家、開發員和數據分析師能夠利開放直觀的界來訓練、測試、調整和部署由基礎模型提供持的傳統機器學習和新的成式?AI?功能,由此快速構建、運和部署?AI。該智能解決案擅瀏覽量法律件,從詳細的法院判決到泛的法律本和法規。它增強了研究、分析并簡化了創建法律內容的過程,同時保持了敏感數據的最機密性。?該解決案不僅簡化了內
319、容準備過程,還提了搜索和分析泛法律件的能:?減少 70%發現和分析法律件所需的時間?增加 80%各種法律本的覆蓋?減少 90%總結和分析這些檔所需的時間?6.26.2 其他案例其他案例?以下由 COPU 提供的成員企業成式智能相關應案例。?6.2.16.2.1 象聲科(深圳)科技股份有限公司基于象聲科(深圳)科技股份有限公司基于 Intel?OpenVINOIntel?OpenVINO 平臺構建智能語增強平臺構建智能語增強和智能語交互解決案和智能語交互解決案?【案例背景】【案例背景】?160 象聲科(深圳)科技有限公司(以下簡稱象聲科)成于 2015 年,是全球領先的機器聽覺智能公司。依托計算
320、聽覺場景分析理論(CASA)和深度學習技術,提供全球領先的智能語增強和智能語交互解決案。隨著智能的快速發展,語交互成為新的交互形式,如何在復雜噪聲環境下提供清晰的語交互體驗,是象聲科臨的挑戰。?【業務需求】【業務需求】?在如今的快節奏活中,們需要在各種環境中進語交互,如地鐵、商場、KTV等噪聲環境。在這些環境下,如何提供清晰的語交互體驗、實現語增強和噪聲抑制,為提供更佳的使體驗,是象聲科所臨的挑戰。?【解決案】【解決案】?象聲科推出了智能語增強和智能語交互解決案。通過將標聲與噪聲進“理想元掩?!碧幚?,將聲學信號處理轉化為個分類問題,基于深度學習和計算聽覺場景分析理論,算法具有適應能,能夠不斷學
321、習優化,實時分離聲和背景噪聲,提取清晰聲。同時,借助 OpenVINO 集成在英特爾 GNA/VPU 平臺上,幅度提升了語清晰度和語交互體驗。?【實施價值】【實施價值】?象聲科的智能語增強和智能語交互解決案,能夠有效提升各種環境下的語交互體驗,提供清晰、穩定的語輸出,提升了體驗。通過適應學習優化的算法,能夠實時應對各種復雜的聲環境,滿了在各種環境下的語交互需求,提升了其產品的競爭和市場份額。?161 6.2.26.2.2 深圳酷酷科技有限公司基于深圳酷酷科技有限公司基于 Intel?RealsenseIntel?Realsense 技術架構構建技術架構構建 AIAI 可穿戴解決案可穿戴解決案?
322、【案例背景】【案例背景】?深圳酷酷科技有限公司(以下簡稱酷酷科技)成于 2015 年,致于?AR/MR 智能眼鏡,AI 智能穿戴及新代個信息終端的研發和銷售。在 AI 穿戴設備的發展過程中,酷酷科技臨著技術難關、市場競爭等各種挑戰。?【業務需求】【業務需求】?在 AI 穿戴設備的速發展中,如何實現技術的突破、滿市場的需求、提供優質的產品是酷酷科技所臨的挑戰??峥峥萍荚诩夹g研發過程中,需要解決整機設計、微顯及光學設計、HCI 等的技術難題。?【解決案】【解決案】?酷酷科技從實際應出發,結合科技發展的趨勢,在 AI 穿戴設備、AR/MR 向上努攻克技術難關。前已經在科的微創及顯微術上有所突破,基于
323、英特爾 Realsense等技術,在些新產的勢識別,眼動交互等,進研發和測試。同時,酷酷科技也在科、胸外科、腦外科、醫美術等向進技術及應的突破。?【實施價值】【實施價值】?酷酷科技的 AI 穿戴設備解決案,不僅實現了技術的突破,提供了優質的產品,也滿了市場的需求。通過攻克技術難關,酷酷科技提升了其產品的競爭,增強了公司的市場地位。同時,酷酷科技的解決案也為社會帶來了實際的價值,如在醫療領域,酷酷科技的智能眼鏡可以提升醫的術效率,提術的精準度,為患者提供更好的醫療服務。?162 6.2.36.2.3 港流形科技公司的基于港流形科技公司的基于 Intel?OpenVINOIntel?OpenVIN
324、O 平臺構建三維重建解決案平臺構建三維重建解決案?【案例背景】【案例背景】?港流形科技有限公司(以下簡稱流形科技)成于 2015 年,專注于?3D 掃描、建模、機器技術和算法開發,致于構建虛擬與現實之間的橋梁。然,如何提供實時、精度的三維重建解決案,降低作業成本,提升計算效率,是流形科技臨的挑戰。?【業務需求】【業務需求】?在快速發展的 3D 掃描、建模業中,提供實時、精度的三維重建解決案是業界的迫切需求。同時,如何將期從以為單位縮短到以分鐘級,幅度降低作業成本,提升計算效率,是流形科技所臨的挑戰。?【解決案】【解決案】?流形科技以研的效多傳感器融合算法,結合神經渲染技術,為三維重建業提供實時
325、、精度的解決案。通過研的后處理技術,將傳感器的原始精度提升 200%,精度媲美架站式掃描儀。流形科技的解決案能夠在分鐘級時間內完成快速精度三維重建,滿絕部分下游 3D 業應,且流機可以與多種機器平臺縫對接,具有極強的通性。?【實施價值】【實施價值】?流形科技的三維重建解決案,實現了實時、精度的三維重建,幅度降低了作業成本,提升了計算效率,滿了絕部分下游 3D 業應的需求。流形科技的解決案,不僅提升了三維重建業的效率,也推動了 3D 掃描、建模業的發展,提升了流形科技的市場競爭。?163 6.2.46.2.4 乘科技(珠海)有限公司基于乘科技(珠海)有限公司基于 Intel?OpenVINOIn
326、tel?OpenVINO 平臺構建的數字孿解決案平臺構建的數字孿解決案?【案例背景】【案例背景】?乘科技(珠海)有限公司(以下簡稱乘科技)成于 2015 年,是家國家級新技術企業,通過整合數據、智能、物聯和數字孿等前沿技術,提供智能、效和創新的解決案。然,如何利數字孿技術,為提供更精準、效的解決案,是乘科技臨的挑戰。?【業務需求】【業務需求】?在速發展的數字孿技術中,如何將現實世界的實體、過程和系統映射到數字世界中,提供全的數據分析和決策持,幫助優化運營、提效率和降低險,是乘科技所臨的挑戰。?【解決案】【解決案】?乘科技推出了數字孿解決案,應了物聯、數據、智能等前沿技術,具備實時監測、預測預警
327、、仿真推演和智能決策等功能。乘科技的數字孿解決案能夠解決現實世界中的復雜問題,提供全的數據分析和決策持,幫助優化運營、提效率和降低險。?【實施價值】【實施價值】?乘科技的數字孿解決案,實現了現實世界的實體、過程和系統的數字化映射,提供了全的數據分析和決策持。這解決案不僅幫助優化運營、提效率和降低險,也推動了數字孿技術的發展,提升了乘科技的市場競爭。同時,乘科技的數字孿解決案也為智慧城管、智慧、智慧園區等領域的數字化轉型提供了有的技術持。?164 6.2.56.2.5 深圳博通光電智能科技有限公司的基于深圳博通光電智能科技有限公司的基于 Intel?OpenVINOIntel?OpenVINO
328、平臺構建的電紙智慧辦平臺構建的電紙智慧辦公產品解決案公產品解決案?【案例背景】【案例背景】?深圳博通光電智能科技有限公司(以下簡稱博通光電),成于 2011?年,是全球領先的物聯核技術、產品和解決案提供商。然,在迅速發展的智慧辦公業中,如何利電紙,智能,數據和物聯技術,提供效的智慧辦公解決案,是博通光電臨的挑戰。?【業務需求】【業務需求】?在智慧辦公業中,如何通過部署新代智能辦公終端,采集位置、呼叫通知等數據,智能管理投屏動作及顯內容,實現紙化辦公及數字化應,效管理辦公信息,是博通光電所臨的挑戰。?【解決案】【解決案】?博通光電推出了“電紙”智慧辦公產品解決案。這解決案應電紙、智能、數據和物聯
329、技術搭建的智能辦公系統,通過部署新代智能辦公終端,采集位置、呼叫通知等數據,智能管理投屏動作及顯內容,實現紙化辦公及數字化應,效管理辦公信息。?【實施價值】【實施價值】?博通光電的“電紙”智慧辦公產品解決案,實現了紙化辦公及數字化應,效管理辦公信息,提升了辦公精細化管理平和企業辦公效率,幅減少了普通紙張的使和降低了企業的成本。這解決案不僅優化了辦公環境,也推動了智慧辦公業的發展,提升了博通光電的市場競爭。?165 6.2.66.2.6 惟科技(深圳)有限公司的基于惟科技(深圳)有限公司的基于 Intel?OpenVINOIntel?OpenVINO 平臺構建的平臺構建的 3D/XR3D/XR
330、數字營銷數字營銷S SaaSaaS 解決案解決案?【案例背景】【案例背景】?惟科技(深圳)有限公司(以下簡稱惟科技)成于 2018 年,專注于 3D/XR 數字營銷SaaS 解決案的研發和應。然,如何通過 AI1653D/XR 技術提供效、經濟、精準和智能的數字營銷解決案,降低制作成本,提精準度,是惟科技臨的挑戰。?【業務需求】【業務需求】?在快速發展的數字營銷業中,如何通過 AI1653D/XR 技術實現快速、經濟、精準和智能的數字營銷,幫助電商企業在快速變化的市場中迅速成質量營銷內容,降低制作成本,提精準度,是惟科技所臨的挑戰。?【解決案】【解決案】?惟科技推出了 3D/XR 數字營銷 S
331、aaS 解決案。這解決案整合了硬件終端與在線 SaaS 平臺,提供體化的解決案,幫助電商企業在快速變化的市場中迅速成質量營銷內容,降低制作成本,提精準度,同時通過智能告創作、個性化推薦和數據驅動決策等具,助企業實現更為智能、創新的數字營銷策略。?【實施價值】【實施價值】?惟科技的 3D/XR 數字營銷 SaaS 解決案,實現了快速、經濟、精準和智能的數字營銷,幅度降低了制作成本,提了精準度,滿了電商企業的需求。這解決案不僅提升了數字營銷業的效率,也推動了 3D/XR 技術的發展,提升了惟科技的市場競爭。同時,惟科技的解決案也為企業提供了更為智能、創新的數字營銷策略,助企業實現 GMV 的快速增
332、。?166 七七?企業級成式智能的未來展望企業級成式智能的未來展望?近年來,智能相關技術持續演進,產業化和商業化進程不斷提速,正在加快與千百業深度融合。全球智能市場預計到 2024 年將超六千億美元,復合增速 27%。世界各國紛紛布局智能,深化智能發展,將智能發展制定為國家未來數字化發展戰略。?美國成了國家智能倡議辦公室、國家?AI?研究資源作組等機構,各部密集出臺了系列政策,將智能提到“未來產業”和“未來技術”。2021?年?7?,美國國家科學基會聯合多個部和知名企業等,新成?11?個國家智能研究機構,涵蓋了機交互、智能優化、動態系統、增強學習等向,研究項更是涵蓋了建筑、醫療、物、地質、電、
333、教育、能源等多個領域。?英國于?2021?年?9?發布國家級智能新年戰略,這是繼?2016?年后推出的重要戰略,旨在重塑智能領域的影響。英國持智能產業化,啟動智能辦公室和英國研究與創新局聯合計劃等,確保智能惠及所有業和地區,促進智能的泛應。?中國中共中央關于制定國?經濟和社會發展第四個五年規劃和?2035?遠景標綱要的建議指出,要瞄準智能等前沿領域,實施批具有前瞻性、戰略性重科技項,推動數字經濟健康發展。四五規劃綱要明確發展智能產業,打造智能產業集群以及深賦能傳統業成為重點。?本繼制定科學技術創新綜合戰略?2020之后,于?2021?年?6?發布“AI?戰略?2021”,致于推動智能領域的創新創造計劃,全建設數字化政府。本將基礎設 167 施建設和智能應作為重點,提出加快建設相關基礎設施,重點強調了跨業的數據傳輸平臺以及智能相關標準等,全推動智能在醫療、農業、交通物流、智慧城市、制造