《北京銀行金融人工智能應用平臺建設與實踐-代鐵.pdf》由會員分享,可在線閱讀,更多相關《北京銀行金融人工智能應用平臺建設與實踐-代鐵.pdf(24頁珍藏版)》請在三個皮匠報告上搜索。
1、北京銀融智能應平臺建設與實踐1建設背景1總體架構2技術特點3場景應用4目錄CONTENTS3項目背景:人工智能技術是金融科技發展的重要推動力1.1“人工智能+”行動政府工作報告國家層面構建人工智能增長引擎行業層面金融服務全生命周期智能化 人工智能是新一輪科技革命和產業變革的重要驅動力量,加快發展新一代人工智能是我們贏得全球科技競爭主動權的重要戰略抓手,是推動我國科技跨越發展、產業優化升級、生產力整體躍升的重要戰略資源。深化大數據、人工智能等研發應用,開展“人工智能+”行動,打造具有國際競爭力的數字產業集群。注重引進和培養金融、科技、數據復合型人才,重點關注大數據、人工智能等專業領域。推動營銷、
2、交易、服務、風控線上化智能化。2021年,人民銀行發布金融科技發展規劃2022-2025抓住全球人工智能發展新機遇,以人為本全面推進智能技術在金融領域深化應用。著力打造場景感知、人機協同、跨界融合的智慧金融新業態,實現金融服務全生命周期智能化。2022年,銀保監會發布關于銀行業保險業數字化轉型的指導意見加強創新技術的前臺應用,豐富智能金融場景。國際形勢AI全球競爭加劇我國在芯片、框架、基座模型等AI生態上處于劣勢 自ChatGPT誕生到Sora走紅,AI大模型技術引發全球持續關注,掀起了第四次人工智能革命浪潮。大模型呈現出來的智慧涌現能力,被認為不亞于PC和互聯網的誕生,將徹底改變產業形態和競
3、爭格局。通用人工智能是全球科技競爭的焦點,也是中美科技博弈和戰略競爭的必爭之地。未來的競爭力取決于人工智能在日常業務中的應用。大模型在芯片、框架方面的建設生態不如英偉達、cuda、Pytorch等國外產品。加快建設具有全球影響力的人工智能創新策源地實施方案 2023年5月提出,到2025年,本市人工智能技術創新與產業發展進入新階段,基礎理論研究取得突破,原始創新成果影響力不斷提升,關鍵核心技術基本實現自主可控。項目背景:金融行業大模型應用的難點1.2l美國政府半年來三次修改貿易政策,限制AI芯片、材料,甚至裝有芯片的個人電腦出口中國。l英偉達限制中國AI芯片運行CUDA框架。l90%的網絡數據
4、為國外產生或國外語言,ChatGPT使用的數據英文占92%,中文不到1%。l金融行業數據集較少,中文更少,內容主要是新聞和上市公司公告,內容單一。l生成式模型輸出不可控,在金融場景下表現未知。l大模型金融應用測試驗證困難,風險暴露不充分。l端到端解決方案不夠,降低使用場景充數。4項目背景:建設AIB人工智能驅動的商業銀行1.32023年,北京銀行提出了“B=IB+AIB”理念,并指出:“要加快企業級數字化轉型,用AI驅動構建面向未來的金融核心能力,推動經營質效和客戶體驗的提升,為高質量發展注入新動能。秉持“一個銀行、一體數據、一體平臺”的理念,聚焦人工智能技術的創新應用,積極構建金融智能生態。
5、”5發展模式業務結構客戶結構營運能力管理方式支持產品創新建立量化風控模型,依托模型實驗室和風險濾鏡,助力打造全面的風險管理體系。3全面建設數字京行知識驅動的“大模型”應用體系優化客戶服務助力建設智慧金融服務場景,為一線客戶經理提供智能營銷工具,提升雙客體驗。4加強風險管理5提高運營效率精準拓客營銷利用機器學習技術,建設量化投資組合、精準營銷、客戶流失等模型,助力獲客、活客、留客。12利用大模型驅動RPA、數字人等數字化技術重塑業務流程,降低成本,提升效率。開放語音、圖像、文字識別等AI服務,利用AI技術促進智能化、數字化產品創新應用。6以數據驅動的“小模型”應用體系“大模型”+“小模型”雙輪驅
6、動1.4 項目目標:建設以知識驅動的“大模型”應用體系建設背景1總體架構2技術特點3場景應用4目錄CONTENTS總體功能架構2.1基礎設施(算力)作業調度CPUGPUNPU監控管理集群管理郵件通知公共服務效果監控特征監控系統消息用戶管理項目管理彈性擴縮存儲統一接入存儲統一管理計算資源接入兩級資源池計算資源管理機器學習模型深度學習模型作業建模模型驗證NotebookAutoML可視化建模智能OCR特征平臺(數據)文本標注圖片標注語音標注標注審核表管理字段管理數據申請客戶信息交易信息產品信息行為信息知識庫Data Analytics Engine(DAE)數據底座數據沙箱(脫敏數據)數據底座數據
7、安全屋(真實數據)行為信息操作手冊規章制度產業研報行外資訊黨建知識客服數據模型中心(算法)京智大模型太乙雅意文心一言大模型開發高性能推理引擎服務注冊服務發布應用接入大模型推理服務大規模分布式訓練框架P-TuningSFTRLHF大模型分布式訓練服務鏡像管理效果對比模型共享優化加速安全加密服務發布模型納管模型管理組織權限數據權限競賽發布競賽報名信息統計自動測評模型下發邊緣計算云上納管節點管理資源監控服務啟停Prompt工程插件管理特征探查可視化分析自動化建模服務中心(服務)語義理解知識推理智能決策知識圖譜流程挖掘流程開發語音識別圖像處理文字識別視頻分析定制文本識別定制OCR識別虛擬數字人多模態大
8、模型指標查詢Agent問答檢索生成寫作任務執行場景應用(應用)盡調報告生成會議紀要智能客服法律合規審計問題引證雙錄視頻質檢京行視窗初審報告生成北銀投顧京信妙筆京智助手智能會議量化分析在線建模分布式建模一個國產化算力底座一個國產化算力底座89應用架構2.2場景賦能企業知識庫行業大模型基礎大模型通用化+專屬化+場景化+普惠化建立基礎模型應用平臺,集約接入先進預訓練大模型建立金融場景應用平臺,打造特定業務領域最強大腦建立辦公智能助理平臺,實現全員AI Agent私人訂制建立全行知識管理平臺,訓練北京銀行企業級大模型建立行業模型,洞悉產業鏈價值鏈金融需求千問大模型百川大模型智譜大模型雅意大模型京智6B
9、大模型總行價值圖譜分行價值圖譜機構價值圖譜寫作助手營銷助手客服助手表格助手視頻助手會議助手差旅助手北銀投顧運營助手財報助手京行研究智能客服京客圖譜數幣銀行專精特新智能合規京行策略支行價值圖譜校對助手降本增效精細管理營商環境京智13B大模型京智130B大模型小模型大模型+以數據驅動的小模型應用體系以知識驅動的大模型應用體系京智大腦人工智能平臺算力中心數據中心算法中心服務中心場景應用AIB 金融人工智能應用平臺全棧人工智能中臺,提供八大AI技術能力。10技術架構2.3建設國產化AI算力至資源池,搭建智算網絡。整合行內外數據夯實數據基礎,建立金融數據集500億token。依托京智大腦,構建大模型推理
10、和訓練平臺。支持國內、外主流模型部署,基于主流開源大模型,。模型層框架層數據層算力層應用層探索AIGC在智能客服、法律合規、數據分析、協同辦公等場景應用。開放的大模型生態支持多種行業主流大模型部署應用,支持根據業務場景需要,擇優使用。豐富的插件能力自主研發大模型插件集成框架,可將大模型與行內現有業務系統、數據服務、辦公系統無縫集成。內外聯通數據體系基于全行知識庫、互聯網資訊數據、企業信用數據,為大模型注入和更新知識。企業數據互聯網聚合數據規章制度操作指引監管政策運營制度研究報告業務培訓金融資訊百科行業數據 產業鏈數據提示工程搜索增強文檔抽取數據清洗Tokenization特征抽取向量化存儲框架
11、層L0:基礎大模型雅意2GLM3百川2通義千問太乙L1:金融行業模型京智6B京智7B京智13B京智130B知識抽取意圖識別實體識別知識問答指標查詢AIB審計助手研報生成盡調報告會議紀要指標分析業務應用層GPUNPUCPU算力層行內數據工商 司法招投標財報 榜單園區模型層L2:場景任務模型數據層建設背景1總體架構2技術特點3場景應用4目錄CONTENTS12建設全棧國產化算力基座和訓練框架,提升自主可控能力3.1全國產化算力算力層面依托華為實驗室昇騰910B在不同參數大模型適配進展,采用全國產NPU算力,打造國產化算力集群,使我行國產化算力增加一倍。MindSpore昇思框架框架層面基于Mind
12、Spore昇思框架,發揮硬件最大潛力,達成模型實際性能,實現從單卡到集群的最大線性集成度,云邊端全場景高效部署,可降低40%遷移工作量。智算網絡構建全行智算網絡,實現在中心訓練、在分行推理、在邊緣終端應用的模式,滿足低延遲、高并發的AI推理應用需求,AI算力的使用效率提升30%,模型部署效率提升45%。構建可信金融訓練集3.2多維度金融數據集智能過濾技術高可信混合式金融指令數據生成技術利用全球多模態數據采集技術、金融文檔解析技術、數據清洗技術、多維度智能過濾去重技術、內容質量篩查技術,基于啟發式規則過濾器、困惑度評分器、基于多級別與精確匹配的級聯去重器,構建高質量的金融數據集。針對金融領域數據
13、更新快、內容忠實性高、風險厭惡的特點,通過種子指令擴張、背景數據混雜、拒答指令混雜、rag風格指令生成等技術,增加指令多樣性、提高模型信息忠實性、抗干擾能力。13構建金融領域混合專家模型3.314l節約推理資源:與傳統模型 相比,在相同參數量的條件下,混合專家模型推理速度提升25%。l提高模型準確性:通過集成多個專家模型,混合專家模型能夠綜合各個模型的優點,在我行金融數據測試集上,預測準確性提高15%。l靈活性和可擴展性:實現應用系統和具體模型版本、數據的解綁,靈活的添加或調整專家模型,給系統開發和維護增加靈活度。l處理復雜問題:對不同數據特征實現“專注”,通過多專家模型,使得每類子問題都找到
14、最優的解決方案,提升了服務質量。153.4 建設大模型服務平臺,降低大模型訓推成本1更全面-打造全棧式工具鏈 提供基礎配置、數據管理、模型訓練、模型管理、模型部署、預測服務、在線測試全鏈路工具能力,覆蓋大模型全生命周期,高效實現端到端的大模型開發、訓練和部署工作。大模型市場全棧工具鏈2更高效-訓推成本降低50%預置京智大模型和10個L0大模型能力,結合場景數據,可對大模型進行二次性能增強,提供三種自動化訓練工具,優化模型吞吐、降低模型尺寸、集成先進加速框架,實現模型推理速度的大服務提升,據測算,調優后模型體積可壓縮至25%50%,推理訓練成本可降低50%。3更安全-集成多種安全機制 平臺內置安
15、全算子和高危詞典安全過濾,保障輸出內容安全,并通過完善的鑒權與流控安全機制,全面嚴格的數據安全策略和技術支撐體系,保障行內數據安全;安全合規的訓練數據和SFT多種訓練方式,保障模型安全。163.5工作流編排對于邏輯復雜的多步驟任務場景,可靈活組裝多個節點,有穩定的輸出結構,支持重復任務執行。插件建設可繼承行內現有能力或自主增加能力作為Agent技能,促進基礎技能、業務技能的不斷沉淀與提升。知識庫構建集成BGE、multilingual-e5-large等多個向量化模型,可自主構建業務知識庫。將業務數據進行沉淀,實現Agent感知和理解的功能。Agent配置基于主流開源大模型技術,實現Agent
16、的自主思考和行動能力。將Agent與知識相連接,同時發展Agent各種技能,理解用戶意圖、進行任務規劃、任務分解,完成各種各樣的業務任務。多模型管理可對接入的大模型,進行模型監控、日志管理、權限管理、算力優化等全方位管理。流程編排技能化Agent配置對話調試建設Agent智能體應用能力,實現大模型應用能力快速對接17自研搜索引擎,構建多元化金融知識庫,提升大模型的安全性3.6高精度可解釋可執行自學習低成本語義問答服務Embeddings 模型用戶問題向量化銀行知識庫銀行知識向量化向量數據庫向量化后入庫查詢向量庫返回TopN條匹配知識大語言模型(7B/13B/1760B)構建Prompt調用問答
17、服務回答生成用戶桌面輸入問題返回結果用低維向量對內容進行編碼,并保留其特征含義ChatBot查詢向量庫返回TopN條匹配知識規章制度業務知識金融資訊企業年報政策法規新聞時事RPA流程圖像識別服務知識圖譜服務外部數據服務流程執行引擎向量化后入庫知識結構化41235可解釋依據知識搜索增強,生成內容,有引述有來源。1可執行根據用戶意圖,推薦各類智能中臺服務,可直接執行。2自學習自動更新語義向量庫,實現模型知識自我更新。3高精度確保金額、數值、表述的準確性。4低成本對于80%以上的能力更新,無需對模型進行微調重訓。518建設數據安全標注環境,滿足大模型數據標注安全3.7(1)數據安全保護態勢日趨嚴格2
18、021年,關鍵信息基礎設施安全保護條例、數據安全法、個人信息保護法正式實施,與2017年已實施的網絡安全法共同構建了“三法一條例”的數據安全保障網,此外金融數據安全數據生命周期安全規范等一系列文件,也對數據安全治理做出相關補充。(2)銀行建設生產數據標注安全環境為滿足各條線、分行對生產數據標準、模型訓練、聯合建模等需求,在順義研發中心建設數據安全屋,設置門禁、監控、設備存儲柜等安全設備,為相關工作提供獨立、安全的物理環境,確保生產數據合規使用,避免數據泄露等安全風險。安全門禁獨立網絡環境+終端控制行為監控數據安全屋運維數據安全屋運行生產環境運行生產環境運維測試環境脫敏文件接收測試環境運行建設背
19、景1總體架構2技術特點3場景應用4目錄CONTENTS20場景應用(一):“京信妙筆”智能報告工具4.1step 1.選擇業務模板step 2.上傳盡調報告step 3.生成初審材料基于大模型和知識庫,利用AIGC技術結合業務場景實際情況,根據關鍵字和要求AI一鍵生成文檔內容。提供多場景材料編寫能力,輔助一線員工快速、高效地編寫文檔。上傳資料后,點擊一鍵生成,就看到一份完整的初稿。通過對話方式,讓大模型收集知識體系中的數據和圖表,一鍵插入報告。是用大模型對整篇或者指定部分進行改寫、擴寫、縮寫、風格化等。利用OCR技術,對用戶上傳的文檔自動分類、識別。通過智能校對算法,識別錯別字、標點語法錯誤等
20、,提升質量。21場景應用(二):智能會議助手工具4.2會議紀要生成與我行云會議系統打通,一鍵式視頻導入紀要生成能力,提供各參會人講話內容識別、情緒識別、重點講話內容識別等多種能力。會議內容分析基于已生成的會議紀要,利用大模型問答能力,實現對會議內容、參會人觀點的問答總結和查詢功能。關鍵信息提取智能會議紀要提供會議重點內容導航,對于一生成的會議紀要實現關鍵會議信息的提取和問答能力。業務場景探索智能會議紀要適用于我行多種會議場景,目前,智能會議紀要已經在我行審貸會場景做了初步探索,取得較為理想的效果。會議紀要生成會議內容問答情緒內容摘要要點導航對話問答會議內容22場景應用(三):智能校對助手工具4.3全能力校對提供3大校對類型、12種校對模型、27類全棧校對技術。文字標點差錯校對:錯別字檢查、語義重復、句式雜糅、句子查重、語序錯誤等12類;內容導向風險識別:涉國家統一和主權領土完整、涉黃、涉暴、涉民族宗教、涉敏感內容等6類;知識性差錯校對:地理名詞、職務信息、時政重點詞、法律法規名稱、重要講話引用等9類。全數據知識庫基于10億級數據量專有知識庫,4類權威參考文獻作為校對標準,提供快速的校對服務。系列專有數據庫擁有大規模訓練集權威參考文獻優化訓練專業領域知識圖譜高效校對體驗校對速度達1000字/秒北京銀行2024年8月23