《中國電子技術標準化研究院:2023知識圖譜與大模型融合實踐研究報告(72頁).pdf》由會員分享,可在線閱讀,更多相關《中國電子技術標準化研究院:2023知識圖譜與大模型融合實踐研究報告(72頁).pdf(72頁珍藏版)》請在三個皮匠報告上搜索。
1、中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院前言為推進知識圖譜與大模型在企業級的落地應用,分析知識圖譜與大模型融合技術路徑,研究報告從知識圖譜與大模型落地面臨的瓶頸出發,分析了知識圖譜與大模型的主要特征、知識圖譜與大模型擅長的主要場景和核心基礎能力,對比了知識圖譜與大模型的優劣勢,進而從技術演化層面、技術互補層面、知識庫建設層面探討了知識圖譜與大模型融合的可行性及收益。同時,研究報告分析了知識圖譜與大模型融合的技術路徑及其關鍵技術,研究了知識圖譜與大模型融合系統評測體系,
2、對比了實際融合系統與大模型的性能測試結果。最終,通過梳理已有11個領域的實踐案例,給出了技術挑戰與發展展望。轉載、摘編或利用其它方式使用本報告文字或者觀點的,應注明來源為“中國電子技術標準化研究院”或對應案例提供單位,且不得對本報告進行有悖原意的刪減與修改。由于知識圖譜與大模型技術發展迅速,研究報告編制時間和作者學識限制,恐有紕漏或不嚴謹之處,敬請諒解和批評指正。研究報告編寫組中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院參編單位及人員中國電子技術標準化研究院郭楠、韓麗、李
3、瑞琪、李湘、胡成林、陳艷利中國電信股份有限公司研究院石曉東、趙龍剛、孫佩霞南京柯基數據科技有限公司楊成彪、吳剛、魏愛梅北京海致科技集團有限公司瞿珂、李思宇、胡嘉彥中譯語通科技股份有限公司陳自巖、彭旋沈陽東軟智能醫療科技研究院有限公司程萬軍北京文因互聯科技有限公司張屹、李亞軍中電科大數據研究院有限公司曹揚、孔德智、熊子奇、尹楊、閆盈盈北京京航計算通訊研究所馬靜、郝創博、白洋、張彤中科知道(北京)科技有限公司吳章生、李海英、王海波北京中企智造科技有限公司蔡志偉、張燕浪潮軟件科技有限公司張峰、王珂琛杭州??低晹底旨夹g股份有限公司姜偉浩、趙宏、吳炎、吳鵬亮廣州柏視醫療科技有限公司劉濤、顏子夜豪爾賽科
4、技集團股份有限公司張豐、劉姝、戴聰棋電科云(北京)科技有限公司方正、王尚帥云從科技集團股份有限公司李軍網智天元科技集團股份有限公司賈承斌廈門淵亭信息科技有限公司洪萬福、潘璐陽、朱成忠國際商業機器(中國)有限公司(IBM)初德高青島海爾科技有限公司王先慶、鄂磊、鞠劍偉浪潮電子信息產業股份有限公司李仁剛、賈麒、范寶余北京三快在線科技有限公司黃坤、劉瑾、李軒深圳市矽赫科技有限公司洪鵬輝、洪寶璇、林疊守同方知網數字出版技術股份有限公司萬敏鋒、相生昌、周永中國電力科學研究院有限公司徐建南、徐會芳、張英強浙江創鄰科技有限公司周研、馬超湖北汽車工業學院龔家元泰瑞數創科技(北京)股份有限公司劉俊偉、羅伊莎 國
5、電南瑞科技股份有限公司張萬才 石超 施雨南京航空航天大學周福輝、袁璐、宋熙富泰華工業(深圳)有限公司史喆、張學琴各章節編輯中國南方電網超高壓輸電公司李強:第一章中國電信股份有限公司研究院 石曉東第二章網智天元科技集團股份有限公司 賈承斌第三章南京柯基數據科技有限公司 楊成彪第四章廈門淵亭信息科技有限公司 潘璐陽第五章中國電子技術標準化研究院 李瑞琪第六章青島海爾科技有限公司 王先慶中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院參編單位及人員中國電子技術標準化研究院中國電子技
6、術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院第一章 背景中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院知識圖譜Knowledge Graph-KG國家標準及研究報告學者/機構以結構化形式描述的知識元素及其聯系的集合。1知識圖譜以結構化的形式描述客觀世界中概念、實體及其關系,將互聯網的信息表達成更接近人類認知世界的形式,提供了一種更好地組織、管理和理解互聯網海量信息的能力。2知識圖譜本質
7、上是一種叫作語義網絡的知識庫,即一個具有有向圖結構的知識庫。3維基百科:對事實和數字的組合,谷歌將其用于為搜索提供了上下文意義。谷歌于2012年推出,使用維基百科、維基數據和其他來源的數據。百科百度百科:在圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。圖結構化形式可呈現為有向圖結構化的形式谷歌:知識圖譜是一個知識庫,其使用語義檢索從多種來源收集信息,以提高Google搜索的質量。61GB/T 42131-2022信息技術 人工智能 知識圖譜技術框架2中國中
8、文信息學會語言與知識計算專委會,知識圖譜發展報告(2018)3漆桂林,高桓,吳天星.知識圖譜研究進展J.情報工程,2017,3(1):004-0254王昊奮,漆桂林,陳華鈞.知識圖譜:方法,實踐與應用J.自動化博覽,2020(1).DOI:CNKI:SUN:ZDBN.0.2020-01-014.5 L.Ehrlinger and W.Wo,“Towards a definition of knowledge graphs,”SEMANTiCS(Posters,Demos,SuCCESS),vol.48,pp.14,2016.6https:/blog.google/products/search
9、/introducing-knowledge-graph-things-not/Farber:知識圖譜是一種資源描述框架(RDF)圖,可用于描述任何基于圖的知識庫。5知識圖譜旨在建模、識別、發現和推斷事物、概念之間的復雜關系,是事物關系的可計算模型。4高效的檢索能力可將概念、實體及其關系結構化組織起來,具有高效檢索能力智能化推理能力可從已有知識中挖掘和推理多維的隱含知識附1:海外學者在知識圖譜領域相關研究1.知識圖譜的定義與發展歷程知識圖譜的定義知識圖譜與傳統知識庫相比具有的三大特征中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準
10、化研究院中國電子技術標準化研究院中國電子技術標準化研究院加菲爾德提出引文索引的思想1955普萊斯引文網絡分析1965Quillian語義網絡提出最早的表達人類知識1968Feigenbaum知識工程提出專家系統開始廣泛研究與應用1977Douglas Lenat建立Cyc知識庫1984Tim Berners Lee提出語義網概念,是后續知識圖譜的基礎1998首屆國際語義網大會(ISWC)召開,該會議延續至今,在國際上具有很高的學術影響力2002W3C將RDF和OWL納入標準,并在后續不斷更新,包括RDFS、SPAQL等逐漸填充進入,形成豐富的語義網技術棧 2004Tim Berners Lee
11、提出linked Open Data2006Dbpedia知識庫建立2007Schema.org建立2011Google正式提出知識圖譜(Knowledge Graph,KG)概念同年,Wikidata項目啟動2012首個KG嵌入方法TransE提出,推動了后續包括圖神經網絡等KG推理方法飛速發展2013OpenKG組織成立2015首屆CCKS大會召開2016事理圖譜概念提出,強調了KG對事件的順承、因果等復雜認知能力的建模2018RichPedia作為多模態KG發布,代表KG進入新時代2020首個知識圖譜國標發布20221.知識圖譜的定義與發展歷程知識圖譜發展歷程中國電子技術標準化研究院中國
12、電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院具有涌現能力在特定任務上,隨著模型規模提升模型性能突然出現顯著提升大模型與傳統模型相比具有三大特征2參數規模龐大參數規模不少于十億(1B),嚴格意義上需超過一百億(10B)2權威論文中大模型的定義具有通用性能夠僅通過提示、微調適應廣泛的下游任務2.大模型的定義與發展歷程大模型的定義大模型通常是指參數規模在一百億(10B)以上,使用大規模的訓練數據,具有良好的涌現能力,并在各種任務上達到較高性能水平的模型。2狹 義 上:大模型是指參數數量大、結構復雜的深度學
13、習模型,具備涌現能力、通用能力,并能夠處理復雜的下游任務,如自然語言處理、圖像識別等。廣 義 上:中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院AlexNet為代表的新一代模型在規模和性能上超越傳統方法2012年自然語言處理模型Word2Vec誕生2013年Google提出Transformer架構,奠定了大模型預訓練算法架構的基礎2017年 OpenAI發布GPT-1(Decoder)Google發布BERT(Encoder)預訓練大模型成為自然語言處理領域的主流2018
14、年RLHF算法被提出2022年3月2023年5月2023年7月OpenAI公司推出GPT-2,模型參數規模15億,Decoder技術路線優勢顯現2019年OpenAI公司推出GPT-3,模型參數規模1750億,在零樣本學習任務上實現了巨大性能提升2020年微軟發布BEiT-3模型,標志多模態大模型時代到來2022年8月搭載GPT3.5的ChatGPT正式發布2022年11月 GPT4正式發布,包含1.8 萬億參數,采用混合專家模型 百度發布“文心一言”,國內大模型研發熱潮涌現2023年3月 國家人工智能標準化總體組下設立大模型標準化專題組,啟動標準編制工作 生成式人工智能服務管理暫行辦法公布C
15、NN為代表的傳統神經網絡模型占主導地位2005年中國發布的10億以上參數大模型超過79個,“百模大戰”態勢初步形成2.大模型的定義與發展歷程大模型的發展歷程中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院4.本體構建難度大本體構建對領域專業知識和構建經驗要求高,實體與關系的標識和對齊、本體擴展和更新、本體評估和質控、不同本體融合等方面仍面臨技術挑戰6.知識完備性不足企業級知識圖譜構建中通常面臨領域邊界限制、企業內數據規模有限、數據中知識稀疏等問題,導致其知識完備性不足5.知識
16、通用性不足企業級知識圖譜平臺及其知識內容具有較強的行業屬性和領域專業性,通用性和遷移泛化能力尚有不足,跨行業、跨領域規?;瘧糜写嵘?.語義理解和自然語言處理難度大知識圖譜在面對自然語言中的語義歧義、上下文理解、語言常識推理等問題時,仍缺乏有效的解決辦法2.知識抽取質量,難以保證知識抽取規則的構建仍主要依賴人工,主觀性強,導致可移植性差和誤差傳播,使得知識抽取質量難以保證1.語料數據標注效率低、主觀性強語料數據標注仍大量依靠人工,存在標注效率低、主觀性強等問題3.知識圖譜落地面臨的瓶頸中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術
17、標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院大模型的訓練和優化需要大量的算力資源和海量的數據資源,涉及高性能硬件設備、強大的分布式計算能力、數據治理與融合等,投入成本巨大大模型的開放性導致其存在信息泄露、數據攻擊的風險,影響輸出結果的魯棒性和安全性大模型的輸出結果是根據概率推理而生成,具有隨機性和不穩定性,導致其正確性的驗證難度大,難以保證結果的準確可信面向特定領域、多應用場景的高質量中文語料規模和質量不足1.訓練大模型的成本高2.訓練數據的規模和質量不足3.訓練過程的可控性差4.輸出的可信度不足5.輸出的安全性不足6.知識更新的實時性不足7.領域知識的覆蓋率不足8.社會和倫理
18、問題隱現大模型的黑盒問題使得其推理過程很難得到合理的解釋和有效的控制,增加了大模型優化的難度,并限制了其在部分領域的應用大模型訓練新數據、獲取新知識的周期較長,且成本較高,導致其數據更新的滯后和知識時效性的不足GPT等大模型對各領域專業知識的覆蓋仍不足,對專業問題的回答尚無法令人滿意大模型的輸出可能存在與社會和倫理要求相悖的內容,如:生成內容消極、負面,具有破壞性等4.大模型落地面臨的瓶頸中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院附附1 1:知知識識圖圖譜譜領領域域國國
19、內內外外學學者者及及相相關關研研究究知知識識圖圖譜譜國國內內外外研研究究學學者者:G Ge er rh ha ar rd d W We ei ik ku um m,德德國國薩薩爾爾布布呂呂肯肯M Ma ax x-P Pl la an nc ck k信信息息學學研研究究所所T To om m M M.M Mi it tc ch he el ll l,卡卡內內基基梅梅隆隆大大學學計計算算機機科科學學學學院院最最高高級級別別 E E.F Fr re ed dk ki in n 講講席席教教授授I Ia an n H Ho or rr ro oc ck ks s,英英國國牛牛津津大大學學計計算算機機專
20、專業業教教授授唐唐杰杰,清清華華大大學學教教授授李李涓涓子子,清清華華大大學學教教授授漆漆桂桂林林,東東南南大大學學教教授授陳陳華華鈞鈞 ,浙浙江江大大學學教教授授王王昊昊奮奮,同同濟濟大大學學教教授授劉劉嶠嶠 ,電電子子科科技技大大學學教教授授G Ge er rh ha ar rd dW We ei ik ku um m研研究究知知識識獲獲取取表表示示、分分布布式式信信息息系系統統、數數據據庫庫性性能能優優化化與與自自主主計計;算算、信信息息檢檢索索與與信信息息提提取取等等;T To om m M M.M Mi it tc ch he el ll l 的的研研究究涵涵蓋蓋知知識識表表示示、知
21、知識識庫庫構構建建、機機器器學學習習、人人工工智智能能,機機器器人人和和認認知知神神經經科科學學等等;I Ia an n H Ho or rr ro oc ck ks s 的的研研究究涵涵蓋蓋述述述述邏邏輯輯、語語義義網網絡絡、知知識識表表達達、知知識識庫庫、網網絡絡本本體體語語言言等等方方向向;唐唐杰杰研研發發出出研研究究者者社社會會網網絡絡 A Ar rn ne et tM Mi in ne er r 系系統統,唐唐杰杰的的高高引引用用論論文文是是 2 20 00 08 8 年年在在 K KD DD D 會會議議上上發發表表的的“A Ar rn ne et tM Mi in ne er r
22、:e ex xt tr ra ac ct ti io on n a an nd d m mi in ni in ng g o of f a ac ca ad de em mi ic c s so oc ci ia al l n ne et tw wo or rk ks s”對對其其負負責責的的知知識識工工程程實實驗驗室室 A Ar rn ne et tM Mi in ne er r 系系統統關關鍵鍵問問題題進進行行討討論論,整整合合來來自自在在線線 W We eb b 數數據據庫庫的的出出版版物物并并 出出一一個個概概率率框框架架來來處處理理名名稱稱歧歧義義問問題題;中國電子技術標準化研究院中
23、國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院第二章中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院場景名稱場景描述大模型知識圖譜智能對話內容生成內容加工作品創作機器翻譯意圖識別智能檢索智能推薦輔助決策知識管理代表對此場景有較好的支撐能力。1.知識圖譜與大模型的對比典型應用場景層面 知識圖譜與大模型分別擁有相對擅長的應用場景。中國電子技術標準化研究院中國電子技術標準化研究院中國電子
24、技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院應用場景大模型的基礎能力知識圖譜的基礎能力智能對話語義理解、指令遵循、思維鏈、基礎常識支持上下文理解、情感分析、推理規劃語義理解、知識融合、知識查詢、知識推理內容生成語義理解、指令遵循、思維鏈、基礎常識支持上下文理解、情感分析、數據可視化語義理解、知識融合、知識查詢知識推理、知識可視化內容加工語義理解、指令遵循、思維鏈、基礎常識支持上下文理解、語義分割-作品創作語義理解、指令遵循、思維鏈基礎常識支持、上下文理解、情感分析-機器翻譯語義理解、指令遵循-意圖識別語義理解、上下文理解支持、
25、情感分析-智能檢索語義理解、指令遵循、基礎常識上下文理解、情感分析語義理解、知識查詢、知識推理智能推薦語義理解、推理規劃語義理解、知識查詢、知識查詢輔助決策語義理解、指令遵循基礎常識、上下文理解語義理解、知識融合、知識查詢知識推理、知識溯源知識管理-知識融合、知識存儲、知識補全、知識查詢知識推理、知識溯源、知識共享與交換、知識更新與維護1.知識圖譜與大模型的對比核心基礎能力層面 知識圖譜與大模型通過自身的核心基礎能力支撐了對應的應用場景,難以簡單替代。中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院
26、中國電子技術標準化研究院大大模模型型的的優優勢勢大大模模型型的的不不足足知知識識圖圖譜譜的的優優勢勢知知識識圖圖譜譜的的不不足足通用性:模型具有指令遵循能力,能處理多種任務,并支持多語言、多模態、多領域的應用??缮尚裕耗P湍苌筛鞣N形式和風格的文本,也能生成多模態的內容,如圖像、音頻等。學習能力:基于大量語料的訓練,能對新輸入產生合理的響應,也能從多模態數據中進行學習。創作能力:能生成新穎、連貫和通順的文本,也能生成多模態作品,如圖片、歌曲等。常識能力:基于海量通用訓練數據中的知識,具有常識理解能力。語義理解能力:能根據文本、多模態數據中出現的內容,理解其含義和關系??山忉屝裕耗P偷臎Q策過程
27、是黑箱的,難以解釋??尚刨囆裕耗P偷妮敵隹赡艽嬖阱e誤或有偏見的信息??伤菰葱裕耗P偷妮敵鍪腔谟柧毜臄祿?,而不是特定的數據點或知識點,較難追溯其輸出的來源??尚r炐裕耗P偷妮敵龊屯评斫Y果有賴于通過人工或者其他系統進行校驗??稍u價性:模型的性能和輸出可通過一些標準任務進行評價,尚不成熟。常識能力:無法處理超出訓練語料范圍的常識問題。領域能力:缺乏豐富全面的領域知識,領域服務能力一般。語義理解能力:可能出現理解錯誤或歧義等問題。通用性:知識圖譜通常面向特定領域,在通用性上可能較弱??缮尚裕褐R圖譜主要用于查詢和分析,而非生成新的內容。學習能力:缺乏自主學習能力。創作能力:缺乏自主創作能力。常識能
28、力:局限于知識圖譜中的信息,常識能力較弱。語義理解能力:語義理解能力主要局限于知識圖譜中的知識內容,理解能力較弱??山忉屝裕褐R圖譜可基于基于明確的語義結構進行查詢和分析,具有較好的可解釋性??尚刨囆裕褐R圖譜通常是由專家創建和維護,因此其可信賴性較高??伤菰葱裕褐R圖譜中的每個實體和關系都可以追溯到其來源??尚r炐裕褐R圖譜中的信息可以通過專家進行校驗??稍u價性:知識圖譜的質量可通過查詢的準確性和完整性來評價。領域能力:具有較強的領域知識支持,支撐了其領域服務能力。推理能力:可根據圖譜中的精確知識內容和關聯結構,進行高可信度的推理。1.知識圖譜與大模型的對比技術特性層面中國電子技術標準化研究
29、院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院過去在技術發展中交替演進由知識工程而提出的語義網絡網絡式表達人類知識構造,以此為基礎構建專家系統以解決實際問題由Google提出的知識圖譜系統表達常識知識,補充現有深度學習模型缺乏的認知能力,推理更精準多模態知識圖譜利用多模態信息補充符號語義表達的不足,強化知識的表征能力,支撐多模態理解、推理和元認知等能力。知識高度依賴人工定義,難以進行擴展通過圖拓撲建立的隱式的復雜語義以模擬人類認知,但表征能力不足知識異構模態語義對齊難,在不同模態間映射關系多樣A
30、lexNet代表的深度學習出現由硬件發展推動而產生的新一代AI方法,模型規模和性能超越傳統方法需要大量標注數據支持,完全沒有知識建模的能力Transformer架構推動大模型發展BERT,Vision Transfomer等依靠預訓練模型,以參數化形式建模知識,進一步發展為以GPT系列為代表的大模型技術需要大量數據、大量算力支持,存在幻覺、高層認知能力等缺點多模態大模型利用豐富的多模態數據,強化相互之間語義對齊約束,提升高級認知能力,異構模態之間的數據對齊難,模態間映射關系復雜未來面臨共同的挑戰與目標相互支持大模型和知識圖譜是相互依賴的知識處理與應用技術,知識圖譜發展激發了深度學習的需求和發展
31、,深度學習和大模型也成為知識圖譜構建的基礎能力,并共同面對未來多模態知識相關的挑戰。2.知識圖譜與大模型融合的可行性技術演化層面中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院融合方向互補大模型擅長處理自然語言和模糊知識,而知識圖譜擅長表示結構化知識并進行推理。相互結合,可以充分發揮它們的優勢,解決更復雜的問題?;哟竽P涂梢杂糜趶奈谋局刑崛≈R、從而擴展和豐富知識圖譜的內容。知識圖譜可以為大模型提供結構化知識進行語義補充和生成引導。增強知識圖譜和大模型融合可以相互增強各自的
32、能力。知識圖譜可以提高大模型的語義理解和準確性,而大模型可以為知識圖譜提供更豐富的語言知識和生成能力。知識圖譜大模型知識圖譜能夠為通用大模型的工業化應用,彌補通用大模型語料里專業領域知識的不足。,可對大模型的生成能力進行各方面的評估,降低事實性錯誤的發生概率。,適度控制內容生成,大模型可以利用語義理解和生成等能力抽取知識,也可以抽取出隱含的、復雜的、多模態的知識,降低圖譜構建成本。大模型可以利用其語義理解和指令遵循等能力增加知識的全面性和覆蓋度,生成更加合理、連貫、有創新性的內容,例如文本、圖像、音頻等。2.知識圖譜與大模型融合的可行性技術互補層面中國電子技術標準化研究院中國電子技術標準化研究
33、院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院大模型知識圖譜動態、概率知識庫靜態知識庫參數化知識庫,通過網絡參數存儲知識,不易理解形式化知識庫,通過三元組存儲知識,結構清晰,查詢簡單,易于理解隱式知識庫,隱式的存儲知識,決策的過程難歸因、解釋、溯源顯性知識庫,顯式地存儲知識,有助于歸因溯源,提高模型行為的可解釋性更新難度大,忘記特定的知識更加困難便于更新、修改、遷移知識知識的通用性更強,適合于高通用知識密度,高專業知識密度(專業語料少)的應用場景知識的領域性更強,適合于高專業知識密度,低通用知識密度場景具有上下文感知能
34、力、深層語義表示能力和少樣本學習能力圖結構表達能力強。多模態內容采用模型參數存儲,有語義對齊和不可解釋性。多模態知識按照知識表示形式存儲。知識圖譜可以通過prompt,來執行相應信息提取以及思維鏈的推理任務,形式化成不同形式的知識,例如三元組,多元組或者事件鏈條??梢岳胮rompt,參與到大模型的訓練前的數據構造,訓練中的任務,以及訓練后推理結果的約束生成,提升大模型的性能。大模型2.知識圖譜與大模型融合的可行性知識庫建設層面中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院
35、通過將知識圖譜作為訓練目標、模型輸入、專門知識融合模塊,增強大模型預訓練效果;通過動態知識融合、檢索增強的知識融合方法,增強大模型推理能力;通過基于知識圖譜的探針、分析技術,增強大模型可解釋性。通過將大模型作為編碼器或者通過大模型的生成能力,增強知識圖譜表征;將大模型作為解碼器、生成器,作用于知識補全;利用大模型的生成能力,增強圖譜構建,對圖譜交互、圖譜問答等任務提供支持和提升將大模型與知識圖譜進行統一表征,增強結果準確性;將大模型和知識圖譜結合,運用于推理過程,彌合文本和結構信息之間的差距并提升推理可解釋性。2023,Shirui Pan et.al,大型語言模型與知識圖譜協同研究(Unif
36、ying Large Language Models and Knowledge Graphs:A Roadmap)3.知識圖譜與大模型融合的現有研究工作0 01 1 知知識識圖圖譜譜賦賦能能大大模模型型0 02 2 大大模模型型賦賦能能知知識識圖圖譜譜0 03 3 大大模模型型和和知知識識圖圖譜譜協協同同中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院知知識識圖圖譜譜+大大模模型型 降低算力:可減少大模型對無結構化文本的依賴,從而降低大模型的預訓練或推理所需的算力和時間。提
37、高知識可信度:依托知識圖譜中經質量評估的知識,可幫助大模型提高信息的質量和可信度,并保障知識的正確性和時效性。增強通用性、領域能力、認知能力:可幫助大模型獲得跨領域和跨語言的知識,并更好地適應不同的領域任務和場景。降低構建成本:依托知識圖譜中的結構化知識,可減少大模型對標注數據或專家知識的需求,從而降低大模型的構建成本和難度。提高可生成性:可幫助大模型可生成更貼近實際、更具有解釋性的內容。提高創作能力:通過知識圖譜的知識增強,可幫助大模型創作內容更具邏輯、一致性和創新性等。增強理解能力:大模型的語義理解能力可幫助知識圖譜更好地理解和分類非結構化信息。降低構建成本:大模型的上下文理解能力、基礎常
38、識支持能力等可幫助知識圖譜提升非結構化數據的知識獲取、知識建模、知識融合等能力,降低其構建和維護成本。豐富輸出形式:大模型的生成能力可幫助知識圖譜獲得多元化的知識輸出和服務形式,增強知識圖譜系統的服務效果,并提升人機交互水平。提高知識完備性:大模型中涵蓋的知識及其對新數據的理解能力,可幫助知識圖譜進行知識補全和知識校驗,提高知識的完備性。提高可解釋性:知識圖譜的顯性知識與大模型的隱性知識相結合,可提高知識應用的可解釋性。實現交叉驗證:知識圖譜的輸出與大模型的輸出相結合,可為知識應用提供交叉驗證/比對的手段,提高服務的可信賴性。優化知識存儲:知識圖譜的結構化信息存儲和大模型的非結構化信息處理相結
39、合,可優化知識存儲和檢索效率。提高決策能力:知識圖譜推理結果與大模型推理結果的結合,可進一步豐富輔助決策的知識背景,并提供更精確的決策建議。增強隱私保護:知識圖譜中數據加密和保護能力與大模型數據調用能力相結合,可降低大模型對個人隱私數據的依賴,有利于保障隱私安全。確保知識產權保護:知識管理機制與本地化部署方式相結合,可更好地保護知識產權,防止知識的濫用或盜用。增強倫理邊界:通過優化知識圖譜中的知識結構及大模型訓練樣本結構,構建約束規則類知識并降低數據偏見,強化輸出邊界。4.知識圖譜與大模型融合的收益中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院
40、中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院2023第三章中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院圖譜2圖譜1大模型1大模型2大模型3結構化數據/半結構化數據/非結構化數據數據大模型集合知識圖譜集合知識圖譜賦能大模型:以知識圖譜為工具提升大模型的能力大模型賦能知識圖譜:以大模型為工具提升知識圖譜的能力知識圖譜與大模型協同?利用知識圖譜與大模型各自的優勢相互賦能(1+1),并結合上層應用集成,實現兩者技術的互補。?利用知識圖譜間的互聯互通及大
41、模型間的集成調度(N+N),實現融合后系統能力的持續增強。1.知識圖譜與大模型融合的總體技術路線中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院2.大模型賦能知識圖譜的技術路徑利用大模型在語義理解、內容生成等方面的技術優勢,實現大模型對知識圖譜構建至應用全生命周期各環節的增強,提升效率和質量。中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院1)用大模型增強數
42、據標注利用大模型對原始數據進行實體、關系、事件等標注。2)用大模型增強知識抽取利用大模型進行實體抽取、關系抽取、事件抽取、因果關系抽取等,例如:DeepKE-LLM。3)用大模型增強知識建模利用大模型進行實體類型提取、關系類型提取、事件類型提取、知識體系提取等。4)用大模型增強知識圖譜嵌入與表示學習利用大模型作為知識圖譜嵌入的文本和圖結構編碼器,解決結構連通性有限的問題,提升知識抽取的能力。5)用大模型增強知識圖譜補全利用大模型作為編碼器或生成器來補全知識圖譜數據,提升知識補全的能力。6)用大模型增強知識圖譜構建利用大模型開展實體發現、共指解析和關系提取,構建特定領域內的知識圖譜結構。采用知識
43、蒸餾等技術實現端到端的圖譜構建。參考文獻 2023 Yunjie Ji,etc.Exploring ChatGPTs Ability to Rank Content:A Preliminary Study on Consistency with Human Preferences2021 Shirui Pan,etc.Unifying Large Language Models and Knowledge Graphs:A Roadmap2023 Xiang Wei,etc.Zero-Shot Information Extraction via Chatting with ChatGPT2.
44、大模型賦能知識圖譜的技術路徑關鍵技術示例中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院7)用大模型增強知識融合利用大模型進行術語定義補全、術語對齊和標準化、實體標準化對齊、同義詞提取與融合等8)用大模型增強知識推理利用大模型進行關系推理、事件推理等9)用大模型增強知識圖譜可視化利用大模型進行多種形式的知識可視化10)用大模型增強知識圖譜文本生成利用大模型自然語言理解方面的優勢能夠提升從知識圖譜中生成文本的質量,提高語言的準確性和在現實場景中的可用性。11)用大模型增強知識圖
45、譜問答利用大模型抽取自然語言問題中的實體、關系,進入結構化的知識圖譜尋找問題答案,再通過大模型組合答案并結合大模型自身的知識廣度將更充實的答案以自然語言的方式輸出,增強知識圖譜問答的廣度、自然性和準確性。12)用大模型增強知識圖譜多模態知識對齊利用大模型的通用性和對多類型數據統一處理的能力,能夠增強多模態知識對齊,賦能多模態知識圖譜的構建、表示、推理和應用的全流程。2.大模型賦能知識圖譜的技術路徑關鍵技術示例參考文獻 2021 Shirui Pan,etc.Unifying Large Language Models and Knowledge Graphs:A Roadmap中國電子技術標準
46、化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院3.知識圖譜賦能大模型的技術路徑 應用場景實現示例:基于大模型增強的知識抽取Gitee地址:https:/ apiPrompt意圖識別知識圖譜分類、實體識別、翻譯123實體別稱補全實體上下位推理行業背景知識補全知識修正知識溯源3.知識圖譜賦能大模型的技術路徑 應用場景實現示例:基于知識圖譜增強大模型的文檔問答1.離線部分,對文檔進行預處理,構建段落級索引,包括全文索引和向量索引2.在線部分,使用知識圖譜增強大 模型的問答效果:在意圖識別階段,用
47、知識圖譜進行實體別稱補全和上下位推理;在Prompt組裝階段,從知識圖譜中查詢背景知識放入上下文;在結果封裝階段,用知識圖譜進行知識修正和知識溯源中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院分別發揮知識圖譜與大模型兩者的技術優勢,通過統一知識表征、動態協同知識推理等技術手段,實現企業級認知決策智能水平的升級發展。3.知識圖譜與大模型協同應用的技術路徑中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國
48、電子技術標準化研究院中國電子技術標準化研究院3.知識圖譜與大模型協同應用的技術路徑1)知識圖譜與大模型統一表征技術通過對大模型與知識圖譜進行知識統一表征,增強結果的準確性。2)知識圖譜與大模型統一構建技術通過融合知識圖譜的訓練目標和大模型的訓練目標,構建統一模型,使得統一模型同時具備大模型的通用知識、語言理解、知識涌現能力和知識圖譜的顯性知識、限定域知識、可靠性、可解釋性能力。3)知識圖譜與大模型串行推理技術通過知識圖譜與大模型的串行應用,原始信息首先經過知識圖譜進行結構化抽取關聯信息,將檢索結果輸入大模型進行預測推理,從而提高知識推理預測的準確性。4)知識圖譜與大模型并行推理技術大模型與知識
49、圖譜并行召回答案,動態協同進行知識推理,完成答案融合,即能提高推理結果的準確性,又能拓展推理的知識邊界。參考文獻 2021 Shirui Pan,etc.Unifying Large Language Models and Knowledge Graphs:A Roadmap中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院5)6)7)3.知識圖譜與大模型協同應用的技術路徑關鍵技術示例知識圖譜與大模型交互接口標準化規定和明確知識圖譜與大模型之間交互接口的標準格式,提升不同廠商間
50、產品集成的便捷性。知識圖譜與大模型間任務編排與調度技術知識圖譜與大模型協同的過程中,需要基于企業內業務流進行任務的編排和調度,以保證協同過程的流暢性和可操作性。知識圖譜與大模型協同中隱私保護技術知識圖譜與大模型協同過程中,知識圖譜內容仍將被用于大模型的輸入或輸出中,如何保護知識圖譜中的隱私數據不泄漏是系統建設的重要環節。中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院1.在為用戶推薦美食信息的同時,以“知識圖譜+大模型”的應用范式智能生成更加觸動人心的文案來觸達用戶。3.知識
51、圖譜與大模型協同應用的技術路徑 應用場景實現示例:基于大模型和知識圖譜融合的文案生成中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院第 四 章中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院參考:IEEE P2807.1知識圖譜技術要求與測試評估規范知識圖譜系統測評體系知識圖譜構建知識圖譜應用知識建模知識抽取知識融合知識表示知識存儲知識檢索智能問答智能推薦智
52、能檢索輔助決策知識管理1.知識圖譜和大模型系統的測評體系概述中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院大模型系統測評體系大模型開發大模型應用數據構建模型訓練模型部署模型管理大模型能力大模型安全語義理解內容生成基礎常識智能對話智能檢索內容生成智能推薦情感分析可解釋性可信耐性可溯源性可評價性可校驗性上下文理解推理規劃內容加工輔助決策作品創作機器翻譯1.知識圖譜和大模型的測評體系概述中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究
53、院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院大模型賦能/增強知識圖譜系統測評體系知識圖譜構建知識圖譜應用融合成本計算資源響應速度融合增益存儲資源知識規模知識復雜度推理能力知識完備度同知識圖譜系統測評構建成本理解能力2.知識圖譜與大模型融合系統測評體系中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院知識圖譜賦能/增強大模型系統測評體系大模型開發大模型應用大模型能力大模型安全融合成本計算資源響應速度存儲資源融合增益訓練數據知識可信度知識準確度知識實時
54、性知識運維能力常識能力可解釋性認知能力同大模型系統測評2.知識圖譜與大模型融合系統測評體系中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院數據集名稱規模子任務描述entity-medical-200200條實體識別基于疾病診療指南標注的實體識別數據,包含7類實體relation-medical-200200條關系抽取基于疾病診療指南標注的關系抽取數據,包含5種關系 任務類型:知識抽取 數據集 測評結果0.730.650.860.510.880.770.470.380.520.
55、4400.10.20.30.40.50.60.70.80.91實體識別關系抽取CasRel傳統方法ChatGPTKG+ChatGPTChatGLM-6BKG+ChatGLM-6Bbert+bilstm+crf 結果樣例KG+ChatGPT顯著提升了關系抽取的召回率3.知識圖譜與大模型融合系統測評結果中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院數據集名稱規模子任務描述醫藥百科圖譜200W三元組柯基數據基于開源數據構建的醫藥領域的全科知識圖譜醫藥常識問題集100條常識問答醫學
56、專家人工編輯的常識問題糖尿病問題集100條糖尿病問答醫學專家人工編輯的糖尿病領域的診療問題肺癌問題集100條肺癌問答醫學專家人工編輯的肺癌領域的診療問題 任務類型:智能問答 數據集 測評結果(注:每個問題的答案由醫學專家打分,0-3分)2521681412612132191679378189116116218135121220166177050100150200250300常識問答糖尿病問答肺癌問答總得分ChatGPTKG+ChatGPTChatGLM-6BKG+ChatGLM-6B文心一言KG+文心一言3.知識圖譜與大模型融合系統測評結果中國電子技術標準化研究院中國電子技術標準化研究院中國電
57、子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院 任務類型:智能問答 結果樣例肺癌非小細胞肺癌小細胞肺癌肺腺癌鱗狀上皮癌大細胞癌80%至85%占比屬于屬于屬于屬于屬于3.知識圖譜與大模型融合系統測評結果中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院數據集名稱規模子任務描述event-100100條文本分類-單層級警情數據,單層分類的數據case-1k1000條文本分類-多層級案件數據,有父子三層級分類的數據子
58、任務準確率LLMKG+LLM文本分類-單層級67%93%文本分類-多層級31%56%任務類型:文本分類 數據集 測評結果 結果樣例3.知識圖譜與大模型融合系統測評結果中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院第五章知識圖譜與大模型融合 實踐案例 ZHI SHI TU PU YU DA MO XING 中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院行業
59、需求:1、網絡運維工作壓力大,人員不足,亟需智能化運維工具提高效率;2、運維人員人工判障效率低,客戶體驗和滿意度難以得到保障,亟需通過智能化手段壓降運維時長;3、海量的運維知識檢索利用難度大,需智能助手幫助運維人員準確快速找到匹配解決方案,提升效率。解決方案:面向生產一線運維人員,基于意圖理解和網絡大模型技術,打造具有豐富運維知識的運維助手面向運維專家,利用運維助手進行交互問答,提供查詢故障現象,故障原因,故障解決方案,解決效果等,隨時在線的運維客服助手關鍵技術:1、基于網絡大模型和運維知識圖譜技術打造智能運維助手;2、基于意圖理解和運維知識圖譜打造運維智能問答機器人提升效果:1.電信行業實踐
60、案例:網絡運維數字員工中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院2.電力行業實踐案例:電力智能客服行業需求1、傳統智能客服機器人機械化、條目式的知識檢索與問答服務存在用戶訴求識別率低、泛化性差等問題,無法滿足當前電力客服深度智慧化的需求2、為解決話務量大且座席業務繁重問題,亟需開展智能客服的適應性升級改造,建立智能服務一體化運營管理體系,分流緩解話務高峰,降低客服業務運營培訓成本,提升電力客服業務服務水平關鍵技術:1、電力客服領域語言大模型微調優化技術2、基于領域知識圖
61、譜的大模型知識增強技術解決方案:利用客服知識圖譜、知識庫等語料資源以及LLM大語言模型,構建深度智慧、安全可信的電力客服大模型,滿足精準的用戶訴求分析、多樣化的問答任務響應、實時高效的多輪對話等需求,實現客服問題生成式應答和多樣化業務的靈活響應。提升效果:提升客服多輪對話內容生成準確率、用戶訴求智能客服應答率等性能。中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院1、行業數據量龐大且多樣化,數據呈分散態勢,難以高效整合和分析;2、行業特點較強,數據包含較多專業術語及領域知識,
62、傳統NLP技術難以準確理解分析;3、文本數據存在復雜的結構和語法,對處理系統要求較高。信通小數應用基于電力領域特性和通用語料訓練而成的面向電力行業的智能交互應用,為電力行業安監、營銷、基建等八大領域提供文本處理、信息提取和智能決策等多種需求的產品。1、自然語言處理;2、領域智能交互;3、語義及情感分析。1、在視頻會議的轉錄及提綱環節減輕記錄員相關工作量約90%;2、在綜合辦公的公文寫作及大綱編制環節,提升工作人員60%工作效率;3、應急處理縮短45%處理時間。2.電力行業實踐案例:信通小數應用0 01 10 02 20 03 30 04 4中國電子技術標準化研究院中國電子技術標準化研究院中國電
63、子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院行業需求1)基于數據資產的血緣鏈路、下游應用級別等維度,構建特殊數據資產識別規則2)在特殊數據資產狀態出現異常(變化)時,基于不同的異常(變化)情況,對相對應的管理節點(人員)進行預警解決方案基于知識圖譜,構建數據資產的全鏈路血緣,將應用級別、資產狀態等信息作為屬性存儲,為特殊數據資產識別提供底層支撐基于大模型,從圖結構信息和節點屬性中提取必要特征,智能的為用戶進行特殊數據資產的推薦及相關異常預警提升效果已部署于華東某國網,基于大模型和知識圖譜的特殊數據資產識別及管理系統,基于用戶
64、不同業務場景,推薦不同類別的特殊數據資產(如核心數據資產、邊緣數據資產、冗余數據資產等),幫助用戶對數據資產進行管理。且在特殊數據資產發生變化時,對受影響的部門或責任人進行自動預警 關鍵技術主動元數據、元數據血緣、特征子圖、預訓練模型2.電力行業實踐案例:基于大模型和知識圖譜的特殊數據資產識別及管理中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院行業需求:1.營銷領域知識圖譜構建費時費力。2.知識圖譜的現有展現形式難以快速獲取復雜知識和實體關系。解決方案:1.將銀行的營銷業務
65、知識圖譜與大模型相結合,利用大模型實現知識圖譜數據的快速提取和分析。2.采用便捷的自然語言交互方式,降低傳統圖譜分析的復雜性,提升分析效率。關鍵技術:1.利用大模型進行實體、屬性、關系等知識圖譜要素提取,輔助知識圖譜內容生成。2.訓練大模型符合知識圖譜內容結構的指令模版。3.利用大模型檢索知識圖譜進行內容分析。4.調用外部接口進行進一步的業務分析。5.利用大模型整合內容生成最終的回答。提升效果:實現了基于營銷知識圖譜的分析問答,助力營銷業務高效推進。3.金融行業實踐案例:銀行智能營銷助手中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術
66、標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院3.金融行業實踐案例:基于大模型的智能圖分析平臺反欺詐場景應用行業需求:1)根據監管可疑特征構建單規則、復雜規則;規則指標維度較少;預警量大、準確率低;2)基于涉案名單作為樣本構建機器學習模型,提升了召回率、準確率,但可解釋性低。解決方案:1)基于知識圖譜,建立以圖算法和機器學習為核心的團伙反欺詐模型,能夠挖掘客戶關系網絡和賬戶間的隱藏資金鏈,并提升對可疑團伙的識別能力,無論是靜態的還是動態的關系;2)基于大模型,從圖結構信息、節點屬性和模型特征中提取關鍵信息,生成智能風險報告,并通過基于特征的聯動圖譜可視化展示,使得風險分析更加智能
67、化和直觀化。提升效果:在銀行內反欺詐平臺進行了業務可行性評估,智能解讀欺詐團伙的行為特征所生成的風險報告,以及提供團伙關系和模型特征的圖譜可視化展示,能夠提升反欺詐作業人員的研判效率。關鍵技術:圖算法、機器學習、圖結構信息抽取、預訓練模型中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院4.醫藥行業實踐案例:Clinical lnsight臨床試驗情報平臺行業需求:1、加速藥物上市前的臨床試驗設計和臨床試驗招募,以及上市后的產品上市教育、藥品渠道銷售、患者全流程管理和數字化診療
68、等多種場景;2、整合多源異構信息為醫藥場景提供高效、客觀、科學的循證支持,實現降本增效。關鍵技術:1、醫藥會議摘要的智能問答;2、臨床知識報告生成。解決方案:利用知識圖譜及LLM大語言模型進行數據的關聯分析及內容生成,為企業提供藥物試驗的潛在競爭情報,并關聯臨床試驗結果,為試驗設計提供循證參考。提升效果:1、臨床試驗的入排標準設計和試驗中心篩選環節周期縮短60%;2、實現遵循醫學規范,實現醫學知識的復用,進一步提高數據的價值和應用。中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研
69、究院1、知識分散,沒有有效整合,耗費人工去找尋答案;2、醫學問詢郵件沒辦法保證立即回復,無法快速地幫助醫生/患者等解決問題;3、整合所有資料的知識點,有局限性,還是會出現無回答的情況。全球化醫學Chatbot平臺是一個為醫藥企業打造的面向外部醫生、護士、藥劑師等醫學專業人士,基于知識圖譜和LLM大語言模型能力可循證的疾病用藥的應用產品。提升醫學部/市場部的效率達到50%1、基于知識圖譜的知識增強能力;2、文檔解析、問答和自動報告的流程自動化。4.醫藥行業實踐案例:醫學學術營銷平臺中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研
70、究院中國電子技術標準化研究院中國電子技術標準化研究院行業需求:1)購車是許多人生活中的重大決策之一,人們希望能夠獲取針對個人需求的準確且全面的汽車推薦信息,包括車型、價格、性能等方面的細節。2)提供購車過程中的相關指導和建議,以便做出明智的選擇。解決方案:通過智能問答系統,結合知識圖譜與自然語言處理技術,為用戶提供車型、參數、技術規格、價格、預算、性能和購車推薦和指導。提升效果:?提供個性化的購車推薦和指導,使用戶更容易找到適合自己需求的汽車。?通過價格預測模型,為用戶提供參考的價格范圍,幫助他們在合理的預算范圍內做出選擇。?減少用戶的購車時間和不必要的試錯,提高購車效率和滿意度。?構建良好的
71、用戶體驗,提高用戶留存和口碑,為汽車銷售商帶來更多潛在客戶。關鍵技術:自然語言處理(NLP),智能問答。推推薦薦方方案案一一推推薦薦方方案案二二5.汽車行業實踐案例:購車攻略平臺1234中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院用戶輸入 問題:北京地區今年第一季度大眾新能源車的銷量Prompt 問題:北京地區今年第一季度大眾新能源車的銷量數據表:汽車月度銷量表列名:月份,城市,品牌,型號,動力燃料,銷量Prompt 問題:北京地區今年第一季度大眾新能源車的銷量數據表:汽
72、車月度銷量表列名:月份,城市,品牌,型號,動力燃料,銷量名詞解釋:新能源車的動力燃料包括有純電力,插電混動和燃料電池Prompt 問題:北京地區今年第一季度大眾新能源車的銷量數據表:汽車月度銷量表列名:月份,城市,品牌,型號,動力燃料,銷量名詞解釋:新能源車的動力燃料包括有純電力,插電混動和燃料電池examples:“廣州市去年6月比亞迪新能源車的銷量”=“SELECT SUM(sale_amount)FROM car_monthly_sales WHERE city=廣州 AND brand=比亞迪 AND month=202206 AND motor_fuel in(純電力,插電混動,燃料
73、電池)Natural Language to SQLSQL SELECT SUM(sale_amount)FROM car_monthly_sales WHERE city=北京 AND brand=比亞迪 AND month=202301 and month=202303 AND motor_fuel in(純電力,插電混動,燃料電池)結果是否合理輸入結果Reask Prompt generator數據表結構提取信息增強FewshotExamplesLLMYESDBMS查詢結果Guardrails基于bert微調的NLP模型用來提取用戶提問中涉及的數據表和數據列從車輛信息知識圖譜中提取補充信
74、息使用向量相似度檢索算法搜索案例使用基于規則的欄柵系統來識別結果的合理性以及是否會暴漏數據隱私NO5.汽車行業實踐案例:購車攻略平臺中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院行業需求:1)進一步提升智能家居用戶的交互體驗,包括交互過程中的連續對話、語義理解、生成人性化回復;2)解決研發人員面對的家電知識零散、知識庫建設效率等現實問題,實現降本增效。解決方案:1)利用大模型進行知識泛化,解決知識有限、獲取難、知識庫構建效率低等問題;2)基于泛化后的語料,實現“任意說”(指
75、令換說法,仍然聽得懂);3)利用大模型的理解與生成能力,實現上下文理解、連續對話、擬人化回復。關鍵技術:智能家居知識圖譜、智能家居行業大模型、安全計算、場景生成等。提升效果:1)智能家居知識圖譜的量級從千萬提升到億級,形成高效知識管理平臺;2)用戶交互體驗大幅提升,從以往控制指令說法受限、回復不精準,進化為連續交互、隨意交互和引導交互。6.智能家居行業實踐案例:智能家居知識泛化及交互提升01020304中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院行業需求1、智能生成內容:
76、輔助編者和教師用戶內容生成;2、高效內容處理:通過智能系統輔助翻譯、轉錄、匯集、潤飾、評估等內容處理工作,大幅提升編輯們的工作效率;3、智能推薦:用人工智能進行信息推薦,擴大其數字營銷能力。關鍵技術:1、大綱和內容的自動生成;2、精準用戶畫像自動分析與推薦。解決方案:1)基于領域知識等構建跨領域知識圖譜,用大模型技術實現知識自動抽??;2)在生成式大模型提升知識圖譜的知識創作能力;提升效果:通過基于智能AI系統的數字教材編創系統,為編者、編輯、教員、學生提升智能知識服務7.教育出版行業實踐案例:數字教材智能編創與應用系統01030204中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術
77、標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院行業需求:1)在數字孿生城市行業非結構化數據急劇增多的情況下,構建知識圖譜需要依賴人工或者半自動方式進行知識抽取和建模,信息利用效率低,數據分析能力不強。2)現有數字孿生城市知識圖譜大部分是針對特定領域或任務定制,擴展性差。解決方案:基于矢量數據、影像數據、模型數據、IOT數據、專題數據等構建數字孿生城市知識圖譜,結合大模型預訓練提升知識圖譜的知識抽取和圖譜構建能力,并將知識圖譜作為大模型輸入,提升大模型專業性和可信性,從而利用知識圖譜+大模型提升城市運營以及各領域的指揮決策能力以及準確
78、度。提升效果:數字孿生城市服務平臺性能優化,數字孿生城市各領域的信息獲取以及利用效率增大,數據分析能力有了很大的提升。關鍵技術:知識注入輔助模型預訓練、基于大模型的知識抽取能力8.智慧城市實踐案例:數字孿生城市服務平臺中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院行業需求:社交領域的智能交互機器人難點在于對社交機器人進行成長式的個性化訓練,來生成語義連貫自然、富帶感情觀點、千人千面的多模態內容?;緦傩晕宕笕烁袢宋飿撕烍w系關系圖譜角色內在特征塑造深度強化學習適應策略激勵智能
79、感知?閱讀?交流?協作?對抗機器人A機器人B知識和數據雙驅動預訓練社交數據 個性化生成適配多語傳播智能網評話題感知生成式對話大模型+人物知識庫在指令和上下文中嵌入個性化解決方案:大模型以百萬級人物知識庫和社交媒體信息作為個性化指令數據進行精調,具備千人千面的角色學習能力。采用內在特征塑造和強化學習對抗反饋的方式不斷加強與人類性格、價值的對齊。9.社交領域實踐案例:成長式個性化社交機器人中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院提升效果:采用內在特征塑造和深度強化學習的方
80、式訓練社交機器人,能夠生成語義連貫自然、富帶感情觀點、千人千面的多模態內容。以Reddit為媒體平臺,實現認知輿論戰的貼文生產系統,根據熱點、關鍵詞進行流暢的本地化的貼文批量生成,擬人通順度80%,連續生成1200條的可用度80%,重復率20%,具備根據不斷變化的熱點進行準實時的模型訓練更新。關鍵技術:個性化訓練、指令精調、強化學習9.社交領域實踐案例:成長式個性化社交機器人中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院行業需求:1、搜索是信息時代的通用性剛需,可以提升用戶
81、日常行為的效率;2、提高短文本查詢Query和長文本Item的語義表達能力與理解能力,給用戶提供更好的搜索體驗。解決方案:利用知識圖譜及LLM大語言模型,識別用戶查詢意圖、生成語義向量,并進行向量檢索,同時基于知識圖譜進行關聯分析,得到關聯推薦結果。關鍵技術:1、面向指標數據、文獻數據的查詢意圖精準識別;2、面向指標數據、文獻數據的語義向量檢索提升效果:1、基于大模型的搜索系統的準確率,相比原系統同比提升13%,且大幅降低了人工維護成本;2、大模型賦予搜索更強的自我學習能力,能夠持續優化輸出結果,更好貼合用戶使用習慣,更具個性化。10.科學文獻行業實踐案例:基于大數據的智能檢索01#ONE02
82、#TOW03#THREE04#FOUR中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院基于大模型和知識圖譜的知識平臺是智慧水利的智能支撐,通過構建水利領域大模型,融合知識圖譜技術,面向水務領域知識,形成以知識引擎為核心的事理推演,支撐服務及應用場景包括:場景一:政務(水務方向)智能問答11.水務行業實踐案例:基于大模型和知識圖譜的智慧水利知識平臺關關鍵鍵技技術術大模型語義相似度計算、信息抽取、預訓練模型語義相似度計算技術。行行業業需需求求各種關于水務相關的在線咨詢需要人工解答
83、,查找答案時費力,人工客服容易面臨相同問題回答不一致或者回答不及時的問題。中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院解決方案:基于應急預案、政策等構建水務知識圖譜,并構建基于大模型的智能問答系統,從而利用預訓練模型語義計算技術智能識別用戶的意圖,給出針對性的解決思路或答案,并實現從水務知識圖譜中快速檢索出準確的答案,提升客服服務效率。提升效果:基于智能AI機器人(硬件)和大屏的水務方向政務智能問答系統,在線回答時效性提升60%,回答準確率顯著提高,且已支持多層問答,語音
84、輸入,并基于在線文字及語音理解的生成式多模態圖表技術,實現了機器人和大屏的在線聯動,數字化大屏展示等效果。11.水務行業實踐案例:基于大模型和知識圖譜的智慧水利知識平臺中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院水務相關政策公文面臨素材搜尋難、政策發布難、政策宣傳難、政策申報難、政策統計繁等問題?;贜LP、知識圖譜、大模型技術,構建融合政策、法規、公文、解讀、機構、主題等要素構建全域政策關系網絡知識圖譜,將經驗/知識轉換為規則政策。政策公文語義搜索、文檔解析信息抽取、政
85、策文本關聯技術水務政策知識平臺(知文智用)智能提供政策語義搜索、公文標引、智能審核等應用,實現公文輔助寫作,公文寫作聯想,相關插件可集成WPS等辦公軟件,支持公文初稿擬制、河長制日報周報、預警事件處置報告、應急預案等多種文體的自動生成。場景二:水務政策公文服務11.水務行業實踐案例:基于大模型和知識圖譜的智慧水利知識平臺中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院11.水務行業實踐案例:基于大模型和知識圖譜的智慧水利知識平臺場景三:基于大模型的數字孿生水利防洪推演預測系統
86、行業需求:山洪流域防洪需要:精準的預報預測分析、預警消息及時觸發并發布、水利應用場景仿真推演、應急預案快速形成并擇優。關鍵技術:水利數據演算分析技術、基于仿真引擎及可視化模型雙向渲染技術、數字孿生提升效果:結合大模型技術驅動水利防洪,實現山洪“四預”解決方案:利用大模型技術驅動水利行業專項業務更精準的預報預測分析,結合數字孿生場景實現水利工程實體及單元部件預警消息的空間關聯綁定及消息查看,結合大模型技術實現基于仿真引擎及可視化模型雙向渲染驅動下的數字孿生水利應用場景仿真推演,基于場景預演結果,實現以知識平臺驅動下的調度方案推送,輔助最優預案決策。精準超前預報快速直達預警前瞻科學預演細化實化預案
87、中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院第六章中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院1.基于知識圖譜與大模型的融合,實現知識圖譜的自動構建、架構動態拓展與自動運維。2.通過知識圖譜與大模型的融合,降低對算力、存儲等資源的需求,優化運行效率。3.利用知識圖譜與大模型的融合,提升知識更新效率。4.通過知識圖譜與大模型的融合,實現行業大模型的高效
88、構建。5.基于知識圖譜的結構化知識與邏輯推理能力,增強大模型的可解釋性與推理能力。6.基于知識圖譜增強的大模型,優化解決不確定性問題,提升決策的準確性和效率。0102知知識識圖圖譜譜與與大大模模型型的的應應用用和和安安全全保保障障知知識識圖圖譜譜與與大大模模型型的的增增強強和和效效能能提提升升1.利用知識圖譜與大模型的融合,實現對復雜業務場景的深度理解和精準響應。2.通過大模型與知識圖譜的構建及融合,實現更廣泛的多模態應用。3.利用知識圖譜增強的大模型,實現內容的自動化審查機制。4.通過知識圖譜與大模型的融合應用,實現面向特定領域的安全保障機制。技術挑戰中國電子技術標準化研究院中國電子技術標準
89、化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院發展展望1.建議圍繞大模型,加大建設投入與政策保障,納入國家新型基礎設施;2.建議針對大模型,建立國家級的研發中心/基地,提供公開的計算資源、研發資源等,推動中小企業開展研發工作;3.建議圍繞知識圖譜和大模型融合的數據安全、隱私保護、知識產權保護、倫理等,完善相關法規;4.建議從政策層面,針對國產大模型,開展研發與推廣應用的支持。1.建議針對產業需求,開展知識增強大模型的建設,以促進大模型的產業應用;2.建議圍繞大模型與知識圖譜融合應用,開展行業數據庫的打造;3.建議
90、根據產業需求,開展開源訓練數據集和知識圖譜的建設。1.建議圍繞互操作、數據傳輸與共享、計算資源等技術領域,開展通用標準制訂工作;2.建議針對行業應用需求,開展行業標準規范的制訂工作。中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院2知 識 圖 譜 產 業 推 進 方 陣 簡 介知 識 圖 譜 標 準 化 工 作 組 簡 介1全國信標委人工智能分委會知識圖譜工作組及IEEE知識圖譜標準化工作組,由中國電子技術標準化研究院牽頭,聯合知識圖譜相關企事業單位、研究院所、高校、機構,旨
91、在運用標準化的理念、方法和技術梳理分析知識圖譜領域核心標準化需求,共同推動知識圖譜關鍵標準的研制等工作,支撐知識圖譜技術的高質量推廣與應用。工作組現有清華大學、阿里巴巴、聯想、華為、百度、騰訊、東軟、螞蟻科技、依圖等70余家知識圖譜領域相關單位共同參與標準編制工作。目前,已發布GB/T 42131-2022人工智能 知識圖譜技術框架等國家標準、IEEE標準3項,在研標準10項。知識圖譜產業推進方陣旨在培育和壯大知識圖譜領域供應商、集成商、服務商與用戶企業,以標準化為紐帶,共同促進知識要素在各行業領域的挖掘、富集、流動和應用,推動構建跨行業、跨領域的知識挖掘與應用服務新型基礎設施。方陣成員包括理
92、事長單位、成員單位,并設置輪值主席、專家委員會、秘書處及必要的工作組。方陣將通過供需對接、診斷評估、測試認證、標準宣貫、教育培訓、知識交換協議開發等手段服務產業,不定期開展技術沙龍、案例征集、成果發布、專題競賽、產業峰會等活動,推動知識圖譜的技術創新和產業深化應用。請有意向的單位填寫方陣成員單位申請表提交至,經秘書處形式審核及理事長會議審議通過后,將頒發成員單位證書。申請表下載鏈接如下:https:/ 42131-2022人工智能 知識圖譜技術框架等系列國家標準和團體標準,中國電子技術標準化研究院聯合北京賽西認證公 司 等 4 0 余 家 單 位 研 制 了 知 識 圖 譜 構 建 平 臺 認
93、 證 技 術 規 范 、知識圖譜應用平臺認證技術規范等基礎知識圖譜產品認證技術規 范,并 研 制 了 金 融 領 域 知 識 圖 譜 構 建 能 力 認 證 技 術 規 范 、醫療領域知識圖譜應用能力認證技術規范等領域知識圖譜認證技術規范,共設置300余項測評指標?,F已有聯想、華為、百度、螞蟻科技、清華大學、中國醫學科學院醫學信息研究所、科大訊飛等30余家單位的知識圖譜系統通過首批、第二批和第三批基礎知識圖譜產品認證,首批醫療領域知識圖譜產品認證。獲批使用的認證標識如下:序號 標準類型標準名稱狀態1國際標準ISO/IEC DIS 5392Information technology Artif
94、icial intelligence Reference architecture of knowledge engineering信息技術 人工智能 知識工程參考架構在研2國家標準人工智能 知識圖譜技術框架國家標準號:GB/T 42131-2022已發布3IEEE標準Framework of Knowledge Graphs知識圖譜架構IEEE標準號:IEEE Std 2807-2022已發布4IEEE標準Standard for Technical Requirements and Evaluating Knowledge Graphs知識圖譜技術要求及測試評估規范 項目號:P2807.1
95、在研5IEEE標準Guide for Application of Knowledge Graphs for Financial Services金融服務領域知識圖譜應用指南 項目號:P2807.2已凍結6IEEE標準Guide for Electric-Power-Oriented Knowledge Graph面向電力行業的知識圖譜指南IEEE標準號:IEEE Std 2807.3-2022已發布7IEEE標準Guide for Scientific Knowledge Graphs科技知識圖譜指南項目號:P2807.4在研8IEEE標準Guide for Medical Clinical
96、 Diagnosis and Treatment Oriented Knowledge Graphs面向臨床診療的知識圖譜指南項目號:P2807.5在研9IEEE標準Guide for Open domain Knowledge Graph Publishing and Crowdsourcing Service開放域知識圖譜發布與眾包服務指南項目號:P2807.7在研10IEEE標準Standard for knowledge exchange and fusion protocol among knowledge graphs知識圖譜間知識交換與融合協議項目號:P2807.8在研11團體標
97、準人工智能 知識圖譜 分類分級規范項目號:CESA-2020-019在研12團體標準人工智能 知識圖譜 性能評估與測試規范項目號:CESA-2020-020在研13團體標準人工智能 醫療知識圖譜 構建要求項目號:CESA-2023-023在研14團體標準人工智能 醫療知識圖譜 測試評估要求項目號:CESA-2023-024在研15白皮書知識圖譜標準化白皮書已發布16案例集知識圖譜賦能疫情防控與復工復產案例集已發布17案例集認知智能時代:知識圖譜實踐案例集已發布18白皮書知識圖譜選型與實施指南已發布19白皮書知識圖譜互聯互通白皮書已發布20研究報告知識圖譜與大模型融合實踐研究報告已發布基礎知識圖譜產品測評與認證介紹:https:/ 系 人:李瑞琪聯系方式:010-64102797電子郵箱:中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院中國電子技術標準化研究院