《理特咨詢:2024生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告(66頁).pdf》由會員分享,可在線閱讀,更多相關《理特咨詢:2024生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告(66頁).pdf(66頁珍藏版)》請在三個皮匠報告上搜索。
1、生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告CMAC醫學事務生成式AI聯盟理特咨詢天士力數智中藥創新中心南京柯基數據科技有限公司2024年4月前言前言自2022年底起,OpenAI推出的ChatGPT在全球掀起了熱潮。生成式人工智(GenAI)技術日新月異,各行各業正積極探索如何整合最新的GenAI技術以推動數字化轉型。據統計,全球大型企業中,已有10%成功將GenAI技術應用于公司層面的平臺級項目,50%正在進行小規模嘗試,而另外40%仍在觀望階段。生物醫藥大健康行業作為一個高度專業化和知識密集型的領域。從藥物研發到
2、臨床試驗,再到上市后的學術推廣和患者教育等全流程應用場景,涉及到大量非結構化文本、圖片和視頻的處理。隨著集采政策的實施和監管要求的提高,運營成本和復雜性不斷上升,因此迫切需要借助人工智能來提升效率,重塑工作模式。自GenAI推出以來,國內外的藥械、營養保健、醫療機構以及科研機構紛紛嘗試將GenAI技術應用于不同場景,已經有一些公司和機構通過GenAI創造了全新的產品和服務,為業務增值。最近的一項調查顯示,GenAI已成為大多數制藥公司的首要關注點,40%的高管表示他們正計劃將GenAI帶來的成本節約重新投入到2024年的預算計劃中。另外,60%的公司確立了使用GenAI來幫助企業降低成本或提高
3、生產效率的目標,其中75%的公司將其視為高管層和董事會的優先事項。2023年4月,CMAC牽頭與跨國和國內生物制藥企業、醫藥AI領先企業以及醫學專家共同發布了ChatGPT背景下的醫療健康行業數字化轉型新范式研究報告,引起了業界廣泛關注。該報告結合行業實踐和實際需求,從ChatGPT技術原理、技術發展、醫療健康行業國內外應用和研究進展,以及ChatGPT大模型在醫藥場景測試等角度,提出了ChatGPT大模型在醫療健康行業落地的挑戰及可能的路徑,為在ChatGPT背景下大模型如何賦能醫療健康行業數字化轉型提供參考。在過去的一年中,CMAC醫學事務生成式AI聯盟與數十家跨國和國內的藥械企業、營養保
4、健企業、醫院、醫療科研機構等展開了深入合作。通過研討會、咨詢、概念驗證(POC)、項目申報等形式,我們交流并見證了GenAI在國內生物醫藥大健康行業的快速發展和面臨的挑戰,積累了來自第一線的資料和GenAI應用落地的經驗和方法論。我們相信,2024年將是GenAI在中國生物醫藥大健康行業中實現規?;涞氐年P鍵一 年。因此CMAC醫學事務生成式AI聯盟牽頭,聯合理特咨詢、天士力數智中藥創新中心、柯基數據以及生物醫藥大健康行業專家和GenAI技術專家,更新發布了本報告。報告著重介紹了最新GenAI技術發展和進展,生物醫藥大健康行業的應用場景和案例,落地挑戰及方法論,以及未來展望。我們希望該報告能為
5、GenAI在整個生物醫藥大健康行業的應用落地提供有益參考。12第一章 GenAI技術進展概述GenAI 應用進展情況第一章 GenAI技術進展概述GenAI 應用進展情況 GenAI技術定義及背景 GenAI應用領域與案例GenAI應用關鍵技術GenAI應用關鍵技術模型訓練微調RAG提示詞工程LangChainAI AgentGenAI大模型發展現狀LangChainAI AgentGenAI大模型發展現狀國外大模型國內大模型第二章 GenAI在生物醫藥大健康行業主要應用場景總覽GenAI在生物醫藥大健康行業主要應用場景總覽藥物研發第二章 GenAI在生物醫藥大健康行業主要應用場景總覽GenA
6、I在生物醫藥大健康行業主要應用場景總覽藥物研發靶點發現與驗證分子生成中醫藥研發臨床研究臨床研究監管合規臨床試驗中心篩選藥物選擇、患者入組臨床研究方案設計和試驗報告生成藥物警戒(PV)上市及商業化上市及商業化 學術推廣 患者教育臨床疾病診療臨床疾病診療診前診中診后 中醫診療現狀總結第三章 GenAI在生物醫藥大健康行業的挑戰、展望及落地建議面臨挑戰現狀總結第三章 GenAI在生物醫藥大健康行業的挑戰、展望及落地建議面臨挑戰數據合規性、符合醫學邏輯及循證溯源監管合規性數據安全性及私有化部署場景選擇和成本內部利益的協同未來展望落地建議未來展望落地建議捕捉變化,動態調整頂層設計,數智思維目標錨定,小步
7、快走能力構建,組織提質合作共行,優勢互補4445889101316171818253233343436414444454546474848505050515254575859606060606061626262636464第一章:GenAI技術進展概述第一章:GenAI技術進展概述3Source:Arthur D.LittleFigure 1.GEMRIX 2023 findings生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告1.1 GenAI 應用進展情況1.1 GenAI 應用進展情況當OpenAI在2022年11月30日發布ChatGPT的時候,沒有人會意識到,新一代人工
8、智能浪潮將在接下來短短數月給人類社會帶來一場眩暈式的變革。自2010年代初深度學習問世以來,人工智能進入到第三次高潮。而2017年Transformer算法將深度學習推向了大模型時代。OpenAI基于Transformer的Decoder部分建立起來了GPT家族。ChatGPT一經面世便風靡全球,人們驚訝于其能夠進行連貫、有深度對話的同時,也驚異地發現了它涌現了推理、思維鏈等體現智能的能力。伴隨AI預訓練大模型持續發展,生成式人工智能(GenAI)算法不斷創新以及多模態AI日益主流化,以ChatGPT為代表的GenAI技術加速成為AI領域的最新發展方向,推動AI迎來下一個大發展、大繁榮的時代,
9、將對經濟社會發展產生重大的影響。1.1.1 GenAI技術定義及背景1.1.1 GenAI技術定義及背景GenAI(Generative AI,生成式人工智能)指的是通過人工智能技術自動生成內容的生產方式。通過訓練模型來生成新的、與訓練數據相似的內容。與傳統類型的AI主要關注識別和預測現有數據的模式不同,GenAI著重于創造新的、有創意的數據,其關鍵原理在于學習和理解數據的分布,進而生成具有相似特征的新數據,在文本、圖像、音頻、視頻等多種領域都有廣泛的應用。GenAI目前最引人注目的應用當屬ChatGPT。ChatGPT是基于OpenAI公司的大語言模型GPT-3.5訓練、調試、優化的聊天機器
10、人應用,同一個AI模型可以處理各種各樣的文字和推理任務。ChatGPT發布僅兩個月即獲得1億月活用戶,超越了歷史上所有互聯網消費者應用軟件的用戶增長速度。以大語言模型、圖像生成模型為代表的GenAI技術,成為新一代人工智能的平臺型技術,助力不同行業實現價值躍升。GenAI大爆發的背后,普遍認為三個領域的AI技術的發展為其提供了肥沃的土壤,分別是生成算法、預訓練模型和多模態技術。第一,隨著各種生成算法的不斷創新突破,AI現在已經可以生成文字、代碼、圖像、語音、視頻物體等各種類型的內容和數據。GenAI與過去最顯著的區別是從分析式 AI(Analytical AI)發展為生成式AI(Generat
11、ive AI)。分析式AI模型是根據已有數據進行分析、判斷、預測,最典型的應用之一是內容智能推薦;生成式AI模型則是學習已有數據后進行演繹、生成創造全新內容。第二,預訓練模型,特別是以ChatGPT為代表的大模型,引發了GenAI技術能力的質變。在過去,研究人員需要針對每一個類型的任務單獨訓練AI模型,訓練好的模型只能從事特定任務,不具有通用性。而預訓練的大模型技術顯著提升了GenAI模型的通用化能力4和工業化水平,讓GenAI模型成為自動化內容生產的“工廠”和“流水線”。GenAI模型,包括ChatGPT、GPT-4等大語言模型(Large Language Models,LLM)和Midj
12、ourney、Stable Diffusion等圖像生成模型,又被稱為基礎模型(Foundation Models),其作為基于種類豐富的海量數據預訓練的深度學習算法,展現出強大的、更加泛化的語言理解和內容生成能力。以大語言模型(LLM)為例,經過海量的互聯網內容數據的訓練,大語言模型的參數可以達到萬億甚至百萬億級別。這大大增強了語言模型的生成能力,同一個大語言模型可以高質量地完成各種各樣的文字和推理任務,例如作詩、寫文章、講故事、寫代碼、提供專業知識等等。因此,大語言模型已經成為了各大企業競相追逐的AI方向。第三,多模態AI技術的發展。多模態技術讓GenAI模型可以跨模態地去生成各種類型的內
13、容,比如把文字轉化為圖片、視頻(Sora)等等,進一步增強了GenAI模型的通用能力。1.1.2 GenAI應用領域與案例1.1.2 GenAI應用領域與案例(1)多模態內容生成(1)多模態內容生成A.文本生成領域A.文本生成領域自然語言生成是一種GenAI技術,可以生成逼真的自然語言文本。生成式AI可以編寫文章、故事、詩歌等,為作家和內容創作者提供新的創作方式。同時,它還可以用于智能對話系統,提高用戶與AI的交流體驗。ChatGPT(全名:ChatGenerative Pre-trained Transformer對話生成式預訓練變換模型)是由OpenAI開發的一個人工 智能聊天機器人程序,
14、于2022年11月推出。該程序使用基于GPT-3.5架構的大語言模型并通過強化學習進行訓練。ChatGPT 目前仍以文字方式互動,可以解決包括自動文本生成、自動問答、自動摘要等在內的多種任務。Jasper已經開始為谷歌、臉書等知名公司提供文案GenAI的商業服務。B.圖像生成領域B.圖像生成領域圖像生成是GenAI技術中最為普遍的應用之一。Stability AI發布了穩定擴散(Stable Diffusion)模型,通過開源快速迭代大幅降低了AI繪畫的技術使用門檻,消費者可以通過訂閱旗下產品DreamStudio來輸入文本提示詞生成繪畫作品,產品已經吸引全球 50多個國家超過100萬的用戶注
15、冊。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告5C.音視頻創作與生成C.音視頻創作與生成2024年2月16日,OpenAI繼一年前發布ChatGPT語言大模型之后,又發布了一款基于人工智能技術的視頻生成工具Sora,再次引發轟動。這是一款輸入文本即可自動生成高質量視頻的文生視頻大模型,實現了視頻生成領域革命性變革,提供了全新的視覺體驗。在部分樣片中,Sora還展現了對“物理規律”超強的學習能力,如能夠模擬現實環境中的重力、碰撞等物理現象,可以通過直播視頻功能實時傳遞信息,用于直播秀、在線教育、遠程醫療等場合。在“現實已經不存在”的驚呼聲 中,Sora確實打開了人類視頻創作的新
16、天空,它將重塑視覺內容生成的未來,同時也反映出人工智能技術遠超預期的快速進步。有媒體稱,Sora 不僅僅是一個工具,更是一種新的生活方式,將會對整個社會產生重要影響。GenAI技術還可以用于語音合成,即生成逼真的語音。例如,通過學習人類的語音特 征,生成式模型可以生成逼真的語音,從而用于虛擬助手、語音翻譯等應用。GenAI技術可以用于生成音樂。生成式AI可以根據給定的風格和旋律創作新的音樂作品,為音樂家提供新的創作靈感。這種技術還可以幫助音樂家更有效地探索音樂風格和元素的組合。這些曲目可以用于音樂創作、廣告音樂等應用。D.電影與游戲D.電影與游戲GenAI可以用于生成虛擬角色、場景和動畫,為電
17、影和游戲制作帶來更多的創意可能。此外,AI還可以根據用戶的喜好和行為生成個性化的故事情節和游戲體驗。2023年3月,騰訊AI Lab在GDC上提出了3D虛擬場景自動生成解決方案,能夠幫助游戲開發者以更低成本創造風格多樣、貼近現實的虛擬城市,提升3D虛擬場景的生產效率。其中重點分享了城市布局生成、建筑外觀生成和室內映射生成三大能力。整個路網生成和微調過程僅需要不到30分鐘,相比手動設計效率提升近100倍;而單個獨特建筑的制作時間也降低至17.5分鐘,大大提升了場景制作的效率。E.代碼生成領域E.代碼生成領域經過自然語言和數十億行代碼的訓練。部分GenAI模型精通十幾種語言,包括Python、Ja
18、vaScript、Go、Perl、PHP、Ruby等等。能夠根據自然語言的指令生成相應的代碼。GitHub Copilot是一個GitHub和OpenAI合作產生的AI代碼生成工具,可根據命名或者正在編輯的代碼上下文為開發者提供代碼建議。官方介紹其已經接受了來自GitHub 上公開可用存儲庫的數十億行代碼的訓練,支持大多數編程語言。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告6(2)翻譯(2)翻譯GenAI可以直接應用于翻譯實踐之中,與傳統機器翻譯系統采用以句子為單位的方式訓練不同,大語言模型采用以單詞為單位的方式進行訓練。這使得大語言模型可以理解并再現單詞之間的連貫性和上下文
19、信息,譯文因而更加自然、準確。此外,傳統機器翻譯系統在遇到較為復雜的語言環境時,往往會出現句法和語義方面的錯誤,而大語言模型可以應付更為復雜的語言環境,產出更為準確、自然的譯文。相比較而言,大語言模型在翻譯方面展現的性能要比傳統機器翻譯更加突出,能夠產出可與人工翻譯譯文相媲美的翻譯作品。(3)內容理解與分析(3)內容理解與分析騰訊會議AI小助手:只需通過簡單自然的會議指令,基于對會議內容的理解,就可以完成信息提取、內容分析、會管會控等多種復雜任務。會后可以自動生成智能總結摘要,還能基于智能錄制的能力,幫助用戶高效回顧,提升用戶開會和信息流轉效率。生成式人工智能(GenAI)在生物醫藥大健康行業
20、應用進展報告(4)科研與創新(AI for Science)(4)科研與創新(AI for Science)GenAI可以在化學、生物學、物理學等領域探索新的理論和實驗方法,幫助科學家發現新的知識。此外,GenAI還可以用于藥物設計、材料科學等領域,加速技術創新和發展。71.2 GenAI 應用關鍵技術1.2 GenAI 應用關鍵技術在GenAI領域中,有四種關鍵技術:模型訓練(Model Training)、微調(Fine Tuning)、檢索增強生成(RAG)和提示詞工程(Prompt Engineering)。針對不同的業務目標和場景,選擇適當的技術模型方法至關重要。1.模型訓練(Mod
21、el Training):1.模型訓練(Model Training):需要大量的數據和計算資源來從頭構建一個人工智能模型。它具有高度的可定制性和可擴展性,但耗時較長,成本最高。適用于全新的突破性應用,例如訓練一套中醫診療大模型。2.微調(Fine-Tuning):2.微調(Fine-Tuning):專注于將現有模型適應特定任務,提供了定制性和效率之間的平衡。3.檢索增強生成(Retrieval-Augmented Generation-RAG):3.檢索增強生成(Retrieval-Augmented Generation-RAG):通過整合外部知識庫來增強模型,非常適合需要當前或廣泛信息的
22、任務,是現階段企業級知識庫以及Chatbot建設較高性價比的主要方法。4.提示工程(Prompt Engineering):4.提示工程(Prompt Engineering):依賴于設計有效的提示來引導預訓練模型,需要在提示設計方面的技能,但計算資源需求較低。這種方法不僅具有成本效益,而且非常有效,然而其潛力經常被低估。每種方法在不同應用中都有其優勢和限制,取決于數據可及性、計算資源、特定的任務、對最新信息的需求以及所需技能和成本等因素。1.2.1 模型訓練1.2.1 模型訓練模型訓練類似于AI系統開發的基礎階段(例如重新開發一個ChatGPT)。它涉及從零開始構建AI模型的過程,類似于將種
23、子培育成長成一棵大樹。這個過程非常重要,因為它奠定了AI的基本能力和智能。主要適用的場景包括:主要適用的場景包括:1.新領域:1.新領域:當涉足現有模型不適用或不足的領域時。例如,開發一種尚未被探索的新型醫學診斷AI2.基于獨特數據集應用:2.基于獨特數據集應用:在數據對特定需求具有獨特性的情況下,例如公司使用客戶數據來預測購買模式。3.創新和研究:3.創新和研究:非常適合研究和開發,用于測試新理論或模型。模型訓練是人工智能發展的基石,提供了無與倫比的定制化和創新潛力。然而,它需要大量數據和GPU計算資源和開發資源,成本很高,并帶有固有的風險,因此更適用于需要定制解決方案或在人工智能應用領域開
24、辟新天地的情況。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告8生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告91.2.2 微調1.2.2 微調微調類似于磨練技藝嫻熟的藝術家,使其在特定類型中表現出色。它涉及對經過預訓練的模型進行調整,即對已經從大規模數據集中學到一般模式的模型進行專門任務或數據集方面的進一步提高。這一過程對于將通用人工智能模型適應特殊需求至關重要。例如基于醫學文獻訓練微調成一套更適合回答健康護理相關的問題。微調主要的適用場景包括:微調主要的適用場景包括:1.特定任務應用:1.特定任務應用:適用于需要模型的一般理解與特定需求相匹配的任務,例如使語言模
25、型適應醫學術語。2.有限資源:2.有限資源:適用于無法負擔完整模型訓練所需的大量資源的情況。3.提升模型性能:3.提升模型性能:當您需要提高預訓練模型在特定領域準確性時。在 GenAI 中,微調是將通用模型轉變為專業模型的藝術。它在效率和性能增強之間取得平衡,非常適合有針對性改進的場景。這種方法最適用于基礎扎實但需要特定專業知識的情況。91.2.3 RAG1.2.3 RAG(1)RAG介紹(1)RAG介紹RAG,即檢索增強生成(Retrieval-Augmented Generation),是一種結合了信息檢索(Retrieval)和文本生成(Generation)的人工智能技術。RAG是Ge
26、nAI領域的重大進展,它通過整合外部知識源來增強傳統的大語言模型(LLM)。這種方法拓寬了人工智能的視野,使其能夠訪問和利用除初始訓練數據之外的大量信息??梢詫?RAG 想象為一位學者,除了擁有自己的知識外,還可以即時訪問到一座全面的圖書館。上圖展示了RAG架構的工作流程,整體分為五步:上圖展示了RAG架構的工作流程,整體分為五步:1.用戶向Chatbot(LLM應用)提出問題2.根據問題在向量數據庫(提前將知識庫的文檔向量化)檢索匹配相關的上下文段落信息3.將檢索結果的top_k條段落進行排序,,將提示詞和組裝的段落以及用戶問題三者形成最終的提示詞prompt4.將prompt提交給大模型5
27、.大模型生成輸出并返回給Chatbot,進而返回給用戶圖1.RAG工作流程RAG的優勢:RAG的優勢:1.提高答案準確性:1.提高答案準確性:通過引用外部知識庫中的信息,RAG可以提供更準確的回答2.增加用戶信任:2.增加用戶信任:用戶可以通過引用的來源來驗證答案的準確性3.便于知識更新和引入特定領域知識:3.便于知識更新和引入特定領域知識:RAG通過結合LLM的參數化知識和外部知識庫的非參數化知識,有效地解決了知識更新的問題4.減少幻覺問題:4.減少幻覺問題:RAG能夠減少語言模型中的幻覺問題,使生成的響應更準確、可靠生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告10RAG的應
28、用場景:RAG的應用場景:1.問答系統:1.問答系統:在問答系統中,RAG通過檢索大量信息并生成精準、詳細的答案,提高了回答的準確性和信息的豐富度2.內容創作:2.內容創作:RAG可以根據給定的主題或關鍵詞生成豐富且有深度的文章,節省大量的時間和人力資源3.數據分析與挖掘:3.數據分析與挖掘:RAG能夠在大規模數據集中快速檢索信息,為數據分析提供了一個強大的工具RAG技術通過結合最新的大語言模型和外部知識庫,為AI在自然語言處理領域的應用提供了新的可能性,尤其是在需要處理大量信息和提供準確回答的場景中在RAG的技術發展中,從技術角度,呈現出以下幾種范式:在RAG的技術發展中,從技術角度,呈現出
29、以下幾種范式:圖2.RAG技術發展范式生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告11其中Graph RAG(Graph Retrieval-Augmented Generation)是一種結合知識圖譜和圖數據庫的檢索增強技術。它通過構建圖模型的知識表達,將實體和關系之間的聯系用圖的形式進行展示,并利用大語言模型(Large Language Model,LLM)進行檢索增強。Graph RAG的核心在于將知識圖譜等價于一個超大規模的詞匯表,其中實體和關系對應于單詞,使得在檢索時能夠將實體和關系作為單元進行聯合建模。Graph RAG的處理流程劃分為兩個主要階段:Graph R
30、AG的處理流程劃分為兩個主要階段:1.第一階段,第一階段,Index in time。該階段中系統不僅將知識以圖譜的形式進行存儲,以便于后續的檢索和引用,同時還會執行傳統 RAG 流程中的 Split&Embedding操作。2.第二階段,第二階段,Query Time。Split&Embedding 的操作帶來的最大益處在于能夠迅速鎖定與查詢最為相關的知識點。此外,通過利用知識圖譜(KG)中知識點之間的關聯關系或語義鏈接,系統可以快速地識別出在語義層面上相關或接近的知識。這些知識點隨后被提供給大語言模型,從而使其能夠生成更為貼切的答案。同時,這一過程也有助于防止語言模型產生虛假或不合邏輯的回
31、答,提高了結果的可靠性。Graph RAG的主要特點:Graph RAG的主要特點:1.知識圖譜集成:知識圖譜集成:Graph RAG利用知識圖譜來增強語言模型的理解能力,使得模型能夠更好地理解實體間的關系和上下文信息。2.檢索增強:檢索增強:通過結合圖數據庫的查詢能力,Graph RAG能夠提供更準確、相關和多樣化的信息來滿足用戶的需求。3.上下文學習:上下文學習:Graph RAG支持In-Context Learning,即在向模型提出問題時,提供相關的上下文信息作為背景知識,從而生成更符合預期的響應。4.處理復雜查詢:處理復雜查詢:Graph RAG特別適合處理復雜或多義詞查詢,因為它
32、能夠利用知識圖譜中的結構化信息來解決歧義問題。5.表達和推理能力提升:表達和推理能力提升:通過圖技術構建的知識圖譜,Graph RAG能夠幫助大語言模型更好地理解實體間的關系,提升模型的表達和推理能力。6.適應性強:適應性強:Graph RAG技術可以適配不同的大語言模型框架,如LlamaIndex、LangChain等,使得開發者可以專注于LLM的編排邏輯和pipeline設計。Graph RAG作為一種新興的技術,正在逐漸展現出其在信息檢索和處理領域的潛力,尤其是在需要處理大量結構化數據和復雜上下文信息的場景中。隨著技術的進一步發展,Graph RAG有望在更多領域得到應用和推廣。生成式人
33、工智能(GenAI)在生物醫藥大健康行業應用進展報告121.2.4 提示詞工程1.2.4 提示詞工程提示詞工程(PromptEngineering,縮寫為PE)是一種AI技術,它通過設計和改進AI的提示詞來提高AI的表現。PE關注提示詞的開發和優化,幫助用戶將大模型用于各場景和研究領域。提示詞(prompt)在人工智能場景下指給模型的一個初始輸入或提示,用于引導模型生成特定的輸出。提示詞可以是一個問題、一段文字描述,甚至可以是帶有一堆參數的文字描述。AI模型會基于提示詞所提供的信息,生成對應的文本,亦或者圖片。比如,我們在ChatGPT中輸入:中國的首都是什么?這個問題就是提示詞。掌握了提示詞
34、工程相關技能將有助于用戶更好地了解大模型的能力和局限性。主要優點主要優點效率:效率:不需要額外的培訓或計算資源,使其高效運作。靈活性:靈活性:可以適應各種任務而無需改變基礎模型。創造力:創造力:允許對模型的輸出進行高度創造性的控制。主要挑戰主要挑戰依賴技能:依賴技能:提示工程的有效性在很大程度上取決于用戶構建有效提示的能力。試錯:試錯:通常涉及實驗過程,可能耗時。(1)提示詞技術包含要素:(1)提示詞技術包含要素:A.指令,指令,想要模型執行的特定任務或指令。B.上下文,上下文,包含外部信息或額外的上下文信息,引導語言模型更好地響應。C.輸入數據,輸入數據,用戶輸入的內容或問題。D.輸出指示,
35、輸出指示,指定輸出的類型或格式。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖3.提示詞工程原理13(2)提示詞技術(2)提示詞技術1.零樣本提示(Zero-Shot Prompt)1.零樣本提示(Zero-Shot Prompt)零樣本提示是一種先進的自然語言處理技術,旨在讓模型在沒有先前見過的任務或領域中表現出色。通過零樣本提示,模型能夠根據用戶提供的提示進行推理和生成,即使這些提示與訓練數據中的內容沒有直接關聯。這一技術的核心思想在于通過廣泛而有代表性的訓練,使模型能夠推廣到新的輸入領域,進而在沒有樣本支持的情況下作出準確的預測或生成。2.少樣本提示(Few-Shot P
36、rompt)2.少樣本提示(Few-Shot Prompt)雖然大語言模型展示了驚人的零樣本能力,但在使用零樣本設置時,它們在更復雜的任務上仍然表現不佳。少樣本提示可以作為一種技術,以啟用上下文學習。相對于零樣本提示,少樣本提示更專注于在有限的先驗知識下進行任務推理和生成。通過少樣本提示,模型可以在只有極少量相關樣本的情況下,利用先前學到的知識來更好地理解和處理新的任務或領域。3.思維鏈(Chain-of-Thought,CoT)3.思維鏈(Chain-of-Thought,CoT)思維鏈提示是一種推理和生成的方法,通過將多個提示按照邏輯順序連接在一起,引導模型實現更復雜的任務。這種方法通過逐
37、步提供信息,促使模型在每個步驟上下文中進行思考,逐漸構建起全局的理解。鏈式思考提示可以用于解決需要多步驟推理的問題,例如復雜的問題回答或創造性的文本生成。這種技術提供了更深入、更結構化的信息引導,從而增強了模型的表現能力。圖4.提示詞工程生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告14GenAI應用技術的選擇方法可以類比于在道路建設中選擇最佳路線:GenAI應用技術的選擇方法可以類比于在道路建設中選擇最佳路線:1.模型訓練:模型訓練:這相當于修建一條新的道路。它是一個需要大量資源、時間和數據投入的過程。雖然為創建高度定制和強大的人工智能模型鋪平了道路,但這是一個龐大的任務,不總
38、是必要或可行的。2.微調:微調:這種方法類似于修改現有的道路。在這里,您從一個預先存在的模型(道路)開始,并進行特定的調整,以更好地適應您的需求。它比修建新道路所需的資源要少,并且可以非常有效,但仍受限于原始模型的局限性。3.檢索增強生成(RAG):檢索增強生成(RAG):將RAG與這個類比相結合,就好像給道路配備了動態標志,可以從各個位置獲取信息。RAG結合了預訓練模型的優點和獲取和整合外部最新信息的能力。與模型訓練和微調相比,它更具靈活性,可以適應新的信息。但是,其效率取決于外部數據源的整合和處理,這可能需要大量資源。是現階段企業級GenAI知識庫建設和Chatbot應用的性價比較高的主流
39、方法。4.提示工程:提示工程:這種方法就像找到一個聰明的捷徑。它涉及使用智能、有策略的提示來引導預訓練的人工智能模型產生期望的結果。這種方法快速、靈活且資源高效,可以利用先進的人工智能模型的能力,而無需大量數據、計算能力或時間。這是一種創新的方式來應用人工智能的能力,往往能夠以最小的投入取得令人印象深刻的成果。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖5.從復雜度和成本以及質量等多維度綜合考慮的實際應用路徑151.2.5 LangChain1.2.5 LangChain在人工智能領域,大語言模型(LLMs)如GPT-3.5和GPT-4等已經成為了自然語言處理(NLP)的強大
40、工具。它們能夠生成連貫的文本、回答問題、甚至創作詩歌和故事。然而,盡管這些模型在處理語言方面表現出色,但它們在實際應用中的潛力仍然受限。為了克服這些限制并充分發揮LLMs的能力,LangChain應運而生。LangChain是哈里森-蔡斯(Harrison Chase)于2022年10月發起的一個基于LLM的應用開發框架開源項目,是目前大模型應用開發的最主流框架之一。它提供了一套工具和組件,使得開發者能夠將LLMs與外部數據源和計算能力結合起來,從而創建更加智能和功能豐富的應用。LangChain圍繞將不同組件“鏈接”在一起的核心概念構建,通過統一的接口簡化了與 GPT-3.5、GPT-4、l
41、lama、文心一言、通義千問 等 LLM 合作的過程,使得開發者可以輕松創建定制的高級用例。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖6.LangChain工作機制截至2024年3月,LangChain平臺已實現了與包括亞馬遜、谷歌及微軟Azure在內 的主流云存儲系統的深度整合,并且封裝了涵蓋新聞資訊、影視資料和氣象信息的多樣化API接口。此外,LangChain提供了對Google Drive文檔、電子表格及演示 文稿內容的自動化總結、抽取與創建能力;同時涵蓋了Google搜索與Microsoft Bing搜索引擎的網絡信息檢索功能。在自然語言處理領域,它成功對接了Op
42、enAI、Anthropic 和 Hugging Face等多家知名機構的語言模型資源。在編程與 代碼管理方面,LangChain支持Python與JavaScript代碼的自動生成、靜態分析與調試功能,并采用Milvus與Weaviate向量數據庫系統分別用于存儲與檢索高維向量嵌入及緩存相關對象。為加速數據訪問性能,系統配備了Redis作為緩存數據存儲方案,并通過Python Requests Wrapper及其他API請求手段確保了與各類服務的 無縫交互。在并發處理層面,該平臺能夠實時追蹤并記錄線程與異步子進程運行中的堆棧符號信息。截至2024年3月,LangChain已具備讀取超過50種
43、不同文檔類型和數據源的強大能力,展現出廣泛的應用潛力和卓越的技術適應性。161.2.6 AI Agent1.2.6 AI AgentAI Agent,即人工智能代理,是一種具備環境感知、決策制定和行動執行能力的智能體,也被稱為“智能業務助理”。其旨在利用大模型技術,通過自然語言交互方式高度自動化地處理專業或復雜工作任務,從而顯著減輕人力負擔。在本質上,AI Agent是建立在大語言模型之上的智能應用,即在大模型的基礎上運行的應用程序。AI Agent不僅限于對話交流,還能整合外部工具,直接完成各種任務。一個基于大模型的AI Agent系統可分為四個組件部分:大模型、規劃、記憶和工具使用,對應需
44、要四個能力:包含大語言模型能力、具體拆解問題的能力、具有長短期記憶控制的能力、以及具有調用外部工具的能力。AI Agent有望開啟新時代,其基礎架構可簡單劃分為Agent=LLM+規劃技能+記憶+工具使用。在這一結構中,LLM充當Agent的“大腦”,為系統提供推理、規劃等關鍵能力。本文著重介紹了基于LLM的Agent的整體概念框架,包括大腦、感知和行動三個關鍵部分。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖7.Agent智能體AutoGPT原理介紹171.3 GenAI大模型發展現狀1.3 GenAI大模型發展現狀1.3.1 國外大模型1.3.1 國外大模型(1)Chat
45、GPT(1)ChatGPTChatGPT(Chat Generative Pre-trained Transformer)是由OpenAI研發的一款聊天機器人程序,于2022年11月30日發布。它是基于GPT-3.5模型的一個專門優化用于對話生成的語言模型。ChatGPT能夠根據用戶輸入的文本產生智能化的回答,并且具備連續對話的能力,能夠捕捉用戶的意圖,理解上下文,并在多輪對話中提高準確率。截至2023年12月,ChatGPT已無可爭議地成為全球范圍內增長速度空前的消費級軟件應用典范,其用戶基數在以突破1.8億大關,并在此背景下,促使OpenAI公司的估值躍升至800億美元的新高度。ChatG
46、PT這一劃時代產品的發布不僅引發了全球科技界的廣泛關注,還強有力地激發了市場對同類競品的研發熱潮,諸如Gemini、ErnieBot、LLaMA 以及Claude等項目應運而生。值得注意的是,ChatGPT在線服務提供了兩個迭代版本,分別基于GPT-3.5和更為先進的GPT-4架構構建而成。這兩個版本均隸屬于OpenAI專有的生成預訓練轉換器(Generative Pre-trained Transformer,GPT)模型系列,該系列的設計靈感與核心技術基礎源自谷歌所研發的Transformer架構。為了滿足不同用戶的需求,ChatGPT 允許普通用戶免費體驗基于GPT-3.5版本的服務;而
47、對于追求更高級功能和持續更新內容的用戶,則通過商業化品牌“Chat GPT Plus”提供基于GPT-4版本及其后續優化功能的付費訂閱服務。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖8.ChatGPT18生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告(2)Gemini(2)GeminiGemini 是由Google DeepMind團隊研發的人工智能模型,是LaMDA和PaLM2的繼任者,于2023年12月6日發布。這是一個多模態模型家族,支持文本、圖像、音頻、視頻和代碼的全方位理解和生成。Gemini模型家族包含三個針對不同應用場景優化的版本:Gemini
48、Ultra作為旗艦版,專為數據中心級別的高性能計算環境設計;Gemini Pro則定位為通用型解決方案,能在多種工作任務上展現高效性能,并且特別適用于企業級應用及云端服務;而小巧靈活的Gemini Nano,則通過高度優化實現了在資源受限的移動設備上的高效運行,為智能手機和平板電腦等移動平臺帶來了強大且實時的AI交互體驗。Gemini的設計使其能夠原生地支持多模態能力,即從一開始就在不同模態上進行預訓練,并利用額外的多模態數據進行微調,以提高其有效性。(3)Claude(3)ClaudeClaude是由美國人工智能初創公司Anthropic開發的大語言模型,Anthropic成立于2021年,
49、是一家專注于人工智能安全和研究的公司,旨在建立可靠、可解釋、可操縱的人工智能系統。Claude模型提供了API和Slack機器人兩種訪問方式,其中API訪問需要申請并通過后才能使用,而Slack機器人目前處于beta版本,不收費。Claude是由Anthropic公司于2023年3月首次推出的語言模型系列的初代版本,盡管在編碼、數學推理等方面尚存在一定的性能局限性,但依然在執行多樣化任務上展現出了顯著的能力。針對用戶的不同需求,Claude推出了兩種優化版本:常規版Claude和響應速度更快、成本更低廉、運行更為輕巧的Claude Instant。后者將輸入上下文的處理能力提升至容納10萬to
50、ken,約等同于7.5萬個英文單詞的內容量。同年7月11日,Anthropic發布了Claude系列的重要迭代產品Claude2,該版本對公眾開放使用,而其前身Claude1則僅限于經Anthropic審核批準的特定用戶群體。Claude2實現了一次重大飛躍,將上下文窗口從原來的9,000個token擴展到了10萬個token,并新增了上傳PDF和其他文檔的功能,使得Claude能夠閱讀、總結文件內容并輔助完成相關任務。11月份發布的Claude2.1版本中,聊天機器人的處理能力再度翻倍,token擴大至20萬個,相當于500頁的書面材料。Anthropic在2024年3月4日正式推出了革新性
51、的Claude3系列,Claude3分為三個型號,按功能強大程度依次排列為Haiku、Sonnet和旗艦款Opus。默認配置的Claude3 Opus token為20萬個,而在特殊應用場景下,該窗口可擴展至高達100萬個token,且在知識深度、數學處理和復雜任務解決方面展現出了超越GPT-4和Gemini 1.0 Ultra的實力。19生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告(4)LLaMA(4)LLaMALLaMA(全稱為“大語言模型Meta AI”)是Meta AI于2023年2月推出的自回歸式大語言模型系列,它囊括了多種參數規模的版本,其參數量分別為7億、130億
52、、330億以及650億。通常情況下,頂級LLM僅能通過有限或專屬API途徑訪問,而Meta則破例在非商業許可框架下向全球研究社群開放了LLaMA模型權重的下載權限。值得關注的是,在LLaMA發布后短短一周內,其模型權重即通過BitTorrent在網絡論壇4chan上被公開泄露給了公眾。2023年7月18日,Meta與微軟攜手推出了LLaMA系列的迭代升級產品LLaMA-2,標志著雙方在大語言模型技術領域的合作邁入了新的階段。當日,Meta正式揭曉了三種不同規模配置的LLaMA-2模型,參數量分別達到了70億、130億以及700億。盡管在架構設計上,LLaMA-2延續了前代LLaMA-1的基本框
53、架,但值得注意的是,在構建基礎模型的過程中,Meta引入了相較于LLaMA-1多出40%的數據進行訓練,從而提升了模型對廣泛語境和任務的理解能力。LLaMA-2產品系列不僅包括針對通用自然語言處理任務的基礎模型,而且還推出了經過對話場景微調優化的變體LLaMA-2 Chat,專為提升人機交互體驗而打造。相比于其前身LLaMA-1,LLaMA-2的一大突破性舉措在于所有模型權重的全面開放,并且對于廣泛的商業應用場景,提供免費使用的權限,此舉無疑拓寬了LLaMA-2在業界的應用范圍和影響力。LLaMA具有以下特點:LLaMA具有以下特點:高效能與靈活性:高效能與靈活性:盡管參數規模相對較小,但LL
54、aMA模型在許多NLP任務上的性能優于同等參數量級的其他模型,展現出高效的參數利用率和優秀的泛化能力。開源友好:開源友好:Meta AI選擇在非商業許可下向研究界開放LLaMA的模型權重,鼓勵學術研究和應用開發。模塊化設計:模塊化設計:LLaMA框架體現了高度的模塊化設計理念,便于開發者根據實際需求定制和集成不同的組件。社區活躍:社區活躍:由于模型開源,社區可以不斷迭代更新模型版本,LLaMA在性能和適應性方面保持了持續進步,為人工智能領域的研究和發展注入新的活力。20生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告(5)Mixtral(5)MixtralMixtral是由Mist
55、ralAI開發的一款大語言模型,它采用了專家混合(MoE)架構,這種架構通過一個網關網絡將輸入數據分配給被稱為“專家”的特定神經網絡組件。Mixtral 8x7B模型由八個各自擁有70億參數的專家組成,這種設計提高了模型訓練和運算的效率及可擴展性。Mixtral8x7B在多個領域表現出色,包括綜合性任務、數據分析、問題解決和編程支持等。2023年9月27日,Mistral AI通過官方BitTorrent磁力鏈接以及Hugging Face平臺發布了Mistral 7B模型,該模型采用了擁有7億個訓練參數,并且嚴格遵循Apache2.0開源許可證,為全球開發者和研究者提供了自由訪問和使用的權限
56、。2023年12月9日,Mistral AI發布了Mixtral 8x7B,其構建在稀疏專家混合(MoE)的革新框架之上,盡管總體參數量達到了467億之多,但得益于MoE技術的高效性,對于每個 Token僅激活12.9億相關參數進行運算。此款模型支持包括法語、西班牙語、意大利語、英語及德語在內的五大語言環境,并在多項基準測試中表現卓越,聲稱已成功超越了Meta公司的LLaMA 270B模型的性能水平。2024年2月26日面世的Mistral Large,則是Mistral AI的又一旗艦產品,被定位為緊隨OpenAI GPT-4之后的頂級大模型。它不僅支持多種語言處理任務,還具備編程能力,在多
57、領域應用上展示了強大的適應性和創造性。用戶現可通過Microsoft Azure云端平臺便捷使用這款高性能模型。Mistral Medium型號則是在廣泛的多語言文本和代碼數據集上進行深度訓練后推出的,其綜合性能評價位于Claude模型與GPT-4之間,為尋求平衡資源占用與處理效能需求的用戶提供了一個理想的選擇。最后,Mistral Small作為輕量化解決方案,旨在提供低延遲響應且性能不俗的小型模型。相較于Mixtral 8x7B,它在保證快速響應的同時,實現了更優的性能指標,從而在有限計算資源場景下展現出極高的實用價值。圖9.Mistral AI21生成式人工智能(GenAI)在生物醫藥大
58、健康行業應用進展報告(6)Stable Diffusion(6)Stable DiffusionStable Diffusion 是2022年發布的深度學習文本到圖像生成模型。它主要用于根據文本的描述產生詳細圖像,盡管它也可以應用于其他任務,如內補繪制、外補繪制,以及在提示詞指導下產生圖生圖的轉變。它是一種潛在擴散模型,由慕尼黑大學的CompVis研究團體開發的各種生成性人工神經網絡之一。它是由初創公司StabilityAI、CompVis與Runway合作開發,并得到EleutherAI和LAION的支持。Stable Diffusion由3個部分組成:變分自編碼器(VAE)、U-Net和一
59、個文本編碼器。StableDiffusion算法上基于2021年12月提出的潛在擴散模型(LDM/Latent Diffusion Model)和2015年提出的擴散模型(DM/Diffusion Model,它是基于Google的Transformer模型)。2022年7月Stable Diffusion的問世則震驚了全球,相比前輩們,Stable Diffusion已經成功的解決了細節及效率問題,通過算法迭代將AI繪圖的精細度提升到了藝術品級別,并將生產效率提升到了秒級,創作所需的設備門檻也被拉到了民用水準。2022年8月Stable Diffusion的開源性質,全球AI繪圖產品迎來了日
60、新月異的發展,AI繪圖正在走進千家萬戶,輿論熱潮也隨之而來。2023年7月,Stability AI發布1.0版本的Stable Diffusion XL,1.0基礎模型有35億個參數,使其比以前版本大了約3.5倍。并提到在訓練結束后參數穩定后會開源,并改善了需要輸入非常長的提示詞(prompts),對于人體結構的處理有瑕疵,經常出現動作和人體結構異常。2023年11月發布了Turbo版本的Stable Diffusion XL,Turbo版提取自XL 1.0而以更少擴散步驟運行。22(7)Midjourney(7)MidjourneyMidjourney是一款AI制圖工具,只要關鍵字,就能透
61、過AI算法生成相對應的圖片,只需要不到一分鐘??梢赃x擇不同畫家的藝術風格,例如安迪華荷、達芬奇、達利和畢加索等,還能識別特定鏡頭或攝影術語。有別于谷歌的Image和OpenAI的DALL-E,Midjourney是第一個快速生成AI制圖并開放予大眾申請使用的平臺。Midjourney生成的作品往往帶有電腦生成的痕跡,比較不會被當成假新聞素材,但對色情、血腥、暴力創作題材的審核還不夠精準。Midjourney由位于美國加州舊金山的同名研究實驗室開發,于2022年3月首次亮相,于2022年7月12日進入公開測試階段,在8月迭代至V3版本并開始引發一定的關注,而2023年更新的V5版本讓Midjou
62、rney及其作品成功“出圈”。2023年4月,入選福布斯2023年AI 50榜單:最有前途的人工智能公司。2023年5月15日,Midjourney官方中文版已經開啟內測。(8)DALL-E(8)DALL-EDALL-E 是一個可以通過文本描述生成圖像的人工智能程序,由OpenAI發布。DALL-E通過120億參數版本的GPT-3 Transformer模型來理解自然語言輸入并生成相應的圖片。它既可以生成現實的對象,也能夠生成現實中不存在的對象。它的名字是2008年動畫電影WALL-E(瓦力)和20世紀西班牙加泰羅尼亞畫家薩爾瓦多達利(Salvador Dal)之混成詞。自2000年代以來,已
63、有其他許多神經網絡有生成逼真圖像的能力。而DALL-E的特點在于它能夠通過純文本描述生成這樣逼真的圖像。OpenAI尚未發布DALL-E模型的源代碼,不過OpenAI在其網站上提供了DALL-E演示,可以查看部分文本描述的輸出圖像。DALL-E模型最初于2021年1月5日由OpenAI發布。2022年4月,OpenAI宣布了新版本的DALL-E 2,聲稱它可以從文本描述中生成照片般逼真的圖像,另外還有一個允許對輸出進行簡單修改的編輯器。根據OpenAI的公告,該程序仍處于研究階段,訪問權限僅限于小部分測試版用戶。該模型有時仍會犯一些人類不會犯的嚴重錯誤。OpenAI稱DALL-E 2是一個“可
64、以從文本描述中生成原創、逼真的圖像和藝術”的模型。23生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告(9)Sora(9)Sora Sora是一個能以文本描述生成視頻的人工智能模型,由美國人工智能研究機構OpenAI開發。Sora這一名稱源于日文“空”(sora),即天空之意,以示其無限的創造潛力。其背后的技術是在OpenAI的文本到圖像生成模型DALL-E基礎上開發而成的。模型的訓練數據既包含公開可用的視頻,也包括了專為訓練目的而獲授權的著作權視頻,但OpenAI沒有公開訓練數據的具體數量與確切來源。OpenAI于2024年2月15日向公眾展示了由Sora生成的多個高清視頻,稱該
65、模型能夠生成長達一分鐘的視頻。同時,OpenAI也承認了該技術的一些缺點,包括在模擬復雜物理現象方面的困難。麻省理工科技評論的報道稱演示視頻令人印象深刻,但指出它們可能是經精心挑選的,并不一定能代表Sora生成視頻的普遍水準。由于擔心Sora可能被濫用,OpenAI表示目前沒有計劃向公眾發布該模型,而是給予小部分研究人員有限的訪問權限,以理解模型的潛在危害。Sora生成的視頻帶有C2PA元數據標簽,以表示它們是由人工智能模型生成的。OpenAI還與一小群創意專業人士分享了Sora,以獲取對其實用性的反饋。Sora具有以下特點:Sora具有以下特點:準確性和多樣性:準確性和多樣性:Sora能夠將
66、簡短的文本描述轉化成長達1分鐘的高清視 頻,準確地解釋用戶提供的文本輸入,并生成具有各種場景和人物的高質量視頻剪輯。它涵蓋了廣泛的主題,如人物、動物、風景、城市場景等,可根據用戶的要求提供多樣化的內容。強大的語言理解能力:強大的語言理解能力:Sora利用Dall-E模型的re-captioning技術生成視覺訓練數據的描述性字幕,提高了文本的準確性,同時也提升了視頻的整體質量。此外,利用GPT技術將簡短的用戶提示轉換為更長的詳細轉譯,確保視頻精確地按照用戶提示生成。以圖/視頻生成視頻:以圖/視頻生成視頻:Sora除了可以將文本轉化為視頻,還能接受其他類型的輸入,如已存在的圖像或視頻,使其能夠執
67、行廣泛的圖像和視頻編輯任務。視頻擴展功能:視頻擴展功能:Sora能夠沿時間線向前或向后擴展視頻,允許用戶根據圖像創建視頻或補充現有視頻。優異的設備適配性:優異的設備適配性:Sora具備出色的采樣能力,能夠應對從寬屏到豎屏的各種視頻尺寸,為各種設備生成與其原始縱橫比完美匹配的內容。場景和物體的一致性和連續性:場景和物體的一致性和連續性:Sora能夠生成帶有動態視角變化的視頻,人物和場景元素在三維空間中的移動顯得更加自然,能夠很好地處理遮擋問題。241.3.2 國內大模型1.3.2 國內大模型(1)百度-文心一言(1)百度-文心一言文心一言(英文名:ERNIE Bot)是百度基于文心大模型技術研發
68、的知識增強大語言模型,被外界譽為“中國版ChatGPT”。其核心理念在于運用深度學習算法和大規模語料庫,模擬人類的語言理解和生成能力,從而為用戶提供智能化、個性化的服務。能夠實現與人對話互動,回答問題,協助創作,高效便捷地幫助人們獲取信息、知識和靈感,并且在文學創作、商業文案創作、數理邏輯推算、中文理解、多模式生成方面有很好的應用前景。文心一言最早應該可以追溯到2010年百度成立的“自然語言處理部”,2019年3月16日,百度正式發布知識增強的文心大模型ERNIE1.0,該模型基于飛槳深度學習平臺打造,通過將數據與知識融合,提升了大模型學習效率及學習效果。2019年7月31日,百度文心大模型升
69、級到2.0。ERNIE 2.0通過持續學習框架,持續學習大規模語料中的詞法、語法、語義等知識,在共計16個中英文任務上取得全球最好效果。2021年7月6日,百度發布文心大模型 3.0(ERNIE 3.0)。ERNIE 3.0首次在千億級預訓練模型中引入大規模知識圖譜,ERNIE 3.0刷新54個中文NLP任務基準,并在國際權威的復雜語言理解評測SuperGLUE上,以超越人類水平0.8個百分點的成績登頂全球榜首。2023年3月16日,百度新一代大語言模型文心一言正式啟動邀測。2023年8月31日,文心一言率先向全社會全面開放。開放首日,文心一言共計回復網友超3342萬個問題。2023年10月1
70、7日,百度世界2023大會上,李彥宏宣布文心大模型4.0正式發布,開啟邀請測試。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告25(2)阿里-通義(2)阿里-通義阿里通義是阿里云推出的一系列人工智能產品和服務平臺,旨在提供類人智慧的通用智能服務。這些產品和服務包括通義千問、通義智文等,它們支持多種API接口,使得AI應用開發變得更加簡單和高效。通義千問(Qwen)是阿里云推出的一款超大規模語言模型,采用了阿里云自主研發的大規模預訓練語言模型架構,通過先進的深度學習技術和海量數據訓練而成。通義智文是另一個阿里云的AI產品,它可能包含了文本生成、內容理解、自動摘要、情感分析等功能,旨
71、在幫助用戶高效地處理和創造文本內容。目前,通義千問的綜合性能已經超過GPT-3.5,加速追趕GPT-4。2023年12月1日,阿里云舉辦發布會,正式發布并開源“業界最強開源大模型”通義千問720億參數模型Qwen-72B。同時,通義千問開源了18億參數模型Qwen-1.8B和音頻大模型Qwen-Audio。至此,通義千問共開源18億、70億、140億、720億參數的4款大語言模型,以及視覺理解、音頻理解兩款多模態大模型,實現了“全尺寸、全模態”開源。自此,阿里云大模型的開源邏輯更加清晰,即通過開源的方式提供技術產品,降低門檻,推動技術普惠,為企業客戶到個人開發者提供多元化、全方位的技術服務。在
72、通義千問的基礎上創建的大模型、小模型越豐富,AI生態就越繁榮。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告26(3)訊飛-星火認知大模型(3)訊飛-星火認知大模型訊飛星火認知大模型是由科大訊飛推出的新一代認知智能大模型?;谟嶏w最新的認知智能大模型技術,經歷了各類數據和知識的充分學習訓練,可以和人類進行自然交流,解答問題,高效完成各領域認知智能需求。訊飛星火V2.0已具備“代碼生成、代碼補齊、代碼糾錯、代碼解釋、單元測試生成”等能力,并且在業界參考測試集與真實應用場景均達到優異效果,逼近國外領軍者。星火認知大模型V3.0的快速落地,更是推動著訊飛大模型能力迅速迫近行業前列,其在
73、數學自動提煉規律、小樣本學習、代碼項目級理解能力以及多模態指令跟隨與細節表達等方面進行了進一步升級,這些能力的提升將融入星火金融大模型中,為大模型在金融行業的落地應用帶來全新機遇。2024年1月30日,科大訊飛發布了基于首個全國產算力平臺飛行一號訓練的全民開放大模型訊飛星火V3.5版本。相較于上一個版本,訊飛星火V3.5版本在文本生成、語言理解、知識問答、邏輯推理、數學能力、代碼能力、多模態能力等七大核心能力上均實現大幅提升,進一步逼近GPT-4 Turbo的最新水平。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖10.訊飛星火大模型27(4)華為-盤古大模型(4)華為-盤古大
74、模型華為盤古大模型是華為云推出的一系列人工智能大模型,旨在通過強大的計算能力和先進的算法,解決行業難題并釋放AI的生產力。該模型涵蓋了NLP大模型、CV大模型、多模態大模型、預測大模型和科學計算大模型五大類別,旨在為氣象、醫藥、水務、機械等領域提供強大的科學計算能力。盤古大模型的研發不僅體現了華為在AI技術領域的深厚積累,也展示了華為在推進AI技術產業化應用方面的決心和能力。在2021年4月,盤古大模型1.0就已經發布,早于今天大部分的大模型。2022年11月7日的華為全聯接大會2022中國站上發布了盤古氣象大模型、盤古海浪大模型、盤古礦山大模型、盤古OCR大模型等新服務。2023年7月舉行的
75、華為開發者大會上,華為云曾發布了盤古大模型3.0,是中國首個全棧自主的AI大模型,該模型已具備文生圖、文生文、文生代碼、文生視頻等多模態能力,提供5+N+X的三層解耦架構:L0層有5個基礎大模型,提供滿足行業場景的多種技能;L1層是N個行業大模型,提供使用行業數據訓練的行業大模型;L2層為客戶提供更多細化場景模型,它更加專注于某個具體應用場景或特定業務。華為常務董事、華為云CEO張平安表示,盤古大模型聚焦產品研發、軟件工程、生產供應、市場營銷、客戶運營等價值場景,致力于深耕行業,如政務、金融、制造、煤礦、鐵路、制藥、氣象等。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖11.盤
76、古大模型28(5)騰訊-混元大模型(5)騰訊-混元大模型騰訊混元大模型(Tencent Hunyuan)是騰訊自主研發的通用大語言模型,擁有超過千億參數規模和超過2萬億tokens的預訓練語料。該模型具備強大的中文理解與創作能力、邏輯推理能力,以及可靠的任務執行能力。騰訊混元大模型的主要功能和技術特點包括成為騰訊云MaaS服務的基礎,客戶可以通過API直接調用混元,也可將其作為基礎模型,為不同產業場景構建專屬應用。該模型具備強大的中文創作能力、復雜語境下的邏輯推理能力和可靠的任務執行能力。其全鏈路自研技術是其首要特點,從零開始訓練,掌握了模型算法、機器學習框架和AI基礎設施。騰訊在算法層面進行
77、了自研創新,提高了模型可靠性和成熟度,解決了大模型“胡言亂語”的問題。此外,騰訊還自研了機器學習框架 Angel,提升了訓練和推理速度。騰訊混元大模型能夠理解上下文含義,具有長文記憶能力,可進行專業領域的多輪對話、文學創作、文本摘要、角色扮演等內容創作。它能高效、準確地理解用戶意圖,解決事實性、時效性問題,提升內容生成效果。在不同場景下,如文檔、會議、廣告和營銷,混元大模型提供了各種功能,包括文檔創作、會議總結、廣告素材創作等,提高工作效率并改善用戶體驗。圖12.混元大模型生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告29(6)智譜AI(6)智譜AI北京智譜華章科技有限公司(簡稱
78、“智譜AI”)專注于新一代認知智能大模型的研發,致力于在中國推動大模型領域的創新。公司與合作伙伴共同研發了中英雙語千億級超大規模預訓練模型GLM-130B,并在此基礎上推出了對話模型ChatGLM以及開源單卡版模型ChatGLM-6B。同時,團隊還開發了GenAI模型及產品矩陣,包括AI提效助手智譜清言、高效率代碼模型CodeGeeX、多模態理解模型CogVLM和文生圖模型CogView等。智譜AI秉承Model as a Service(MaaS)的市場理念,推出了大模型MaaS開放平臺,旨在構建高效率、通用化的“模型即服務”AI開發新范式。通過認知大模型連接億級用戶的物理世界,智譜AI憑借
79、完整的模型生態和全流程技術支持,為各行各業帶來持續創新與變革,助力加速通用人工智能時代到來。智譜AI的產品包括ChatGLM-6B、GLM-130B、GLM系列、CodeGeeX、CogView、CogVideo等大模型。在2024年01月16日的智譜AI技術開放日(Zhipu DevDay)上,智譜AI推出了新一代基座大模型GLM-4。GLM-4相比上一代在整體性能上有了顯著提升,十余項指標接近或達到了GPT-4水平;支持更長上下文、更強的多模態、更快的推理速度和更多并發,大幅降低了推理成本;同時,GLM-4還增強了智能體能力。圖13.智譜AI生成式人工智能(GenAI)在生物醫藥大健康行業
80、應用進展報告30(7)百川智能(7)百川智能百川智能公司于2023年4月10日由前搜狗公司CEO王小川創立,旨在以幫助大眾輕松、普惠地獲取世界知識和專業服務為使命。公司專注于通過語言人工智能技術的創新,構建中國頂尖的大模型基礎設施。其核心團隊由來自搜狗、百度、華為、微軟、字節、騰訊等知名科技公司的AI頂尖人才組成。不到100天的時間里,百川智能公司發布了兩款開源可免費商用的中文大模型Baichuan-7B和Baichuan-13B在多個權威評測榜單中名列前茅,下載量更是突破了百萬。隨后,公司繼續發布了Baichuan2-7B和Baichuan2-13B等大開源模型。2024年1月29日,百川智
81、能發布了參數規模超過千億的大語言模型Baichuan3。在多個權威通用能力評測中,如CMMLU、GAOKAO和AGI-Eval,Baichuan3展現出色的能力,特別是在中文任務上超越了GPT-4。在數學和代碼專項評測中,如MATH、HumanEval和MBPP,Baichuan3同樣表現出色,證明了其在自然語言處理和代碼生成領域的強大實力。Baichuan3在多個醫療評測任務中表現優異,特別在對邏輯推理能力和專業性要求極高的MCMLE、MedExam、CMExam等權威醫療評測中,中文效果超過了GPT-4,成為中文醫療任務中表現最佳的大模型。此外,Baichuan3還在詩詞創作、邏輯推理等方
82、面表現出色,領先于其他大模型。Baichuan-NPC通過強化模型基礎能力,使用思維鏈對齊技術賦予角色模型類人的思考能力,使模型能夠敏銳地捕捉上下文對話語義,生成更加符合人物性格的對話和行動,呈現出逼真的角色效果。在CharacterEval評測中,Baichuan-NPC在對話能力、角色一致性、扮演吸引力等方面顯著領先,是目前中文領域最強角色模型。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告31第二章:GenAI在生物醫藥大健康行業落地應用進展及典型案例第二章:GenAI在生物醫藥大健康行業落地應用進展及典型案例32Source:Arthur D.LittleFigure 2
83、.GEMRIX categories2.1 GenAI在生物醫藥大健康行業主要應用場景總覽2.1 GenAI在生物醫藥大健康行業主要應用場景總覽GenAI作為人工智能領域的重要分支,正逐漸引起廣泛關注。GenAI以其獨特的生成能力和創造性,正在改變著生物醫藥大健康行業的面貌,并為其帶來了巨大的變革和潛在收益。GenAI已經在醫療健康開始了應用探索與落地,包括藥物研發、臨床研究、上市及商業化、以及用于病人診療等方面:在藥物研發方面,GenAI可助力科研人員靶點發現及驗證、藥物分子生成以及為中醫藥研發等,加速藥物發現和設計進程。在臨床研究方面,GenAI可以優化臨床開發的多個環節,包括篩選臨床試驗
84、中心篩選、監管合規、藥物選擇及患者入組、藥物警戒(PV)和臨床研究方案設計等方面。在上市及商業化方面,GenAl主要體現于學術推廣及患者教育等方面。在臨床疾病診療方面,GenAI可以實現包括在診前、診中、診后等醫療服務場景的提質和提效。圖14.生物醫藥大健康行業全流程場景生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告33Source:Arthur D.LittleFigure 3.Summary of macro factors2.2 藥物研發2.2 藥物研發隨著人類社會對生物學、化學、物理學等的知識積累加深,我們對疾病的認識迅速提升。然而新藥研發、上市的速率卻沒有同比例增長,其
85、中一個重要原因是藥物研發階段耗時長、成本高、流程復雜?,F如今,GenAI成為潛在的破局利器,在藥物研發方面已有越來越多的應用。GenAI可以通過分析大量的基因組學、蛋白質組學、代謝組學等多組學數據,幫助研究人員更快地發現可能的靶點、藥物分子、藥物合成路線等,從而加速藥物的發現和設計進程。2.2.1 靶點發現與驗證2.2.1 靶點發現與驗證藥物靶點指的是藥物與人體內特定分子相互作用的目標位置,也可以是參與疾病發生和發展的關鍵蛋白質、酶或細胞結構。靶點的發現是現代藥物研發的基礎,在藥物研發的早期階段,科研人員通過對疾病發生機制的深入研究,尋找與疾病相關的靶點,通過對這些靶點的深入了解,科研人員可以
86、設計出針對性的藥物,干預其功能,從而達到治療疾病的目的。但疾病的發生非常復雜,基因冗余和多效性、代償機制、信號反饋等,都會降低靶點被藥物作用造成的影響。藥物立項要經過藥理學、毒理學、遺傳學等多學科的檢驗,成功率非常低。疾病相關的靶點的早期識別和評估可以增加藥物批準的機會。目前業界在致力于識別與特定疾病相關的生物學上最合理的靶點。近年來,傳統的生信分析方法、多組學因子分析、知識圖譜、圖模型、深度學習等都較多地應用于靶點發現中,而GenAI的發展,則提供了更強有力的技術支持去尋找新的靶點、分析信號通路、以及尋求靶點與疾病相互關聯的證據支撐。2022年,AI 制藥公司英矽智能(Insilico Me
87、dicine)在其靶點發現平臺 PandaOmics 上增加了知識圖譜的功能,可以從期刊文獻中提取相關信息,將基因、疾病、化合物生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖15.PandaOmics頁面34Source:Arthur D.LittleFigure 4.Summary of market and competitive landscapeSource:Arthur D.LittleFigure 5.Sales share of PHEV and BEV per market和生物過程聯系起來,并將關系網絡可視化形成知識圖譜。2023年3月,在ChatGPT開放端
88、口后,英矽智能將其接入靶點發現平臺PandaOmics。通過將知識圖譜與ChatGPT相結合,得到了具有AI問答功能的ChatPandaGPT,支持研究人員在瀏覽和分析大數據集的同時,高效開展基于自然語言的問答,更便捷發現潛在靶點和生物標志物。2023年底,英矽智能發布了全球首個“由AI輔助決策的自動化實驗室”,將GenAI應用于高質量自動化實驗,并通過實驗數據反饋推動GenAI模型迭代優化。實現在14天內完成靶點發現和驗證的全自動化干濕實驗閉環。目前,英矽智能宣布公司研發的抗特發性肺纖維化候選藥物INS018_055已完成2期臨床試驗首批患者給藥,這是全球首款由GenAI發現靶點并設計化合物
89、的候選藥物。2023年4月,水木分子開源了輕量科研版BioMedGPT-10B,將文獻、分子、蛋白、測序、知識圖譜等數據壓縮到統一的多模態大模型框架內,實現了分子性質預測、藥物-靶點親和力預測、性質預測、藥物敏感性預測、分子-文本跨模態檢索、分子-文本跨模態信息生成等多項任務性能優于單一專用模型。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖16.BioMedGPT-10B的概述35Source:Arthur D.LittleFigure 6.Summary of customer EV readinessSource:Arthur D.LittleFigure 7.Custo
90、mers likely to buy PHEV or BEV as next vehicle per market2.2.2 分子生成2.2.2 分子生成(1)大分子生成(1)大分子生成大分子藥物的作用機制主要是通過刺激機體免疫系統產生免疫物質(如抗體),從而發揮其功效,在人體內出現體液免疫、細胞免疫或細胞介導免疫。大分子藥物如抗體有更好的靶向性、mRNA有望帶來更好的疫苗與藥物等。但這些大分子結構復雜,開發成本高,發現時間長。GenAI為此提供了新的解決方案,通過學習預測大分子(例如核酸或氨基酸)的下一個子結構,并產生有關大分子的見解,這些見解可用于新藥物載體的計算機設計、以及預測其在各種藥
91、物研發檢測的效果。人類一直以來都在探索如何更高效、直接、自由地控制細胞功能、甚至生命活動,而運用 GenAI預測大分子結構使得這一切的可行性大大提升,并且其預測性能在精度、范圍、耗時等方面正在不斷快速提高。以蛋白質為例,利用GenAI預測結構,為解碼蛋白質的三維奧秘提供了高效手段,從而能夠直接按需制造蛋白質、甚至是創造未知或不存在的蛋白,擴增出近乎無限的、廣闊的蛋白質序列和結構空間,對生命科學和生物醫藥研究范式的影響將是顛覆性的。目前,GenAI在蛋白質解碼和設計的應用主要有Transformer架構和擴散性模型兩大構建思路。前者的代表是美國初創生物醫藥公司Profuluent在2023年1月
92、開發的蛋白質語言模型Progen。該模型基于Transformer架構的12億參數神經網絡,提供了一種可根據所需屬性生成特定蛋白質的方法,從頭合成了自然界中不存在的人工酶,引起了生命科學領域的廣泛關注。而后者構建思路則是采取了圖像生成領域常用的擴散性模型的技術路徑,更加擅長基于文本生成圖像來描述蛋白質序列和結構之間的關系,并以此快速生成蛋白質的骨架結構。例如2022年10月美國斯坦福大學和微軟研究院經受體內蛋白質折疊過程的啟發,引入了一個折疊擴散模型,通過鏡像蛋白質天然折疊過程實現蛋白質主鏈結構的設計,解決了直接生成結構復雜多樣的蛋白質的難題。掃描跨國大型藥企與科技公司動態,2023年12月,
93、制藥巨頭阿斯利康與AI 抗體發現技術初創公司Absci 簽署了 2.47 億美元協議,通過整合阿斯利康的腫瘤學研究和開發知識、以及利用 Absci 的集成藥物創造平臺,借助GenAI 技術來開發新的、改進的抗癌抗體療法。2023年10月,Deepmind聯合Isomorphic Labs共同發布了新一代AlphaFold模型,從上一代的預測蛋白質結構,擴展到預測蛋白質數據庫(PDB)中幾乎任何分子的結構,包括配體(小分子)、蛋白質、核酸(DNA 和 RNA)以及含有翻譯后修飾(PTM)的生物分子。如改變氨基酸序列來改變蛋白質的性能,用于設計和開發具有特定功能的酶;預測核酸結構,加速 mRNA
94、疫苗等醫療創新;預測配體和蛋白質間的相互作用,幫助鑒定和設計可能成為藥物的新分子等。Isomorphic Labs 正在將新一代 AlphaFold 模型應用于治療藥物設計,快速準確地表征對治療疾病很重要的多種類型的大分子結構。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告36國內頭部藥企與AI制藥企業也在GenAI生成大分子藥物領域展開布局。2023年8月,深圳晶泰科技宣布與石藥集團在創新藥研發AI領域達成戰略合作協議,結合石藥集團深厚藥物研發經驗,利用晶泰科技開發的ProteinGPT大分子藥物生成式AI模型,將“類GPT技術”應用于藥物研發,覆蓋抗體發現、抗體工程、抗原設計
95、、蛋白結合劑設計等多個藥物研發關鍵環節,一鍵生成符合要求的抗體或蛋白藥物。荷蘭-瑞士初創公司 Cradle開發的生成人工智能(GenAI)和合成生物學平臺,旨在設計基于蛋白質的療法和其他化合物,正在開展 12 個研發項目,關注工程酶、疫苗、肽藥物和抗體,涵蓋廣泛所需蛋白質特性,如穩定性、表達、活性、結合親和力和特異性。Cradle 的技術可以通過更少、更成功實驗大幅加快蛋白質的設計和優化。與行業基準相比,大多數項目使用 Cradle 平臺的進度要快兩倍。(2)小分子生成(2)小分子生成小分子藥物研發中的一大重要難題是如何識別并且篩選出最有可能實現所需療效、值得進一步測試優化的化合物,傳統上,藥
96、物化學家會在實驗室制造化合物并進行測試,耗時長、投資大,但人工智能可以改變這個過程。GenAI通過先進的基礎化學模型加速篩選過程,如同GPT-4被訓練來預測句子中可能的下一個單詞,這些模型可以預測小分子結構中的下一部分原子。通過多次迭代,該模型學習了小分子化學的基本原理,即使在很大程度上未探索的化學領域,這些模型也可以提供更精確的預測,醫藥公司可以通過這些預測來規劃后續篩選。國外大型藥企與AI制藥企業紛紛開展合作,各取所長。2024年1月,默沙東宣布與Variational AI公司達成合作,利用其Enki技術平臺,共同合作開發小分子藥物。默沙東為Enki平臺提供目標產品概況(TPP),平臺基
97、于GenAI技術,可在幾天時間內生成符合條件的小分子。生成物是具有多樣化、選擇性和可合成的先導化合物結構,從而快速進入先導化合物優化階段。法國藥物化學和新藥設計AI解決方案提供商Iktos則是利用GenAI技術,降低化合物小分子篩選和生成所需的時間和成本。圖17.Cradle公司合成生物學平臺功能示意圖生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告37Source:Arthur D.LittleFigure 8.Public charging infrastructure其解決方案包括三個部分,一是通過Makya基于大量生物數據,來創建一種“滿足所有條件”的分子,即在盡可能低的劑
98、量下有效、安全、穩定、可申請專利且能夠合成的分子;二是利用Spaya探索合成“配方”和途徑;三是通過Ilaka 軟件控制機器人,一次性高效合成多種化合物,不斷重復上述過程,以找到更有前途的化合物。目前其擁有 50 多個已完成或正在進行的項目,合作伙伴包括強生、默克、輝瑞等跨國大型藥企?;乜磭鴥?,多家AI制藥企業、大型藥企、科技公司等,也在布局GenAI藥物分子生成。英矽智能推出小分子生成AI平臺Chemistry42,經過10萬種公開化合物和100億個構建塊(或虛擬分子片段)的訓練,生成數百個具有所需特性的化合物,被輸送到管道中評估適用性,并選擇滿足安全性、效力、合成可用性和代謝穩定性等目標的
99、分子。生成的分子及其后續分數將返回到生成引擎,以便模型“學習”得分高的分子類型和得分低的分子類型,重新訓練生成模型以生成高分分子,已實現在一周內發現全新的先導化合物類似分子,遠超人類科學家的速度。自Chemistry42推出以來,已有40多家制藥公司授權該軟件并將其用于自己的管道程序,以改善自己對下一個突破性療法的探索。2022年4月份,華為云計算技術的健康智能實驗室推出了華為盤古藥物分子大模型,該模型訓練了17億個小分子化合物的數據集,這一模型結合了藥物分子的圖形結構和SMILES字符表示法,從兩個不同的角度理解分子,進而構建了一個自監督的預訓練大模型。該模型適用于多個分子相關的后續任務,如
100、預測分子屬性、生成分子虛擬庫以及分子的優化等。目前盤古藥物模型的預訓練數據集是最大的,涵蓋了多個公共數據源,盤古模型采用cVAE架構,將小分子的圖形表示轉換成相應的化學式字符串,這樣做避免了在graph2graph模型中遇到的圖形生成的困難,并且相比于seq2seq模型,在訓練階段能夠提供更多的信息。此外,通過設計分層的潛在空間,盤古模型在微調和化學指紋表示方面的能力得到了增強。盤古的創新網絡結構不僅易于訓練,還能夠通過僅更新一個核心網絡來支持所有藥物發現任務的步驟,展現出顯著的優勢。圖18.用于人工智能藥物篩選和分子生成的盤古大模型生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告
101、382023年底,深度勢能團隊聯合29家單位的通力協作,發布了深度勢能預訓練大模型DPA-2。該模型面向豐富的下游任務,在微調DPA-2的大模型所需數據量整體上減少了1-2個數量級。此外,經過進一步蒸餾和壓縮,深度勢能團隊還開發了小模型,該模型能夠保持過去模型的精度和效率。與去年發布的DPA-1相比,DPA-2在模型架構方面有顯著的更新,最大的特點是采用了多任務訓練策略,可以同時學習計算設置不同、標簽類型不同的各類數據集。由此產生的模型在下游任務上展現出極強的few-shot甚至zero-shot遷移能力,顯著超越了過去的解決方案。目前,用于訓練DPA-2模型的數據集已涵蓋了半導體、鈣鈦礦、合
102、金、表面催化、正極材料、固態電解質、有機分子等多個體系。圖19.DPA-2 提出的多任務預訓練、微調、蒸餾全流程示意圖生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告洛桑聯邦理工學院(EPFL)和美國羅切斯特大學的研究團隊,開發出了一款名為ChemCrow的語言模型代理,這款代理能夠執行包括有機合成、藥物發現和材料設計在內的多項化學任務。ChemCrow集成了17種由專家精心設計的工具,不僅提升了其在化學領域的表現,還賦予了它新的能力。迄今為止,ChemCrow已成功自行設計出一種驅蟲劑、三種有機催化劑以及其他相關分子。通過語言模型評估和專家的評審,ChemCrow的有效性在自動執
103、行各類化學任務方面得到了證實。圖20.ChemCrow的功能示意圖39中科大MIRA Lab團隊與微軟研究院AI4Science團隊共同開發了一種創新的分子生成模型,名為MiCaM。該模型通過構建一個含有數據驅動的高頻分子片段詞匯庫,顯著優化了藥物分子的生成過程。MiCaM模型特別強調了對連接感知的高頻子圖(Mined Connection-aware Motifs)的利用,這些子圖是通過數據驅動算法從分子庫中自動提取的,它們不僅包括常見的分子片段,還細致記錄了這些片段之間的連接信息。利用這一策略,MiCaM設計了一個能夠同時選擇分子片段并確定其連接方式的生成器,從而能夠基于這些高頻子圖構造出
104、全新的分子結構。在進行的兩項基準測試中:一項是生成與訓練集高度相似的新分子(distribution learning),另一項是創造具備特定目標屬性的新分子(goal-directed),MiCaM模型展現了其在提高分子生成效率和探索化學空間方面的顯著能力。圖21.高頻分子片段挖掘算法流程圖生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告402.2.4 中醫藥研發2.2.4 中醫藥研發2024年全國兩會期間,政府工作報告中提出“促進中醫藥傳承創新”,有代表提議,大模型與生物醫藥大健康行業的結合有望革新藥物研發范式,通過構建中醫藥AI大模型,將能夠用于挖掘中藥活性成分、推進中藥循證
105、工作、加速中藥研發進程。中國擁有自己龐大的醫學寶庫,中醫藥的“整體觀”對人體、疾病、藥物的認識積累龐大的實踐經驗。隨著人工智能技術的飛速發展,中醫藥領域迎來一場數字化、智能化的革命。中醫藥領域的大語言模型(中醫藥大模型)作為這場革命的代表,它通過整合和分析大量的中醫藥文獻、藥材數據庫、臨床研究和實踐經驗來訓練,旨在將人工智能技術應用于傳統醫學知識和實踐中。目前,中醫藥大模型主要用于中醫臨床輔助診療(病證診斷、處方推薦等)、創新研發以及中醫藥知識整合與普及。下面我們將盤點現有的中醫大模型在創新研發以及中醫藥知識問答的應用。(1)數智岐黃大模型(1)數智岐黃大模型“數智岐黃”中醫藥大模型由華東師范
106、大學、上海中醫藥大學、華東理工大學、海軍軍醫大學、臨港實驗室與華潤江中現代中藥全國重點實驗室聯合開發,它以黃帝內經和傷寒雜病論等著名中醫典籍及1000多本古籍和中醫藥文獻為核心數據基礎,以高質量中醫藥知識圖譜為知識寶庫?!皩殠臁敝泻w超過8萬種方劑,超過2000種證候,超過9000種中藥材,超過4萬種中藥成份,超過1.8萬種靶點,超過2000種疾病。該大模型采用預訓練和微調并結合檢索增強生成和插件調用等技術,通過方劑推薦、中藥性質解讀(包括性味歸經、功效與應用、藥物組成、炮制方法等)和證候輔助診斷,實現中醫藥領域知識智能問答、健康咨詢、中醫藥知識圖譜動態交互三大核心功能,助力中醫藥創新研究和人
107、才培養、臨床輔助診療和中醫養生保健,推動中醫藥文化傳承創新發展。圖22.岐黃問道大模型生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告41(2)北京博奧晶方大模型開發(2)北京博奧晶方大模型開發北京博奧晶方生物科技有限公司(以下簡稱“博奧晶方”)系博奧生物在中醫藥領域布局的產業化平臺。博奧晶方通過其核心的“分子本草技術”,構建了“多彈打多靶”的中藥組方篩選大模型(900多種中藥、300多種食物提取物、10億級真實基因表達譜數據、藥物作用信號通路2500多萬條)。博奧晶方首創基于生物芯片技術的中藥組方精準篩洗大模型,用數字化技術賦能精準診療、中藥創新藥研發、藥食同源健康食品開發、天然
108、植物化妝品開發,致力于為中醫藥現代化和國際化開創全新的科學發展路徑。(3)天士力數智本草大模型開發(3)天士力數智本草大模型開發數智本草大模型是由天士力與華為云在華為盤古大語言模型和盤古藥物分子大模型基礎上推出。目前數智本草大模型整合了1500+中醫藥典籍、4000萬篇中英文文獻、10TB中藥以及天然產物現代化研究數據,基于數智本草大模型的數智中藥問答以及報告生成平臺,通過細分向量庫和使用場景、優化向量庫、多種檢索方式結合,提升了中醫藥知識問答的精準性,通過藥典、文獻、指南、醫案以及中醫藥現代化數據庫等多種科學證據支持,深度挖掘和整合中藥藥理、配伍、臨床應用等多維度信息,為中藥研發、復方設計、
109、藥效預測提供科學、高效的信息整合,從而加速中藥創新與轉化。數智本草大模型的天然產物分子大模型,是在300萬天然產物及衍生物結構基礎上微調而成,實現在天然產物的ADMET性質預測、分子生成、分子優化等關鍵任務上的性能優化,也為中藥復方的深入研究和開發提供了進一步的技術支撐。同時,還可以結合天士力開發的星斗云一站式中藥研發計算平臺,覆蓋了從疾病靶點發 現、轉錄組學與蛋白質組學分析,到天然產物分子篩選、方劑推薦及分析等全方位中藥研發流程。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告42同時,用于中藥知識問答的中醫藥大模型數量也在快速增長,例如軒岐問對大模型是“甘草醫生”聯合浙江中醫藥
110、大學共同推出了中醫藥經方領域首個基于大語言模型的人工智能對話系統。軒岐問對是一款類chatGPT的中醫垂直領域問答AI產品,其支持中醫(經方)領域問題的檢索與回復,包含中醫基礎理論、相關經典古籍、方劑配伍及臨床疾病辨證選方等。中醫藥大語言模型項目(TCMLLM)由北京交通大學計算機與信息技術學院醫學智能團隊開發開發。TCMLLM擬通過大模型方式實現中醫臨床輔助診療(病證診斷、處方推薦等)中醫藥知識問答等任務,推動中醫知識問答、臨床輔助診療等領域的快速發展。本項目針對中醫臨床智能診療問題中的處方推薦任務,通過整合真實世界臨床病歷等數據得到中醫處方推薦大模型。仲景中醫大語言模型的靈感來自中國古代杰
111、出醫家張仲景的智慧。該模型旨在闡明中醫博大精深之知識,傳承古代智慧與現代技術創新,最終為醫學領域提供可信賴和專業的工具。仲景中醫大語言模型由復旦大學ROI Lab完成。它綜合了人類記憶知識和大語言模型的語言表征能力,訓練的主要內容包括患者的病因病機、診療方案、隨訪記錄、處方、藥物用量、治療預期結果等。該模型采用特定的prompt模板,初步測試發現模型在婦科以外的中醫臨床??祁I具備一定診斷和處方能力,提高模型對中醫方藥數據和診斷思維邏輯的推理能力。經過與文心一言、星火等大語言模型的初步對比,發現復旦同濟中醫大語言模型在基于300條中醫方藥數據構建的診療分解指令數據集上展現出了出色的泛化能力。圖2
112、3.仲景大模型介紹生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告43Source:Arthur D.LittleFigure 10.Announced plans for banning ICEs2.3 臨床研究2.3 臨床研究以GenAI為代表的基于機器學習、深度神經網絡和多模態人工智能的應用有望從多個角度優化臨床開發,包括篩選臨床試驗中心、監管合規、藥物選擇和患者入組、臨床研究方案設計和試驗報告生成、以及提高藥物警戒等方面。以此,從根本上改變醫療事務部和整個生物制藥或醫療技術行業管理科學發現、開發和商業化的方式。最近在GenAI的動向總體呈現兩大規律,一是提升GenAI技術服
113、務能力,通過技術優勢獲得大型企業合作方的青睞;二是利用GenAI賦能自身自研管線,以期轉型為創新藥研發中心或 藥企,鞏固行業領先優勢。2.3.1監管合規2.3.1監管合規在臨床研究中,監管合規是一個非常重要的課題。研究人員需要遵守各種法規和規定,以確保臨床研究的合法性和可靠性。然而,這些法規和規定通常非常復雜,需要花費大量的時間和精力來理解和遵守。同時,不同地區的監管要求也可能存在差異,這使得跨地域合規變得更加困難。傳統上,研究人員需要手動處理監管文本,這非常耗時且容易出錯。如果能夠實現自動化處理監管文本,將大大提高研究人員的效率,并減少錯誤的發生。最后,不合規可能會導致嚴重的財務風險,這將對
114、研究機構和企業造成巨大的損失。利用GenAI結合自然語言處理、機器學習、知識圖譜構建等先進技術,能夠從龐大的法規文本中快速提取與特定目的相關的法規,加速合規進程,并實現自動化處理監管文本,減少對第三方法律和合規支持的依賴。2023年3月,Medidata 平臺發布了包含超過 30,000 項試驗與 900 萬名患者的Medidata AI,將患者層面數據直接從試驗中的所有病例報告提取,確保臨床試驗產生合規的數據質量,對數據輸入中的錯誤、異常值、前后不一致和錯誤報告中的不良事件進行排序和分類,以加快藥品審批流程。此外,強生使用的GenAI項目針對新藥上市合規審查的需求給予全方面的賦能,通過獲取國
115、家藥監局、藥物審評中心、中國食品藥品檢定研究所的法律法規、指導原則、相關公告等內容并定期更新,利用大模型的能力進行智能語義檢索和細節內容問答,并可通過內置實體模型對法規文檔進行主題分類和實體抽取。針對用戶對于藥品上市合規審查指導原則進行全文問答,并溯源至原文段落、針對用戶對于法律法規中段落內容的提問,能通過檢索問題相關的文檔,可選單篇或多篇進行問答,可準確定位至相應內容,并總結回復、能幫助用戶對于國內藥品技術指導原則中較為專業復雜的試驗設計進行分析總結。圖24.Acorn AI 臨床試驗中心分析生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告442.3.2 臨床試驗中心篩選2.3.
116、2 臨床試驗中心篩選臨床試驗中心的篩選是為了評估其在臨床試驗方面的資質、專業性、合作意愿和經驗等方面,以確保在該中心開展的臨床試驗具有可靠性和有效性。這一步驟對于臨床試驗的成功開展至關重要。通過進行可行性研究,可以為項目組提供在該中心開展研究的依據,并提前預判可能會遇到的問題。因此,臨床試驗中心的篩選和評定是臨床試驗開展前必不可少的重要環節。生物醫藥大健康行業在臨床試驗中心篩選方面存在許多挑戰和痛點,其中,信息不對稱是一個顯著問題,醫藥企業需要了解每個臨床試驗中心的實力、經驗、設備和人員等方面的信息,但這些信息并不總是公開或易于獲取。同時,時間成本高和風險控制難度大也是臨床試驗中心篩選的挑戰,
117、醫藥企業需要花費大量時間和精力去篩選臨床試驗中心,如若選擇不合適的臨床試驗中心可能會導致試驗失敗或者延期,增加項目的風險和成本。Acorn AI 的 Intelligent Trials 解決方案基于 20000 項臨床試驗的行業領先數據,提供分析平臺,以提高試驗的速度、成功率和質量。Intelligent Trials 解決方案助力優化試驗設計,選擇最優的國家/地區與研究中心,并在啟動后確保試驗表現良好。GenAI可以利用數據分析、智能決策支持和預測分析等技術手段,為臨床試驗中心的篩選提供全面支持和優化。2.3.3 藥物選擇、患者入組2.3.3 藥物選擇、患者入組臨床研究中的藥物選擇是指研究
118、人員根據研究目的和研究設計,選擇適當的藥物作為研究對象,進行研究。藥物選擇需要考慮藥物的安全性、有效性、劑量、給藥途徑等因素。而患者入組是指研究人員根據研究設計和入選標準,從符合條件的患者中篩選出符合研究要求的患者,并將其納入研究中。入選標準包括患者的疾病類型、病情嚴重程度、年齡、性別、病史等因素,患者入組的目的是確保研究結果的可靠性和有效性。在臨床試驗研究中,藥物選擇和患者入組是兩個關鍵環節,但存在一定的痛點。藥物選擇需要確保藥物的安全性、有效性和適應癥范圍,這需要大量的前期研究和篩選,耗時耗力。而患者入組方面,痛點主要涵蓋招募合適的患者、確?;颊叻先虢M標準、排除患者的合并癥和干擾因素等方
119、面。上述痛點可能導致臨床試驗進度緩慢、成本增加,甚至影響試驗結果的準確性和可靠性。在藥物選擇方面,GenAI可以通過結合多種數據源和模型,實現從分子到人體多層次的模擬和優化,為藥物的選擇和評價提供更高的精度和效率。此外,還可通過對藥物分子結構的分析,預測藥物在人體內的藥代動力學和藥效學特性,從而為藥物選擇提供有力支持。英國人工智能公司Benevolent.AI開發的Precision Medicine Platform系統可以通過自然語言處理,從文獻、數據庫、臨床數據等多種來源,從中提取出有用的信息,利用人工智能和機器學習技術進行模式識別和預測,最終選擇出最適合治療特定疾病的藥物。在篩選患者入
120、組方面,GenAI能夠運用多種數據來源,例如電子病歷、基因組學數據和生物標志物等,對患者進行全面評估和分析。這有助于確定最適合參與臨床試驗的患者群體。此外,GenAI還可以運用機器學習和深度學習等先進技術,對患者的臨床特征等進生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告45行深入分析和預測,從而實現對患者的個性化匹配和推薦。在2023年9月,水木分子發布新一代對話式藥物研發助手ChatDD(Drug Design)和全球首個千億參數多模態生物醫藥對話大模型ChatDD-FM 100B ChatDD-Trial可輔助臨床試驗研究人員找到最適合入組的患者人群。通過發現藥物敏感的生物
121、標志物,更好地理解疾病亞型,實現精準的患者分類,確?;颊吲c試驗藥物更匹配,減少不必要的變量干擾,提高臨床試驗成功率。2.3.4 臨床研究方案設計和試驗報告生成2.3.4 臨床研究方案設計和試驗報告生成臨床研究方案設計是指在進行臨床試驗前,制定一份詳細的計劃,包括研究的目的、研究對象、研究方法、研究過程中的監測和評估等內容。而試驗報告生成是指在臨床試驗結束后,根據試驗方案設計的要求,對試驗過程中的數據進行整理、分析和總結,撰寫一份詳細的試驗報告,這份報告需要提交給相關的機構進行審批,以便將試驗結果應用于后期實踐。在臨床研究領域,方案設計和試驗報告生成面臨諸多挑戰。首先,傳統的臨床試驗設計和方案開
122、發過程往往耗時較長,需要研究人員對大量歷史數據和文獻進行分析和研究,以確定合適的試驗設計和終點。其次,由于臨床試驗設計過程中可能存在不確定性和不完善的地方,研究人員可能需要多次修改方案以達到理想的試驗效果。這不僅增加了研究成本,還可能影響試驗進度。此外,臨床試驗設計方法可能無法充分利用歷史數據進行預測分析,導致試驗結果的預測準確性不足。這可能會影響試驗的成功率和研究成果的可靠性。試驗報告生成方面,試驗報告需要整合和處理大量的結構化和非結構化數據,如試驗結果、患者信息和相關文獻,這對研究人員來說是一項具有挑戰性的任務。其次,由于數據處理和分析的復雜性,試驗報告的質量可能受到影響,如準確性、可讀性
123、和一致性等方面。GenAI基于AI和ML的技術,通過分析過往試驗數據來優化臨床試驗設計來構建主要終點和次要終點情境,設計端到端的臨床試驗;并利用AI驅動的算法縮短方案開發周期,運用預測分析預測試驗結果,降低方案修改次數。此外,GenAI可實現對于歷史試驗的分析和解釋、數據注冊表和科學文獻中結構化和非結構化數據庫,為新的臨床試驗提供有價值參考。圖25.ChatDD輔助患者入組生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告462023年8月,英矽智能利用其自主研發的基于Transformer的人工智能臨床試驗預測引擎inClinico,高度準確地預測了多項臨床試驗II期至III期的轉
124、化結果,這項研究成果已發表在臨床藥理學與治療學期刊上,該期刊是試驗與臨床醫學領域權威的跨學科期刊。ConcertAI與全球性生物制藥公司BMS合作,為BMS的腫瘤學臨床研究提供首個完全數字化的臨床試驗解決方案,該解決方案將臨床研究和實踐整合在一起,支持更輕松的患者識別和試驗同意,并有助于IRB批準和臨床研究的合同談判,消除了與數據錄入重復和數據監控相關的挑戰,并減輕了臨床研究人員的負擔。國內本土企業也在探索嘗試,上海耀乘健康科技有限公司于2022年發布Prime Create 臨床研究方案生成系統以及Prime Construct 臨床研究設計和建庫系統,支持從臨床研究初始即實現關鍵文檔標準化
125、、結構化、數據化。Prime Create 旨在協助醫學、生物統計、臨床運營等各部門專家高效撰寫研究方案,便捷開展團隊內及跨部門跨組織協同編輯、審閱、審批和遞交工作,充分利用方案知識內容,實現知識留存的數據化、結構化,以協助臨床運營相關執行文檔和計劃、指導文件的生成,并高度自動化對接試驗建庫工作,達成“方案撰寫即建庫”,加速從方案撰寫到臨床研究上線的進程。2.3.5 藥物警戒(PV)2.3.5 藥物警戒(PV)臨床研究中的藥物警戒是指對正在進行的臨床試驗中的藥物進行監測和評估,以確保藥物的安全性和有效性。其目的在于及早發現和解決藥物的不良反應和安全問題,以保障受試者的安全和權益。在臨床試驗過程
126、中,對藥物不良反應的監測和報告至關重要。然而,由于醫務人員繁忙、知識儲備不足或者報告流程復雜等原因,可能導致不良反應的延遲發現或者漏報。這將影響藥物安全性評估,增加患者風險;其次,藥物警戒涉及多個部門和專業人員,如臨床研究者、藥品監管部門、倫理委員會等。有效的溝通與合作對于藥物安全監測至關重要。然而,在實際操作中,溝通不暢或合作不充分可能導致藥物安全問題被忽視或處理不當。GenAI通過運用人工智能技術和先進的數據管理方法,分析包括藥物的化學結構、藥理學特性、臨床試驗等數據,并利用人工智能技術來模擬藥物的作用機制,識別藥物的潛在風險和副作用,并確保藥物的安全性和有效性。同時,可將實時收集和整合各
127、方信息,提供全面的藥物警戒分析報告,幫助各部門及時識別風險、制定解決方案。目前,Labcorp推出了基于GenAI架構的臨床/上市后藥物警戒平臺、AI輿情平臺,產品通過客戶的數據生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖26.Labcorp 藥物開發47生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告收集整理,然后用人工智能計算機集群服務做全球的媒體、文獻搜索和訓練,提取相關安全信號,進行風險識別,并將安全信息推送給企業;此外,通義行業大模型通過 API 與交互式問答形式提供服務,并提供用于模型二次訓練與評測的完整操控平臺,與阿斯利康聯合完成對藥企的應用案例落地
128、。在應對醫學領域的學術文獻理解方面,針對文獻進行特定格式的不良反應信息的識別和總結,生成用于不良反應報告后續處理的內容,提升企業運營效率。2.4 上市及商業化2.4 上市及商業化2.4.1 學術推廣2.4.1 學術推廣醫藥企業在營銷推廣方面目前存在著幾大痛點。首先,“醫藥分離”背景下,藥品進院及推廣都對銷售團隊以及經銷商人員的專業能力提出了更高的要求,醫學營銷推廣需要處理大量的臨床研究數據,這些數據往往非常復雜,需要花費大量的時間和精力進行分析和提取。其次,醫學營銷推廣需要對不同市場的文 化、語言、習慣等進行深入了解。此外,醫學營銷推廣還需要考慮隱私和合規性等問題,確保推廣活動的合法性和合規性
129、。首先,在醫藥企業的銷售端,GenAI能幫助企業內部的醫藥代表和MSL,優化工作效率,降低人工成本,從而在整體上賦能銷售增長??禄鶖祿槍︿N售端主要面臨的內容合規審核慢、以及SOP流程類問題多的痛點,為德國MNC藥企市場部門打造了面向銷售端的學術推廣智能助手。智能助手統一構建和維護銷售端知識庫,覆蓋臨床產品、醫學和SOP流程指引類知識,并與十多個銷售端業務系統打通,以接口形式實時更新知識庫;通過基于知識圖譜和大模型GraphRAG的技術實現醫學素材段落原文問答與溯源,確保學術推廣的合規性。在企業微信中,以對話機器人的形式,自動回復代表90%的問題,10%無法解答的以企 業郵件的形式與各平臺負責
130、人對接并當日及時回復。通過GenAI工具,以10篇最新文章為例,升級前需要2個月的上線時間,以最新的解決方案,可實時更新發布上線。降低了人工成本80%,提升上線效率90%以上,且由于智能性大大提 升,吸引醫藥代表和MSL使用并提升整體銷售端的使用活躍度60%以上。圖27.GraphRAG大模型48Source:Arthur D.LittleFigure 11.Norway GEMRIX其次,GenAI在醫生端,由于醫生面臨著醫學學術資料數量多,更新快,無法快速有效學習以提升診療和科研能力等相關問題。醫藥企業需要為醫生端提供更加智 能的學術推廣應用。目前,GenAI能夠充分利用大量的醫學學術會議
131、內容、訓練數據、知識圖譜和專家經驗,快速準確地回答最新的醫學臨床研究問題并做總結。美國醫藥咨詢公司 ZoomRx推出了基于GenAI技術的應用程序Ferma GPT。Ferma.AI是ZoomRx開發的一個LLM,它利用了全面的生命科學數據集、精心設計的知識圖譜、制藥業專用的訓練模型以及專業的人類智能和監督。這 種方法使Ferma.AI能夠適應 制藥業的具體需求,其處理和理解復雜的醫學和科學語言的獨特能力使其有別于傳統模型。Ferma.AI可以通過提供快速、準確的 信息,使繁瑣的任務自動化。FermaGPT的AACR應用程序可以梳理所有8230份提交的摘要和研究,以滿足特定的請求,如識別NSC
132、LC中的新型KRAS摘要或總結圍繞前列腺癌種族差異的關鍵討論。除了人工智能生成的一兩段回答用戶的 問題外,FermaGPT還能夠列出原始材料和鏈接。ZoomRx在2023年4月14日至 19日舉行的美國癌癥研究協會(AACR)年會推出其生成性人工智能產品的公開版本,專門用于醫學會議。2024年,ZoomRx計劃在數據和信息發布后繼續添 加。ZoomRx計劃今年為大多數大型醫學會議以及許多小型會議創建FermaGPT公共訪問應用程序,包括AAN、ASCO、ESMO、SABCS和ASH。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖28.FermaGPT大模型492.4.3 患者教
133、育2.4.3 患者教育患者教育是指醫療專業人員向患者及其家屬提供有關疾病、治療和預防的信息和指導。它旨在增加患者對自身健康狀況的了解,提高其自我管理疾病的能力,并促進良好的健康結果。在患者教育方面,由于醫學領域涉及大量的專業術語和復雜的概念,這對患者來說可能難以理解。醫生需要確保以簡明扼要的方式傳達信息,避免使用過于專業化的術語,以便患者能夠理解和應用。目前,GenAI可以針對不同市場的本土化特點,以及通過對目前患者的特點,針對性地生成和構建患教內容,例如圖像、內容、數字廣告和宣傳材料。美國的人工智能工程公司Fractal Analytics提供Avalok GenAI解決方案,可以幫助營銷人
134、員創建營銷內容、分析競爭情報,并通過個性化答案增強客戶體驗,同時確保隱私和合規性。醫蝶谷是阿里健康旗下的一款醫生個人診所云平臺,專為醫生打造,旨在提供便捷、高效、可信的操作平臺,以便于為患者提供優質的醫療服務。醫蝶谷的GenAI能力可以幫助醫生制作科普視頻,常規錄制一個科普視頻可能需要幾十分鐘,甚至更長。當醫生擁有一個數字人模型后,醫生無需多次拍攝,只需提交腳本后會自動生成視頻。另外,GenAI可以輔助醫藥企業搭建面向患者的健康管理用藥助手,提供藥品說明書相關信息、在線和線下購藥渠道咨詢等智能問答,及時解決患者遇到的相關問題。同時,GenAI還可以提供慢病智能護理與營養健康知識圖譜智能推薦等,
135、幫助患者更高效的獲得疾病及藥品、營養等相關的知識內容,提高自我健康管理的能力。2.5 臨床疾病診療2.5 臨床疾病診療2.5.1 診前2.5.1 診前在診前階段,GenAI可以通過對醫學診療數據深度學習,分析患者的基因組、生活方式和環境因素等數據,預測患者未來患病的風險,有助于實現疾病早篩,早期干預和預防性治療,并基于患者情況進行預問診,提高診前與診中鏈接效率。2023年4月,醫聯宣布推出基于Transformer架構且針對醫療應用場景調優的大語言模型MedGPT。這一模型的參數高達1000億,訓練所用醫學文本數據高達20億條,臨床診療數據多達800萬條,并由100名醫生進行強化調優。在診前階
136、段,利用其強大的資料檢索和推理能力增強對患者疾病的預測,從而提升分診導診的準確性。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖29.醫聯MedGPT 一致性得分50Source:Arthur D.LittleFigure 12.China GEMRIX除了患病預測外,GenAI可以提高預問診、導診準確度和患者信息集成質量通俗易懂地給患者解釋病情、提供治療方案甚至建議生活方式、以及提供預期的結果和風險,這可以提高患者的理解力和參與度,患者能更清楚地了解自己的病情和治療方案,從而減少不必要的誤解和糾紛。DiagnaMed 推出了一款新的生成式人工智能(AI)個人醫療聊天機器人,幫
137、助人們根據自己獨特的醫療狀況快速獲得個性化的醫療信息,并完成從家庭到醫院的預問診和智能導診。Dr GenAI 還能利用醫療信息(包括生命體征、實驗室檢測結果和身體特征)對患者進行研究,并將患者信息整合提高患者診前信息集成能力。2.5.2 診中2.5.2 診中撰寫醫療文書是醫療服務人員日常工作中不可或缺的一部分,但是這項工作的主要問題存在于:首先,醫療文書的撰寫需要耗費大量的時間和精力,醫生需要花費很多時間來記錄患者的病情、治療方案和醫療記錄等信息。其次,由于醫療文書的撰寫需要遵循一定的規范和標準,醫生需要具備一定的專業知識和技能,否則可能會出現錯誤或遺漏。此外,由于醫療文書的撰寫需要手動完成,
138、存在著一定的人為因素,可能會影響文書的準確性和完整性。GenAI技術可以通過學習大量的醫療文書數據,自動生成符合規范和標準的醫療文書,從而大大減輕了醫生的工作負擔。此外,GenAI技術還可以通過語音識別技術,自動將醫生的口述轉化為文字,進一步提高了醫療文書的撰寫效率和準確性。2023年7月,亞馬遜推出“HealthScribe”,一項基于GenAI的醫療文檔撰寫服務工具,幫助醫療服務人員使用語音識別和GenAI技術自動創建醫療記錄、成績單和摘要。撰寫醫療文書的痛點包括繁瑣的記錄流程、臨床醫生的管理負擔以及電子健康記錄(EHR)的準確性。采用GenAI可以簡化臨床記錄流程,減輕臨床醫生的管理負擔
139、,并自動創建準確的電子健康記錄。同時,在診中階段,GenAI可基于患者的病歷、癥狀和疾病歷史等多模態數據,通過數據分析和智能算法為醫生提供輔助診斷、指導治療方案和預后方案。在這條路上,Glass Health發布了Glass AI發布了2.0版本,助力醫生實現智能化電子病歷的院外的保存和分享;并實現基于LLM+知識庫的鑒別診斷DDx和治療計劃的生成。在國內云知聲門診病歷生成系統以山海大模型為技術底座,應用前端聲音信號處理、智能語音識別等技術,結合龐大的醫療知識圖譜,可一鍵生成符合病歷書寫規范的標準病歷,有效提升門診效率和病歷質量?;趯︶t療場景的深刻理解和多年的技術、數據儲備,云知聲能夠精準挖
140、掘醫療場景落地過程中的具體痛點并給出解決方案,致力幫助醫生擺脫繁重的文書撰寫工作,讓醫生有更多時間和精力去服務患者,全面提升患者就診體驗。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖30.云知聲門診病理撰寫助手51此外,強生醫療科技公司的Monarch支氣管鏡檢查平臺可以讓醫生檢查傳統支氣管鏡更難以觸及的肺部區域,從而有助于早期肺癌診斷。靈活的機器人系統使用術前肺部 CT 掃描來為手術提供信息,但在這種動態環境中實時跟蹤物體可能很復雜。Monarch 研發團隊使用人工智能和機器學習算法來開發和完善 Monarch 平臺的導航,幫助醫生在肺活檢過程中引導支氣管鏡,使他們能夠更準
141、確地定位潛在的腫瘤。這有助于更準確的診斷和治療。當談到及早發現和診斷疾病時,人工智能可以成為真正的游戲規則改變者。通過將人工智能應用于心電圖和超聲心動圖等常見診斷測試衍生或生成的數據,醫療服務提供者可以更準確地診斷疾病,防止護理延誤,并有可能挽救生命2.5.3 診后2.5.3 診后在診后階段,GenAI可以減輕醫務人員負擔,在線724小時回答患者關于病情、藥物副作用、預防措施等方面的問題,并能以患者同理心的角度進行互動,實現高質量的診后隨訪及慢病管理和護理,提高患者診后體驗及便捷度。2023年 12月,德國醫療科技提供商Zeiss(蔡司)推出一款基于一種概念驗證(PoC)GenAI的應用程序,
142、旨在幫助眼科醫生及其臨床工作人員更輕松、更全面地響應患者的詢問。這個應用程序對于患者提供的健康問題、術前后疑問、健康自測情況進行自動回復,基于Zeiss所掌握的患者資料庫,確?;貜蜏蚀_和迅速。并且,這個應用程序以個性化、關愛和抱有同理心的方式與患者互動,提供有關手術或技術的準確且預先批準的信息。在實際的應用中,反饋表示GenAI生成的回復中,有很大一部分被認為足夠好,無需編輯即可直接發送給患者,展示了其在醫療環境中提供專業答案的有效性。這不僅可以幫助醫生更快速、更輕松地響應患者詢問,還可以讓他們更多地關注患者護理,從而可能增強對視力矯正手術等未來治療的需求,加強醫療專業人員和患者之間的溝通,最
143、終改善患者的整體體驗。圖32.Zeiss 概念驗證生成人工智能應用程序生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖31.強生Monarch平臺52總部位于美國加利福尼亞州的Hippocratic AI成立于2022年,開發了第一個專為醫療保健設計的大語言模型(LLM)。Hippocratic AI的大語言模型優先考慮安全性和準確性,重點關注非診斷AI、面向患者的應用程序,與行業內大多數語言模型不同,公司使用基于證據的醫療保健內容進行訓練,以確保生成的內容真實可靠。Hippocratic AI的目標是構建這些專家代理,確保高質量護理的獲取不受人員限制和勞動力疲勞的影響,并重新定
144、義醫療保健的護理標準。Hippocratic AI構建高度專業化的GenAI Agent,可以為患者提供低風險、非診斷服務,通過與患者溝通并收集患者信息(藥物劑量、生活習慣、人口統計數據),進行隨訪,執行涉及臨床程序/文書工作的任務,并幫助臨床導航。理想情況下,這將提高患者的依從性并降低再入院率,縮減人類護士的日常工作量;另一方面,Agent具有容量無限的優勢,可以幫助減少護士倦怠并提高患者滿意度,以降低醫院成本,達到更好的結果。值得一提的是,這款AI語音護理助手每小時只需9美元,對于多數用戶而言均可負擔。Hippocratic AI公司在建立高度專業化Agent方面投入了大量精力,構建了Po
145、laris,一個具有多個專業醫療LLM協同工作的新型架構。該架構參數總計超過一萬億個,建立的AI Agent采用類似人類的對話方法,遵循護理協議,并跟蹤其完成所需任務的進度,優勢包括可準確地進行醫學推理、事實檢查和避免幻覺。為了進一步加強安全性,Hippocratic AI 在訓練生成式人工智能醫療保健代理時,也采取了適當的人類介入措施,確保在關鍵時刻由人類護士進行評估和干預,增強整體系統的可靠性和安全性。在具體操作時,以交互式對話的方式實現與患者溝通。Hippocratic AI架構包括用于語音轉錄的自動語音識別(ASR)、用于處理文本話語的Polaris和用于音頻輸出的文本轉語音(TTS)
146、。Polaris中包含一個主要LLM代理來驅動對話,以及幾個專業的LLM代理,為其提供特定于任務的上下文。整體架構圖如下與用戶交互時,AI代理會首先自我介紹,并告知患者自己是扮演患者主治醫師的護理代理。在確認患者身份后,代理將詢問患者的最新情況,包括用藥情況、日常飲食習慣、癥狀評估等內容。同時,代理還能根據患者的提問,提供一些醫療建議和解答。最后,代理會對本次對話進行總結。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖33.Hippocratic AI應用架構圖532.5.4 中醫診療2.5.4 中醫診療(1)岐黃問道大模型(1)岐黃問道大模型岐黃問道大模型是由南京大經中醫藥信
147、息技術有限公司(下文簡稱:大經中醫)開發。大經中醫是數智中醫行業的創導者和領軍者,在名老中醫診療經驗的數字化傳承和中醫臨床智能輔助診療系統的開發等領域具有深厚的技術積淀。下設1家互聯網醫院+門診部,已建成中醫信息化、智能化“軟件+硬件”的全產品布局。岐黃問道大模型主要包括醫療和養生兩部分,有三個子模型:知病、知癥、養生,涉及的數據量包括1100多萬條中醫知識圖譜數據,1500本中醫古籍和文獻數據,10萬份真實中醫專家醫案數據,10萬條脈象、舌象、經絡、穴位數據和200萬條真實的中醫臨床診療數據,超10萬條真實臨床環境下的醫患對話數據集。主要的用途是根據用戶提供的疾病、癥狀、體征信息,給出辨證(
148、診斷)結果和治療方案(中藥處方),從而給出個性化中醫健康狀態辨識結果,以及食療、茶飲、推拿、艾灸等多維度養生方案。圖34.岐黃問道大模型問答示例生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告54(2)問止中醫大模型(2)問止中醫大模型問止中醫大模型是深圳問止中醫健康科技有限公司旗下網站。問止科技是全球領先的人工智能中醫平臺型科技企業,專注于智能中醫大腦研究與創新,旗下有智慧中醫互聯網醫院、連鎖智能診所、知識付費、開放大學等業務,主要圍繞中醫AI打造的“問止AI聯盟”旗下有400+家醫療機構、1000+名AI賦能的中醫師。問止中醫大模型在中美兩地歷時十余年研發出的人工智能中醫輔助診
149、療系統“中醫大腦”,擁有海量名醫智慧經驗和千萬有效數據案例,并不斷從臨床中實時學習現代最新的診療方法,越是在疑難癥及重癥領域,“中醫大腦”領先人類醫師的幅度越明顯。問止中醫 大模型主要的訓練數據主要有教科書、網上中醫語料、中醫名詞、中醫學家、基礎藥草、方劑學、針灸穴位、常見病癥、中醫試題、中醫問診對話等。問止中醫訓練和學習海量大數據應用于中醫人工智能互聯網醫院的診療開方,創新中醫藥服務模式。圖35.問止中醫大模型功能分類及問答示例生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告55(3)華佗大模型(3)華佗大模型華佗大模型由香港中文大學(深圳)和深圳市大數據研究院所在的王本友教授團
150、隊訓練并開源了一個新的醫療大模型。華佗大模型使用了四種不同的數據集,包括蒸餾 ChatGPT 指令數據集、真實醫生指令數據集、蒸餾 ChatGPT 對話數據集和真實醫生對話數據集。通過融合 ChatGPT生成的“蒸餾數據”和真實世界醫生回復的數據,以使語言模型具備像醫生一樣的診斷能力和提供有用信息的能力,同時保持對用戶流暢的交互和內容的豐富性,對話更加豐富和準確。此外,為進一步提升模型生成的質量,華佗大模型還應用了基于AI反饋的強化學習技術(RLAIF)。使用 ChatGPT 對模型生成的內容進行評分,考慮內容的用戶友好程度,并結合醫生的回答作為參考,將醫生回復的質量納入考量。利用 PPO 算
151、法將模型的生成偏好調整到醫生和用戶之間的一致性,從而增強模型生成豐富、詳盡且正確的診斷。同時,在對患者進行個性護理方面,GenAI可以對患者持續進行跟蹤護理,監控用藥反應,提高消費者的依從性。GenAI可以通過微信、短信等方式,提醒消費者按時服藥、監測他們的癥狀和副作用、提供自我護理技巧或者將用戶的醫療需求與醫療資源聯系起來,這可以提高消費者對于藥品和服務的依從性和滿意度,并幫助他們更好地管理自己的病情。圖36.華佗大模型問答示例圖37.華佗大模型介紹生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告562.6 現狀總結2.6 現狀總結目前,GenAI在生物醫藥大健康行業的應用已經不
152、局限于自然語言處理領 域,包括圖片、語音、視頻、代碼等多種模態的應用開始涌現,而大模型、生成算法與多模態等底層技術的突破成為了其質變的關鍵。入局生物醫藥大健康領域的GenAI參與者不斷增多,企業圖譜加速擴張。其中包括大型互聯網頭部企業和科技巨頭,如亞馬遜和谷歌,率先利用其強大的算力和先進算法,圍繞產業鏈進行橫向拓展及縱向滲透;而GenAI技術企業則通常利用自身的GenAI技術優勢進入制藥場景中的一個或多個環節,通過技術優勢獲得生物制藥企業合作方的青睞。隨著GenAI技術迭代升級及產業鏈完善,國內外大型生物制藥企業逐漸意識到GenAI的技術應用價值,推動了生物醫藥大健康領域應用場景的不斷豐富,目
153、前,這些場景已覆蓋了生物醫藥大健康價值鏈下全流程的應用,為整個行業帶來了前所未有的機遇。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告57第三章:GenAI在生物醫藥大健康行業的挑戰、展望及落地建議第三章:GenAI在生物醫藥大健康行業的挑戰、展望及落地建議58Source:Arthur D.LittleFigure 6.Summary of customer EV readinessSource:Arthur D.LittleFigure 7.Customers likely to buy PHEV or BEV as next vehicle per market3.1 面臨
154、挑戰3.1 面臨挑戰根據前述的分析,國內外生物醫藥大健康企業已經開始了針對GenAI的落地嘗試,而在探索過程中還面臨著如下幾個比較大的挑戰:3.1.1 數據合規性、符合醫學邏輯及循證溯源3.1.1 數據合規性、符合醫學邏輯及循證溯源技術原理角度來看,GenAI是基于深度學習技術通過概率計算生成答案,不可避免地會有幻覺(“一本正經胡說八道”)問題,而生物醫藥大健康行業有很強的監管以及合規性的要求,尤其是對外傳遞的醫學內容,需要經過醫學和法務的嚴格審核,也需要提供精準的溯源循證,因此如果直接用ChatGPT之類的GenAI產品,很多場景無法直接滿足生物醫藥大健康行業強合規性要求。此外生成的答案或者
155、文章還需要符合醫學邏輯的要求,需要基于通用GenAI的能力加入循證等級、指南沖突檢測和因果關系等醫學邏輯。通??梢圆捎弥R圖譜結合符合RAG的方式精準定位原文段落并按照一定醫學邏輯組裝形成合規的答案。3.1.2 監管合規性3.1.2 監管合規性國內對于GenAI有嚴格的監管,尤其是面向大眾用戶(例如患者)的GenAI應用,需要通過監管備案才能正式發布。企業在GenAI項目啟動時就需要了解監管的具體要求以及GenAI應用備案的流程及周期和費用,避免由于監管問題導致系統無法上線,前期的工作功虧一簣。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告593.1.3 數據安全性及私有化部署3
156、.1.3 數據安全性及私有化部署生物醫藥大健康企業除了使用公開的醫學指南和文獻等數據,還有很多內部研發和臨床試驗敏感數據以及市場推廣、醫學循證材料等數據。ChatGPT等GenAI是一個開放的公有云平臺,如果調用其API,需要將部分原文數據通過調用API傳給它進行訓練及交互,這會涉及到數據安全風險,以及用戶交互行為的泄露風險。如果GenAI應用涉及到內部敏感數據,一般需要私有化部署的平臺進行對接和權限控制,私有平臺采用LLaMA或者ChatGLM之類的開源GenAI框架,同時配備相應的GPU算力資源,成本相比調用API會高不少。如果考慮成本問題,可先從基于OpenAI或者國內大模型開放API調
157、用,處理醫學指南和文獻開源數據搭建GenAI應用開始進行場景技術驗證,再逐步拓展到私有部署處理內部數據。3.1.4 場景選擇和成本3.1.4 場景選擇和成本誠如1.2章節總結的,GenAI的應用方式主要有四種,其中像ChatGPT類通用大模型的模型訓練和開發成本非常高,一般的生物醫藥企業是承受不起像這樣巨額的初始訓練成本以及系統的持續運維成本。因此需要企業需要根據自身情況選擇合適的場景和高性價比的應用方式以便更好地評估ROI。業界比較主流的場景和應用方式是在知識庫和Chatbot應用RAG檢索增強進行升級,通常幾十萬的成本在幾個月就能上線應用。實際落地時可選擇剛上市的新產品或者重磅產品和業務部
158、門進行合作,對技術創新的需求和接受度會更高。3.1.5 內部利益的協同3.1.5 內部利益的協同GenAI在醫藥大健康行業的落地實施,需要管理層、各業務部門、IT和數字化部門、法律合規部、采購部門的共同協作。GenAI是顛覆性的AI技術,在企業落地需要管理層從戰略方向和高效分配資源提供有力支持。業務部門負責提供業務痛點和明確具體需求,IT和數字化部門則負責建立促進創新的合作伙伴關系,將GenAI技術與現有系統集成,能為業務部門提供可衡量的業務價值,同時確保數據的完整性和安全。由于GenAI的落地面臨很大的合規挑戰,需要盡早引入法律合規部門,確保遵守多樣化的法規,保護倫理考量和患者隱私,減少落地
159、過程中的風險。最后,采購部門需要打破傳統軟件的采購流程,引入更多有創新力的初創公司。如果是跨國公司,還需要了解Global總部的全球規劃并爭取總部資源支持。這種跨部門的協同合作,對于發揮 GenAI在企業落地至關重要。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告60Source:Arthur D.LittleFigure 28.Bahrain GEMRIX生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告3.2 未來展望3.2 未來展望未來,GenAI技術在生物醫藥大健康行業發揮關鍵作用,將呈現商業化進程提速、應用場景多元化與合規監管增強三大展望趨勢:商業進程穩步提速
160、:商業進程穩步提速:過去,雖然GenAI在生物醫藥大健康行業應用可能性眾多,但成功實現商業化落地的仍是核心垂直場景的應用,商業化應用側重于病理及醫學影像的醫學診斷領域。隨著國內生物醫藥大健康行業對于GenAI的市場需求逐步明確,企業底層技術的不斷打磨。未來生成人工智能技術在生物醫藥大健康行業商業落地不斷熟化,人工智能商業化落地應用將占據主導地位。企業將逐漸明確生物醫藥大健康行業中商業化復雜性及優先程度,持續挖掘合規且有效的商業模式,不斷根據市場所需打磨產品,拓展產業協同布局,實現可持續盈利。應用場景不斷滲透:應用場景不斷滲透:得益于硬件、算法、數據沉淀等多維度賦能,多模態GenAI技術發展,互
161、聯網和科技巨頭等軟硬件設備及解決方案提供商沿著GenAI醫藥產業鏈縱深的活躍度和滲透率將更高,未來GenAI在生物醫藥大健康行業中的應用將從點狀擴展發展至面狀滲透。在生物醫藥大健康企業端,未來將持續深化上市前研發、臨床、生產及上市后商業化運營場景中的應用。在醫院端,人工智能將從醫學影像診斷、病理切片等輔助疾病診斷等場景滲透,逐步從影像科室應用走進多臨床科室和基于GenAI面向生物制藥企業的真實世界研究。在患者端,智能家庭醫生、個性化健康管理和智能護理等應用將不斷擴充。整個生態的應用場景也將互相融合,打通“醫患藥險”閉環。合規監管愈發完善:合規監管愈發完善:伴隨著國內生物醫藥大健康行業對于Gen
162、AI應用的普及率及滲透程度不斷提高。政府對于GenAI在醫療大健康行業的數據安全問題重視度逐步提升,未來監管合規問題、數據安全問題變得不容忽視。生物醫藥大健康領域是政府監管之重,目前監管主要面向HCP及患者端的GenAI應用,未來將不斷延伸至非患者端的GenAI應用當中。隨著更多人工智能領域專門立法及實施細則的出臺,未來將逐步形成生物醫藥大健康行業的體系化治理框架。61生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告圖38.GenAI頂層設計3.3 落地建議3.3 落地建議當前GenAI在生物醫藥大健康行業的探索尚屬早期階段,平臺層面初露頭角,企業應用總體處于萌芽階段。但不可否認的
163、是,GenAI整合了生物學、化學、計算科學、藥理學和疾病治療等領域內容,加上生物醫藥大健康行業的產業鏈條長、參與主體多,應用空間潛力巨大。在看到機遇的同時,我們也應充分關注到,其作為新興事物,在發展過程中不可避免會遇到一些挑戰,有些甚至是前所未有的困難。因此,解鎖GenAI潛力、并成功加以應用,均離不開前瞻性的考量、詳細的落地路徑規劃、以及保障措施等全方位的考慮。3.3.1 捕捉變化,動態調整3.3.1 捕捉變化,動態調整GenAI雖然潛力巨大,但在GenAI應用試點及推廣的過程中,企業面臨著一系列風險,比如知識產權、網絡安全、數據隱私、數據偏差、以及錯誤結果等。企業應制定有效的風險管控機制,
164、設計治理框架和相關規則,建立用于監控和管理GenAI風險的工具,并將相關政策和程序必須融入企業的文化和運營模式之中,引導GenAI處理好涉及道德、法律和技術方面的問題。隨著監管環境的跟進,企業內部的指導方針也要追蹤及基于監管機構最新的政策框架監測進行靈活更新,保障合規體系下的動態調整能力。3.3.2 頂層設計,數智思維3.3.2 頂層設計,數智思維將GenAI納入數字化進程是工作的先決。管理層應在思想層面認識到GenAI是一個數字化策略的必選項,給予足夠重視,并傾注相應的資源。GenAI可以通過自動化流程降低企業成本、通過分析大量數據來協助決策制定、通過個性化內容改善與 客戶的互動,并在促進創
165、新、風險管理、質量控制和人力優化等方面有所作為,所有這些都將對企業的價值創造起到積極作用。目前,GenAI用例已開始廣泛涌現,不具備相關能力的企業將在未來喪失競爭優勢。在某種程度上,各玩家起點差距不大,投入和技術門檻并非高不可攀,及時 采取行動能讓企業在這場革命中把握主動權,因此通過有效頂層設計,可有效保 障企業在技術更迭背景下快速把握技術先機。未來企業可直接接入GenAI通用大模型能力,融合內外部數據搭建企業級的Copilot平臺,可對多源異構的文檔、數據庫、知識圖譜以及多模態圖片、視頻和音頻等數據進行自動標簽和內容生產、問答及寫作、總結,未來Copilot平臺將通過AI Agent智能代理
166、進行用戶意圖理解并進行任務分發,例如有傳統的FAQ更精準的匹配問答,從結構化的數據庫和知識圖譜動態生成組合答案以及分析,基于海量原始文檔通過GraphRAG引擎定位原文并按照醫學邏輯組裝答案,基于GenAI的全庫內容的總結和報告生成等,最終形成人機協同的企業級Copilot平臺。623.3.3 目標錨定,小步快走3.3.3 目標錨定,小步快走雖然GenAI在生物醫藥大健康行業落地面臨很大的挑戰,但只要確定目標,小步快走、實現快速迭代便可在滿足合規性要求的情況下找好能帶來實際價值的應用及制定好相應的技術路線,在生物醫藥大健康行業的應用潛力還是巨大的??傮w而言,GenAI在生物醫藥大健康行業潛在應
167、用廣泛,企業可選應用多,覆蓋了從藥物研發、臨床研究、營銷與臨床診療等整條價值鏈。通過分析及篩選,企業可明確GenAI技術可在自身藥物價值鏈活動的哪些環節獲得最大的競爭優勢,詳細評估GenAI對其現有產品和服務組合的影響,分析目標用戶群體特征。歸納其自身產品和服務而言最具價值潛力GenAI用例后,還需要量化相關應用的影響力和落地速度,同時兼顧模型、數據可用性、數據安全性、容錯性、復雜性、可負擔性和市場需求等因素。對用例的優先級進行排序,確定GenAI優先用例后,開展試點工作,收集試點工作反饋并進行多次優化,在用例影響力得到驗證后,擇機在整條價值鏈上進行推廣,以便在全組織層面充分釋放其全部價值。應
168、用場景可以首先從內部效率提升開始,可借助GenAI能力在內容建設層面探索通過GenAI來優化醫學人員進行數據打標簽和標注以及生產FAQ的基礎工作;其次還可結合知識圖譜可解釋和可溯源的優勢,通過通用GenAI的開放API,將生物醫藥大健康行業合規的開放權威數據(例如醫學指南和文獻、會議紀要報道、臨床研究等)結合自己的業務需求進行RAG檢索增強訓練,能做文獻智能閱讀和寫作以及chatbot應用并提供溯源循證的能力,滿足合規性的要求情況下提升應用的智能化程度和用戶體驗,通過GenAI實時生成合規內容來減少生成FAQ及審核的流程??傮w而言,GenAI在生物醫藥大健康潛在應用廣泛,企業可 錨定自身所需,
169、通過小步快走先試先行,逐步挖掘的GenAI的應用潛力,建立人機協同的多層智能知識平臺。圖39.企業GenAI知識平臺生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告633.3.4 能力構建,組織提質3.3.4 能力構建,組織提質在企業能力層面,基于通用GenAI平臺和開源的大模型,在生物醫藥大健康行業數據集上進行訓練調優,構建私有化部署的企業級GenAI平臺,結合知識圖譜的能力,保證數據安全性的情況下處理內部數據,并可和外部數據進行融合進行合規數據的內容生成。同時基于Chatbot智能交互平臺為內部員工和HCP、患者提供滿足合規安全性要求的企業級智能交互方式。在組織結構層面,為了支
170、持全新的工作方式,可能涉及到自身的組織結構和運營模式的調整,企業需要制定實用的變革管理計劃,指導組織平穩過渡轉型。明確各方所應承擔的責任、擁有的決策權,并重新設計職位信息,配備相應人員。企業需要更新其人才和技能培訓策略,包括研發、臨床研究人員、制造與質量控制人員、市場銷售和醫學團隊、職能部門、法律合規部門員工等;確保相關員工了解如何在日常工作中使用 GenAI,如撰寫提示詞;掌握部署高級應用的能力,如增加GenAI專業人員招聘等。3.3.5 合作共行,優勢互補3.3.5 合作共行,優勢互補完善的基礎設施和平臺是GenAI發揮充分潛力的前提。目前得益于硬件、算法、數據沉淀等多維度賦能,互聯網和科
171、技巨頭等軟硬件設備及解決方案提供商基于其多年的科技投入和人才積累,開發了豐富的應用方案,這也是現行主流的落地模式,合作雙方可以優勢互補,快速部署。企業在落地云基礎設施、數據平臺、模型和應用時,可從使用成本、響應速度和定制化水平、潛在的收益等方面評估各類方案,確定最終合作伙伴。由于GenAI技術發展迅猛,在此背景之下,企業應著力提高自身的靈活性,研判自身數據平臺和核心系統的準備情況,根據 GenAI的變化不斷進行調整。企業可先考慮一些風險較低的合作伙伴,這樣不僅可以幫助企業更好地對自己的平臺進行評估,還可以讓企業在擴充自身GenAI能力的過程中不斷積累經驗教訓。為了使GenAI應用效果最大化,企業還需要考慮與現有的AI工具相結合,例如基于現有的Chatbot工具進行GenAI的升級。生成式人工智能(GenAI)在生物醫藥大健康行業應用進展報告64報告作者致謝報告作者致謝顧問顧問李景成(CMAC 理事長)谷成明(賽諾菲大中華區醫學部負責人)漆桂林(東南大學認知智能研究所所長)主要編制人員主要編制人員 理特咨詢唐正曄、陳澤穎、劉鯤、黎彥伶、葉浩然 天士力數智中藥創新中心王文佳、魏宇、郭鵬飛、楊鵬程 南京柯基數據科技有限公司吳剛、楊成彪、魏愛梅 CMAC醫學事務生成式AI聯盟余希田(委員,醫學事務數字化專家)CMAC010- 掃碼詳細了解或加入CMAC醫學事務生成式AI聯盟