《北京大學信息技術高等研究院:2020年健康醫療人工智能指數報告(54頁).pdf》由會員分享,可在線閱讀,更多相關《北京大學信息技術高等研究院:2020年健康醫療人工智能指數報告(54頁).pdf(54頁珍藏版)》請在三個皮匠報告上搜索。
1、1 專家指導委員會主席:詹啟敏院士 董爾丹院士成員:鄧志鴻 北京大學段會龍 浙江大學付 君 哈爾濱醫科大學蔣 云 北京大學信息技術高等研究院(浙江)金 海 華中科技大學孔桂蘭 北京大學匡 銘 中山大學李 姣 北京協和醫學院馬 婷 鵬城實驗室施秉銀 西安交通大學湯步洲 哈爾濱工業大學(深圳)王海波 中山大學王耀剛 天津醫科大學王志鋒 北京大學詹思延 北京大學張路霞 北京大學趙歌喃 愛思唯爾趙明輝 北京大學執筆委員會杜 建 北京大學健康醫療大數據國家研究院吳靜依 北京大學信息技術高等研究院(浙江)趙 璐 愛思唯爾Baas,Jeroen 愛思唯爾(數據科學家)Schalkwijk,Jan-Maart
2、en Van 愛思唯爾(數據科學家)白永梅 北京大學健康醫療大數據國家研究院協調委員會王 邁、崔 娜 北京大學健康醫療大數據國家研究院李鵬飛 北京大學信息技術高等研究院(浙江)張丹丹、王 巍 愛思唯爾引言01第一章 界定與分類031.數據集界定 .032.研究領域分類 .04第二章 科學研究概覽061.數據與指標 .061.1.數據來源 .061.2.分析指標 .062.分析結果 .082.1.主要國家 .082.2.研究機構 .082.3.科研合作 .102.4.研究主題分布 .112.5.高科學影響力論文 .142.6.全球 Health AI 細分領域分析 .142.7.中國 Healt
3、h AI 細分領域分析 .15第三章 科學技術交叉201.數據與指標 .201.1.數據來源 .201.2.學術界與產業界的知識流動指標 .202.分析結果 .202.1.學術界與產業界的知識流動總體狀況 .202.2.對 Health AI 技術產生影響的基礎性研究 .212.3.Health AI 細分領域科學-技術交叉 .23第四章 科學社會交互241.數據與指標 .241.1.數據來源 .241.2.科學社會交互指標 .242.分析結果 .252.1.多媒介提及指數較高的話題 .252.2.社交媒體傳播指數較高的話題 .25目錄第五章 人類-機器協同(AI 臨床試驗)291.引言 .2
4、92.數據與指標 .312.1.數據來源 .312.2.分析指標 .313.分析結果 .323.1.臨床試驗數量 .323.2.發起機構分布 .323.3.臨床試驗分期 .343.4.研究類型分布 .343.5.干預措施類型 .343.6.目標人群(疾病譜).353.7.樣本量分布 .363.8.招募狀態分布 .373.9.臨床試驗結果報道 .37第六章 主要結論391.前沿科學技術與醫學的深度融合是健康醫療人工智能發展的基礎,未來將在公共衛生和臨床診療中發揮更大作用。.392.中國已成為健康醫療人工智能科學研究與臨床試驗的最主要貢獻者之一,但在學術影響力和技術轉化方面仍有待提升。.393.健
5、康醫療人工智能技術譜的核心是機器學習(含深度學習)和醫療機器人,疾病譜以慢病和神經系統疾病為主,傳染病、罕見病等與醫療 AI 的深度結合仍有空間。.404.與科學共同體的熱點研究主題相比,健康醫療人工智能研發與應用的倫理學問題成為社會媒體關注的焦點。.405.健康醫療人工智能全球臨床研究仍處于早期階段,中國以大學/醫院為發起主體,側重疾病智能診斷,企業參與仍有待加強。.416.建議將循證范式引入健康醫療人工智能安全性和有效性評價,以促進其落地應用。.41目錄01 引言人口老齡化、社會環境因素變化、慢性病疾病負擔加重、新發突發傳染病等對我國人民健康帶來了巨大挑戰。健康醫療人工智能(Health
6、Artificial Intelligence,Health AI)的核心是利用人工智能等前沿科學技術賦能醫療健康,構建最優化的大健康生態體系,提供優質、高效、經濟的新型醫療服務,為解決我國醫療供需矛盾、推動醫學發展提供有效的手段。2019 年 4 月 26 日,英國醫學雜志(The BMJ)在線發表北京大學健康醫療大數據國家研究院詹啟敏院士等學者題為“Can AI fulfil its medical promise?(健康醫療人工智能的應許之地?)”的觀點文章。1該文肯定了人工智能(AI)技術在健康醫療領域頗具潛力的應用場景,例如醫學影像和病理學診斷,以及作為輔助手段用于常見疾病一般狀況的
7、醫療決策。然而,由于 AI算法的內在運行邏輯難以探究、被研究者稱為“黑匣子”,而這“會給使用 AI 系統的醫生帶來遲疑和困惑”。作者提出,AI 系統的有效性和安全性必須得到科學的評估,并建議運用流行病學及醫學研究的思路來驗證基于 AI 的預測模型。此外,人文關懷是醫學中至關重要、并且無法被任何技術系統替代的關鍵內容。最后,作者將健康醫療領域“劃歸”為 AI 的“應許之地”,但同時也表示,為充分發揮其潛質,“醫生、科研人員和 AI 科學家應當緊密合作;基于可靠的方法、遵循倫理的準則,力爭在醫療實踐中應用、評估和改進 AI 技術”。自 2017 年以來,斯坦福大學聯合麻省理工學院、哈佛大學等機構,
8、每年發布 AI 指數報告(AI Index Report),從學術、產業、政策等多個角度介紹全球 AI的最新進展,至今已連續 3 年發布報告2。2018 年,信息分析公司愛思唯爾發布人工智能:知識的創造、轉移與應用報告,對 AI 領域進行了全面定義,勾勒出該領1 https:/ https:/hai.stanford.edu/research/ai-index-201902 3 https:/ https:/nam.edu/artificial-intelligence-special-publication/5 https:/www.oecd.org/health/trustworthy-a
9、rtificial-intelligence-in-health.pdf6 He,J.,Baxter,S.L.,Xu,J.,Xu,J.,Zhou,X.,&Zhang,K.(2019).The practical implementation of artificial intelligence technologies in medicine.Nature Medicine,25(1),3036.7 https:/www.wish.org.qa/wp-content/uploads/2018/11/IMPJ6078-WISH-2018-Data-Science-181015.pdf域在全球范圍
10、內的研究趨勢,同時聚焦 AI 在中國、歐洲和美國的發展態勢3。2019 年 12 月,美國國家醫學院發表醫療人工智能:希望、炒作、浮夸承諾、危險綜述報告,匯總現有 AI 知識和技術應用,包括成功案例和失敗教訓,為醫療健康領域的人工智能研發、應用和維護,提供了指導建議和實踐指南4。2020 年 4 月,經濟合作與發展組織(Organization for Economic Co-operation and Development,OECD)發布值得信賴的醫療人工智能報告,討論了人工智能在醫療保健領域的前景和風險,以及政策制定者在不確定的環境下需要解決的關鍵政策問題5。人工智能在健康醫療領域的研究
11、與應用主要集中于4 個方面6:一是疾病診斷,例如電子病歷(EMR)/電子健康檔案(EHR)和專家知識整合,基于 AI 的常見病診斷和評估;二是疾病治療,例如通過將 EHR 和臨床指南整合,基于 AI 治療常見病、基于藥物基因組學指導臨床用藥等;三是人群健康管理,例如建立以患者為中心的信息系統,開展健康生活方式監測與干預,疾病早期檢測與發現,健康知識教育等;四是管理與監管,例如醫療服務質量評估、藥物不良反應監測等。與金融、電信等行業相比,AI 在健康醫療領域發展相對滯后且未充分落地,研究和應用還有很大空間7。但目前尚未見從客觀數據角度系統分析健康醫療人工智能研究與開發狀況的報告。北京大學健康醫療
12、大數據國家研究院致力于促進和引領人工智能在健康醫療領域的研究和應用,并研發一個科研發展復合指數以供該領域國內科研機構參考。指數(Index),即反映某個領域發展狀況的多維、綜合指標,為該領域的相關決策提供依據。本報告將從科學研究概覽、科學技術交叉、科學社會交互、人類機器協同四個方面,以已發表的科學出版物和已注冊的臨床試驗為基礎數據,回顧分析健康醫療人工智能領域最近 5年(2015-2019)的全球科學研究和臨床試驗的規模、結構和發展趨勢,并分析中國的表現,以期為國內健康醫療人工智能領域的戰略規劃、研發布局和臨床應用管理提供參考。04 -Supervised Machine Learning L
13、01.224.050.375.530.500-Support Vector Machine L01.224.050.375.530.500.500-Unsupervised Machine Learning L01.224.050.375.530.750-Natural Language Processing L01.224.050.375.580-Neural Networks,Computer L01.224.050.375.605-Deep Learning L01.224.050.375.605.500-Robotics L01.224.050.375.630由于上述 8 個一級下位術
14、語之間存在交叉,經咨詢醫學信息學和醫療人工智能領域專家意見,按如下規則對其進行重組分類:將 Computer Heuristics 和 Fuzzy Logic 合并,在算法層面,都是先驗知識的形式化表示。Expert Systems 單獨列出,是應用層面的信息系統。Neural networks,computer 歸并到 Machine Learning 下面。處理后,共計 6 個大類:2.研究領域分類由于本報告的數據集以科學出版物為主,且聚焦健康醫療領域,因此我們考慮仍采用醫學主題詞表這一術語體系對健康醫療人工智能研究領域進行分類。在總數據集中,14,820 篇被 MEDLINE 收錄,含自
15、動標注的 MeSH 術語;剩余 10,897 篇科學出版物并未被MEDLINE 收錄,未標注 MeSH 主題詞;對于這部分科學出版物,采用文本挖掘工具Medical Text Indexer(MTI)將標題和摘要文本自動映射并標注 MeSH 主題詞;利用 python 3.7 通過爬蟲將文件列表中的摘要抓取并儲存,隨后分配一個識別編號,用于后續 MeSH 主題詞映射的追蹤與分析。對上述數據進行清洗,數據符合輸入要求后輸入 MTI 系統。在得到 MTI 結果后,利用 python 程序通過識別編號將主題詞與文獻之間建立映射。對于已有 PMID 的文獻(n=14,820),我們利用PubMed 獲
16、取數據進行分析。本報告重點關注兩個方面的分類:(1)健康醫療人工智能技術領域的分類;(2)健康醫療人工智能涉及的疾病分類,考慮采用世界衛生組織(WHO)ICD-10 分類標準,并與疾病負擔數據進行映射。在 MeSH 樹 狀 結 構 表 中,人 工 智 能(Artificial Intelligence)位于信息科學(Information Science)大類中,具體層級結構為:Information Science L-Information Science L01-Computing Methodologies L01.224-Algorithms L01.224.050-Artifici
17、al Intelligence L01.224.050.375“Artificial Intelligence”這一術語的 MeSH 樹狀結構編碼為 L01.224.050.375,其一級下位術語有 8 個,包括:計算機啟發式決策、專家系統、模糊邏輯、知識組織系統、機器學習、自然語言處理、計算機神經網絡和機器人。這些一級下位術語的所有下位術語包括:Artificial Intelligence L01.224.050.375-Computer Heuristics L01.224.050.375.095-Expert Systems L01.224.050.375.190-Fuzzy Logi
18、c L01.224.050.375.250-Knowledge Bases L01.224.050.375.480-Biological Ontologies L01.224.050.375.480.500-Gene Ontology L01.224.050.375.480.500.500-Machine Learning L01.224.050.375.530-Deep Learning L01.224.050.375.530.25005 注意以上6個大類并非完全相互獨立,也存在交叉,例如機器學習的下位術語深度學習,往往被用于自然語言處理;但基本能反映健康醫療人工智能涉及的主要技術領域。類別
19、類別名稱MeSH 術語與編碼1決策規則-Computer Heuristics L01.224.050.375.095-Fuzzy Logic L01.224.050.375.2502專家系統-Expert Systems L01.224.050.375.1903知識庫-Knowledge Bases L01.224.050.375.480-Biological Ontologies L01.224.050.375.480.500-Gene Ontology L01.224.050.375.480.500.5004機器學習-Machine Learning L01.224.050.375.53
20、0-Deep Learning L01.224.050.375.530.250-Supervised Machine Learning L01.224.050.375.530.500-Support Vector Machine L01.224.050.375.530.500.500-Unsupervised Machine Learning L01.224.050.375.530.750-Neural Networks,Computer L01.224.050.375.605-Deep Learning L01.224.050.375.605.5005自然語言處理-Natural Langu
21、age Processing L01.224.050.375.5806機器人-Robotics L01.224.050.375.630表 1-1 健康醫療人工智能技術領域分類06 第二章科學研究概覽1.數據與指標1.1.數據來源采用由北京大學健康醫療大數據國家研究院和愛思唯爾雙方融合后的數據集,該數據集含有 25,717 篇與 Health AI 主題有關的科學出版物,基于愛思唯爾的Scopus 和 Scival 平臺進行統計分析。1.2.分析指標(1)科研產出及影響力指標發文量(Scholarly Output):發文量統計了被評估主體發表的包含期刊論文、會議文集、綜述文章、發表叢書的所有文
22、章的數量,代表了被評估主體在某一個固定時間段內的科研產出。歸一化引文影響力(Field-weighted Citation Impact,FWCI):FWCI 是指被評估主體發表文章所收到的總被引次數相比于與其同類型發表文章(相同發表年份、相同發表類型和相同學科領域)所收到的平均被引次數的比值。FWCI 在一定程度上反映了被評估主體發表文章的學術影響力。相比于總被引次數,FWCI 能夠更好的規避不同規模的發表量、不同學科被引特征、不同發表年份帶來的被引數量差異。如果 FWCI 為 1 意味著被評估主體的文章被引次數正好等于整個 Scopus數據庫同類型文章的平均水平。本次分析的文章被引用次數統
23、計截至 2020 年 9 月 18 日。其中,歸屬國家/地區定義為:只要在一篇文章的所有作者中,其隸屬研究機構從屬于某一國家/地區,則該文章會被歸為該國家/地區的一篇文章。一篇國際合作型文章會由于署有多個國家/地區的隸屬機構而同時屬于多個國家/地區。(2)機構科研產出及影響力指標機構科研產出及影響力的評價指標包括:發文量、FWCI 和被引次數。被引次數(Citation)是指在某一個固定時間段內被評估主體所發表文章的所有被引用次數,在一定程度上反映了被評估主體發表文章的學術影響力。但同時也需考慮到,發表時間較近的文章相比于年份較久的文章,會由于積累時間較少而導致總被引次數較少。本次分析的文章的
24、所有被引次數統計截至 2020年 9 月 18 日。(3)科研合作指標學 術 科 研 合 作 文 章 分 為 三 類:國 際 合 作(International Collaboration)、國內合作(National Collaboration)和 機 構 內 合 作(Institutional Collaboration),其中:國際合作文章:是指文章的發表作者為多位作者,且至少有兩位作者的署名機構來源于不同的國家/地區,表明該類文章源于國際合作的成果。國內合作文章:是指文章的發表作者為多位作者,且作者中沒有隸屬于國外研究機構,但至少有兩位作者隸屬于國內不同的研究機構,表明該類文章源于國內
25、合作的成果。機構內合作文章:是指文章的發表作者為多位作者,且所有作者全部隸屬于國內同一機構,表明該類文章源于機構內合作的成果。無合作文章:是指文章發表作者為一人。該類別文章作為對照組進行展示。(4)產學合作指標產學合作(Academic-Corporate Collaboration):該指標考察了學術機構和企業的合作程度。產學合作文章源于產學合作的成果,是指文章的發表作者為多位,其中至少有一位作者的隸屬單位屬于學術機構,且至少有一位作者的隸屬單位屬于產業界。07 (5)研究主題分析研究主題(Topic)8:研究主題是指一群具有共同研究興趣的文章所研究內容的共同焦點。在 Scopus 數據庫中
26、,所有文章通過直接被引算法歸類于約 96,000 個研究主題中,每篇文章只能屬于一個研究主題。研究主題群(Topic Cluster):研究主題群是指將具有相似研究焦點的研究主題(topic)聚集在一起,形成更廣泛、更高層次的研究領域。在深入研究更為細分的研究主題之前,這些研究主題群可用于更廣泛地了解一個國家/地區、機構或研究人員正在進行的研究。96,000個研究主題分別被匹配到1,500個研究主題群中,同樣地,每篇文章只能屬于一個研究主題群。研究主題群同樣通過直接被引算法計算而得,當多個研究主題間的引文鏈接強度達到某個閾值時,就形成了一個研究主題群。研究主題(群)顯著度得分(Topic Pr
27、ominence Score):每個研究主題(群)的顯著度得分是根據該研究主題(群)內所有文章的被引次數、在 Scopus 中的被瀏覽數和期刊平均引用分(CiteScore)等三個指標的線性計算得到。根據顯著度得分從高到低排名可得到本研究主題(群)的全球顯著度百分位數。已有相關研究表明9,研究主題(群)顯著度得分代表了該研究主題(群)被全球學者的關注程度、熱門程度和發展勢頭,并且研究主題(群)的顯著度得分與其所獲研究資助呈現正相關關系。(6)高科學影響力論文分析采用論文的被引次數評價其相應的科學影響力,分析被引次數排名前 20 位的論文的特征。(7)疾病分類方法根據國際疾病分類(Interna
28、tional Classification of Diseases 10th Revision,ICD-10)編碼的分類結構對疾病的 MeSH 主題詞進行了重新分類。采用荷蘭萊頓大學學者構建的 ICD-MeSH 映射詞表10,在此基礎上制作了包含該表所列疾病主題詞的所有下位主題詞的映射詞表。使用該映射詞表可直接基于 MeSH 主題詞實現對疾病的分類和統計。8 https:/ Klavans,R.,&Boyack,K.W.(2017).Research portfolio analysis and topic prominence.Journal of Informetrics,11(4),11
29、581174.10 Yegros-Yegros,A.,Van de Klippe,W.,Abad-Garcia,M.F.,&Rafols,I.(2020).Exploring why global health needs are unmet by research efforts:the potential influences of geography,industry and publication incentives.Health research policy and systems,18,1-14.08 圖 2-2 發文量排名前五位的國家發表科學出版物的年度分布圖 2-1 發文量
30、排名前五位的國家的科研產出及影響力對比2.分析結果2.1.主要國家2015-2019 年間,全球有關 Health AI 的文章總量為 25,717 篇,FWCI 均值為 2.0。全球及發文量前五位國家的科研產出及影響力的分布情況詳見圖 2-1。發文量排名前五位的國家依次是美國、中國、印度、英國和德國,FWCI 由高到低依次是美國、英國、德國、中國和印度。2015-2019 年,中國文章的平均 FWCI 為2.0,與全球平均水平持平(FWCI=2.0),但低于美國(FWCI=2.8)。美國、英國和德國的 FWCI 均在同一水平線上,印度(FWCI=1.2)則顯著低于全球平均水平。發文量排名前五
31、位的國家科研產出及影響力趨勢變化見圖 2-2。全球的文章數量從 2015 年的 2,573 篇增加到 2019 年的 10,018 篇,年復合增長率為 31.2%;中國的文章數量從 2015 年較低的 269 篇增長到 2019 年的1,819 篇,年復合增長率達到 46.6%。前五位國家中,文章產出年復合增長率最高的國家是印度,其年復合增長率達到 54.8%。2.2.研究機構2015-2019 年間發文量排名前十位的中國學術機構的科研產出及影響力情況見圖 2-3。其中,發文量排名最高的學術機構為上海交通大學(206 篇),其文章被引次數排名第三(2,360 次),同時 FWCI 較低。香港中
32、文大學在前十位學術機構中中發文量最低,但其文章的被引次數最高(3,235 次),且 FWCI 達到 5.6,明顯高于其他學術機構。2015-2019 年間 FWCI 排名前十位的中國學術機構的科研產出及影響力情況見圖 2-4。FWCI 排名最高的學術機構為香港中文大學,其 FWCI 均值為 5.6,其文章的被引次數同樣最高(3,235 次)。中山大學在 FWCI 排名前十位的學術機構中發文量最高(148 篇),且其被引次數排名第二(2,509 次)。2015-2019 年間被引次數排名前十位的中國學術機構的科研產出及影響力情況見圖 2-5。被引次數排名最高的學術機構為香港中文大學,其被引次數達
33、到 3,235次,其文章的 FWCI 同樣最高(5.6)。上海交通大學在被引次數排名前十位的學術機構中發文量最高(206篇),但其 FWCI 較低。09 圖 2-3 發文量排名前十位的中國學術機構的科研產出及影響力圖 2-4 FWCI 排名前十位的中國學術機構的科研產出及影響力圖 2-5 被引次數排名前十位的中國學術機構的科研產出及影響力10 2.3.科研合作中國、美國和全球科研合作類文章的發文量占比及FWCI 分布情況見圖 2-6。中國和美國在各個類型的科研合作中發文量占比均較為相近,體現為國際合作占比最多,機構內合作最少;國際合作的 FWCI 最高,機構內合作的FWCI最低。中國的國際合作
34、類文章的FWCI(2.9)高于全球平均 FWCI(2.8),其余合作類型均低于相應的全球水平。圖 2-6 中國、美國和全球科研合作類文章的發文量占比及 FWCI圖 2-7 中國、美國和全球產學合作類文章的發文量占比及 FWCI中國、美國和全球產學合作類文章的發文量占比及FWCI 對比見圖 2-7,美國的產學合作類文章的發文量占比與 FWCI 均高于中國。中國的產學合作類文章雖然占比低于全球平均水平,但 FWCI(3.7)高于全球平均水平(3.4)。11 2.4.研究主題分布2015-2019 年間健康醫療人工智能文章的研究主題群分布情況見圖 2-8。該類研究共涉及 987 個研究主題群,涉及學
35、科領域包括醫學、計算機科學、物理學、生物化學、遺傳學和分子生物學、環境科學、工程學及社會科學等。包含文章數最多的研究主題群為“算法、計算機視覺、模型”(Algorithms,Computer Vision、Models),含 1,965 篇文章。該研究主題群顯著度百分位達到 99.8%,其下包含 270 個研究主題,其關鍵詞包括“神經網絡”(Neural Network)、“深度學習”(Deep Learning)、“計算機視覺”(Computer vision)、“面部識別”(Facial Recognition)和“目標檢測”(Object Detection)等。由于在 Scopus 數
36、據庫中,每一篇文章都會根據直接被引算法被歸類為一個研究主題群,即每一個研究主題群中都包含一定數量的文章,稱為該研究主題群的全球文章數量。在本研究的數據集中,被歸為某個特定研究主題的文章數占該研究主題所有文章數量的比例體現了健康醫療人工智能對于該研究主題群的內容貢獻。其中占比最大的研究主題群,即包含健康醫療人工智能文章比例最高的研究主題群為“細胞學;圖像分割;醫學影像學”(Cytology;Image Segmentation;Medical Imaging),含 636 篇文章。該研究主題群顯著度百分位為 67.9%,其下包含 71 個研究主題,其關鍵詞包括“深度學習”(Deep Learni
37、ng)、“神經網絡”(Neural Network)、“流式細胞儀”(Flow Cytometry)、“組織病理學”(Histopathology)和“圖像分割”(Image Segmentation)等。中國學術機構參與的健康醫療人工智能文章的研究主題群分布情況如圖 2-9 所示,該部分文集共涉及到 505 個研究主題群,涉及到的學科領域包括醫學、計算機科學、生物化學、遺傳學和分子生物學、環境科學、工程學及社會科學等。包含文章數最多的研究主題群同樣是“算法、計算機視覺、模型”(Algorithms,Computer Vision,Models),含 477 篇文章。該研究主題群顯著度百分位達
38、到 99.8%,其下包含 270 個研究主題,關鍵詞包括“神經網絡”(Neural Network)、“深度學習”(Deep Learning)、“計算機視覺”(Computer Vision)、“面部識別”(Facial Recognition)和“目標探測”(Object Detection)等。該文集被收錄在每個研究主題群的全球所有文章中占比最高的研究主題群為“磁共振成像、圖像分割、醫學成像”(Magnetic Resonance Imaging;Image Segmentation;Medical Imaging),含 175 篇文章。該研究主題群顯著度百分位為 74.6%,其下包含
39、99 個研究主題,其關鍵詞包括“腦腫瘤”(Brain Neoplasm),“影像配準”(Image Registration)和”圖像分割”(Image Segmentation)等。圖 2-10 至 2-13 分別為按照發文量、發文量占比、FWCI 和顯著度百分位進行排名的前十個研究主題群。13 圖 2-10 發文量排名前十位的研究主題群圖 2-11 發文量占比排名前十位的研究主題群圖 2-12 FWCI 排名前十位的研究主題群圖 2-13 顯著度百分位排名前十位的研究主題群17 表 2-1 高科學影響力論文(Top20)序號主題國家/地區機構出版物來源被引次數1深卷積神經網絡診斷皮膚癌達到
40、皮膚病專家的水平(Esteva et al.,2017)USAStanford UnivNature26312深卷積神經網絡用于計算機輔助檢測(Shin et al.,2016)USANIHIEEE Transactions on Medical Imaging15673深度學習算法用于檢測糖尿病視網膜病變(Gulshan et al.,2016)USAGoogle ResJAMA-Journal of the American Medical Association14844深層神經網絡用于腦腫瘤分割(Havaei et al.,2017)CanadaUniv SherbrookeMedic
41、al Image Analysis94553D 卷積神經網絡和全連接 CRF 用于精確分割腦損傷(Kamnitsas et al.,2017)UKImperial Coll LondonMedical Image Analysis9256卷積神經網絡用于醫學圖像分析(Tajbakhsh et al.,2016)USAArizona State UnivIEEE Transactions on Medical Imaging8597*深度學習用于醫學圖像分析(Shen et al.,2017)USA;South KoreaUniv N Carolina;Korea UnivAnnual Revi
42、ew of Biomedical Engineering7878卷積神經網絡用于 MRI 腦腫瘤分割(Thaha et al.,2019)PortugalUniversity of MinhoIEEE Transactions on Medical Imaging7789*預測未來大數據、機器學習和臨床醫學(Obermeyer and Emanuel,2016)USAHarvard Med SchNew England Journal of Medicine61810*深度學習在醫學影像學的應用(Greenspan et al.,2016)IsraelTel-Aviv UniversityIE
43、EE Transactions on Medical Imaging61611機器學習用于全球網格化土壤信息預測的研究(Hengl et al.,2017)Netherlands ISRIC World Soil InformatPLoS ONE58112計算放射學系統用于解碼射線表現型的研究(van Griethuysen et al.,2017)USAHarvard Med SchCancer Research51013機器學習在人類的剪接編碼對于疾病遺傳決定因素中的應用(Xiong et al.,2015)CanadaUniv TorontoScience50214圖像的深度學習用于識別
44、醫學診斷和可治療疾病(Kermany et al.,2018)China;USAGuangzhou Med Univ;Univ Calif San Diego;Sichuan Univ;Guangzhou Regenerat Med&Hlth Guangdong Lab;Vet Adm Healthcare SystCell49315深度學習算法用于診斷乳腺癌女性淋巴結轉移(Bejnordi et al.,2017)Netherlands Radboud Univ NijmegenJAMA-Journal of the American Medical Association48816*機器學
45、習用于遺傳學和基因組學注釋的研究(Libbrecht and Noble,2015)USAUniv WashingtonNature Reviews Genetics45617多視圖卷積網絡減少 CT 圖像中的肺結節檢測假陽性(Setio et al.,2016)Netherlands Radboud Univ NijmegenIEEE Transactions on Medical Imaging44918深卷積神經網絡對間質性肺疾病的肺模式分類(Anthimopoulos et al.,2016)SwitzerlandUniv Hosp BernIEEE Transactions on M
46、edical Imaging44119局部敏感深度學習在常規結腸癌組織學圖像中檢測和分類細胞核(Sirinukunwattana et al.,2016)Qatar;EnglandQatar Univ;Univ WarwickIEEE Transactions on Medical Imaging40620基于 DNA 甲基化機器學習的中樞神經系統腫瘤分類(Capper et al.,2018)GermanyUniv Hosp Heidelberg;German Canc Res Ctr;NCT Heidelberg KiTZ;Nature400注:*type of Editorial Mat
47、erial;*type of Review.18 Expert SystemsFuzzy Logic/Computer HeuristicsRoboticsMachine LearningNatural Language ProcessingKnowledge BasesTotal美國285546450955151936350中國1396922806110953212印度915233144242251703英國1221106110740471333德國208927673539961韓國414976251413767日本2151145812911752意大利11111714341318658伊朗
48、1867938845491土耳其8282630842376表 2-2 發文量前十國家在 Health AI 細分領域的發文量RankCausesDALYs(000s)Scholarly Output1Ischaemic heart disease 203,700 882Stroke 137,941 923Lower respiratory infections 129,690 114Preterm birth complications 101,397 145Chronic obstructive pulmonary disease 72,512 276Diabetes mellitus 65
49、,666 1977Birth asphyxia and birth trauma 63,928 18Congenital anomalies 62,980 139HIV/AIDS 59,951 1310Tuberculosis 51,643 1611Back and neck pain 47,515 412Cirrhosis of the liver 45,287 1713Depressive disorders 44,175 1014Trachea,bronchus,lung cancers 41,121 20215Kidney diseases 39,079 4216Neonatal se
50、psis and infections 39,009 1表 2-3 疾病負擔前 20 位的疾病的發文量*注:ICD 疾病負擔前 20 名的原因中包含車禍、摔倒等非疾病原因,在本表中被排除。19 Fuzzy Logic/Computer HeuristicsExpert SystemsMLRoboticsNLPKnowledge BasesTotalTrachea,bronchus,lung cancers51188503202Diabetes mellitus531712610197Brain and nervous system cancers170119120139Breast cance
51、r33120120129Melanoma and other skin cancers01118310123Alzheimers disease and other dementias50113022122Prostate cancer009700198Stroke4073132092Ischaemic heart disease437901188Epilepsy208300287Parkinsons disease217101075Cardiomyopathy,myocarditis,endocarditis015800059Skin diseases004111043Colon and r
52、ectum cancers003921042Kidney diseases203721042Liver cancer403020238Glaucoma113400036Macular degeneration003300033Autism and Asperger syndrome202310127Chronic obstructive pulmonary disease002700027表 2-4 全球 Health AI 領域發文量前 20 位的疾病20 第三章科學技術交叉1.數據與指標1.1.數據來源采用由北京大學健康醫療大數據國家研究院和愛思唯爾雙方融合后的數據集,該數據集含有 25,
53、717 篇與 Health AI 主題有關的科學出版物。該部分基于愛思唯爾的 Scival 數據平臺對學術論文被專利引用的識別和數據統計進行數據分析。從學術發表物的角度來看,這是“前向引證”,表明研究成果是否隨后被用于專利領域。其中專利數據庫包含了對全球五大專利數據庫的數據統計,分別為:全球專利局 WIPO、美國專利商標局USPTO、歐洲專利局 EPO、日本專利局 JPO、英國專利局 UKPO。1.2.學術界與產業界的知識流動指標施引專利數(Citing-patent count):施引專利數統計了被評估的文集作為一個整體被專利引用的專利數量,體現了該文集對于專利產出的貢獻。被 專 利 引 用
54、 的 文 章 數(Patent-cited scholarly output):被專利引用的文章數統計了被評估的文集中被專利引用的文章數量,體現了該文集的技術轉化程度。2.分析結果2.1.學術界與產業界的知識流動總體狀況該領域內學術界與產業界的知識流動詳見圖 3-1,美國文章的施引專利數量(419)遠高于中國(83),約為全球總量(863)的一半;被專利引用的文章數(172)也遠高于中國(44),同樣約達到了全球總量(354)的一半。中國文章的施引專利數量(83)約為美國(419)的 1/5;被專利引用的文章數(44)約為美國(172)的 1/4。中國的 44 篇被專利引用的文章中,參與貢獻文
55、章數排名前五的中國機構為中國科學院、清華大學、浙江大學、香港中文大學和深圳先進技術研究院。出現頻率最高的五個關鍵詞為“神經網絡”(Neural Network)、“深度學習”(Deep Learning)、“心律失?!?Heart Arrhythmia、“人工智能”(Artificial Intelligence)和“計 算 機 輔 助 診 斷”(Computer-aided Diagnose)。美國的 172 篇被專利引用的文章中,參與貢獻文章數排名前五的美國機構為哈佛大學、美國國家衛生研究院(National Institutes of Health,NIH)、麻省理工學院、范德堡大學和加
56、州大學洛杉磯分校。出現頻率最高的五個關鍵詞“深度學習”(Deep Learning)、“機 器 學 習”(Machine Learning)、“神 經 網 絡”(Neural Network)、“乳 腺 鉬靶”(Mammography)和“阿爾茨海默病”(Alzheimers Disease)。圖 3-1 學術界與產業界的知識流動21 2.2.對 HealthAI 技術產生影響的基礎性研究對 Health AI 技術產生較高影響的前 10 項基礎性研究見表 3-1。2015-2020 年專利高被引前 10 位的研究包括9 項試驗性研究和 1 項回顧性研究,其中 6 項研究處于高科學影響力排名前
57、 20 位,這表明 Health AI 領域的研究在科學影響力和專利影響力上具有一定的正相關關系。從研究內容來看,被專利引用前 10 位的研究應用領域包括計算機輔助檢測、疾病診斷和分類、遺傳學和基因組學等內容,其中 7 項研究涉及圖像識別技術。被專利引用最多的研究為 NIH 于 2016 年將深度卷積神經網絡用于計算機輔助檢測(Shin et al.,2016)的研究,被引次數高達 23 次;奈梅根大學在 2016 年有關 CT 圖像肺結節假陽性檢測(Setio et al.,2016),卡塔爾大學和華威大學在 2016 年開展的有關結腸癌檢測(Sirinukunwattana et al.,
58、2016)等輔助檢測研究也分別被專利引用 14 和 12 次;2015 年華盛頓大學(Libbrecht and Noble,2015)和多倫多大學(Xiong et al.,2015)將機器學習用于遺傳學和基因組學的研究,被引次數分別達到了 20 次和 13 次。另外還有 50%的研究將 Health AI 技術應用于疾病的診斷和分類上,包括冠狀動脈相關研究 2 項,細胞核分類、皮膚癌診斷、組織病理學診斷相關研究各 1 項。其中,飛利浦公司在 2017 年做的有關深度學習在冠狀動脈病變血流動力學評估中的準確性研究(Freiman et al.,2017)被引用次數高達 15 次。參與專利高被
59、引前 10 位的研究機構共 10 家,其中有 2 家機構是企業,分別是被引排名第 3 的飛利浦公司(Freiman et al.,2017)和被引排名第 5 的西門子公司(Itu et al.,2016),其開展的研究均與機器學習應用于冠狀動脈檢測相關,且被引用次數較高,分別是 15 次和 13 次,這在一定程度上說明該研究領域是公司近期產品研發的重點。除荷蘭的奈梅根大學有 2 項研究被引次數位于前10 位外,其余單位僅有 1 項研究。50%的專利引用量前 10 位的研究來自美國,除卡塔爾和以色列 2 個亞洲國家外,其他國家均為歐洲國家。被專利引用次數前 10位的研究中有 2 項 2015 年
60、的研究,6 項 2016 年的研究,2 項 2017 年的研究,近兩年研究成果未出現在高被引前10。專利高被引研究出現的年份均較早,有一定延遲性,可能與專利申請周期較長有關。22 序號主題國家/地區機構出版物來源被專利引用的次數1深卷積神經網絡用于計算機輔助檢測(Shin et al.,2016)USANIHIEEE Transactions on Medical Imaging232*機器學習用于遺傳學和基因組學研究(Libbrecht and Noble,2015)USAUniv WashingtonNature Reviews Genetics203部分容積效應的冠狀動脈腔自動分割算法在
61、基于 CCTA 的冠狀動脈病變血流動力學評估的準確性(Freiman et al.,2017)IsraelPhilips Med Syst Technol LtdMedical Physics154多視圖卷積網絡減少 CT 圖像中的肺結節檢測假陽性(Setio et al.,2016)NetherlandsRadboud Univ NijmegenIEEE Transactions on Medical Imaging145機器學習用于冠狀動脈斷層掃描(Itu et al.,2016)USASiemens AGJournal of Applied Physiology136機器學習在人類的剪接
62、編碼對于疾病遺傳決定因素中的應用(Xiong et al.,2015)CanadaUniv TorontoSCIENCE137自動學習卷積神經網絡用于核分割(Xing et al.,2016)USAUniv FloridaIEEE Transactions on Medical Imaging128深度神經網絡診斷皮膚癌達到皮膚病專家的水平(Esteva et al.,2017)USAStanford UnivNature129局部敏感深度學習在常規結腸癌組織學圖像中檢測和分類細胞核(Sirinukunwattana et al.,2016)Qatar;EnglandQatar Univ;Un
63、iv WarwickIEEE Transactions on Medical Imaging1210深度學習提高組織病理學診斷準確性和效率(Litjens et al.,2016)NetherlandsRadboud Univ NijmegenSCIENTIFIC REPORTS11表 3-1 對 Health AI 技術產生影響的基礎性研究(Top 10)注:*Review.23 RoboticsMachine LearningNatural Language ProcessingKnowledge Bases施引專利數被專利引用文獻數施引專利數被專利引用文獻數施引專利數被專利引用文獻數施引
64、專利數被專利引用文獻數2015637738310020165220678000020171115174223120182115292210020190015110000表 3-2 全球文獻與專利引用情況2.3.HealthAI 細分領域科學-技術交叉在專家系統及決策規則這兩個 AI 子領域中,被專利引用的文獻及引用文獻的專利數量均為 0,這兩個領域的產研融合有待進一步發展。在其余四個 AI 子領域之中,機器學習依然是被引及引用最多的學科領域,機器人領域的被引數量也相對較高(表 3-2)。但總體被專利引用文獻數量較每年發表的文獻數量仍然有兩個數量級的差距,這表明產研結合的空間和前景仍然十分廣闊。
65、24 第四章科學社會交互1.數據與指標1.1.數據來源采用由北京大學健康醫療大數據國家研究院和愛思唯爾提供雙方融合后的數據集,該數據集含有 25,717 篇與 Health AI 主題有關的科學出版物。該部分基于愛思唯爾旗下的數據平臺 PlumX 進行數據統計分析。PlumX平臺對各類學術研究成果的交流、分享以及互動進行廣泛的數據統計和研究,進而對學術研究成果的社會影響力進行評估。1.2.科學社會交互指標利用率指數(Usage)11:利用率指標體現了一篇文章被閱讀或者以其他方式被研究的程度,包含該文章被點擊、下載、閱讀、摘要閱讀、圖書館收錄等數據。利用率是研究人員繼被引次數之后另一個想要了解的
66、統計指標。注意力指數(Capture):注意力指標體現該研究工作被引起注意并被反復研究的程度,包含一篇文章的“書簽”、“最喜歡”、“讀者”、“導出”、“訂閱”等數據。多媒介提及指數(Mention):提及指標體現了研究工作被各種媒體所提及的程度,包含一篇文章被博客提及、評論、歸屬于論壇主題、新聞提及、列為參考文獻、歸為綜述內容等數據。社交媒體傳播指數(Social Media):社交媒體指標體現了研究工作在社交媒體上被傳播的程度,包含YouTube、Facebook、新浪微博、Reddit、Twitter 等媒體的數據。PlumX 分別給出每篇文章在上述 4 個指標上的分值,但并未建立一個綜合
67、指數。為重點分析研究成果的社會影響力,本報告僅納入多媒介提及指數和社交媒體傳播指數這兩個指標進行分析。11 https:/ 以下詳細分析全球和中國學者發表的社交媒體傳播指數排名前 10 位的研究,見表 4-1 和表 4-2。全球范圍內被社交媒體報道量最高的 10 項研究包括 2 項回顧性研究和 8 項試驗性研究;中國被大眾媒體報道量最高的 10項研究包括 1 項回顧性研究和 9 項試驗性研究。全球社交媒體報道量 Top10 的研究與高科學影響力 Top20、高技術影響力 Top10 的研究均未重復,在一定程度上體現了社交媒體關注的內容與科學共同體關注重點不盡相同。從報道內容來看,由于統計的社交
68、媒體源側重Twitter、Facebook 原因,中國的研究被社交媒體傳播頻次顯著較低,全球范圍內被傳播次數最多的研究為北卡羅來納大學在 2017 年做的“有關自閉癥譜系障礙高危嬰兒的早期大腦發育”(Hazlett et al.,2017)的研究,被報道量高達 100,260 次,遠高于其他研究被報道的次數,全球范圍內其他被高頻報道的研究還涉及醫療支出、精神疾病、臨床結局預測、放射學、腫瘤學以及常見病多發病的評估等研究方向。而中國被大眾媒體報道次數最多的研究為深圳大學所做的有關“厭惡感知神經基礎在種族偏見中的作用”(Liu et al.,2015)的研究,被報道182 次,其余 9 項被報道次
69、數均未超過 100 次,內容涉及心理疾病、醫療關系、癌癥、帕金森病和心血管等常見病、多發病。相比較科學共同體的關注點,社交媒體報道內容更多涉及常見病、多發病以及醫療衛生領域公眾所關心的問題,且與當下的社會需求緊密關聯,如美國國家經濟研究局和麻省理工學院合作的有關晚年醫療支出預測模型(Einav et al.,2018)的研究與美國老齡化加劇的社會現實相聯系。我國被社交媒體高頻報道和傳播的 10 項研究均來自各大高校的研究結果,其中中國電子科技大學參與度較其他高校更高;而全球范圍內被高頻報道的研究所涉及的機構類型較為多元化,除大學外還包括 IBM 公司(Bedi et al.,2015)、美國放
70、射學學會和猶太民族健康協會(Geis et al.,2019)等企業或社會機構。從相關研究的發表時間看,全球范圍內被高頻報道前 10 位的研究中有 4 項研究于 2019 年被發表,我國被高度報道前 10 的研究中有 5 項研究于 2019 年發表,相對于高科學影響力和高技術影響力的研究僅有 1 項于 2019 年發表(存在較長的引用時滯),提示社交媒體對科學研究的反饋具有及時性。27 序號主題報道量機構1自閉癥譜系障礙高危嬰兒的早期大腦發育(Hazlett et al.,2017)100,260Univ N Carolina2美國晚年醫療支出預測模型(Einav et al.,2018)25
71、,984Natl Bur Econ Res;MIT3自動分析預測高危青年的精神病發作(Bedi et al.,2015)23,004IBM TJ Watson Res Ctr4機器學習和邏輯回歸在臨床預測模型的應用(Christodoulou et al.,2019)*10,584Katholieke Univ Leuven;Leiden Univ5人工智能倫理在放射學中的應用(Geis et al.,2019)5,177Amer Coll Radiol;Natl Jewish Hlth6胰腺囊腫患者治療的多模態試驗(Springer et al.,2019)3,537Johns Hopkin
72、s Univ7機器學習和應用程序預測埃博拉患者的預后(Colubri et al.,2016)2,896Harvard Univ;Broad Inst MIT&Harvard8機器學習用于糖尿病風險分層(Maniruzzaman et al.,2018)2,220AtheroPoint LLC,Stroke Monitoring&Diagnost Div;Global Biomed Technol9機器學習“應對倫理挑戰”(Char et al.,2018)*1,734Stanford Univ10判別分析和機器學習方法在 DLBCL COO 分類免疫組化算法中的應用(Perfecto-Ava
73、los et al.,2019)1,344Ctr Med Dr Ignacio Chavez ISSSTESON表 4-1 全球學者發表的社交媒體傳播指數排名前 10 位的研究28 序號主題報道量機構1厭惡感知神經基礎在種族偏見中的研究(Liu et al.,2015)182Shenzhen Univ2抗精神病藥物與心源性猝死的預測、管理和未來挑戰(Zhu et al.,2019)*80Jining Med Univ3卷積神經網絡在臨床文本中的醫療關系分類應用(He et al.,2019)74Harbin Inst Technol4帕金森病患者皮質回縮的研究(Xu et al.,2017)4
74、8University of Electronic Science&Technology of China Univ Elect Sci&Technol China;Chinese Academy of Sciences Shenzhen Institute of Advanced Technology5人工智能在抑郁癥與慢性疲勞綜合征相關性中的應用(Zhang et al.,2019)42Beijing Univ Chinese Med6催產素在相互感知信號和外部社會線索之間的作用(Yao et al.,2018)36Univ Elect Sci&Technol China7深度學習與非深度
75、學習在磁共振成像分類尋找前列腺癌中的應用(Wang et al.,2017)36Huazhong Univ Sci&Technol8深度學習識別癌癥特異性結合位點(Wang et al.,2019)30Shaanxi Normal Univ9機器學習預測心血管事件(Chen et al.,2019)24South China Univ Technol Guangzhou10深度投票模型在自動地理萎縮分割的應用(Ji et al.,2018)24Nanjing Univ Sci&Technol表 4-2 中國學者發表的社交媒體傳播指數排名前 10 位的研究29 第五章人類-機器協同(AI 臨床試
76、驗)醫療領域的信息化進程累積了海量的人類健康數據,正有越來越多的臨床醫生與計算機科學家合作致力于利用這些寶貴的健康數據挖掘信息、開發產品,以提升人類健康水平并減輕醫療衛生體系現有的沉重負擔。據估計,全球醫療人工智能市場的價值將從 2018 年的20 億美元增長到 2025 年的 36 億美元,年增長率達到50%12。人工智能相關的健康管理設備與臨床決策支持系統已經成為當前醫療領域的研究熱點之一?,F有的人工智能應用于醫療領域的研究涵蓋了多種應用場景,包括疾病篩檢,疾病嚴重程度分類,輔助診斷,疾病預后預測,臨床決策支持和治療方案推薦等。深度學習是人工智能的一個分支,在醫學成像領域表現出落地應用的前
77、景。隨著越來越多研究成果的發表,各界對醫學成像等領域的深度學習研究興趣日益濃厚。美國斯坦福大學自 2017 年首份 AI 指數報告列出“人類級表現里程碑”(Human-Level Performance Milestones)清單后,健康醫療領域人工智能每年均有入選,包括 2017 年入選的“人工智能診斷皮膚癌”、2018 年入選的“人工智能用于前列腺癌的分級”和 2019 年入選的“人工智能以專家級的準確性檢測糖尿病視網膜病變”。在自然雜志 2017 年發表的一篇文章中,Esteva 等人描述了一個基于數據集的人工智能系統,包含 2032 種不同疾病的 129,450 張臨床圖像,并比較其與
78、 21 名通過認證的皮膚科醫生的診斷水平。比較結果發現人工智能系統有能力對皮膚癌進行分類,其能力可比肩皮膚科醫生14。2018 年,谷歌開發了一個深度學習系統,對前列腺癌進行自動分級的總體準確率可達 70%,而美國委員會認證的病理學家在研究中的平均準確率為61%15。2019 年的一項研究表明,深度學習算法能夠以專家級的準確性檢測糖尿病視網膜病變(DR),臨床驗證顯示,其準確度明顯高于專家16。12 Nagendran M,Chen Y,Lovejoy C A,et al.Artificial intelligence versus clinicians:systematic review o
79、f design,reporting standards,and claims of deep learning studies J.bmj,2020,368:13 Raymond Perrault,Yoav Shoham,Erik Brynjolfsson,Jack Clark,John Etchemendy,Barbara Grosz,Terah Lyons,James Manyika,Saurabh Mishra,and Juan Carlos Niebles,“The AI Index 2019 Annual Report”,AI Index Steering Committee,Hu
80、man-Centered AI Institute,Stanford University,Stanford,CA,December 2019.14 Esteva,A.,Kuprel,B.,Novoa,R.et al.Dermatologist-level classification of skin cancer with deep neural networks.Nature 542,115118(2017).15 https:/ Ruamviboonsuk,P.,Krause,J.,Chotcomwongse,P.et al.Deep learning versus human grad
81、ers for classifying diabetic retinopathy severity in a nationwide screening program.npj Digit.Med.2,25(2019).引言30 近兩年,人們可經??吹揭恍┟襟w新聞出現諸如“研究發現,谷歌人工智能比醫生早一年發現肺癌”以及“人工智能比醫生更擅長診斷皮膚癌”這樣的標題。媒體宣傳極大增加了公眾和商業對健康醫療人工智能的興趣,也促進了技術的發展和應用。但實際上,背后的研究方法和偏倚風險尚未得到詳細的檢驗。根據英國醫學雜志(The BMJ)2020 年發表的一項分析17,倫敦帝國理工學院的研究人員回顧了過
82、去 10 年發表的研究結果,系統地檢查研究設計、報告標準、偏倚風險,并將深度學習算法在醫學成像方面的表現與臨床專家進行比較。結果顯示,目前很少有前瞻性的深度學習研究和隨機試驗。大多數非隨機化試驗不具有前瞻性,存在較高的偏倚風險,并偏離現有的報告標準。大多數研究缺乏數據和代碼可用性,而且人類對照組通常很小。目前存在著許多關于 AI 與臨床醫生比肩或優于臨床醫生診斷能力的夸大說法,這在社會層面上對患者安全和人口健康構成了潛在風險。過分的承諾,會使研究容易被媒體和公眾曲解,結果可能不符合患者的最佳利益,也無法最大限度地保障患者的安全,而最佳策略是確保有高質量和透明度的報告作為證據基礎。當前面向人工智
83、能相關的醫療應用設備與系統的研究、評價與審批制度并不完善。2020 年 Nature 同時發表了兩篇人工智能相關的臨床試驗研究的報告規范指南18,19,以推進人工智能相關的醫療應用設備與系統研究的規范化進程。國務院辦公廳于 2016 年發布了關于促進和規范健康醫療大數據應用發展的指導意見(國辦法 201647 號),提出通過“互聯網+健康醫療”探索服務新模式培育發展新業態的目標。自此之后,我國人工智能相關的醫療應用設備與系統的臨床試驗迅速發展,臨床試驗研究機構承接及牽頭試驗的能力也大幅提升。17 https:/ Cruz Rivera S,Liu X,Chan A-W,et al.Guidel
84、ines for clinical trial protocols for interventions involving artificial intelligence:the SPIRIT-AI extension J.Nature Medicine,2020,26(9):1351-1363.19 Liu X,Cruz Rivera S,Moher D,et al.Reporting guidelines for clinical trial reports for interventions involving artificial intelligence:the CONSORT-AI
85、 extension J.Nature Medicine,2020,26(9):1364-1374.對于“研究條件”下人機可媲美能否轉化為“真實世界”人機可媲美尚有爭議,本部分重點介紹全球以及我國人工智能醫療設備與系統開展臨床試驗的數量、人群、干預措施及研究設計等,旨在描述全球以及我國正在開展的健康醫療人工智能臨床試驗的基本特征及變化趨勢。31 2.數據與指標2.1.數據來源本部分的數據來源于國際通用的臨床試驗登記 與 信 息 公 示 平 臺 ClinicalTrials.gov(https:/clinicaltrials.gov/)?;谠摂祿焯崛∪斯ぶ悄芟嚓P的臨床試驗數據的流程如圖 5-
86、1 所示:首先,以“Deep Learning”、“Artificial Intelligence”、“Machine Learning”、“AI”為關鍵詞對臨床試驗的干預措施及標題進行初篩(n=782),然后由醫療領域的專業人士進行人工復篩,排除非人工智能相關的臨床試驗(n=304);其次根據研究疾病、干預措施、試驗分期、研究機構均相同篩選出可能的重復臨床試驗,專業人士人工判斷是否為重復臨床試驗,排除重復臨床試驗(n=1);排除招募狀態為暫停、終止、撤銷的臨床試驗(n=15)。最終,篩選出 462 例人工智能相關的臨床試驗納入分析。2.2.分析指標從最終篩選的人工智能相關的臨床試驗登記數據中
87、提取信息,主要包括:(1)基本信息:題目、研究機構、申報日期、所在國家等;(2)試驗設計信息:目的、研究類型、干預措施、研究人群、試驗分期、樣本量等;(3)試驗實施信息:招募狀態、試驗結果等。數據處理與統計分析使用 Python 3.7。根據名稱中 是 否 包 含“university/college”、“hospital”、“company/Co.,Ltd/Inc.”等標識,將機構分為兩類:大學/醫院類研究機構和企業。統計學方法包括描述性統計,使用數值(百分比)描述計數型數據。結果描述包括臨床試驗的數量、招募狀態、研究機構、試驗分期、研究類型、干預措施、研究人群、樣本量的分布特征、時間變化趨
88、勢與國家分布比較,并對已有試驗結果的臨床試驗進行總結描述。圖 5-1 數據提取流程32 3.分析結果3.1.臨床試驗數量自 2006 年到 2020 年,ClinicalTrials.gov 平臺共登記來自全球的 462 例人工智能相關的臨床試驗。全球及數量占比前十國家每年發起的人工智能臨床試驗數量的變化趨勢見圖 5-2。自 2017 年起,全球人工智能相關臨床試驗的新增數量呈快速遞增趨勢,其中主要發起國為中國和美國。中國人工智能相關臨床試驗的新增數量在2017 年超越美國,成為全球開展人工智能相關臨床試驗新增數量最多的國家。2020 年,中國人工智能相關臨床試驗的新增數量達到 48 例,在全
89、球新增人工智能相關臨床試驗中占比 27.3%(2020 年的數據統計截至 2020年 9 月)。圖 5-2 2006-2020 全球及數量占比前十國家發起的人工智能臨床試驗新增數量變化趨勢3.2.發起機構分布2006-2020 年全球及中國發起人工智能臨床試驗的研究機構數量的時間變化趨勢見圖 5-3 和圖 5-4。2017至 2019 年,全球及中國從事過人工智能相關臨床試驗的研究機構數量均呈快速遞增趨勢。截至 2020 年,全球從事過人工智能相關臨床試驗的研究機構為 126 所,其中中國的研究機構為 27 所(21.4%)。全球及中國人工智能相關臨床試驗數量排名前十位的研究機構見表 5-1。
90、全球人工智能相關臨床試驗數量最多的前十位研究機構中,中國的研究機構占到 6 位。全球范圍內人工智能臨床試驗發起量最多的研究機構為中國的中山大學(20 例);排在第二位的是中國的山東大學(14 例)。圖 5-3 2006-2020 全球人工智能相關臨床試驗的研究機構數量的時間變化趨勢圖 5-4 2006-2020 中國人工智能相關臨床試驗的研究機構數量的時間變化趨勢全球、中國及美國人工智能臨床試驗發起機構的類型分布見圖 5-5。全球人工智能相關臨床試驗的發起機構中,大學/醫院類機構有 171 所(59.2%),企業類機構有 118 所(40.8%)。中國人工智能相關臨床試驗的發起機構中,絕大部分
91、為大學/醫院類機構,有 48 所(88.9%);企業類機構僅有 6 所(11.1%)。美國人工智能臨床試驗的發起機構中,大學/醫院類機構有 39所(60.0%),企業類機構有 26 所(40.0%)。圖 5-5 研究機構的類型33 表 5-1 全球及中國人工智能相關臨床試驗數量排名前十位的研究機構Global OrganizationsNumber of Clinical Trials Chinese OrganizationsNumber of Clinical TrialsSun Yat-sen University20Sun Yat-sen University20Shandong Un
92、iversity14Shandong University14Dascena12The First Affiliated Hospital of Zhengzhou University6Mayo Clinic7Changhai Hospital5University Hospital,Basel,Switzerland6Sun Yat-Sen Memorial Hospital of Sun Yat-Sen University5The First Affiliated Hospital of Zhengzhou University6The University of Hong Kong4
93、Changhai Hospital5Sixth Affiliated Hospital,Sun Yat-sen University4Sun Yat-Sen Memorial Hospital of Sun Yat-Sen University5Shanghai 10th Peoples Hospital3The University of Hong Kong4Chinese PLA General Hospital3Maastricht University Medical Center4Second Affiliated Hospital,School of Medicine,Zhejia
94、ng University334 3.3.臨床試驗分期2006-2020 年全球人工智能相關臨床試驗分期的時間變化趨勢見圖 5-6。全球范圍內,96.8%的臨床試驗的分期被研究者劃分為“Not Applicable”或者缺失,不能歸入類似藥物臨床試驗的四個分期的類別中。已有明確分期的 15 項臨床試驗中,10 項處于臨床早期階段(1-2 期),處于臨床 3 期和 4 期的只有 5 項。3.4.研究類型分布全球人工智能相關臨床試驗的研究類型分布見圖 5-7。其中,觀察型的研究為 272 例(58.9%),干預型的研究為 190 例(41.1%)。圖 5-6 2006-2020 年全球人工智能相關
95、臨床試驗分期的時間變化趨勢3.5.干預措施類型2006-2020 年全球人工智能臨床試驗干預措施的時間變化趨勢見圖 5-8。其中,干預措施以設備類干預(22.7%)和診斷試驗類干預(19.3%)為主,其次為行為干預(5.4%)。自 2017 年起,設備類干預與診斷試驗類干預的臨床試驗數量大幅增加。圖 5-8 2006-2020 年全球人工智能相關臨床試驗的干預措施的時間變化趨勢圖 5-9 2006-2020 年中國人工智能相關臨床試驗的干預措施的時間變化趨勢圖 5-10 2006-2020 年美國人工智能相關臨床試驗的干預措施的時間變化趨勢2006-2020 年中國人工智能相關臨床試驗干預措施
96、的時間變化趨勢見圖 5-9。其中,干預措施以診斷試驗類干預(24.8%)和設備類干預(20.7%)為主,其次為操作類干預(5.8%)。2020 年,中國診斷試驗類干預的臨床試驗數量大幅增加。2006-2020 年美國人工智能相關臨床試驗干預措施的時間變化趨勢見圖 5-10。美國人工智能相關臨床試驗中,干預措施以設備類干預(32.3%)和行為干預(16.1%)為主。自 2017 年起,美國設備類干預的臨床試驗的數量大幅增加。圖 5-7 臨床試驗的研究類型35 3.6.目標人群(疾病譜)全球、中國以及美國人工智能臨床試驗的目標人群見表 52。根據臨床試驗研究人群的疾病詞云圖和具體疾病頻數表,全球范
97、圍內人工智能臨床試驗主要關注的疾病包括:腫瘤(尤其是乳腺癌),糖尿病和心血管疾?。ㄓ绕涫枪谛牟。?。此外,抑郁癥與 2020 年爆發的COVID-19 也受到較多關注。中國人工智能臨床試驗主GlobalChinaUnited StatesConditionNumber of Clinical TrialsConditionNumber of Clinical TrialsConditionNumber of Clinical TrialsBreast Neoplasms20Diabetic Retinopathy6Heart Failure6Polyps19Breast Neoplasms6Br
98、east Neoplasms5Adenoma17Glioma6Depression4Colonic Polyps14Adenoma5Polyps4Coronary Artery Disease12Glaucoma5Heart Murmurs3Diabetes Mellitus12Colonic Polyps5Hypertension3Heart Failure11Eye Diseases5Diabetes Mellitus3Sepsis10Polyps5Heart Diseases3Depression10Myocardial Ischemia5Adenoma3Myocardial Ische
99、mia10Coronary Artery Disease5Colonic Neoplasms2COVID-1910Lung Neoplasms4Hypotension2Lung Neoplasms10Rectal Neoplasms4Chronic Pain2Stroke9Carcinoma4Diabetes Mellitus,Type 22Retinal Diseases9Carcinoma,Hepatocellular4Sepsis2Diabetic Retinopathy9Colitis,Ulcerative2Carcinoma2Toxemia9Neoplasm Metastasis2C
100、oronavirus Infections2Heart Diseases8Ulcer2Anxiety Disorders2Cardiovascular Diseases8Epilepsy2Peripheral Vascular Diseases2Carcinoma8Diabetes Mellitus2Prostatic Neoplasms2Glioma8Stroke2Toxemia2要關注的疾病包括腫瘤,眼部疾?。ㄓ绕涫乔喙庋叟c糖尿病引起的視網膜病變),心血管疾?。ㄓ绕涫枪谛牟。┖吞悄虿?。美國人工智能臨床試驗主要關注的疾病包括腫瘤,神經系統病變,心血管疾?。ㄓ绕涫切乃ィ?,抑郁癥和慢性疼痛。表
101、5-2 全球、中國以及美國人工智能臨床試驗的目標人群分布36 3.7.樣本量分布全球人工智能臨床試驗的樣本量分布見圖 5-11。納入樣本量 1000 人的臨床試驗為 134 例(29.1%),納入樣本量 5000 人的臨床試驗為 63 例(13.7%)。其中,樣本量 5000 人的人工智能相關臨床試驗圖 5-11 樣本量分布圖 5-12 樣本量 5000 人的人工智能相關臨床試驗的干預措施圖 5-13 樣本量 5000 人的人工智能相關臨床試驗的研究人群詞云圖的干預措施的分布見圖 5-12,研究人群的疾病分布見圖 5-13 和表 5-3。樣本量 5000 人的臨床試驗中,干預措施以診斷試驗類干
102、預(32.9%)為主,研究人群的疾病類型主要包括:腫瘤,毒血癥,心血管疾病和COVID-19。37 表 5-3 樣本量 5000 人的人工智能相關臨床試驗的研究人群圖 5-14 招募狀態ConditionNumber of Clinical TrialsSepsis8Toxemia7Breast Neoplasms5COVID-194Glaucoma3Postoperative Complications3Cardiovascular Diseases3Heart Diseases2Coronary Artery Disease2Pulmonary Disease,Chronic Obstru
103、ctive23.8.招募狀態分布全球人工智能臨床試驗的招募狀態分布見圖 5-14。其中,已有 102 例(22.1%)臨床試驗完成受試者招募,有 185 例(40.0%)臨床試驗正在進行受試者招募。已完成受試者招募的臨床試驗中,有 5 例(4.9%)臨床試驗已報告了部分或全部試驗結果。3.9.臨床試驗結果報道ClinicalTrials.gov 平臺已報告了部分結果或全部結果的5項臨床試驗的研究設計與試驗結果見表 5-4。其中,4 項臨床試驗的結果均支持人工智能相關的設備或行為干預對受試者的健康狀況有正向積極的影響,1 項臨床試驗因未設計對照組,試驗結果不可比。38 Trial registr
104、ationTitleCountry OrganizationCompletion dateConditionsPhaseEnrollmentInterventionResultsNCT02176226Artificial Intelligence in a Mobile Intervention for Depression and Anxiety(AIM)United StatesNorthwestern University2016.6Depression,AnxietyNot Applicable105Behavioral:a mobile phone application,Intel
105、liCareCompared with the start of treatment,the mobile intervention decreased the degree of depression severity and anxiety severity in patients with Major Depression and/or Anxiety.NCT02801877Artificial Intelligence in a Mobile(AIM)Intervention for DepressionUnited StatesNorthwestern University2018.
106、1Depression,AnxietyNot Applicable301Behavioral:IntelliCareBehavioral:Hub App with the Recommender SystemBehavioral:CoachingCompared with only use of IntelliCare,IntelliCare combined with Hub Recommender and/or Coaching helped to increase patients adherence,but neither the degree of depression severi
107、ty or anxiety severity in patients with Major Depression and/or Anxiety.NCT02988193Piloting Healthcare Coordination in HypertensionUnited StatesOptima Integrated Health,University of California2017.2HypertensionNot Applicable28Device:a clinical reasoning expert system,optima4BP Medication Management
108、Most medication treatment optimization recommended by the clinical reasoning expert system were adopted by the treating physicians.No adverse outcome happened both in the intervention group and the control group.NCT03633825Randomized Controlled Trial of an Online Machine Learning-Driven Risk Assessm
109、ent and Intervention Platform for Increasing the Use of Crisis ServicesUnited StatesHarvard University2017.9Suicide and DepressionNot Applicable39450Behavioral:Brief help-seeking barrier reduction interventionIndividuals assigned to the brief Barrier Reduction Intervention(BRI)condition would report
110、 using crisis resources at higher rates than individuals in the control condition.NCT03643692Adaptive,Real-time,Intelligent System to Enhance Self-care of Chronic DiseaseUnited KingdomImperial College London2019.7Diabetes Mellitus,Type 1Not Applicable12Device:Adaptive,Real-time,Intelligent System to
111、 Enhance Self-care of chronic diseases(ARISES)Participants with ARISES intervention achieved 64 minutes in target range(3.9-10mmol/L)without insulin dose increase.表 5-4 臨床試驗結果39 第六章主要結論本報告綜合發揮北京大學健康醫療大數據國家研究院和愛思唯爾雙方各自優勢,分別通過醫學術語組配檢索和綜合性 AI 數據集自動分類的方式,提出了健康醫療人工智能科學出版物的界定方案?;仡櫺苑治隽俗罱?5年健康醫療人工智能科學研究和臨床試
112、驗的規模、結構和趨勢。各維度指標構建的綜合指數數據分析顯示:1.前沿科學技術與醫學的深度融合是健康醫療人工智能發展的基礎,未來將在公共衛生和臨床診療中發揮更大作用。全球和我國健康醫療人工智能最熱的研究主題均為“計算機視覺算法與模型”,主要涉及人工智能用于疾病的影像學診斷,最近 5 年高科學影響力的論文絕大多數屬于這個主題,該領域也是目前健康醫療人工智能落地應用最有前景的領域,美國斯坦福大學自 2017 年起發布的人工智能指數報告中連續 3 年將人工智能用于皮膚癌、前列腺癌、糖尿病視網膜病變影像診斷列為人類表現級里程碑式成果。其次為語義模型與推薦系統,主要涉及計算機輔助診療與臨床決策支持系統。前
113、沿科學技術與醫學的深度融合是智慧醫療發展的基礎,涉及面向健康醫療領域特征的技術創新,包括以下方面。一是,多模態健康醫療數據的融合。多樣性、多模態是健康醫療數據的特征,對于這一技術瓶頸的攻關對于盤活海量健康醫療數據的應用價值至關重要。二是面向健康醫療領域數據的人工智能技術攻關。目前人工智能技術具有依賴大數據、需要大量人工標注、可解釋性差等不足,對于健康醫療領域應用尤其構成瓶頸,需要針對這些瓶頸開展技術攻關、促進在健康醫療領域的應用。三是面向健康醫療領域數據的區塊鏈技術。區塊鏈技術對于打破健康醫療領域的數據孤島、激發數據共享具有重要的價值,但需要結合健康醫療領域數據采集與應用的特點進行技術開發與模
114、式打造。人工智能將在公共衛生和臨床診療中發揮更大作用,主要表現為:前沿信息技術手段助力公共衛生體系建設:運用大數據、人工智能、云計算等數字技術,在重大公共衛生危機以及重大慢病防控中發揮重要的作用;醫學知識的可計算化與快速應用轉化:基于前沿科學技術手段,將海量的醫學知識轉化為可計算和可大規模共享的醫學知識,促進大數據驅動的醫學知識轉化和醫療質量提升;基于人工智能等前沿信息技術的臨床輔助決策和個人健康管理:經過人工智能技術與優質醫療資源的深度結合,構建面向臨床的疾病風險預測、影像診斷、輔助治療等應用,以及面向個人健康管理的健康檢測、智能輔助決策系統;人工智能技術輔助新藥研發:人工智能技術可大大縮短
115、藥物研發時間、提高研發效率并控制研發成本、降低失敗率,并能夠輔助新藥發現。2.中國已成為健康醫療人工智能科學研究與臨床試驗的最主要貢獻者之一,但在學術影響力和技術轉化方面仍有待提升。2015-2019 年,全球健康醫療人工智能領域發表科學出版物最多的五個國家為:美國、中國、印度、英國和德國。中國和美國的科學出版物數量均表現為指數型增長趨勢,且雙方呈現出競爭態勢。從平均引用角度學術影響力指標看,中國健康醫療人工智能科學出版物的影響力與全球平均水平持平,美國、英國、德國超過全球平均水平;印度低于全球平均水平??茖W所產生的技術影響力可在一定程度上反映科學向技術的轉化,全球范圍內對健康醫療人工智能專利
116、技術產生影響的科學出40 版物中,美國貢獻了一半的份額;中國在該領域的科學產出向專利技術的轉化還有提升空間。自 2017 年起,全球人工智能相關臨床試驗數量急速增長,其主要增長來源為中國和美國。截至 2020 年 9月,中國已經成為全球開展人工智能相關臨床試驗數量最多的國家。同時,中國從事人工智能相關臨床試驗的研究機構也迅速增多,全球人工智能相關臨床試驗數量最多的前十位研究機構中,中國的研究機構占到 6 位。由此可見,在國家近些年來一系列推進“互聯網+健康醫療”的宏觀政策和國內醫療行業改革需求的推動下,中國的智慧醫療行業正進入急速發展的新時期。中國健康醫療人工智能領域主要的研究機構包括:上海交
117、通大學、浙江大學、清華大學、中山大學、復旦大學、中國科學院大學、北京大學、四川大學等。從產學合作的角度,中國學術界-工業界合作論文占比低于美國,也低于全球平均水平;提示我國在健康醫療人工智能產學合作方面還有較大提升空間。3.健康醫療人工智能技術譜的核心是機器學習(含深度學習)和醫療機器人,疾病譜以慢病和神經系統疾病為主,傳染病、罕見病等與醫療 AI 的深度結合仍有空間。本報告對健康醫療人工智能研究領域進行了劃分,包括 6 個子領域,分別為:決策規則(包括計算機啟發式決策、模糊邏輯)、專家系統、知識組織系統、機器學習、自然語言處理和機器人。數據顯示,機器學習(含深度學習)是最受關注和增長最快的領
118、域;其次為醫療機器人、自然語言處理、決策規則、知識組織系統、專家系統,這 5 個子領域的發展相對平穩。對健康醫療人工智能研究涉及的疾病譜分析顯示,醫療 AI 的研究量和疾病負擔總體上呈正相關,主要集中于各類癌癥,以糖尿病、中風和心血管疾病等疾病為代表的慢性心腦血管疾病和以癲癇、帕金森和阿爾茨海默病為代表的神經系統疾病。傳染病領域的疾病負擔重,但與健康醫療 AI 的結合相對較少,這與本報告該部分數據集截至 2019 年底有關。本次新冠病毒肺炎疫情已使我們感受到人工智能在重大公共衛生事件應急和傳染病監測預警領域的應用前景。另外,母嬰疾病、先天性疾病的負擔較重,與醫療 AI 的結合研究也較少,與這類
119、疾病的數據量較少有關。我國人口眾多,具有患者人群優勢,將人工智能用于罕見病、先天性疾病將是一大優勢。從科學-技術交叉的角度分析,機器學習和醫療機器人兩個研究領域的科學出版物被專利引用較多,表現出緊密的科學-技術交叉特征。4.與科學共同體的熱點研究主題相比,健康醫療人工智能研發與應用的倫理學問題成為社會媒體關注的焦點。本報告基于多媒介提及指數和社交媒體傳播指數遴選出的社會關注度較高的研究,在其高頻關鍵詞中明顯出現了“倫理學”;但有關“倫理學”的研究,并未出現在高科學影響力的文章列表中,說明社會更加關注健康醫療人工智能研發與應用的倫理學問題。建議加強健康醫療人工智能、智慧醫療的倫理規范研究。智慧醫
120、療涉及個人隱私數據的采集與共享、醫療數據的所有權及歸屬、新型醫療服務模式的應用等,需要在這些新興領域開展醫學倫理的研究,守住行業底線。同時,加強政策與法規建設。從立法立規的角度,規范和引導智慧醫療相關產品與服務的研發、應用、以及監管等,保障行業的健康穩定發展。關于健康醫療應該要求可解釋的人工智能,還是接受“黑箱”的問題,應該繼續鼓勵這方面的創新研究,以揭開“黑箱”的神秘面紗,但在臨床應用之前堅持要求高水平的 AI 透明性可能會扼殺創新。建議需要做出臨床和監管方面的配合或平衡。首先,在所有情況下,在將 AI 廣泛應用于臨床實踐之前,都需要進行嚴格的質量和安全性評估。黑匣子和相對透明的算法在被 F
121、DA 或被臨床醫生和患者接受之前,應表現出與現有診療標準相比等效或更高的性能。其次,衛生系統應確保 AI 模型在其特定患者人群中有效。缺乏模型可解釋性使得局部測試尤為重要。第三,部署后應密切監測 AI 模型,特別是41 如果它們隨著時間的推移繼續表現出適應性,應持續監測。最后,應該對醫學生和臨床醫生進行有關 AI 的益處、風險和局限性的教育。醫師有責任使用新技術,這些新技術可能會給醫療保健帶來意義深遠的改變。5.健康醫療人工智能全球臨床研究仍處于早期階段,中國以大學/醫院為發起主體,側重疾病智能診斷,企業參與仍有待加強。全球人工智能相關的臨床試驗中,95%以上不能劃分入傳統臨床試驗的四個分期。
122、傳統臨床試驗的劃分規則不適用于大部分人工智能相關的臨床試驗。這提示,人工智能相關臨床試驗的研究設計及評估與傳統臨床試驗可能有較大差別,人工智能相關臨床試驗尚缺乏一個通用的、符合其應用需求的試驗設計及評估規范。目前,人工智能相關的臨床試驗的研究設計規范、報告規范都處于起步摸索階段。2020 年 Nature 同時發表了兩篇人工智能相關的臨床試驗研究的報告規范指南:SPIRIT-AI(Standard Protocol Items:Recommendations for Interventional TrialsArtificial Intelligence)和CONSORT-AI(Consoli
123、dated Standards of Reporting TrialsArtificial Intelligence),兩篇指南分別是基于傳統臨床試驗的國際通用標準 SPIRIT 2013 報告指南與CONSORT 2010 報告指南,結合文獻研究與專家意見制定而成。全球人工智能臨床試驗主要采取的干預措施為設備類干預與診斷試驗類干預。其中,中國與美國略有差異,中國人工智能臨床試驗的干預措施以診斷試驗類干預(人工智能輔助診斷)和設備類(人工智能診療設備)干預為主,而美國則以設備類(人工智能診療設備)干預和行為干預(如健康行為監測)為主。中美人工智能臨床試驗的發起機構分布也有較大差異。中國 80%
124、以上為大學/醫院發起臨床試驗,這類機構主要接受政府研發投入,研究重點更傾向于應用范圍更廣的診斷試驗一類的基礎應用類醫學研究。而美國從事人工智能相關臨床試驗研究的機構有 40%為企業類機構,該類機構的研究重點更傾向于面向用戶的行為干預類的應用研究,如健康監測、促進治療依從性一類的可穿戴設備等。全球人工智能臨床試驗主要目標人群是患有腫瘤、重大慢性疾病或心理疾病的人群,同時 2019 年爆發的COVID-19 也受到較多關注。中國與美國發起的人工智能臨床試驗的關注人群略有差異。中國臨床試驗對青光眼和糖尿病引起的視網膜病變給予了較多關注,這類疾病的特點是防重于治,因此早期的診斷篩查對該類疾病較為重要,
125、這與上述提到的中國人工智能相關的臨床試驗的干預措施以診斷試驗為主相一致。而美國人工智能相關的臨床試驗則對抑郁癥、慢性疼痛等疾病給予了較多關注,這類疾病重視行為干預治療,關注患者的長期依從性,這與上述提到的美國人工智能相關的臨床試驗的干預措施以行為干預為主相一致。目前,大部分人工智能相關的臨床試驗尚處于臨床研究早期階段,未能報告相關的試驗結果。此外,現有的人工智能相關的臨床試驗設計仍呈現一定的局限性,如約 70%的臨床試驗的樣本量小于 1000 人,超過半數的臨床試驗為觀察型研究等?;谏贁狄褕蟾娴娜斯ぶ悄芟嚓P的臨床試驗的結果來看,人工智能相關的設備或行為干預對受試者的健康狀況呈現正向、積極的影
126、響。然而,人工智能相關的醫療應用設備在多種應用場景中的廣泛的、長遠的效果及影響仍有待更多臨床試驗結果的報告及綜合分析。6.建議將循證范式引入健康醫療人工智能安全性和有效性評價,以促進其落地應用。本報告通過多維數據展示了人工智能在健康醫療領域科學研究的熱度和趨勢。但是,要實現落地應用,一個至關重要的問題是:AI 系統產生的信息是否值得信賴?如果我們需要依靠 AI 系統來輔助決策,我們就必須考慮其可靠性和有效性?;谘C醫學的理念,對于智慧醫療的應用開展嚴謹的真實世界研究、對于安全性和有效性進行科學評價至關重要。當前,基于深度學習的AI算法就像一個“黑匣子”:大多數機器學習模型的內在邏輯很難解釋,
127、也很難為醫生提供決策建議的前因后果。由于探究因果關系和循因42 治病是醫療的根本,這種不確定性會給使用 AI 系統的醫生帶來遲疑和困惑。研究人員也對基于 AI 的智能手機診斷程序的使用表達了擔憂。正如一項針對皮膚癌智能手機診斷程序的研究中指出的,如果漏診可疑表現,患者可能不會在疾病早期尋求專業建議,從而錯過早期診斷治療。醫學是一門不確定性的科學,“循證醫學”的概念同樣適用于應對 AI 在醫學中應用中的不確定性。如同醫學領域中其他新的干預手段,AI 系統的效力和安全性必須得到科學的評估,方能為醫患所用。目前,已有倡議應用循證醫學的思路來驗證 AI 系統提供的醫學建議;這一做法應該成為通用規則。隨
128、著技術的進步,AI 算法將變得更加穩健和成熟;應用比較效果研究評價 AI 算法在真實世界中的表現、以及評估其對患者疾病健康結局的影響是至關重要的。同樣,基于 AI 的預測模型也需要在流行病學或醫學研究中進行評估??傊?,健康醫療領域可能成為 AI 的應許之地,但也為 AI 技術提出了諸多挑戰。為了充分發揮 AI 的潛力,醫生、科研人員和 AI 科學家應當緊密合作;基于可靠的方法、遵循倫理的準則,力爭在醫療實踐中應用、評估和改進 AI 技術,共創健康美好未來!未來計劃:本部健康醫療人工智能指數2020報告,側重以已發表的科學出版物和預注冊的臨床試驗為基礎數據,未來計劃將在中國醫院協會健康醫療大數據
129、應用管理專業委員會的平臺上繼續深入和拓展。43 Appendix:高科學影響力、技術影響力和社媒影響力論文列表Anthimopoulos,M.,Christodoulidis,S.,Ebner,L.,Christe,A.,and Mougiakakou,S.(2016).Lung Pattern Classification for Interstitial Lung Diseases Using a Deep Convolutional Neural Network.Ieee Transactions on Medical Imaging 35,1207-1216.Bedi,G.,Carri
130、llo,F.,Cecchi,G.A.,Slezak,D.F.,Sigman,M.,Mota,N.B.,Ribeiro,S.,Javitt,D.C.,Copelli,M.,and Corcoran,C.M.(2015).Automated analysis of free speech predicts psychosis onset in high-risk youths.Npj Schizophrenia 1.Bejnordi,B.E.,Veta,M.,van Diest,P.J.,van Ginneken,B.,Karssemeijer,N.,Litjens,G.,van der Laak
131、,J.,and Consortium,C.(2017).Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer.Jama-Journal of the American Medical Association 318,2199-2210.Capper,D.,Jones,D.T.W.,Sill,M.,Hovestadt,V.,Schrimpf,D.,Sturm,D.,Koelsche,C.,Sahm,F.,Chavez,
132、L.,Reuss,D.E.,Kratz,A.,Wefers,A.K.,Huang,K.,Pajtler,K.W.,Schweizer,L.,Stichel,D.,Olar,A.,Engel,N.W.,Lindenberg,K.,Harter,P.N.,Braczynski,A.K.,Plate,K.H.,Dohmen,H.,Garvalov,B.K.,Coras,R.,Holsken,A.,Hewer,E.,Bewerunge-Hudler,M.,Schick,M.,Fischer,R.,Beschorner,R.,Schittenhelm,J.,Staszewski,O.,Wani,K.,V
133、arlet,P.,Pages,M.,Temming,P.,Lohmann,D.,Selt,F.,Witt,H.,Milde,T.,Witt,O.,Aronica,E.,Giangaspero,F.,Rushing,E.,Scheurlen,W.,Geisenberger,C.,Rodriguez,F.J.,Becker,A.,Preusser,M.,Haberler,C.,Bjerkvig,R.,Cryan,J.,Farrell,M.,Deckert,M.,Hench,J.,Frank,S.,Serrano,J.,Kannan,K.,Tsirigos,A.,Bruck,W.,Hofer,S.,
134、Brehmer,S.,Seiz-Rosenhagen,M.,Hanggi,D.,Hans,V.,Rozsnoki,S.,Hansford,J.R.,Kohlhof,P.,Kristensen,B.W.,Lechner,M.,Lopes,B.,Mawrin,C.,Ketter,R.,Kulozik,A.,Khatib,Z.,Heppner,F.,Koch,A.,Jouvet,A.,Keohane,C.,Muhleisen,H.,Mueller,W.,Poh,U.,Prinz,M.,Benner,A.,Zapatka,M.,Gottardo,N.G.,Driever,P.H.,Kramm,C.M.
135、,Muller,H.L.,Rutkowski,S.,von Hoff,K.,Fruhwald,M.C.,Gnekow,A.,Fleischhack,G.,Tippelt,S.,Calaminus,G.,Monoranu,C.M.,Perry,A.,Jones,C.,et al.(2018).DNA methylation-based classification of central nervous system tumours.Nature 555,469-+.Char,D.S.,Shah,N.H.,and Magnus,D.(2018).Implementing Machine Learn
136、ing in Health Care-Addressing Ethical Challenges.New England Journal of Medicine 378,981-983.Chen,R.,Lu,A.J.,Wang,J.J.,Ma,X.H.,Zhao,L.,Wu,W.J.,Du,Z.C.,Fei,H.W.,Lin,Q.W.,Yu,Z.L.,and Liu,H.(2019).Using machine learning to predict one-year cardiovascular events in patients with severe dilated cardiomyo
137、pathy.European Journal of Radiology 117,178-183.Christodoulou,E.,Ma,J.,Collins,G.S.,Steyerberg,E.W.,Verbakel,J.Y.,and Van Calster,B.(2019).A systematic review shows no performance benefit of machine learning over logistic regression for clinical prediction models.Journal of Clinical Epidemiology 110
138、,12-22.Colubri,A.,Silver,T.,Fradet,T.,Retzepi,K.,Fry,B.,and Sabeti,P.(2016).Transforming Clinical Data into Actionable Prognosis Models:Machine-Learning Framework and Field-Deployable App to Predict Outcome of Ebola Patients.Plos Neglected Tropical Diseases 10,17.Einav,L.,Finkelstein,A.,Mullainathan
139、,S.,and Obermeyer,Z.(2018).Predictive modeling of US health care spending in late life.Science 360,1462-+.Esteva,A.,Kuprel,B.,Novoa,R.A.,Ko,J.,Swetter,S.M.,Blau,H.M.,and Thrun,S.(2017).Dermatologist-level classification of skin cancer with deep neural networks.Nature 542,115-+.Freiman,M.,Nickisch,H.
140、,Prevrhal,S.,Schmitt,H.,Vembar,M.,Maurovich-Horvat,P.,Donnelly,P.,and Goshen,L.(2017).Improving CCTA-based lesions hemodynamic significance assessment by accounting for partial volume modeling in automatic coronary lumen segmentation.Medical Physics 44,1040-1049.44 W.,Wright,M.N.,Geng,X.Y.,Bauer-Mar
141、schallinger,B.,Guevara,M.A.,Vargas,R.,MacMillan,R.A.,Batjes,N.H.,Leenaars,J.G.B.,Ribeiro,E.,Wheeler,I.,Mantel,S.,and Kempen,B.(2017).SoilGrids250m:Global gridded soil information based on machine learning.Plos One 12,40.Itu,L.,Rapaka,S.,Passerini,T.,Georgescu,B.,Schwemmer,C.,Schoebinger,M.,Flohr,T.,
142、Sharma,P.,and Comaniciu,D.(2016).A machine-learning approach for computation of fractional flow reserve from coronary computed tomography.Journal of Applied Physiology 121,42-52.Ji,Z.X.,Chen,Q.,Niu,S.J.,Leng,T.,and Rubin,D.L.(2018).Beyond Retinal Layers:A Deep Voting Model for Automated Geographic A
143、trophy Segmentation in SD-OCT Images.Translational Vision Science&Technology 7,21.Kamnitsas,K.,Ledig,C.,Newcombe,V.F.J.,Sirnpson,J.P.,Kane,A.D.,Menon,D.K.,Rueckert,D.,and Glocker,B.(2017).Efficient multi-scale 3D CNN with fully connected CRF for accurate brain lesion segmentation.Medical Image Analy
144、sis 36,61-78.Kermany,D.S.,Goldbaum,M.,Cai,W.J.,Valentim,C.C.S.,Liang,H.Y.,Baxter,S.L.,McKeown,A.,Yang,G.,Wu,X.K.,Yan,F.B.,Dong,J.,Prasadha,M.K.,Pei,J.,Ting,M.,Zhu,J.,Li,C.,Hewett,S.,Dong,J.S.,Ziyar,I.,Shi,A.,Zhang,R.Z.,Zheng,L.H.,Hou,R.,Shi,W.,Fu,X.,Duan,Y.O.,Huu,V.A.N.,Wen,C.,Zhang,E.D.,Zhang,C.L.,
145、Li,O.L.,Wang,X.B.,Singer,M.A.,Sun,X.D.,Xu,J.,Tafreshi,A.,Lewis,M.A.,Xia,H.M.,and Zhang,K.(2018).Identifying Medical Diagnoses and Treatable Diseases by Image-Based Deep Learning.Cell 172,1122-+.Libbrecht,M.W.,and Noble,W.S.(2015).Machine learning applications in genetics and genomics.Nature Reviews
146、Genetics 16,321-332.Litjens,G.,Sanchez,C.I.,Timofeeva,N.,Hermsen,M.,Nagtegaal,I.,Kovacs,I.,Hulsbergen-van de Kaa,C.,Bult,P.,van Ginneken,B.,and van der Laak,J.(2016).Deep learning as a tool for increased accuracy and efficiency of histopathological diagnosis.Scientific Reports 6,11.Geis,J.R.,Brady,A
147、.P.,Wu,C.C.,Spencer,J.,Ranschaert,E.,Jaremko,J.L.,Langer,S.G.,Kitts,A.B.,Birch,J.,Shields,W.F.,van Genderen,R.V.,Kotter,E.,Gichoya,J.W.,Cook,T.S.,Morgan,M.B.,Tang,A.,Safdar,N.M.,and Kohli,M.(2019).Ethics of Artificial Intelligence in Radiology:Summary of the Joint European and North American Multiso
148、ciety Statement.Radiology 293,436-440.Greenspan,H.,Van Ginneken,B.,and Summers,R.M.(2016).Guest Editorial Deep Learning in Medical Imaging:Overview and Future Promise of an Exciting New Technique.IEEE Transactions on Medical Imaging 35,1153-1159.Gulshan,V.,Peng,L.,Coram,M.,Stumpe,M.C.,Wu,D.,Narayana
149、swamy,A.,Venugopalan,S.,Widner,K.,Madams,T.,Cuadros,J.,Kim,R.,Raman,R.,Nelson,P.C.,Mega,J.L.,and Webster,R.(2016).Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs.Jama-Journal of the American Medical Association 316,2402-2410
150、.Havaei,M.,Davy,A.,Warde-Farley,D.,Biard,A.,Courville,A.,Bengio,Y.,Pal,C.,Jodoin,P.M.,and Larochelle,H.(2017).Brain tumor segmentation with Deep Neural Networks.Medical Image Analysis 35,18-31.Hazlett,H.C.,Gu,H.B.,Munsell,B.C.,Kim,S.H.,Styner,M.,Wolff,J.J.,Elison,J.T.,Swanson,M.R.,Zhu,H.T.,Otteron,K
151、.N.B.,Collins,D.L.,Constantino,J.N.,Dager,S.R.,Estes,A.M.,Evans,A.C.,Fonov,V.S.,Gerig,G.,Kostopoulos,P.,McKinstry,R.C.,Pandey,J.,Paterson,S.,Pruett,J.R.,Schultz,R.T.,Shaw,D.W.,Zwaigenbaum,L.,Piven,J.,and Network,I.(2017).Early brain development in infants at high risk for autism spectrum disorder.Na
152、ture 542,348-+.He,B.,Guan,Y.,and Dai,R.(2019).Classifying medical relations in clinical text via convolutional neural networks.Artificial Intelligence in Medicine 93,43-49.Hengl,T.,de Jesus,J.M.,Heuvelink,G.B.M.,Gonzalez,M.R.,Kilibarda,M.,Blagotic,A.,Shangguan,45 Liu,Y.Z.,Lin,W.J.,Xu,P.F.,Zhang,D.D.
153、,and Luo,Y.J.(2015).Neural Basis of Disgust Perception in Racial Prejudice.Human Brain Mapping 36,5275-5286.Maniruzzaman,M.,Rahman,M.J.,Al-MehediHasan,M.,Suri,H.S.,Abedin,M.M.,El-Baz,A.,and Suri,J.S.(2018).Accurate Diabetes Risk Stratification Using Machine Learning:Role of Missing Value and Outlier
154、s.Journal of Medical Systems 42,17.Obermeyer,Z.,and Emanuel,E.J.(2016).Predicting the Future-Big Data,Machine Learning,and Clinical Medicine.New England Journal of Medicine 375,1216-1219.Perfecto-Avalos,Y.,Garcia-Gonzalez,A.,Hernandez-Reynoso,A.,Sanchez-Ante,G.,Ortiz-Hidalgo,C.,Scott,S.P.,Fuentes-Ag
155、uilar,R.Q.,Diaz-Dominguez,R.,Leon-Martinez,G.,Velasco-Vales,V.,Cardenas-Escudero,M.A.,Hernandez-Hernandez,J.A.,Santos,A.,Borbolla-Escoboza,J.R.,and Villela,L.(2019).Discriminant analysis and machine learning approach for evaluating and improving the performance of immunohistochemical algorithms for
156、COO classification of DLBCL.Journal of Translational Medicine 17,12.Setio,A.A.A.,Ciompi,F.,Litjens,G.,Gerke,P.,Jacobs,C.,van Riel,S.J.,Wille,M.M.W.,Naqibullah,M.,Sanchez,C.I.,and van Ginneken,B.(2016).Pulmonary Nodule Detection in CT Images:False Positive Reduction Using Multi-View Convolutional Net
157、works.Ieee Transactions on Medical Imaging 35,1160-1169.Shen,D.G.,Wu,G.R.,and Suk,H.I.(2017).Deep Learning in Medical Image Analysis.In Annual Review of Biomedical Engineering,Vol 19(M.L.Yarmush,ed.),Vol.19,pp.221-248.Annual Reviews,Palo Alto.Shin,H.C.,Roth,H.R.,Gao,M.C.,Lu,L.,Xu,Z.Y.,Nogues,I.,Yao,
158、J.H.,Mollura,D.,and Summers,R.M.(2016).Deep Convolutional Neural Networks for Computer-Aided Detection:CNN Architectures,Dataset Characteristics and Transfer Learning.Ieee Transactions on Medical Imaging 35,1285-1298.Sirinukunwattana,K.,Raza,S.E.A.,Tsang,Y.W.,Snead,D.R.J.,Cree,I.A.,and Rajpoot,N.M.(
159、2016).Locality Sensitive Deep Learning for Detection and Classification of Nuclei in Routine Colon Cancer Histology Images.Ieee Transactions on Medical Imaging 35,1196-1206.Springer,S.,Masica,D.L.,Dal Molin,M.,Douville,C.,Thoburn,C.J.,Afsari,B.,Li,L.,Cohen,J.D.,Thompson,E.,Allen,P.J.,Klimstra,D.S.,S
160、chattner,M.A.,Schmidt,C.M.,Yip-Schneider,M.,Simpson,R.E.,Fernandez-Del Castillo,C.,Mino-Kenudson,M.,Brugge,W.,Brand,R.E.,Singhi,A.D.,Scarpa,A.,Lawlor,R.,Salvia,R.,Zamboni,G.,Hong,S.M.,Hwang,D.W.,Jang,J.Y.,Kwon,W.,Swan,N.,Geoghegan,J.,Falconi,M.,Crippa,S.,Doglioni,C.,Paulino,J.,Schulick,R.D.,Edil,B.H
161、.,Park,W.,Yachida,S.,Hijioka,S.,van Hooft,J.,He,J.,Weiss,M.J.,Burkhart,R.,Makary,M.,Canto,M.I.,Goggins,M.G.,Ptak,J.,Dobbyn,L.,Schaefer,J.,Sillman,N.,Popoli,M.,Klein,A.P.,Tomasetti,C.,Karchin,R.,Papadopoulos,N.,Kinzler,K.W.,Vogelstein,B.,Wolfgang,C.L.,Hruban,R.H.,and Lennon,A.M.(2019).A multimodality
162、 test to guide the management of patients with a pancreatic cyst.Science Translational Medicine 11,14.Tajbakhsh,N.,Shin,J.Y.,Gurudu,S.R.,Hurst,R.T.,Kendall,C.B.,Gotway,M.B.,and Liang,J.M.(2016).Convolutional Neural Networks for Medical Image Analysis:Full Training or Fine Tuning?Ieee Transactions on
163、 Medical Imaging 35,1299-1312.Thaha,M.M.,Kumar,K.P.M.,Murugan,B.S.,Dhanasekeran,S.,Vijayakarthick,P.,and Selvi,A.S.(2019).Brain Tumor Segmentation Using Convolutional Neural Networks in MRI Images.Journal of Medical Systems 43,10.van Griethuysen,J.J.M.,Fedorov,A.,Parmar,C.,Hosny,A.,Aucoin,N.,Narayan
164、,V.,Beets-Tan,R.G.H.,Fillion-Robin,J.C.,Pieper,S.,and Aerts,H.(2017).Computational Radiomics System to Decode the Radiographic Phenotype.Cancer Research 77,E104-E107.46 Wang,X.G.,Yang,W.,Weinreb,J.,Han,J.,Li,Q.B.,Kong,X.C.,Yan,Y.L.,Ke,Z.,Luo,B.,Liu,T.,and Wang,L.(2017).Searching for prostate cancer
165、by fully automated magnetic resonance imaging classification:deep learning versus non-deep learning.Scientific Reports 7,8.Wang,Z.F.,Lei,X.J.,and Wu,F.X.(2019).Identifying Cancer-Specific circRNA-RBP Binding Sites Based on Deep Learning.Molecules 24,13.Xing,F.Y.,Xie,Y.P.,and Yang,L.(2016).An Automat
166、ic Learning-Based Framework for Robust Nucleus Segmentation.Ieee Transactions on Medical Imaging 35,550-566.Xiong,H.Y.,Alipanahi,B.,Lee,L.J.,Bretschneider,H.,Merico,D.,Yuen,R.K.C.,Hua,Y.M.,Gueroussov,S.,Najafabadi,H.S.,Hughes,T.R.,Morris,Q.,Barash,Y.,Krainer,A.R.,Jojic,N.,Scherer,S.W.,Blencowe,B.J.,
167、and Frey,B.J.(2015).The human splicing code reveals new insights into the genetic determinants of disease.Science 347,9.Xu,J.P.,Zhang,J.Q.,Zhang,J.L.,Wang,Y.,Zhang,Y.L.,Wang,J.,Li,G.L.,Hu,Q.M.,and Zhang,Y.C.(2017).Abnormalities in Structural Covariance of Cortical Gyrification in Parkinsons Disease.
168、Frontiers in Neuroanatomy 11,9.Yao,S.X.,Becker,B.,Zhao,W.H.,Zhao,Z.Y.,Kou,J.,Ma,X.L.,Geng,Y.Y.,Ren,P.,and Kendrick,K.M.(2018).Oxytocin Modulates Attention Switching Between Interoceptive Signals and External Social Cues.Neuropsychopharmacology 43,294-301.Zhang,F.L.,Wu,C.H.,Jia,C.X.,Gao,K.,Wang,J.P.,
169、Zhao,H.H.,Wang,W.,and Chen,J.X.(2019).Artificial intelligence based discovery of the association between depression and chronic fatigue syndrome.Journal of Affective Disorders 250,380-390.Zhu,J.J.,Hou,W.H.,Xu,Y.,Ji,F.,Wang,G.W.,Chen,C.,Lin,C.G.,Lin,X.D.,Li,J.,Zhuo,C.J.,and Shao,M.J.(2019).Antipsychotic drugs and sudden cardiac death:A literature review of the challenges in the prediction,management,and future steps.Psychiatry Research 281,7.48