1、2022 年 9 月 2 日,國家衛生健康委員會新聞發布會介紹了黨的十八大以來我國全民健康信息化建設取得的顯著成效,但也強調了由于醫療服務的復雜性、服務流程的多樣性、服務對象的廣泛性、醫療數據的敏感性,醫療健康信息的互通共享應該說仍然還是一個有待攻克的難題,我國目前仍處在探索發展、摸索經驗的關鍵時期。在推進醫療健康互聯互通建設發展上,既要有前沿趨勢探索,新的機制建設、共享模式研究,也應切實關切行業的應用實踐總結。而其中,務實管理和控制數據質量是提升醫療健康信息互聯互通水平的重要內容。本期白皮書以凝練了錢子來老師多年醫療信息化實踐經驗與深刻認識形成的有關健康醫療數據質量管理與控制關鍵問題討論的一
2、系列小短文為基礎,在不改變錢子來老師本義的基礎進行了結構上的匯編,重點從錢子來老師對醫院信息化建設歷史經驗分享、對于健康醫療數據質量管理關鍵問題的認識以及關于健康醫療數據質量控制的思考三個方面展開,并補充了一些醫療信息化的概念釋義與基礎信息幫助讀者更好的理解相關內容。期望通過本期白皮書,以親歷者的“經驗之談”,能給讀者在解決健康信息互聯互通實際工作中面臨的問題提供參考與啟發。編者按經驗之談:原南京市第一醫院院長錢子來:如何推進醫療健康信息互聯互通之數據質量管理與控制第25期本期專家介紹本期專家介紹致謝致謝本期專題策劃本期專題策劃錢子來:國內資深醫療信息化專家,醫院管理專家,江蘇省衛健委咨詢專家
3、,曾任南京市第一醫院院長、南京市胸科醫院院長、南京市醫學研究所所長、南京醫學情報研究所所長。特向以下人員致謝,感謝他們對本期內容作出的貢獻:湯娟華,常州市衛生健康數據管理中心,高級工程師李瑩瑩,浙江數字醫療衛生技術研究院,高級咨詢顧問浙江數字醫療衛生技術研究院 戰略咨詢與研究中心策劃:朱燁琳,編輯:李瑩瑩,設計:蔡園婷,宣發:朱歆旖經驗之談:如何推進醫療健康信息互聯互通之數據質量管理與控制1前言“十四五”已開啟我國發展新征程,醫療信息化發展也正在走向高質量發展階段。高效的數據治理是醫療信息互聯互通與醫療數據價值有效挖掘的重要基礎?!皵祿卫怼笔且粋€非常大的話題,其中數據確權是國家立法層面的工作
4、;數據安全則既有底層技術也有國家安全問題,恐怕得由權威部門作為法制法規建設來考慮。本文僅就衛生信息化建設過程中大家都可能會遇到的一些令人困惑的關于數據質量管理與控制的問題,談談個人的看法,希望能夠作為引玉之磚,引起大家的重視、思考與實踐,以求得真知灼見。需要特別說明,其中許多是我個人的觀點,錯誤難免,誠懇希望能夠得到大家的指正。本文以面向應用為主,主要談一些我們能夠談的實際問題,尤其是在工作實際中大家都會遇到的一些問題。國家醫療健康信息互聯互通建設現狀2022 年 9 月 2 日,國家衛生健康委員會新聞發布會重點介紹了黨的十八大以來衛生健康信息化工作進展成效,這也是國家衛生健康委“一切為了人民
5、健康我們這十年”系列新聞發布會的第 16 場。會上,國家衛生健康委規劃司司長毛群安表示:“總體來看,黨的十八大以來,我國全民健康信息化建設成效顯著?!逼渲?,互聯互通的平臺基礎逐步夯實。國家全民健康信息平臺初步建成,省統籌區域全民健康信息平臺不斷完善,實現各級平臺聯通全覆蓋。建立健全全員人口信息、居民電子健康檔案、電子病歷和基礎資源等數據庫,積極推動公立醫院逐步接入區域全民健康信息平臺,依托平臺推動不同醫療機構之間診療信息互通共享。當前,所有的省份、85%的市、69%的縣建立了區域全民健康信息平臺,各地建立健全了全員人口信息、居民電子健康檔案、電子病歷和基礎資源等數據庫,全國 7000 多家二級
6、以上公立醫院接入區域全民健康信息平臺,2200 多家三級醫院初步實現院內醫療服務信息互通共享??偟膩砜?,全民健康信息化效果正在顯現,目前部分區域、部分醫院和醫聯體在實現了互通共享基礎上,以應用為導向,逐步實現全國醫療健康數據互通共享,既非常必要也具備可行性。但是由于醫療服務的復雜性、服務流程的多樣性、服務對象的廣泛性、醫療數據的敏感性、醫療健康信息的互通共享應該說仍然還是一個有待攻克的難題。我國目前仍處在探索發展、摸索經驗的關鍵時期。拓展閱讀白皮書2第 25 期(一)全民健康信息互聯互通問題的產生全民健康信息化已經走過將近四十個年頭?;仡櫧氖曜哌^的艱辛探索的道路,如果宏大敘事,基本上可以講
7、經歷了業務系統建設、信息平臺建設及正在發展中的大數據應用三個具有里程碑意義的發展階段。全民健康信息化發端于四十年前的醫院信息系統建設,初始階段的醫院信息系統在今天看來僅僅是一個簡單的功能單一的收費系統。經過四十年的積累與發展,今天已經形成了比較成熟的幾乎可以涵蓋醫院全部業務的生產性業務系統長線產品,為醫院的日常業務運行提供了有效的業務過程信息化及上下游業務的信息整合和標準化的可過程控制的管理模式,很好地解決了醫院日常業務流程控制和醫療安全與質量管理、部門協調等傳統管理中的難題。但必須指出,在此基礎上發展而來的信息系統本質上仍然是對傳統醫院管理模式的仿真,面對數字化轉型浪潮,醫院的信息化建設面臨
8、的不僅僅是業務的重構與改造,還需關注數字技術對醫療模式創新與業務模型重構的革命性的意義。積四十余年的經驗,只要用戶能夠講清楚業務規則、業務流程和業務場景,開發一個能夠滿足用戶個性化需求的業務系統在今天已經不是一件困難的事情。困難的是眾多異構的業務系統之間如何通過互聯互通實現業務協同的問題!現在,三級醫院普遍擁有的業務系統少則 50 余個,多的將近 200 個業務系統。其中許多業務系統需要通過數據交換、信息共享和流程連接來實現業務協同。業內人士都清楚,因為歷史的原因,這些業務系統絕大多數都是異構的,最主要的異構在于數據的異構。傳統解決數據異構的方法是在兩個異構系統之間通過接口來實現互聯互通,無論
9、采用何種技術類型的接口都必須解決異構數據從數據結構到語義的對齊。這可不是一個簡單的任務,其中有些可以通過技術手段實現,更多的是需要業務管理跟進。有經驗的信息中心主任都有體會,數據質量在本業務系統內可控,具有較大的應用價值,但數據一旦離開業務系統,參與交互,數據質量就會失控,數據價值會呈現指數式的跌落。系統之間通過點對點接口實現互聯互通有一個致命的 N 平方問題,即如果 100 個業務系統都有數據交換和業務協同問題,那就會出現 100(100-1)個接口,即 9900 個,4950 對接口。這是一個恐怖的網狀拓撲,將增加大量的 IT 開銷,降低系統性能,關鍵是難以維護。因為業務系統的變化會導致接
10、口條件與參數的變化,而這種變化會通過網狀拓撲廣播式的動搖其他相關接口。所以,許多醫院的領導會為日益增長的接口費感到困惑。要解決這個問題,必須引入集成代理的概念。(二)平臺概念的理解及建設意義 1.平臺究竟是什么?首先得說明,這里講的平臺是特指區域衛生信息平臺和醫院信息平臺。關于平臺是什么?似乎不是問題。但是我覺得這不但是個問題,而且還是個大問題。因為許多地方反映,花巨資建設的平臺看不到有什么應用價值:換個業務系統還是那么困難,接口費仍然居高不下,數據質量問題還是得不到解決。于是,我很自然的就想到了一個問題:那個花巨資建設的東西是平臺嗎?一、全民健康信息化建設歷史經驗分享經驗之談:如何推進醫療健
11、康信息互聯互通之數據質量管理與控制3當前,平臺是個熱詞。很多地方都在談平臺建設,但仔細聽聽,似乎討論的并不是同一件事情,平臺的概念由泛化走向異化。由于沒有在厘清概念上下功夫,習慣以模糊的概念來定義概念,其后果往往是偏離建設方向。什么是平臺?原衛生部在 2009、2011年先后發布的基于居民健康檔案的區域衛生信息平臺及基于電子病歷的醫院信息平臺建設指南中講得非常清楚。這里講的平臺,本質上是個集成平臺,通過平臺實現數據集成、應用集成和門戶集成。集成也可以看成是一種整合。簡單講,建設平臺的目的是為了實現異構業務系統的互聯互通,通過三大集成整合區域與醫院內部的各類應用。當然,實現跨機構、跨區域、跨行業
12、、跨平臺的互聯互通更需要平臺提供支持。然而,現在許多地方在建設平臺的實踐中,賦予了平臺許許多多眼花繚亂的功能與應用,唯獨沒有平臺的靈魂集成功能!許多地方搞不清楚平臺建設與業務系統建設之間的區別與聯系。平臺建設是平臺建設,業務系統建設是業務系統建設,兩者不是一回事,不能混為一談。要說兩者的聯系,只是業務系統要通過平臺實現互聯互通,而不是在平臺上建設業務系統。曾經有人問我,那衛生部講的基于平臺的婦幼系統建設是怎么回事?我認為那不是指將婦幼系統建在平臺上,基于平臺建設是指該系統在建設時必須遵循平臺的統一接口規范及相關的數據標準等平臺規則的約束,以實現其核心業務與其他業務系統的數據交換、信息共享與業務
13、協同。對于平臺而言,婦幼系統仍然是一個邊界清晰的獨立的業務系統?;ヂ摶ネ?,有物理意義上的“通”,更有邏輯上的“聯”。即平臺即要實現無障礙的傳輸,更要保障無歧義的理解,實踐經驗告訴我們,通易聯難。計算機程序的執行過程,某種程度上也可以說是一個對數據庫進行讀寫的操作過程。計算機科學所指的數據,尤其是結構化數據,本質上是語言的符號。人類是通過語言來進行思考與交流的,而模糊性是語言與生俱來的固有特性(漢語尤其如此)。如何提高交流的有效性(效率+準確性),目前通常使用的方法是將語言標準化,包括詞法、語法、修辭等等。作為語言符號的數據,同樣,也通過標準化來解決交互的效率與準確性。前面講到的“集成代理”,就
14、是要改變原來異構業務系統間通過點對點接口的交互方式,采用平臺的統一交互機制來實現互聯互通,利用總線的統一公共接口來實現通信協議轉換。通信協議定義了交互的語法規則及語義規則,其中語義規則往往是通過一套數據標準來表達。例如 HL7 中,其語義約定是弱規則,而語法約定是強規則,XML 也同樣如此。平臺提供一整套數據標準來約束異構數據在交互過程中數據格式及語義的映射轉換,凡通過平臺實現與其他系統進行數據交互和業務協同的業務系統,只需要與平臺數據標準建立一對映射轉換的機制即可,避免了 N 平方陷阱。2.平臺哪些功能影響數據交互質量?平臺建設與管理運行質量,決定了平臺數據交互質量,也決定了平臺數據中心匯聚
15、的數據質量及數據應用質量。決定這些數據質量的平臺基礎功能主要有以下幾個方面:白皮書4第 25 期 主索引管理 主數據管理 元數據管理(以及基于元數據管理的數據資產目錄)醫院信息平臺應用功能指引醫院信息平臺:是連接臨床信息、醫療管理及運營信息等系統的信息共享和業務協作平臺,是醫院內不同業務系統之間實現統一集成、資源整合和高效運轉的基礎與載體,也是實現與外部機構的信息共享和業務協同的重要技術支撐。醫院信息平臺服務層的主要任務是為平臺提供各種服務。包括注冊服務、主索引、主數據管理服務等部分。主索引:是指在特定域范圍內,用以標識該域內每個實例并保持其唯一性的編碼。唯一標識是指用于臨床實際業務并且能夠輔
16、助進行唯一性識別,在該域或跨域可見的唯一編碼。采用居民健康卡、身份證進行唯一標識的加載與識別,建立統一的主索引。功能包括信息查詢、檢索索引歷史、索引比較、索引修改等。主數據管理:主數據是跨系統、跨應用和跨流程的醫學標準術語唯一來源,能夠集成衛生信息基本數據集并對業務系統主數據統一管理,規范醫療衛生事件的信息含義一致性,具備特征一致性、識別唯一性、長期有效性和業務穩定性。具體功能包括:主數據模型管理、主數據定義、主數據據映射、訂閱、審核及發布等。注冊服務:用于醫院信息平臺各種共享服務資源的注冊,通過服務資源的發布一發現一訪問機制,實現服務資源共享。注冊服務是醫療信息閉環系統中最基礎的服務之一。注
17、冊服務包括對患者、醫療衛生服務人員、醫療衛生機構(科室)、醫療衛生術語的注冊管理服務,系統對這些實體提供唯一的標識。針對各類實體形成各類注冊庫(如個人注冊庫、醫療衛生機構注冊庫、術語和字典庫等),每個注冊庫都具有管理和解決單個實體具有多個標識符問題的能力。省統籌區域人口健康信息平臺應用功能指引平臺主索引:以“居民身份證號碼”作為平臺基礎服務的主索引。通過與居民健康卡注冊管理系統關聯,進行身份認證、個人注冊基本信息核實等。按照平臺業務系統和居民健康卡應用目錄提供相關索引服務。具體功能包括:個人主索引注冊、主索引服務,數據自動匹配關聯、主索引維護等。主數據管理:提供屬性自動匹配和重復數據刪除功能,
18、以及基于工作流的主數據手動干預功能;提供多源數據的原始數據查詢、差異比較功能;提供主數據的歷史變更回溯功能。概念釋義 數據質量指標體系與測量方法 指標庫管理 數據標準管理 注冊服務經驗之談:如何推進醫療健康信息互聯互通之數據質量管理與控制5元數據管理:提供自動化信息資源編目、信息資源注冊、智能化的查詢功能。支持集中式和分布式部署,實現基于 Metadata 的信息資源管理。注冊服務:依托人口健康信息平臺,提供對居民個人、醫療衛生人員、醫療衛生機構、醫療衛生術語等基礎共享信息的注冊,提供唯一的標識號,實現在省域范圍內的信息識別。具體功能包括:個人注冊、醫療衛生人員注冊、.醫療衛生機構注冊、醫療衛
19、生術語注冊等。數據標準管理:理提供對術語、數據元、數據集以及值域代碼的管理與維護。數據標準服務:提供按需發布標準規范,供人口健康信息平臺/應用系統參考使用;基于數據標準規范配置接口標準、交換文檔等內容,以實現語義化的數據交換;與外部標準體系之間的接口(國家衛計委相關標準、國際標準);支撐共享交換過程中的代碼、數據轉換。白皮書6第 25 期(一)數據標準管理 1.什么是數據標準?標準化是工業文明的產物,而多樣性卻是構成這個世界的基本條件。因此,標準化、同質化并不是普遍適用的,是個別特殊情況和條件下的不得已的辦法。數字文明時代,無時空障礙的信息流動,要求作為信息載體的數據能夠“無障礙傳輸,無歧義理
20、解”。這就是一種條件,也就是說,需要標準化的介入。信息平臺建設涉及硬件、軟件的許多屬于底層技術的標準化問題,通信協議就是一個典型的標準化問題。本文只討論關于數據的標準化問題。數據標準是指為了保障數據在異構系統間進行數據交換、信息共享和業務協同時能夠做到一致性和準確性而制定的規范性約束。數據標準是數據管理的基礎性工作,是數據資產管理的核心活動之一。數據標準在實際應用場景中,更多的時候是強調數據字典表達的規范。而數據標準建立的更高目標是在業務和數據上達成共識(而且是業務共識在前,數據共識居后),通過數據標準化來提升業務的規范性和業務協同能力,同時約束 IT 系統建設。自上世紀九十年代以來至今,國家
21、衛健委(原國家衛生部、原國家衛計委)頒發了數百個關于數據標準的文件,這些標準都可以在國家衛健委網站首頁 衛生標準 衛生信息查到(見圖 1)。二、對于健康醫療數據質量管理關鍵問題的認識圖 1 國家衛健委衛生標準查詢下載界面經驗之談:如何推進醫療健康信息互聯互通之數據質量管理與控制7主要有數據集、數據元、數據元值域代碼、共享文檔、多媒體(例如影像的DICOM)、編制規范等數據標準化文件。其中,最基本、最核心、最重要、最需要了解掌握的是數據集、數據元、數據元值域代碼標準這三類標準。數據集標準規定了描述一個業務活動的數據元集合。數據元標準規定了統一標識、名稱、定義、數據結構、允許值等重要的元數據。數據
22、元值域代碼標準在規定數據元允許值范圍的同時,還規定了值的分類準則。這三類數據標準大都是強制性的行業標準,可見其重要性。在各地的實踐中,也充分體現了這三類數據標準對于數據質量及數據賦能所起到的的關鍵性作用。當然,作為強制性行業標準的數據集標準,是否可以允許具有彈性或在此基礎上約定最小數據集作為強制性執行標準,以更好的反映多樣化的生動活潑的鼓勵創新的業務活動,是可以討論商榷的。此外,為了深化對數據標準內涵的理解,對于以下幾個基礎性的規則規范,建議也應該熟悉一下:WS/T303-2009 衛生信息數據元標準化規則 WS/T304-2009 衛生信息數據模式描述指南 WS/T305-2009 衛生信息
23、數據集元數據規范 WS/T306-2009 衛生信息數據集分類與編碼規則 WS/T 671-2020 國家衛生與人口信息數據字典 WS/T 672-2020 國家衛生與人口信息概念數據模型 WS/T 681-2020 衛生信息標識體系對象標識符注冊管理規程 WS/T 682-2020 衛生信息標識體系對象標識符編號結構與基本規則當前的衛生信息標準有那些?2009 年原國家衛生部衛生信息標準化專業委員會提出信息標準體系架構圖,將衛生信息標準分類為:基礎類標準、數據類標準、技術類標準、安全類標準、管理類標準,這也是目前國內通常引用的衛生信息標準分類,具體分類與內容如見圖 2:拓展閱讀圖 2 我國衛
24、生健康信息標準體系框架白皮書8第 25 期常典型,國家標準就有好幾套,分別由國家不同管理部門制訂并頒發,職業分類也有好幾種標準。因為面對不同的業務與管理目標,對同一類數據會形成不同的分類方法,不同的編碼算法。一套標準是無法滿足所有的應用需求的,因此,需要結合具體的業務與管理要求,以貼近業務為原則,選擇最合適的作為平臺的數據標準。面對某些有特別要求的業務或管理要求,有時會不得不選擇多套不同的數據標準,這種情況下必須有明確的標識來約束使用場景。業務系統是否一定要采用平臺標準?我們認為,作為新建的業務系統或原有業務系統在升級改造時,應該考慮盡可能地使用或貼近平臺的數據標準。對既有的在運行中的業務系統
25、,不必勉強用平臺數據標準去改造,而采取在通過平臺進行數據交換、信息共享和業務協同時進行轉換的策略。更為復雜的問題是,具有分類功能的值域代碼標準,如果分類準則導致代碼取值不能做到唯一,應該采取什么樣的對策?如:2.數據標準的貫標問題有了數據標準,數據質量問題并不會自然而然地得以解決。如何通過有效的貫標活動,使得通過平臺交換與共享的數據質量受控是一項具有挑戰性的工作。其中,有些問題的復雜性可能會超過我們的想象。舉例來說,以下幾個問題在實際工作中會經常出現:一項標準能否滿足所有的相關應用需求,如果不能,有什么好的解決辦法?業務系統的基礎數據是否一定要采用平臺標準?具有分類功能的值域代碼,如果分類準則
26、導致代碼取值不能做到唯一,應該采取什么樣的對策?術語如何實現標準化?具體的業務活動有時可能會應對多項數據標準,如何作出正確選擇?藥品標準就非數據來源:1:國家衛生健康委員會,關于加強全民健康信息標準化體系建設的意見 EB/OL.http:/ J.醫學信息學雜志,2020,41(11):22-25.截至 2020 年 8 月,現行有效的衛生健康行業信息化標準共計 227 項1,從標準類型來看,絕大多數標準為數據類標準(約占 85%),其次為技術類標準(11%)2。主要服務于以電子健康檔案為中心的區域衛生信息化建設和以電子病歷為中心的醫院信息化建設工作,滿足衛生健康信息互通共享標準需求。部分數量較
27、多的標準列舉如下:WS/T 500電子病歷共享文檔規范:53 項;WS 375疾病控制基本數據集:21 項;WS/T 483健康檔案共享文檔規范:19 項;WS 445電子病歷基本數據集:17 項;WS 363衛生信息數據元目錄:17 項;WS 364衛生信息數據元值域代碼:17 項;經驗之談:如何推進醫療健康信息互聯互通之數據質量管理與控制9ICD-10 臨床版(也有數十個不同的版本,且第五、六兩位碼的編碼規則在同一個版本里也具有不確定性)。我們認為在制定該類標準時,盡可能地避免出現交集,在出現交集不可避免時應該明確交集部分的優先歸屬指向算法。需要提出的是,某些分類粒度過細的數據標準,會產生
28、概念邊界的不確定性,加上語言的模糊性,會使語義對齊出現困難?,F在,有些地方已經在開展基于人工智能、自我國醫學術語標準化現狀與趨勢?醫學術語標準化內涵:是運用標準化的原理和方法,通過制定醫學術語標準,使在一定范圍內的醫學用語得到統一,獲得最佳秩序和社會效益的過程。主要包括醫學術語及其定義的指導性規范、醫學術語使用規范,還包括大量醫學術語規范化體系,如術語表、敘詞表、分類表、編碼、本體等。臨床醫學術語標準化的意義:臨床醫學術語標準是實現語義層面系統互操作的基礎條件,統一的臨床醫學術語標準及術語集有助于解決術語重復、內涵不清、語義表達和理解不一致等問題,對有效推動醫學信息在更大范圍和更深層次上的傳播
29、、共享和使用具有重要意義。未來,還將加速推進醫療與人工智能跨界融合,逐步實現智能醫療。我國主要的醫學術語編制與推廣機構:國家衛生健康委員會、全國科學技術名詞審定委員會、中華醫學會、中國中醫科學院中醫藥信息研究所、浙江數字醫療衛生技術研究院等。我國主要的醫學術語標準編制模式:引進翻譯、自主審定名詞、融合創新構建中醫藥學術語標準。醫學術語標準的層次:根據知識組織體系的結構、語義強弱程度、所實現的功能等要素,已有的醫學術語標準可分為四個層次。詞匯表類、分類體系、語義關聯組類、一體化語言系統,當前主要醫學術語標準見表 1。拓展閱讀然語言處理等技術的語義適配算法研究。在沒有很好的技術解決這個問題以前,在
30、滿足業務與管理基本要求的前提下,不過度的追求數據標準分類粒度與精度,是一種明智的選擇。另外,術語標準化也應列入議事日程。建議建立提供有關數據標準的術語查詢服務,對常用的關于數據標準的術語,根據國家衛健委已經出臺的標準規范進行定義和名詞解釋是一項有意義的工作。表 1 主要醫學術語標準概覽層次醫學術語標準的名稱版權機構主題領域釋義體量(術語/概念)詞匯表類用戶健康詞匯表(CHV)美國猶他大學生物醫學信息部 用戶健康詞匯表 公眾健康 14.8 萬/5.6 萬人類基因命名表(HUGO)國際人類基因命名委員會 HGNC 遺傳學 無 14 萬/3.9 萬MediLexicon 醫學詞典 英國 MediLe
31、xicon International Ltd 醫學綜合 有 10 萬詞匯白皮書10第 25 期 3.如何開展數據標準管理?數據標準具有成長性,不是一成不變的,因此是需要動態管理的。由于數據標準管理的復雜性,需要建立一個應用系統來支撐管理活動,這個應用系統往往被定義為數據標準管理系統。一般情況下該系統部署在市、區(縣)區域衛生信息平臺和省綜合管理平臺。數據標準管理的目的是通過統一的數據標準制訂、更新和發布,結合制度約束,系統控制等手段實現數據的完整性、有效性、一致性、規范性、開放性和共享性管理,為數據資產管理提供管理基礎,是數據治理極為重要的組成部分。各地全民健康信息平臺大多都建立了數據標準管
32、理系統,據工作交流中觀察到的情況,許多地方的數據標準管理系統缺乏日常運行維護管理,甚至多年后系統發布的數據標準尚停留在管理系統建成投入使用時的初始狀態,形同虛設,發揮不了統領數據質量的作用。數據標準管理具有較強的專業素質要求,單靠信息中心是無法完成這個任務的。需要根據專業要求,納入本級行政體系,分工合作,讓專業的部門來管理相關專業的數據標準。要特別強調,數據標準及數據標準管理系統是為本級平臺服務的!數據標準管理絕不是簡單地照抄上級平臺或國家標準,需要結合本地業務及管理要求進行選擇、增補、調整。層次醫學術語標準的名稱版權機構主題領域釋義體量(術語/概念)分類體系國際疾病分類法第 10 版(ICD
33、-10)世界衛生組織 臨床醫學 類目注釋 1.35 萬/1.15 萬NCBI 分類表(NCBI Taxonomy)美國生物技術信息中心 生物學 類目注釋 86.1 萬/63.4 萬中國圖書館分類法-醫學專業分類 中國國家圖書館 醫學綜合 類目注釋 5 萬個類目觀測指標標識符邏輯命名與編碼系統(LOINC)美 國 印 第 安 納 大 學 醫 學 中 心Regenstrief 研究院檢驗類 邏輯表示36.4 萬/14 萬關聯組類醫 學 系 統 命 名 法 臨 床 術 語(SNOMED CT)國際健康術語標準發展組織 IHTSDO臨床醫學邏輯定義80 萬/32.1 萬解剖學基礎模型本體(FMA)美國
34、華盛頓大學醫學院結構信息研究組解剖學有13.9 萬/8.2 萬基因本體(GO)基因本體聯盟基因有10.4 萬/5.8 萬NCI 敘詞表(NCIt)美國國立癌癥研究所醫學綜合有23.8 萬/9 萬醫學主題詞表(MeSH)美國國立醫學圖書館 NLM醫學綜合有75.8 萬/32.1 萬藥物標準術語表(RxNorm)美國國立醫學圖書館 NLM藥學邏輯表示49.7 萬/20.4 萬中文版醫學主題詞表(CMeSH)中國醫學科學院醫藥信息研究所醫學綜合有11 萬/5.5 萬中國中醫藥學主題詞表中國中醫研究院中醫藥信息研究所中醫藥有0.83 萬/0.56 萬一體化語言系統一體化醫學語言系統(UMLS)美國國立
35、醫學圖書館 NLM醫學綜合有1080 萬/266 萬中文一體化醫學語言系統(CUMLS)中國醫學科學院醫學信息研究所醫學綜合有60 萬/30 萬/3 萬(敘詞)中醫藥一體化語言系統(TCMLS)中國中醫研究院中醫藥信息研究所中醫藥有60 萬/30 萬續表 1數據來源:imit 白皮書,統一的力量 臨床醫學術語標準化的展望,2016經驗之談:如何推進醫療健康信息互聯互通之數據質量管理與控制11 4.數據標準管理也應有 PDCA 循環數據標準管理也需要有一個持續改進的過程。簡單的講,就是數據標準的制定數據標準的執行(貫標)數據標準的評估(應用反饋)數據標準的持續改進,要形成一個閉環的工作機制。這也
36、應該成為數據標準管理系統的一個基本功能。的基礎數據嚴格約束了該類數據在本業務系統內的表達。這些約束對其他系統的相關數據無效,這一類相關數據其他系統有各自的約束條件。因此,這些基礎數據離開本系統參與與其他業務系統交互時,就會出現因為約束條件不一致而導致的語義表達不一致。這種語義表達不一致主要反映在編碼的不一致,因為絕大多數的基礎數據都是由一對”值+代碼(編碼)“構成,計算機在處理這一類數據時,往往使用其代碼(編碼)來進行運算。代碼不一致會導致計算結果的偏差,這是影響數據質量的最主要也是最重要的原因,而且沒有之一。也是數據校驗與數據稽核環節的一個目前解決得并不好的難題。為了保證不同業務系統的基礎數
37、據在參與交互(數據交互、信息共享、業務協同)時能夠取得語義表達的一致性(代碼一致),就需要對參與交互的基礎數據進行歸一處理(代碼對齊),即建立這些基礎數據的公共約束條件,這就是主數據標準。主數據一定是標準化的。主數據標準的編制要盡可能地利用既有而且比較成熟的國際標準、國家標準、行業標準,當然也要考慮因地制宜、因時制宜地設計一些自定義標準作為補充。主數據分類列目,可以便于主數據溯源及跟蹤管理。主數據標準分類列目的一些示例見圖 4:必須強調說明三點:1)上述示例僅僅是舉例說明,相關國際、國家標準、行業標準等不止這些類型,可供選擇的范圍是充裕的。2)對于同一個基礎數據,可供選擇參照的標準也往往不止一
38、個。作為平臺的主數據標準,原則上是選擇其中的一個。如果某些業務需要共享的基礎數據另有特別要求,也可以有限的設置少量的平行主數據標準,但圖 3 數據標準管理 PDCA 循環(二)主數據管理 1.什么是主數據?主數據指的是共享的基礎數據?;A數據指從信息資源中提取出來的最基礎的數據,是業務數據中相對固定、變換緩慢、被重復使用的核心數據。包括索引數據、標識數據、自然人數據、法人數據、機構數據、地理信息數據以及專業類術語與字典等。所有業務系統都有自己的基礎數據。建立這些基礎數據,是為了保證該業務系統運行過程中數據表達的語義一致性。尤其是專業術語與字典,用來規范醫療衛生事件中所產生的信息含義的一致性問題
39、,對于整體數據質量控制是關鍵性的一個重要環節。在業務系統中生產、傳輸、存儲、應用白皮書12第 25 期對這一些主數據標準必須有明確的標識,嚴格約束其應用場景。例如藥品名稱編碼,國家級的標準就有四五套,這些不同的編碼算法各自滿足不同部門的管理要求。3)選擇作為本級平臺的主數據標準時,要根據具體的應用需要,不要一味追求分級分層的過細的粒度。例如平臺必須管理的主數據項目行政區劃代碼,必須執行 GB/T 2260中國人民共和國縣級及縣級以上行政區劃代碼表。按照國務院行政區劃管理條例規定,行政區劃代碼由民政部門確定、發布。該標準對我國縣以上行政區劃的代碼做了規定,用六位阿拉伯數字分層次代表我國的?。ㄗ灾?/p>
40、區、直轄市)、地區(市、州、盟)、縣(區、市、旗)的名稱。行政區劃變更由國家民政部門建有的信息系統對該標準進行動態管理。GB/T 10114-2003縣級以下行政區劃代碼編制規則是關于 GB/T 2260中國人民共和國縣級及縣級以上行政區劃代碼表擴充與延拓的配套標準,由?。ㄗ灾螀^、直轄市)統計局負責編制。在實際工作中,大家都反映跟蹤縣級以下行政區劃代碼的動態變更遇到的困難比較多。這里不去分析討論形成這種困難的成因,因為我們無力改變這種狀況。我們只需要考慮如何在滿足平臺應用需求的前提下,控制適宜的粒度。因為分類越細,管理難度越大,與統計分析的效果不一定是正相關關系。我建議盡可能采用省衛統的相關標
41、準??h以下單位如果需要基于行政區劃做更細致的分析,可以根據縣級以下行政區劃代碼編制規則,自主選擇或制定本區域內的相關行政區劃代碼。在數據標準制訂時也提到過,數據標準的粒度設計要因地制宜、因時制宜,要適度。因為過細的分類分層粒度不但會使數據編制的制定維護增加難度,而且會使貫徹執行數據標準的難度也大大提高,反而影響數據質量。例如,各地開展的垃圾分類工作都遇到了一些困難,我認為與分類標準不易掌握有關。要區分干垃圾與濕垃圾難倒多少英雄好漢,有害垃圾和可回收垃圾有時也很難精確區分。江蘇省有個地方做得就很好,只分為易腐爛垃圾與不易腐爛垃圾兩類,大家反映容易掌握區分,那里的垃圾分類工作就開展得很好。2.數據
42、標準就是主數據嗎?至于大家問的比較多的關于主數據是不是就是數據標準的問題,行文到這里就應該比較清楚了。主數據標準是數據標準的一部分,如果是說數據標準是一個集合,那主數據標準就是這個集合的子集,兩者是包含關系。圖 4 主數據標準分類列目示例經驗之談:如何推進醫療健康信息互聯互通之數據質量管理與控制13那么主數據如何識別,如何進行標準管理,如何通過主數據管理來控制交互中基礎數據的一致性,基礎數據語義一致性?3.主數據管理中如何貫徹標準?制定數據標準后,能否有效的貫徹標準,將決定平臺的數據質量。本文試圖通過主數據管理的討論,來探索貫徹數據標準的方法。主數據標準是具有基礎性的數據標準,因此,主數據管理
43、是貫徹數據標準最有效、最基礎、最核心的方法??梢赃@樣講,如果平臺的主數據質量可控,那么平臺數據中心的數據質量就是可信、可用的。主數據是平臺共享的業務系統的基礎數據。對通過平臺交互,須執行同一標準的尚不屬于基礎數據的一些業務數據,即公共數據元,也可以采用主數據管理的方法,來保證交互過程中的一致性。4.主數據管理基本環節1)主數據識別匯集通過平臺交互的各業務系統的基礎數據,篩選出兩個以上業務系統共有的并參與交互的基礎數據,作為平臺主數據。其中比較重要的通過平臺注冊服務進行注冊與發布的主數據有:自然人主索引、自然人主數據,醫療衛生機構主數據,醫療衛生人員主數據和術語與字典。2)主數據標準化主數據標準
44、可以與平臺的數據標準同時制定或先后制定。作為主數據的元數據,至少在數據元標準和數據元值域代碼標準兩項與平臺的數據標準應該保持嚴格的一致。本質上,主數據標準是平臺數據標準的一部分。3)主數據注冊標準化的主數據要通過平臺的注冊服務進行注冊,通過平臺的發布服務進行發布。主數據的版本管理通過發布服務實現。自然人注冊服務形成一個自然人注冊庫,它是平臺上唯一的個人基本信息權威信息來源,用于醫療衛生信息系統確認一個自然人的身份,解決在跨越多個系統時居民身份唯一性識別的問題。醫療衛生人員注冊。為本區域內所有衛生管理機構的醫療服務提供者,包括全科醫生、??漆t生、護士、實驗室醫師、醫學影像專業人員、疾病預防控制專
45、業人員、婦幼保健人員及其他從事與居民健康服務相關的從業人員提供注冊服務。系統為每一位醫療衛生人員分配一個唯一的標識,并提供給平臺以及與平臺交互的系統和用戶所使用。醫療衛生機構注冊。為本區域內所有醫療機構,包括二三級醫院、基層醫療衛生機構、疾病預防控制中心、衛生監督所、婦幼保健所等提供注冊服務。系統為每個機構分配唯一的標識,可以解決居民所獲取的醫療衛生服務場所唯一性識別問題,從而保證在維護居民健康信息的不同系統中使用統一的規范化的標識符,同時也滿足區域衛生信息平臺層與下屬醫療衛生機構服務點層的互聯互通要求。建立術語和字典注冊。用來規范醫療衛生事件中所產生的信息含義的一致性問題。術語和字典由平臺管
46、理者組織實施統一的注冊、發布、更新維護。4)主數據訂閱平臺須提供主數據訂閱服務。通過平臺交互并須遵循平臺主數據標準的各業務系統均應訂閱,以及時獲取最新主數據標準版本,并通過對照實現與平臺主數據的同步更新與一致。5)主數據對照及可視化白皮書14第 25 期凡訂閱平臺主數據的業務系統,須對每一個相關基礎數據建立與平臺主數據的對照表,對照表必須可視化,以保證對照質量可控。6)主數據校驗對通過平臺進行數據交換、信息共享和業務協同的業務系統的基礎數據提供主數據依從性的評估。5.做好主數據管理的關鍵環節1)建立主數據管理機制由于主數據管理涉及許多行政與業務管理部門,要依托現有的行政及業務管理機制構建一個有
47、效的管理體系,并不是一件容易的事情。而僅僅依靠信息中心的力量是難以完成這項工作的。2)術語與字典主數據管理尤其是對照、校驗工作,對業務技能要求比較高,難度不可小覷。術語與字典往往是由代碼(或具有分類分層級功能的編碼)與名稱構成一對屬性標識的概念,其相關性評估具有挑戰性。數據本身是沒有意義的,數據只是個符號,數據必須賦予其含義才有意義。數據的含義是語義,語義是數據在某個領域的解釋和邏輯表示。語義具有主觀性和領域性特征,語義對齊是消除同一事物在不同人、不同領域之間理解不同的語義異構的必要過程。用代碼或編碼來標識一個概念,是語義對齊的一種方法,也是制定數據元值域代碼的初衷。然而,實踐中一個代碼或編碼
48、標識的概念往往是一個集合,這個集合的邊界很難精準。因此,判斷代碼或編碼標識的對象,是否歸屬于某概念的集合不是一件容易的事情?,F在,絕大多數地方采用校驗代碼或編碼是否在該值域代碼列表中的方法,來進行術語與字典的值域代碼校驗。這個方法是不可靠的,因為技術上很容易通過改變代碼或編碼來通過校驗,而這恰恰是數據造假的行為,會嚴重影響數據質量,使得數據不可信、不可用。尤其是在使用術語與字典的代碼或編碼進行統計分析等計算應用場景,數據質量將呈現整體不可用。本體論、知識圖譜、語義網、自然語言處理、語義距離計算、語義適配等,是解決以上問題的可以選擇的技術路線,希望有更多的研究機構與企業能夠開展研究,提供相關服務
49、。(三)主索引管理 1.居民主索引與居民主數據、居民基本信息是一回事嗎?在市區縣區域衛生信息平臺建設實踐中,經常會遇到居民主索引與居民主數據、居民基本信息三個概念。醫院信息平臺建設中也會遇到患者主索引與患者基本信息的采集問題。這些概念之間應該是什么關系?這是一個必須認識清楚的基本問題,也是提高數據質量的一個具有關鍵性的根本環節。1)什么是居民主索引?這里所指的居民,包括區域衛生信息平臺覆蓋的行政區劃范圍內所有的自然人。這里強調“所有”,包括也在平臺注冊的“機構人員”,雖然機構人員是提供醫療衛生服務的主體,但也是接受醫療衛生服務的客體。個人注冊服務是指在一定區域范圍內形成一個個人注冊庫。個人的唯
50、一身份標識號及基本信息以“居民主索引”被區域衛生信息平臺安全地保存和維護著,為區域內醫療就診及公共衛生相關的業務系統提供人員身份識別功能。平臺建立與管理的居民主索引是唯一的經驗之談:如何推進醫療健康信息互聯互通之數據質量管理與控制15權威信息來源,用于醫療衛生信息系統確認一個人是某個居民或患者,解決在跨越多個系統時用到居民身份唯一性識別問題。居民主索引的注冊服務是區域衛生信息平臺正常運行所不可或缺的。通過平臺的注冊服務建立居民主索引的工作應該由區域平臺統一組織完成,供各醫院、社區和公共衛生機構來使用。為了保證居民主索引的穩定性,減少維護難度,居民主索引的組成要素應該盡可能的穩定并簡約。建議由居
51、民身份識別號、身份識別證件類型、姓名、性別、出生年月日、手機號碼組成,不宜采用過多的要素。有些地方直接采用身份證號碼作為主索引 ID,方法簡便,但是不易解決各類沒有身份證的人員注冊。性別、出生年月日雖然身份證號碼內含,但可以方便統計及年齡換算,同時還可以檢驗身份證號碼采集是否有誤。有些地方將以上要素運用哈希算法生成一組十六進制的哈希值作為主索引 ID。因為無法從哈希值倒推出注冊要素,信息安全更有保障。尤其是對一些因為種種原因沒有取得居民身份證的自然人,可以作為一種平臺可管理的統一規則的唯一身份標識。主索引 ID 是否綁定手機號碼,有利有弊。綁定的手機號碼有可能變更,對于哈希值主索引 ID,會導
52、致哈希值面目全非,盡管可以通過交叉索引解決哈希值主索引 ID 的繼承。對于身份證號碼主索引 ID,這個問題不存在,因為現在的手機號碼都綁定身份證號碼,但是否有例外,不好說。因此,是否將手機號碼作為主索引元素之一,是需要認真考慮的。講一句多此一舉的話,主索引必須通過交叉索引與居民主數據及居民基本信息關聯,以滿足各種應用需要。2)什么是居民主數據?除了主索引要素,還有一些居民的基本信息,比如家庭地址、職業、文化程度等,在平臺交互過程中需要保持一致并且可以共享的數據,稱為居民主數據。居民主數據也應該由區域衛生信息平臺統一管理,并盡可能地成為唯一的個人基本信息來源。篩選居民主數據的原則是數據相對穩定,
53、各業務系統共享程度高,在交互活動中必須保持一致為選擇條件。3)什么是居民基本信息?除了以上屬于居民主索引和居民主數據的內容以外,還有一些也是反映居民個人屬性的數據。這類數據有比較強的業務歸屬特性、共享程度不高,在交互活動中不必保證與平臺的一致或基本上不參與交互。如,居民健康檔案的居民基本信息、醫療機構的患者基本信息等數據集中沒有納入居民主數據和居民主索引管理的部分數據。因此,居民基本信息是一組平行的數據集,滿足不同業務的特定需要,但又在“居民主索引+居民主數據”約束下,最大程度的保證了平臺交互的數據一致性,從而保證平臺的數據質量。2.處理居民主索引、居民主數據、居民基本信息的準則 居民基本信息
54、應該包括居民主索引和居民主數據的數據。居民主數據應該包括居民主索引的數據。醫療機構的患者主索引及患者基本信息中的部分內容應該取自于(至少是遵循)區域衛生信息平臺的居民主索引和居民主數據。白皮書16第 25 期(一)數據質量管理與數據質量控制有區別嗎?我認為數據質量管理首先是一種質量意識,即數據也有質量問題,數據的質量會影響數據的價值。數據質量是需要管理的,研究數據有哪些質量問題?這些質量問題往往表現在什么地方?這些質量問題是怎樣形成的?怎樣來改善這些問題?這些都屬于數據質量管理范疇。數據質量控制是高階問題,即在數據管理的基礎上,如何建立一種可靠的機制,從而把數據質量控制在設計范圍之內。(二)如
55、何進行數據質量控制?前面討論的內容基本上屬于數據質量管理問題,而下面用一些問題來表達我們對于數據質量控制的觀點,引發大家的思考。1.校驗工具能夠解決多少數據質量問題?采集、匯聚的數據入庫以前一般都要進行校驗,建議認真檢查一下校驗規則,其中有些校驗規則有否可靠的測量方法?實踐經驗告訴我們,目前使用的校驗方法不能完全解決數據質量問題,有些目前無法進行有效測量的校驗規則,可能正是嚴重影響數據質量的關鍵指標。2.通過校驗的數據是否還需有后置的數據質量稽核?校驗一般指某一個環節的數據質量管理。數據質量稽核是全局性、全過程的質量監控。比如從數據完整性、一致性、準確性等方面依次對 DW 層(數據倉庫,中間層
56、)數據進行稽核,層層推進,環環相扣,以保證獲取層、基礎層、衍生層、復合指標層、應用層的數據質量。3.作為數據質量控制的一個極其重要的方面,數據元值域代碼是否符合數據標準有辦法稽核嗎?這或許就是上述提到的“目前無法進行有效測量的校驗規則,可能正是嚴重影響數據質量的關鍵指標?!庇须y度,但是必須解決,必須去做!4.如何評估數據質量數據質量指標體系設計要點至少應該包括以下指標:數據完整性:數據是否存在缺失記錄或者缺失字段。數據及時性:數據的產生以及供給是否及時。數據有效性:數據是否滿足用戶定義的約束條件或者是否在一定的取值范圍之內。數據準確性:數據是否與其對應的客觀實體特征保持一致。數據一致性:同一實
57、體同一屬性的數據在不同的系統中是否一致。5.怎么才能夠實現“一點錄入,多處共享”數據資產目錄的作用之一這里涉及數據資源目錄與數據資產目錄的區別。數據資源目錄只是一種粗放的以目錄方式記錄數據資源清單的方式,數據資產目錄是數據質量管理乃至數據質量控制居于中心環節的管理控制手段。6.統計分析指標也需要標準化嗎?答案應該是明確的,必須標準化。如何標準化是需要設計的。設計要點包含但不限三、關于健康醫療數據質量控制的思考經驗之談:如何推進醫療健康信息互聯互通之數據質量管理與控制17于統一標識符、名稱、定義、使用范圍、統計口徑、算法、計算引用數據的約束、例外聲明等。7.數據質量管理與控制體系架構設計要點1)
58、數據質量管理與控制需從采集表編制開始數據質量管理與控制活動應該從源頭開始,在這里我們把源頭定義為數據采集。健康醫療數據具有多源、異構、分散、復雜、海量的特點。如果忽略了多源的特點,由于某一個數據元在許多應用系統及數據表里都有(但是往往是不一致的),很可能因為采集定位的錯誤,導致數據質量一開始就是失控的。因此,數據質量管理與控制需從采集表編制開始。編制采集表,要解決好采集表里的數據元與平臺數據標準、主數據標準保持一致的機制。元數據標準在編制數據資產目錄時要發揮作用。數據標準、主數據標準、元數據標準與數據資產目錄形成四位一體,聯動的有機體。這點非常重要,一開始就要有這個意識。同一個數據在這四個地方
59、必須完全一致。一個地方發生變化,另三個地方同步發生同樣的變化。2)數據資產目錄是數據質量管理乃至數據質量控制居于中心環節的管理控制手段數據資產目錄只管理具有資產價值的平臺數據。表達一個數據資產目錄下一個具體的數據,至少要有以下內容:數據資產目錄ID,數據元統一標識符,數據元標準,數據元值域代碼標準,元數據標識符,數據倉庫物理存儲位置,查詢及調用接口參數,指標庫、數據集市主題庫數據集等引用記錄,變更記錄,生成記錄等,并在實踐中逐步完善。今后,應用需要增加一個采集數據,首先是查看數據資產目錄,如果目錄里有,就直接引用,無須重復增加采集,真正做到一點采集,多處使用。如果目錄里沒有就增補采集,同時該數據添加進入數據資產目錄,并同步主數據標準,數據標準。采集表編制貼近業務系統邏輯,數據集市主題庫數據表貼近應用,數據庫表居中,聯系兩頭。以數據資產目錄為綱,引導數據標準(包括數據集,數據元,數據元值域代碼),主數據建立一個閉環的自洽系統。數據采集表,數據庫存儲表,數據集市主題庫各種具體應用都是通過與數據資產目錄互操作產生,因此,整個數據環境實現閉環的邏輯自洽,從而實現數據質量的控制。3)數據質量管理與控制體系的應用場景試以流程圖來描述表達數據從采集到應用的一個閉環的自洽過程:圖 5 數據標準體系應用框架