中船信息:非結構化數據管理知識與實踐白皮書(2023版)(78頁).pdf

編號:125410 PDF 78頁 12.99MB 下載積分:VIP專享
下載報告請您先登錄!

中船信息:非結構化數據管理知識與實踐白皮書(2023版)(78頁).pdf

1、非結構化數據管理知識與實踐(2023版)2023年4月上海鴻翼軟件技術股份有限公司中國電子技術標準化研究院北京中船信息科技有限公司華迪計算機集團有限公司北京數科網維技術有限責任公司福昕鯤鵬(北京)信息科技有限公司北京點聚信息技術有限公司友虹(北京)科技有限公司永中軟件股份有限公司參編單位編寫組成員張群羅永秀黃永莊王雷周兆鋒劉賽賽王長勝尹卓姚寶敬任歌呂艷靜方俊徐志東曹幼林閆述陳亞軍張程張治楊吉云龍凌云張凱彭革非劉丹陸猛梁勇版權聲明版權聲明本白皮書版權屬于上海鴻翼軟件技術股份有限公司、中國電子技術標準化研究院,并受法律保護。轉載、摘編或利用其它方式使用本白皮書文字或觀點的,請注明:“來源:電子文件

2、管理推進聯盟”。違反以上聲明者,將追究其相關法律責任。目錄1.前言.12.非結構化數據管理.31.前言.12.非結構化數據管理.32.1.非結構化數據定義及特征.32.2.非結構化數據管理的發展歷程.42.3.OFD歸檔用電子文件的標準格式.73.非結構化數據管理體系.103.非結構化數據管理體系.103.1.數據管理能力成熟度模型.113.2.非結構化數據應用分級要求.133.3.非結構化數據戰略與頂層設計.193.4.非結構化數據治理.213.5.非結構化數據管理.223.6.非結構化數據價值.334.非結構化數據管理解決方案.384.非結構化數據管理解決方案.384.1.非結構化數據管理

3、與 ECM 企業內容管理.384.2.ECM 內容管理成熟度模型 CM.414.3.ECM 內容管理平臺架構.434.4.ECM 內容管理核心技術.464.5.新一代 ECM 平臺的發展方向.515.非結構化數據管理應用實踐.545.非結構化數據管理應用實踐.545.1.非結構化數據管理應用類型.545.2.非結構化數據管理應用實踐.566.結束語.746.結束語.74非結構化數據管理知識與實踐(2023 版)11.前言1.前言數據,是當今時代企業生產生存的命脈。企業的持續經營必將產生大量數據,而海量的數據也無時不刻地在影響著企業的經營。無論是在企業的戰略層面還是執行層面,數據管理對于企業決策

4、都具有舉足輕重的作用。在戰略層面,基于數據管理能夠有效梳理企業數據資源,支撐企業優化戰略決策,提前洞悉業務中存在的潛在問題,把握市場,拓展機遇,搶占競爭先機;而在執行層面,通過數據管理能夠幫助企業解決現有業務中的數據責權不清、數據標準不明、管理流程混亂、數據質量低下等常態問題,形成標準化的數據利用流程,提升運營效率,培養企業的核心競爭力。2018 年,全國信息技術標準化技術委員會大數據標準工作組組織制定的 GB/T 36073-2018數據管理能力成熟度評估模型(以下簡稱 DCMM)國家標準正式發布。在推動 DCMM 國家標準落地應用過程中,當前部分企業已經逐漸形成對數據的管理意識,并陸續開展

5、數據管理相關工作。因此,發布 DCMM是順勢而為,旨在指導國內企業的數據管理建設與數據文化培養,為企業數字化基礎設施的形成與完善提供方向與建議。根據調查顯示,企業數據管理工作目前側重于結構化數據的管理,已經形成了多種針對企業業務中產生的結構化數據進行管理的專業軟件,能夠以體系化、動態化、甚至智能化的手段,對企業內的結構化數據進行高成熟度的管理。然而,相比之下,企業針對文檔、圖片、音視頻等非結構化數據的管理方面仍投入不足。這些文件充斥在企業的存儲系統與員工日常辦公中,大部分企業卻依舊處于非結構化數據的局部建設或者初步建設階段。一方面,大部分企業尚未認識到非結構化數據管理的重要性;另一方面,缺乏成

6、熟的非結構化數據管理知識與實踐(2023 版)2非結構化數據管理體系和工具的支撐,也缺乏針對非結構化數據實踐的專門標準。為此,上海鴻翼軟件技術股份有限公司、中國電子技術標準化研究院聯合北京中船信息科技有限公司、華迪計算機集團有限公司,以及北京數科網維技術有限責任公司、福昕鯤鵬(北京)信息科技有限公司、北京點聚信息技術有限公司、友虹(北京)科技有限公司、永中軟件股份有限公司等電子文件管理推進聯盟會員單位,共同開展對非結構化數據管理相關的技術、應用以及標準化的研究探索工作。作為 DCMM在非結構化數據領域的補充與細化,本白皮書立足于非結構化數據管理應用實踐,結合 DCMM國家標準體系框架,提出了非

7、結構化數據管理能力分級評價模型非結構化數據管理能力分級評價模型,并形成以內容管理成熟度模型 CM為核心的非結構化數據管理解決方案,是鴻翼及電子標準院前期累積的重要研究成果。本白皮書的發布,一方面是為了呼吁各界加強對非結構化數據管理技術、應用及標準化工作的關注,增強社會面的非結構化數據管理意識;另一方面旨在通過分享前期研究成果,支撐各行業及企業開展非結構化數據管理體系建設,實現產業數據管理能力的全面提升。而 2023 年的新版本,則是基于行業近幾年的研究重點,聚焦非結構化數據相關的新舉措、新實踐、新里程碑,對本白皮書進行了更新、勘誤、充實。希望本白皮書能夠與時俱進,幫助企業精準定位自身非結構化數

8、據管理水平,以正確的手段實現企業數字化轉型的目標。本白皮書由上海鴻翼軟件技術股份有限公司和中國電子技術標準化研究院共同組織編寫并更新。非結構化數據管理知識與實踐(2023 版)32.非結構化數據管理2.非結構化數據管理2.1.非結構化數據定義及特征2.1.非結構化數據定義及特征非結構化數據是指未通過數據模型預先定義的數據,包括關系數據和模型數據。在企業的整體數據架構中,非結構化數據往往是指不適合用數據庫二維關系邏輯表來表現的數據,包括所有格式的辦公文檔、標準通用標記語言下的子集、各類報表、圖像和音頻視頻文件以及工程圖文檔信息等,約占企業數據存儲量的 80%。存儲在計算機系統中的數據被分為結構化

9、數據和非結構化數據。結構化數據與非結構化數據在數據對象、數據格式、時間維度、存儲形式、增長速度、信息含量、數據價值等方面存在明顯差異,具體如表 1 所示:表 1 結構化數據與非結構化數據特征差異表 1 結構化數據與非結構化數據特征差異結構化數據結構化數據非結構化數據非結構化數據數據對象數據對象結構化數據以關系型或單一數據屬性,如:銀行卡號、日期、財務金額、電話號碼、地址、產品名稱等作為數據對象非結構化數據以內容或本體,如文件、圖像圖形、音視頻、郵件、報表、網頁、各種紙本等作為數據對象數據格式數據格式強調基于表格的關系型數據值格式類型,如:字符型、整型、日期型、數值型等由于非結構化數據較多體現在

10、無模式、自描述的文件及內容,其數據格式更為多樣,如:png、jpg、mp4、doc、ofd、pdf 等各種類型時間維度時間維度結構化數據的以單一數據屬性為主,需要構建關聯,呈現分析結果,應用時效性較短非結構化數據以文件和內容為主,信息量較大,應用時效性會更長存儲占比存儲占比在企業日常運營產生的數據中,結構化數據占存儲數據總量的 20%在企業日常運營產生的數據中,非結構化數據占存儲數據總量的 80%存儲形式存儲形式結構化數據通常僅存儲在軟件應用系統和數據倉庫中非結構化數據的存儲端多樣,可以儲存在個人電腦、服務器、應用系統、文件柜或檔案室等終端以及數據湖為代表的大數據平臺中非結構化數據管理知識與實

11、踐(2023 版)4增長速度增長速度通常結構化數據占業務數據增長量的 20%通常非結構化數據占業務數據增長量的80%信息含量信息含量結構化數據需要結合上下文語義呈現信息,信息量較小,著重體現在定量數據和關鍵的業務信息非結構化數據所包含的信息量較大,可以擴展至情感性、描述性、文檔性等更為廣泛的信息數據價值數據價值結構化數據的價值主要體現在假設、明確或已知的數據分析價值非結構化數據價值擁有更廣泛的、探索性、數據挖掘等未知的數據洞察價值綜上所述,非結構化數據與結構化數據是兩種差異巨大的數據類型,隨著大數據存儲和計算能力的增強,非結構化數據由于其豐富的信息量,相較結構化數據擁有更大的數據資產化價值空間

12、。組織應注重非結構化數據在數據管理中的有效管理,著重針對非結構化數據的無序性、分散性開展價值挖掘,對缺乏規則化的非結構化數據,尤其是對分散在個人電腦、服務器、各種應用程序及大數據存儲中的非結構化數據開展全面的治理,進一步發揮非結構化數據的資產化價值。2.2.非結構化數據管理的發展歷程2.2.非結構化數據管理的發展歷程數據管理的起始可以追溯到 20 世紀 60 年代的數據庫技術,當時計算機已經開始在商業環境下獲得應用,文件是數據存儲的主要介質。文件的存儲和訪問成為數據管理的核心需求,這也可以看作非結構化數據管理的最初階段。20世紀 90年代初期,隨著無紙化辦公技術的發展,傳統紙質文檔逐步轉換為電

13、子化文檔,這個時期企業開始構建電子文檔庫、數字圖書館、數字檔案館,非結構化數據管理體現為對這些數字化文非結構化數據管理知識與實踐(2023 版)5檔的管理。2000 年以后,隨著互聯網技術的發展,非結構化數據率先體現在以 WEB 網頁為主的內容管理上,隨著網站技術的發展,出現了網頁內容管理(Web Content Management),這個時期電子商務、電子政務系統也隨之快速發展。2005 年以后,隨著企業信息化的不斷深入,非結構化數據融入到業務場景中,企業業務流程系統承載了大量文檔、圖表、報告、音頻等形式的非結構化數據。對這類數據的管理需求促進了 ECM 企業內容管理(Enterprise

14、 Content Management)的出現,隨著 ECM的出現,非結構化數據開始與業務場景深度融合,發揮出了更大的價值。2010 年以后,隨著云計算,物聯網、移動互聯網和大數據的不斷發展,非結構化數據呈現形式更為多樣,如:影像文件、視頻文件、工程電子文檔、ISO 質量電子文檔等,這個階段 ECM 企業內容管理和非結構化數據應用的發展也越來越趨于規?;?。2015 年以后,隨著人工智能技術的成熟與普遍化,非結構化數據開始向著內容服務自動化、文本挖掘、語義分析等方向發展,并形成了非結構化數據管理體系下的內容服務中臺化和內容服務智能化。從上述非結構化數據發展歷程可以收獲以下幾點:一、非結構化數據是

15、隨著計算機應用的發展不斷豐富起來的,因此任何時代,技術發展都是動力。二、非結構化數據管理的發展歷程是非結構化數據逐步從離散文件升級至內容,形成統一的內容服務平臺,并進一步構建起融合業務的知識體系,其本質上大大提高了生產運營效率和業務創新能力;三、多層次的非結構化數據平臺提供了更為上非結構化數據管理知識與實踐(2023 版)6層的內容服務,屏蔽了下層的技術實現細節,能夠更快速準確地響應業務場景化需求。因此,隨著數字數據管理的成熟,一股專注于非結構化數據管理的浪潮也在悄然崛起,以非結構化數據為研究與發展的重心,掀開了非結構化數據管理的篇章。國際上,1990 年,Documentum 公司成立,成為

16、了第一家利用標準關系型數據庫技術以及面向對象方法提供企業級文檔管理解決方案的公司;2000 年左右,以電子商務和電子政務為代表的門戶網站的發展帶來了網頁內容的指數級增長,促進了網頁內容管理的成熟與發展;2002 年,Documentum 公司正式發布 ECM(企業內容管理)產品;2006 年,微軟發布 Sharepoint Portal Server;2010 年,OpenText發布;2010 年后,云計算、移動互聯網、大數據的新技術改變了 ECM的形式與內容,ECM的內涵與外延不斷更新。放眼國內,從 2002 年起,航空、核電和工程領域的國際 ECM一線廠商開始進入我國,在這些行業內,率先

17、掀起了 ECM的潮流:2008 年,上海鴻翼軟件技術股份有限公司發布國內首款完整ECM產品“鴻翼 edoc2 ECM”;2009 年,拓爾思信息技術股份有限公司針對政府和金融領域推出 WCM 產品;2010 年,信達雅系統工程股份有限公司在金融領域推出 ECM影像管理產品;非結構化數據管理知識與實踐(2023 版)72016 年之后,以聯想企業網盤、石墨文檔等為代表的應用層的網盤和功能更全面的 ECM 出現,ECM 系統中的文檔協同和服務能力不斷提升;2017 年開始,人工智能(AI)逐漸開始與 ECM 系統進行融合,企業開始利用人工智能手段,賦能非結構化數據管理;2020 年開始,中國 EC

18、M 行業產品平臺化趨勢顯現,以鴻翼為代表的 ECM平臺開始成熟,基于平臺的應用開始在各行業爆發式增長,是為“中國 ECM元年”。2.3.OFD歸檔用電子文件的標準格式2.3.OFD歸檔用電子文件的標準格式圖文類文檔是非結構化數據的常見類型之一,因為貼近決策閱讀,這類文檔中蘊含著巨大的有用信息。按照是否可以編輯,可以把圖文類文檔分為流式文檔和版式文檔。流式文件支持在任意位置自由編輯,編輯后會按照流式灌排的方式進行版面重新計算與繪制,由于排版計算受操作系統、軟件實現版本等影響較大,流式文檔可能會出現不同的軟件和操作系統平臺上內容效果不一致的現象,又稱“跑版”。流式文件一般包含章節、表格、段落、句及

19、圖文對象等元素,上述各個層級的對象都有其獨特屬性。這些內容會按照一定的層次結構進行的描述方式構成流式文件的格式。依托合適的流式文檔軟件(如 WPS、Office),文檔擁有者可以對文件的內容進行編輯、添加、刪除等操作,連接文檔服務進行輔助校對和創作,并且在此過程中可與其他編輯者協作,是常用的文件類型。而為了保證文檔在各種軟硬件環境下的顯示、打印等效果高度精準一致,版式文件應運而生。版式文件是版面呈現效果固定的電非結構化數據管理知識與實踐(2023 版)8子文檔,文檔內容的分頁、換行和圖元位置都在文檔中直接紀錄,在各種設備上閱讀、打印或印刷時,可直接讀取和使用位置信息,不依賴排版計算確定,因此文

20、檔的呈現效果高度穩定。版式文檔主要應用于成文后文件的發布、傳播和存檔,如商務文檔、電子公文、電子憑證等。此前,PDF(Portable Document Format)是版式文件的代表實現,經歷近了 40 年的發展,在全球范圍多個行業內大量應用,已成為了國際標準(ISO 32000-1:2008)。國內對文檔應用有許多獨特的應用需求,例如應用國產密碼、分段標密或保護、結構語義保留等,由此誕生了許多基于自定義格式或 PDF 的定制應用方案,滿足局部需求的同時,也使得國內的版式文檔管理更加復雜,為了在應用上兼容各方需求,在技術上統一文檔格式,在管理上合理歸并冗余,在產業上凝結行業共識,迫切需要出臺

21、版式文檔格式方面的國家標準。2016 年 10 月 13 日,國家標準電子文件存儲與交換格式版式文檔(GB/T 33190-2016)正式發布,OFD(Open Fixed-layout Document)由此誕生。與 Adobe公司的 PDF 相比,OFD 是我國自主研發的文檔格式國家標準,除了可以媲美國際標準的文檔靜態和動態特性描述能力,在安全性和易用性等方面進行了獨特的技術創新。OFD 擯棄了老舊的二進制描述方式,采用 XML 描述文檔內容和“ZIP+”方式聚合文檔數據,真實地保持文檔中原有的文字、圖標、公式等版式信息,描述更簡潔、信息集成度更高,形成了顯著的比較優勢。OFD采用了文檔原

22、始內容與附加內容分離保存的策略,有利于相關內容的區分簽名及保護,在應用中作為責任區分憑證中發揮獨特作用。在文檔安全層面,OFD 設計了標準接口內置支持 SM2/SM3 等國產密碼,對國外算法也具有很好的適配性,進而全面支持 GB/T非結構化數據管理知識與實踐(2023 版)938540、GB/T 35275 等國密算法的簽章和簽名標準。OFD 設計了元數據、附件、自定義標引等豐富的擴展機制,鼓勵在版式文檔中攜帶業務源頭的結構化數據,實現了多源異構數據融合,在支持發票、證照和公文深入利用中發揮了獨特作用。最后,OFD 未引入動態表單和腳本,更加聚焦于版式文檔的優勢和職責,切斷了病毒與木馬的通過文

23、檔腳本污染數據、感染系統的路徑,消除了最大的文檔安全性隱患。OFD 作為一種后發技術和文檔格式,針對 PDF 格式“是文檔的墳墓”(意指信息進得去難出來)和對信息安全關注不足等兩大痛點做了專門的重新設計和改進,是統一圖文類文檔格式,消除行業和系統壁壘,提升非結構化數據管理效率的“利器”。OFD 發布以來,在機關辦公、政務服務、財稅管理等重要領域應用,以公文、證照、發票、回單等不同業務形態,在優化業務應用、凝聚產業力量、防止技術壟斷和保障數據安全方面發揮了重大作用。OFD 作為版式文檔領域的新生力量,發展空間巨大,近年來先后發展了黨政機關電子公文、電子證照、可入賬電子憑證等應用標準,但是網購、保

24、險、金融、企業管理等領域中仍有巨量的電子文件亟待規范化,生產制造、建筑、水利、交通、測繪等領域的專業電子文件則更加具有挑戰性。在產業方面,專業技術廠商和開源社區同步發力,除了專用軟件外,微信等通用平臺對自主格式支持也在加大,應用方獲得相關技術支持的門檻降低、服務質量卻在不斷提升。依托于自主可控的文檔格式標準,充分發揮其對于內容管理的友好特性和數據安全特定,在關鍵基礎技術自主、供應鏈韌性和網絡安全得到空前重視的大背景和大環境下,在業務系統應用自主文檔格式,通過其實現更懂業務、更高效率和更安全的非機構化數非結構化數據管理知識與實踐(2023 版)10據管理,是大勢所趨,更是時代的“必答題”。3.非

25、結構化數據管理體系3.非結構化數據管理體系組織構建非結構化數據管理體系,需要基于頂層設計及戰略開展非結構化數據治理,落實非結構化數據管理的各項職能活動,最大程度開發非結構化數據的資產價值。非結構化數據管理體系(如圖 1 所示)由五大核心方面及十六個重點領域組成。其中核心領域包括:(1)非結構化數據頂層設計及戰略;(2)非結構化數據管理能力成熟度;(3)非結構化數據治理,包括組織與職責、制度與流程、評估與審計和數據文化;(4)非結構化數據價值,包括非結構化數據協作、非結構化數據流轉、非結構化數據服務和非結構化數據洞察;(5)非結構化數據管理,包括非結構化數據集成、非結構化數據標準、非結構化元數據

26、管理、非結構化數據質量、非結構化數據安全和非結構化數據合規。非結構化數據管理知識與實踐(2023 版)11圖 1 非結構化數據管理體系框架其中非結構化數據價值體系與非結構化數據管理體系之間能夠起到相互促進的作用,完善的非結構化數據價值體系能夠推動企業非結構化數據管理體系的逐層建立與制度完善,而企業的非結構化數據管理體系的規劃從某種程度上來說,也是對其非結構化數據價值體系的體現和落實。3.1.數據管理能力成熟度模型3.1.數據管理能力成熟度模型能力成熟度模型(Capability Maturity Model)最初源自軟件開發管理程序,由美國卡耐基梅隆大學軟件工程研究所于 20 世紀 80年代提

27、出。這一模型將軟件開發劃分為五個成熟度級別,除了初始級(第一級)以外,每個級別都由關鍵的過程域組成。關鍵過程域能夠標識組織應該關注的領域,以改進軟件開發過程。每個關鍵過程域分為五個部分,稱為共同特征。共同特征指定了關鍵實踐,當這些關鍵實踐被實行,就可以實現關鍵過程域的目標。非結構化數據管理知識與實踐(2023 版)12能力成熟度模型認為軟件開發并不是一蹴而就的過程,需要組織首先明確工作開展的方向以及工作的優先級順序。因此,每個成熟度級別都對應著持續改進過程中組織達到的全新階段。根據能力成熟度模型架構,組織可以標準化、模塊化地判斷軟件當前的成熟度,并將其與行業內其他組織的實踐狀態進行橫向對比。同

28、時,組織也可以使用能力成熟度模型來制訂軟件開發的改進規劃。因此,借鑒國內外成熟度相關理論思想,數據管理成熟度模型(DCMM)涵蓋了數據戰略、數據治理、數據架構、數據標準、數據生存周期、數據應用、數據質量、數據安全共 8 個方面(能力域)(如圖 2 所示),并根據數據管理過程的有效性、完整性、協調性等因素,劃分了各能力域及整體數據管理能力的 5 個成熟度等級,給出了不同成熟度等級的指標要求,旨在為企事業單位評估和持續改進自身數據管理能力提供科學指引。圖 2 DCMM 數據管理能力成熟度模型DCMM 著眼于數據管理領域,旨在規范和引導組織的數據管理過程,遵循能力成熟度模型的基本理念和結構,再進一步

29、細分關鍵非結構化數據管理知識與實踐(2023 版)13過程域,以區分不同成熟度水平。此外,該模型定義了一系列指標,從而指導組織開展數據管理現狀評估,組織可以在數據管理實踐方面結合自身關注的領域,選取相關數據管理領域開展評估,不同的數據管理域內所包含的關鍵要素也不盡相同。3.2.非結構化數據應用分級要求3.2.非結構化數據應用分級要求3.2.1 DCMM 在非結構化數據領域的細化與補充3.2.1 DCMM 在非結構化數據領域的細化與補充基于非結構化數據自身的特征與相關軟件產業的發展程度,不難發現與結構化數據相比,非結構化數據的管理與應用的發展整體較為滯后。這不僅因為其每年超數據總量 80%的增長

30、速度,更因為其蘊含著極其豐富的信息和知識,以結構化數據的常規與評估管理方式無法精準地對企業的非結構化數據應用管理能力進行評判。因此,非結構化數據應用能力分級模型基于 DCMM數據管理能力成熟度模型的五個成熟度等級構建,參照 DCMM給出的數據管理能力成熟度模型與等級,并且考慮到非結構化數據特征、組織在非結構化數據管理領域的具體實踐,構建起了一套完整的非結構化數據應用能力的評判標準,而對應的非結構化數據管理能力成熟度級別體現為:“初始級”的文件零散化;“連接級”的內容協作;“可度量級”的內容統一管理;“融合級”的內容服務與“智能級”的內容智能等特征(如圖 3所示)。非結構化數據管理知識與實踐(2

31、023 版)14圖 3 非結構化數據管理成熟度解決方案3.2.2 非結構化數據應用分級要求3.2.2 非結構化數據應用分級要求非結構化數據應用分級要求中規定了非結構化數據應用的能力模型與分級要求,主要包括管理制度、管理技術、業務支持、決策支持和安全合規 5 個能力域,適用于企業與組織的非結構化數據應用能力的評估。非結構化數據管理知識與實踐(2023 版)15圖 4 非結構化數據應用能力模型根據該模型,能夠對企業非結構化數據的管理與應用能力進行全面的分析與評估,通過判斷組織的每個維度處于哪個階段,將組織的非結構化數據應用能力分為五個等級:a)第一級初始級初始級,組織機構基本上不存在有組織的非結構

32、化數據管理;b)第二級連接級連接級,非結構化數據管理在組織機構內初步發揮作用;c)第三級可度量級可度量級,非結構化數據管理與組織機構的業務系統深度結合;d)第四級融合級融合級,利用各類數據來輔助工作成為組織機構文化的一部分,并且這種文化沿著供應鏈外延到上下游合作伙伴;e)第五級智能級智能級,組織機構內業務全面實現數字化轉型。每個等級都會分別對企業、組織的五大能力域進行評判,并給出相應的描述與特征,方便企業管理者對自身現階段非結構化數據應用管理能力有一個清晰的認知,從而調整自身的非結構化數據戰略,對于薄弱環節進行加固與重視,幫助企業提升其非結構化數據管理能力,平穩地過渡到非結構化數據管理建設的更

33、高層級。非結構化數據應用分級包括的五個階段具體描述如下:第一級:初始級第一級:初始級 非結構化數據管理和相關系統在組織機構內不存在或者未充分發揮作用,應符合如下特征:a)組織機構內非結構化數據管理的機構、制度和資源配置尚不完善;非結構化數據管理知識與實踐(2023 版)16b)組織機構內各項業務離散程度較高,主要依賴傳統的資料傳閱等方式實現業務協同;c)非結構化數據管理工具和系統裝備簡單,缺乏成體系的數據管理活動;d)非結構化數據管理對組織機構內業務生產、經營和決策的支撐能力較弱;e)主要依賴物理隔離實現訪問控制和安全存儲。第二級:連接級第二級:連接級 非結構化數據管理和相關系統在本機構的業務

34、經營和決策過程中發揮了作用,應符合如下特征:a)組織機構內建立了非結構化數據管理制度,并對全員進行了適當培訓;b)各類文件在所屬業務、主題和操作環境等維度建立了關聯;c)裝備了非結構化數據管理系統,內外數據和文件可在必要時以全內容形式對本機構內提供服務;d)通過非結構化數據管理系統的權限配置和集中管控來控制安全風險。第三級:可度量級第三級:可度量級 非結構化數據管理與業務系統深度結合,在本機構生產經營決策過程中發揮了基礎作用,應符合如下特征:a)數據和文件作為重要資產納入本機構發展戰略,在治理結構中占據重要地位;b)大多數業務活動通過信息系統開展,數據和電子文件業務伴生、網狀聯絡的特征明顯;c

35、)建立了機構內部的非結構化數據管理系統,部分內外數據在非結構化數據管理知識與實踐(2023 版)17系統內統一管理,管理的顆粒度精細到文件以下;d)非結構化數據管理系統中數據可較為全面地反映本機構運營情況,數據和文件在經營決策中發揮重大作用;e)采用邊界檢測、內容安全等一系列技術手段強化非結構化數據管理系統安全。第四級:融合級第四級:融合級 組織機構內大部分業務活動實現了數字化,用數據決策、用數據監督成為組織機構文化,應符合如下特征:a)非結構化數據管理成為組織機構發展的戰略性支撐,數據治理成為本機構日常工作的重要部分;b)本組織機構產出的計算機文件(如設計圖紙、產品說明、報告和各類文書)和業

36、務憑證(如合同和財務憑證等)大量實現了結構化,采用國家標準格式并實現了“視讀機讀雙支持”,其文件類型在地區、行業或國家對應注冊中心注冊,可高速檢索匹配文件內容,可直接接收和使用外部生成的同類數據;c)非結構化數據管理系統廣泛、深入接入各業務系統,準確反映本機構運營情況和外部環境,為組織機構領導層提供決策支持;d)非結構化數據管理和業務系統均由專業人員通過運維系統進行運維保障。運維系統能實時反饋目標系統的運行情況,預警可能出現的異常和故障,發生異?;蚬收蠒r記錄診斷數據,及時按照應急方案恢復系統運行;e)非結構化數據管理和業務系統達到計算機信息系統安全保護三級以上。第五級:智能級第五級:智能級 組

37、織機構內業務全面數字化轉型,數據成為本機構的核心生產要素,應符合如下特征:非結構化數據管理知識與實踐(2023 版)18a)數據和文件成為組織機構的核心資產,內部定期開展數據資產評估并將其資產增值作為其重要發展目標;b)通過強化非結構化數據管理促進業務的開展。組織機構內非創造性工作均具備自動處理功能,業務系統對上下游和利益相關方的帶動和促進效應明顯;c)在非結構化數據管理中引入自然語言處理、知識圖譜和深度學習等新技術,對數據的開發利用產生可度量的效益;d)在非結構化數據管理基礎上全面實現智能管理和智能決策,可基于已發生的活動和內外經驗,預測未來發展趨勢,各業務在組織機構內外得到顯著優化。每一級

38、的能力要求均是在上一級別基礎之上遞進增加,通過使用配套的非結構化數據應用能力分級測試工具,幫助企業在每個能力域的細項上進行自我評估與自我定位,依托模型邏輯,得到對應的企業非結構化數據應用能力等級,查漏補缺,從而調整自身非結構化數據管理戰略,幫助組織更好地對非結構化數據進行系統、科學地管理與應用,達到降本提效的目的。非結構化數據管理知識與實踐(2023 版)19圖 5 非結構化數據應用能力分級測試頁面3.3.非結構化數據戰略與頂層設計3.3.非結構化數據戰略與頂層設計非結構化數據頂層設計即企業針對非結構化數據管理與應用的戰略規劃,需要基于組織的業務戰略和 IT 戰略開展建設,應確保與業務目標和

39、IT 目標相一致,同步制定頂層設計及戰略規劃的實施策略工作。良好的非結構化數據頂層設計會為組織的安全合規、運營效率、客戶滿意度等多方面提供支持。頂層設計的驅動力通常來自法律遵從性要求、訴訟響應能力、電子取證請求能力和業務連續性要求。這里將從非結構化數據管理戰略制定的關鍵步驟,即:現狀評估、業務效率、洞察創新、安全合規和數據文化等方面進行介紹(如圖 6 所示)。非結構化數據管理知識與實踐(2023 版)20圖 6 非結構化數據管理戰略圖(1)現狀評估現狀評估的重點是對組織內非結構化數據現狀開展全面評估工作。通過調研,獲得非結構化數據存管現狀、技術現狀和應用現狀的具體情況,并通過能力成熟度模型進行

40、評估,分析出組織非結構化數據管理中存在的問題及所處的級別,識別出根本原因,明確下一步工作重點,為后續非結構化數據管理規劃的升級與改革指明方向。(2)數據文化數據文化則需要培養組織全體成員由上至下、從綱領到實踐的非結構化數據管理意識,理解數據從資源到資產的價值化過程,提升非結構化數據管理能力,落實非結構化數據舉措,實現數據資產化的目標。(3)業務效率業務運營效率的提升是組織進行非結構化數據管理關注的重點,也是實行非結構化數據管理的首要目標。為了實現業務運營效率的顯著提升,組織需要在內容協作效率、內容與業務深度、廣度融合與內容快速響應業務變化等方面進行深度建設與更具有針對性非結構化數據管理知識與實

41、踐(2023 版)21地提升。(4)安全合規針對安全合規的需求,則要組織考慮對法律法規、內審追溯、隱私數據保護等規定的遵從性,從構建合規的內容管理體系出發,對數據實施全生命周期的安全管理。(5)洞察創新洞察創新作為戰略中層級最高的一項,需要組織基于人工智能、知識圖譜等前沿技術,進行啟發式、交互式的非結構化數據挖掘、數據探索和信息推送,并且關注安全分析和智能決策的場景化應用,以及實現自動化應用與知識創新。3.4.非結構化數據治理3.4.非結構化數據治理非結構化數據治理是開展非結構化數據管理工作的關鍵,以統籌和協調非結構化數據管理各項工作有序開展為主要內容,其核心要素體現在組織、制度、文化和考核四

42、個方面。(1)組織企業需成立非結構化數據的專門管理部門,下設相關的職能小組,如:文件管理組、檔案管理組和中臺運營組等。相關職責方面,文件管理組主要負責制度文件管理、公文管理和文件管理等;檔案管理組主要負責文書檔案管理、會計檔案管理和科技檔案管理等;中臺運營組主要負責內容融合管理和內容服務管理等。成立類似的部門與組織有助于企業對非結構化數據的體系化、規范化管理。(2)制度組織應制定非結構化數據管理辦法、規范和細則等相關制度體非結構化數據管理知識與實踐(2023 版)22系,如:電子文檔管理辦法、非結構化數據管理標準等。通過組織對非結構化數據的規范性管理,提高非結構化數據治理水平。(3)文化為了更

43、好地推進組織非結構化數據治理,組織應逐步樹立起非結構化數據管理的文化,提升全員的數據價值觀和數據管理文化素養,培養全員的非結構化數據資產化意識。(4)考核組織應通過開展非結構化數據治理的評價與考核,貫徹落實非結構化數據管理戰略及目標,跟蹤執行過程中的實施情況,及時發現組織非結構化數據管理中的問題,提出優化和改進建議。3.5.非結構化數據管理3.5.非結構化數據管理非結構化數據管理作為組織的重要職能,是落實非結構化數據頂層設計及治理的關鍵。主要包括非結構化數據標準、元數據、數據質量、數據安全、數據合規和數據集成等六個方面內容。3.5.1.非結構化數據標準3.5.1.非結構化數據標準非結構化數據標

44、準是組織對非結構化數據提出的規范性要求。組織應以非結構化數據標準體系構建為基礎,指導和規范各類非結構化數據管理工作。非結構化標準體系構建包括了對內容模型、內容分類、編碼命名、內容格式、內容本體、版本策略、元數據、內容指標和內容接口等規范的標準。(1)內容模型標準內容模型標準主要包括子域規劃、活動模型規劃、文件版本規劃、結構化規劃、元數據建設、體系合規建設、安全策略等各個方非結構化數據管理知識與實踐(2023 版)23面。子域規劃從業務過程出發,構建出多層級式的子域結構;活動模型規劃從文件發送、共享和外發等流轉活動出發,關注文件的動態業務活動;文件版本規劃關注文件的主次版本、生效版本、修訂版本、

45、版本留存數量等版本規范;結構化規劃關注圖像類、專業類文件如何基于 OCR 識別、兼容解析等技術實現內容結構化;元數據建設從行業元數據和內容元數據兩方面進行規劃和建設;體系合規建設是從文件的新增、修訂、權限申請以及敏感內容等方面進行規范;安全策略是從授權訪問限制、共享外發安全和水印安全等方面進行規范建設。內容模型作為規范和標準,在非結構化數據管理的過程中尤為重要,內容模型是構建內容庫的基礎。良好的內容模型需要對各類活動模型、版本模型、權限模型、元數據模型、流程模型和安全模型等各個環節進行全面和規范化的構建。內容模型與內容庫關系緊密,內容庫的每個層級都對應著不同業務體系化的數據。不同業務要求不同的

46、數據規范,這些規范的建設都是需要通過內容庫的內容模型來實現的。(2)內容分類標準內容分類標準是指目錄樹分類、標簽分類、智能分類和分類編號等方面的規則和規范。目錄樹分類側重于體系化內容的分類建設,根據組織維度、業務維度、戰略維度等進行內容劃分。如果說目錄樹分類是內容的“垂直分類”,那么標簽分類則側重于內容的“橫向分類”。標簽分類是在“垂直分類”的基礎上,支持跨業務目錄的一種分類方式;同時標簽分類是在用戶對內容理解的基礎上,對內容進非結構化數據管理知識與實踐(2023 版)24行標簽化標注的一種以內容為維度的分類方式。智能分類是標簽分類的延伸,基于人工智能自然語言處理(NLP)技術實現對內容的智能

47、標簽分類,輔助人工標簽化的過程。分類編號是通過格式化的編碼自動生成分類號進行內容分類,進而延伸出的業務邏輯分類。內容分類的建設過程主要包括內容分類梳理、分類規范建設、分類執行、分類結果分析評審等關鍵環節。其中,內容分類梳理需要組織明確內容分類規范;分類規范建設主要遵循漏斗結構原理進行梳理,包括現狀調研、現狀評估、分析梳理、知識規劃、展示設計、用戶評價等階段過程。內容分類規范性還體現在文檔管理的分類分級,需要滿足各個層級的用戶內容需求,內容分類需要具有清晰的層級結構,從而為后續的多維文檔提供良好的支撐。(3)編碼命名標準編碼命名標準是指編碼分類、代碼表、流水碼、手動命名、自動命名等方面的規則和規

48、范。(4)格式標準格式標準主要體現在模板庫、文件格式、文檔尺寸、文件大小、文檔期限、文檔保管格式等方面。(5)內容本體標準內容本體標準主要體現在內容分類分級、內容敏感度、敏感詞過濾、內容密級、內容模板和內容審批等方面。(6)版本標準版本標準主要體現在主版本(生效版本)、次版本(修訂版非結構化數據管理知識與實踐(2023 版)25本)、歷史版本、版本控制、版本配置、版本清理、版本策略管理等方面。(7)元數據標準元數據標準主要體現在內容屬性、內容擴展屬性、內容結構、內容標記、內容類別、元數據分類、元數據格式、元數據檢驗、元數據追蹤等方面。(8)指標標準指標標準主要體現在內容指標體系、內容指數、內容

49、維度、內容度量和內容指標項等方面。(9)接口標準內容服務接口標準主要體現在接口類型、接口引擎、接口集成、接口配置、接口策略、第三方擴展接口服務、應用程序接口等方面。3.5.2.非結構化元數據3.5.2.非結構化元數據非結構化元數據是開展非結構化數據管理的基礎,組織應當基于非結構化數據戰略構建具體的元數據管理戰略。元數據是描述數據的數據(Data about data),主要是描述數據的上下文信息。非結構化數據的元數據,需要在非結構化數據上下文環境中構建關聯,便于對非結構化數據進行發現、使用、管控和洞察。組織中的非結構化元數據管理目標體現在四個方面:(1)形成統一的信息地圖與知識傳承平臺,有助于

50、解決數據孤島的問題;(2)形成整個機構或行業范圍的指標庫,統一指標和業務內容管理過程;非結構化數據管理知識與實踐(2023 版)26(3)消除系統與內容平臺或電子文件的孤立關系,為規劃和設計業務提供數據間的內在聯系;(4)維護業務與數據之間的一致性,如一致的數據使用方式、一致的數據服務輸出和一致的企業數據流程規范等。非結構化元數據管理包括非結構化元數據定義、非結構化元數據策略、非結構化元數據權限、非結構化元數據應用和非結構化元數據分析等。其中,組織需要特別注重非結構化元數據應用、非結構化元數據安全和非結構化元數據治理工作。3.5.3.非結構化數據質量3.5.3.非結構化數據質量高質量的數據是實

51、現數據價值的前提,非結構化數據質量管理需要從數據質量方針、數據質量策略、數據質量制度、數據質量標準等方面開展整體性的構建,且圍繞數據全生命周期開展數據質量持續提升的工作,以確保數據質量滿足不同業務的需求。非結構化數據質量管理需要獲得業務、信息和技術的全面支撐,且需要獲得相應的資源投入支持。落實非結構化數據質量管理和改進實施工作,主要涉及如下方面:(1)非結構化數據質量要求,數據中是否包含了足夠豐富,容易產生價值的結構化信息,涉及非結構化數據的真實性、完整性、可用性和安全性方面;(2)非結構化數據的質量控制,反映在模板(規則)、流程、技術和人員等方面;(3)非結構化數據的質量檢查,反映在數據質量

52、審計、智能定密、版本比對、目錄清單、文件清單、文件元數據清單、文件權限記錄和內容庫權限記錄等方面;非結構化數據管理知識與實踐(2023 版)27(4)非結構化數據的質量分析,反映在元數據使用分析、關聯統計、文件新增對比圖、文件新增趨勢圖、權限記錄報表和最終權限報表等方面;(5)非結構化數據的質量改進,反映在數據質量改進方案和數據質量改進實施等方面。而衡量非結構化數據質量則需要從數據的真實性、完整性、安全性、可用性和時效性五個維度入手:(1)真實性體現在電子文件的來源、元數據、數據內容的真實性檢測,元數據與內容管理真實性檢測,歸檔信息包的真實性檢測等方面;(2)完整性體現在應該能夠覆蓋組織的所有

53、文檔,組織可以通過文檔清單度量文檔數據的完整性,包括對電子文件的數據總量、元數據、內容、歸檔信息包等完整性檢測;并且針對各個階段化的交付成果,驗證和檢查非結構化數據的完整性。通過非結構化數據質量管理,可以準確獲取內容庫中的文件數量以及非結構化的文件是否獲得相應審批等信息;(3)安全性方面包括對歸檔信息內的病毒檢測、載體檢測、過程安全檢測等;(4)可用性方面則強調通過工作模板確保非結構化數據的可用性,數據內容包括電子文件元數據、文件內容、文件軟硬件環境、歸檔信息包的可用性檢測內容質量,以及通過文檔控制流程全面審核非結構化文檔數據的內容質量,如文檔的編制和操作、相關流程的審批和交付文檔的目的與要求

54、等;(5)時效性方面強調通過對非結構化數據進行全生命周期版本管理,并通過文檔版本控制流程,提供非結構化文檔數據的生命周非結構化數據管理知識與實踐(2023 版)28期版本跟蹤,如對設計類文檔的草稿版本、評審版本、發布版本、停用版本和歸檔版本等全版本的跟蹤。3.5.4.非結構化數據安全3.5.4.非結構化數據安全非結構化數據安全是數據價值實現的保障,組織需要確保數據的全面安全受控。非結構化數據安全管理遵從信息安全和網絡安全體系總體要求,側重對非結構化數據在行為安全管理、統一存儲安全、安全管理方法、事件階段管理、安全制度標準等方面進行體系化構建。(1)行為安全管理基于非結構化數據全生命周期的視角,

55、對非結構化數據全生命周期中的采集、存儲、傳輸、處理、交換、管理、洞察、歸檔等行為進行安全管理。非結構化數據全生命周期安全管理需要遵從行業級業務數據安全監管標準,基于非結構化數據全生命周期,提供有效的安全管理工具及方法,包括網絡隔離、安全預警、權限控制、訪問監控、行為管控、內容識別、數據過濾、數據加密、數據脫敏、審計溯源等措施。非結構化數據全生命周期管理需要構建數據安全體系及策略,包括非結構化數據分級分類管理、訪問授權體系、身份認證、行為監控等環節,且需要提供完備的數據安全分析支撐。(2)統一存儲安全非結構化數據主要分為應用系統文件、體系文件和過程文件三種類型。其中應用系統文件是指各種業務系統中

56、的業務支撐文件和成果文件;體系文件則是已經形成體系的存儲于共享服務器中的電子文件;過程文件是指個人電腦的各類文件、電子郵件系統中的附非結構化數據管理知識與實踐(2023 版)29件等。通過安全防控場景化、手段措施多樣化、業務滲透融合化、防控環節串聯化的多維技術視角,基于統一存儲的非結構化數據安全管理才能更可落地、更可控。(3)安全運維手段為了對企事業單位組織內的數據進行全生命周期的操作追溯與風險管控,需要采取符合非結構化數據自身特征的安全管理方式。這就需要考慮到數據防勒索、日志溯源等多個方面,在建立起全面的文檔安全體系的同時,持續地對非結構化數據管理系統進行監控與測試,通過數據備份、實施校驗與

57、日志記錄等技術與功能,實現非結構化數據的長治久安。(4)事件階段管理策略根據事件發展的事前、事中與事后的三個階段進行劃分,通過事前預防、事中控制、事后審計機制的事件管理策略,進行非結構化數據事件的閉環管理。(5)安全制度體系安全制度體系包括對人員安全、場所安全、活動安全、系統安全、數據安全等方面的體系建設。除以上五方面的安全體系建設之外,非結構化數據安全應用架構技術還包括登錄安全、訪問安全、傳輸安全、數據安全交換、內容安全、日志審計、“文件不落地”、終端安全、離線安全、紙質文件安全、存儲安全和預警以及安全分析等核心功能。(1)登錄安全非結構化數據安全應用架構需要保障登錄安全,主要保障措施包括確

58、立密碼策略、實施網際互連協議過濾、設立驗證碼、強制設備綁定、設置登錄訪問協議單點登錄和雙因子驗證等。非結構化數據管理知識與實踐(2023 版)30(2)訪問安全訪問安全需要確保包括權限模板、訪問權限、多級還原、密級權限驗證、動態安全水印和共享范圍等環節的安全可控。(3)傳輸安全傳輸安全的環節主要包括安全登錄、安全隔離、安全綁定、安全限制、套接字協議加密安全傳輸等。(4)數據安全交換數據安全交換是指不同安全域之間的數據安全交換,其交換方式包括流程審批交換、直接觸發交換、批量交換和智能交換等。(5)內容安全內容安全主要是通過敏感詞匯、智能定密、防勒索、安全域、文控流程、歷史版本、病毒掃描、隔離區等

59、功能實現。(6)日志審計日志審計主要以日志分析引擎、操作日志留痕、審計報告追蹤等方式來實現內容安全審計的目標。(7)文件不落地文件不落地需要通過虛擬盤、強制采集和文檔安全閱讀等技術實現,從而保障用戶“操作完全本地化,而數據在云端”。用戶能夠像在本地磁盤中一樣,在虛擬盤中操作各種文件,但數據全部存儲于企業服務器中,且能夠進一步禁止文件在運行時保存于本地磁盤或外設中,通過這種方式提升了對文件安全控制的能力,更易實現專業和嚴密的安全防護,從而保障了企業數據不泄露。(8)終端安全終端安全的保障能夠通過終端數據防泄漏的整合、網關數據防泄漏整合、數據安全漏洞排查、數據安全網關和網閘建設、網絡數非結構化數據

60、管理知識與實踐(2023 版)31據安全集成傳輸、終端防泄漏預警等措施實現。(9)離線安全通過透明加密、外發加密、權限管理系統加密整合等措施,實現數據的離線安全。(10)紙質文件安全紙質文件的安全在非結構化數據安全應用架構中同樣重要,主要體現在對多功能一體機對接、打印留底與審計追溯、光學字符的全文與區域識別等環節。(11)存儲安全非結構化數據安全應用架構需要依靠多副本存儲、切片存儲、強制一致性校驗、數據加密、自我恢復、數據備份、多數據中心容災等措施,實現存儲安全。(12)預警及安全分析非結構化數據安全應用架構需要具備預警與安全分析的能力,需要對敏感操作進行預警,并在運維、安全、業務分析等方向實

61、現相應的安全分析等。3.5.5.非結構化數據合規3.5.5.非結構化數據合規非結構化數據合規主要是指組織外部環境下的監管和法律約束。組織需要遵從相關法律、法規進行規范管理和建設,同時需要注重合規、隱私等方面的非結構化數據安全保護。非結構化數據合規管理是確保數據資產保值、增值和價值變現的基礎。組織需要構建完備的非結構化數據合規體系,從政策法規、數據資產、利益相關者和基礎設施的角度,進行基于數據全生命周期的合規控制,對數據收集、數據處理、數據保管、數據共非結構化數據管理知識與實踐(2023 版)32享、數據交易、數據披露、數據處置等各個環節進行合規評估和審計。常見的可參考數據合規要求包括:歐盟通用

62、數據保護條例、美國薩班斯法案、美國2018 年加州消費者隱私法案、中國中華人民共和國數據安全法企業內部控制基本規范藥品生產質量管理規范藥物非臨床研究質量管理規范質量管理體系、中華人民共和國會計法財政部國家檔案局關于規范電子會計憑證報銷入賬歸檔的通知銀行業金融機構數據治理指引中華人民共和國檔案法會計檔案管理辦法等。組織需要確立非結構化數據的合規原則,如:“擁有者自主”原則、“責權利相一致”原則、公開透明原則、確保安全原則、審批受控原則、“例外處理”原則?!皳碛姓咦灾鳌痹瓌t是用于保障數據擁有者對數據資產控制的權利?!柏煓嗬嘁恢隆痹瓌t是用于保障數據責任方和權利方權利平等。公開透明原則、確保安全原則

63、、審批受控原則是用于保障數據資產安全受控。3.5.6.非結構化數據集成3.5.6.非結構化數據集成非結構化數據集成是數據共享協同和價值挖掘的前提,主要包括數據分布、采集技術、采集策略和數據集成四個方面內容。(1)數據分布非結構化數據常見的三種數據分布文件類型是離散文件、體系文件和應用系統文件。其中離散文件的特征體現為個人擁有的大量有價值并且未整理的文檔,如各類記錄、郵件、參考資料、工作文件等;體系文件主要為體系化文件、合同、紙質文件、網頁內容非結構化數據管理知識與實踐(2023 版)33等,如企業知識、法規規范、各類單據等;應用系統文件特征體現為需要進行歸檔與索引構建以及長期保持利用的文件,如

64、審批單、財務報銷單、圖紙、項目資料、技術資料、產品資料等。(2)采集技術非結構化數據采集技術主要包括業務系統適配器、集成開發平臺和捕獲工具。其中,業務系統適配器是指已經形成的與各種應用系統的連接器,基于這些適配器,可以實時或通過計劃任務采集各種類型非結構化數據。集成開發平臺包括軟件開發工具包、業務組件、應用編程接口、可開發組件。捕獲工具則包括打印一體機采集器、電子郵件監控、頁面抓取工具、爬蟲工具、虛擬打印等。為了實現采集的有效管理,采集平臺需要可視化、可配置化和可監控化,也需要對全內容進行采集,其中包括主業務文件、附屬文件、關聯文件、元數據、日志信息和數據權限等。(3)采集策略非結構化數據集成

65、的數據采集策略從非結構化數據源頭出發,將非結構化數據管理系統與業務系統深度融合,將采集策略前置到業務中去,以實現采集的時效性、準確性和內容完整性。(4)數據集成非結構化數據集成主要分為兩方面,一是為各種應用系統提供實時的、平臺型的非結構化數據統一存儲服務;二是為新業務應用輸出各種非結構化數據服務,從而形成數據與業務的雙向融合。3.6.非結構化數據價值3.6.非結構化數據價值創造非結構化數據價值本質上是數據資產化的過程,體現在數據的共享交換與服務開放。這里從價值實現技術角度關注非結構化非結構化數據管理知識與實踐(2023 版)34數據協作、流轉、服務和洞察。3.6.1.非結構化數據協作3.6.1

66、.非結構化數據協作非結構化數據協作是數據價值體現的基礎。結構化數據與非結構化數據在協作方面具有一定的相同性,它們都需要頻繁地被多個用戶進行編輯和協作;但是,也存在差異性,主要體現在結構化數據的顆粒度過細,在具體協作過程中無法表達和解釋具象內容,協作者需要借助上下文環境才能夠進行協作,應用場景固化且靈活性不夠。而在非結構化數據協作中,由于非結構化文件能夠呈現對某一事物更為完整的描述和說明,所以協作過程可以從整體視角出發,涵蓋大量信息及豐富表現形式,其應用場景更為廣泛、協作頻次更高。目前,國內非結構化數據的協作以網盤和微辦公環境場景體現,較多企業也已經將企業網盤等軟件視為必備的數據協作組件。而數據

67、協作可以對事件和項目等進行及時、有效的協作支持。例如:工程總承包的工程項目公司,可以依靠工程項目過程中產生的非結構化文件對整個項目進行管控,其中包括開工報告、施工過程文檔、竣工資料等不同階段的文件。組織在進行完備的非結構化數據協作體系構建時,需要基于對內容協作能力的提升需求、跨組織庫的內容協作,以及融合業務場景的內容協作,而這些能力可體現在如下方面:(1)內容協作能力內容協作能力主要體現在提供協作相關方專屬的團隊庫、對內容的協同編輯、對內容的簽入簽出、對內容的版本管理、內容變更過程的消息提醒和支持對內容評論批注等。非結構化數據管理知識與實踐(2023 版)35(2)跨組織庫的內容協作跨組織庫的

68、內容協作包括在企業內容庫、團隊內容庫和個人內容庫之間的協作。其中,企業內容庫能夠滿足企業組織條線和業務條線的內容管理需求;團隊內容庫能夠滿足團隊、項目等臨時組織的內容管理和協作需求;個人內容庫能夠滿足個人的內容管理和備份需求。內容庫的構建需要注重協作模式的構建方式,目前主要有企業內容庫的固化式協作,團隊內容庫的松散式協作,以及基于個人內容庫通過共享和外發與其他用戶進行的臨時性協作。(3)融合業務場景的內容協作融合業務場景的內容協作是指實現業務與內容的深度融合協作,將內容嵌入到業務場景中,如項目協同管理、文檔檔案一體化、合同管理等業務系統,在支撐相關內容場景協作的同時,也與內容庫的管理進行深度融

69、合。3.6.2.非結構化數據流轉3.6.2.非結構化數據流轉非結構化數據流轉是企業數據價值釋放的關鍵,其技術實現需要涵蓋數據流轉過程中的數據安全和數據流轉方式兩個方面。(1)非結構化數據流轉安全非結構化數據流轉的安全需要考慮訪問權限、透明加密、敏感檢測、脫敏、智能檢測、流程審批、查殺病毒等環節。流轉過程中的安全需要遵從數據分類分級原則,數據流轉的安全性則可通過文件安全交換解決方案中的流轉安全手段、方式、安全交換等技術實現。(2)非結構化數據流轉方式非結構化數據流轉主要通過共享、鏈接外發、聯邦外發、附件非結構化數據管理知識與實踐(2023 版)36發送、邏輯安全交換、網閘安全交換等方式實現。非結

70、構化數據流轉的技術實現方式可劃分為推送式流轉和發現式流轉兩個類型:推送式流轉是根據一定規則對文件進行自動化的渠道派送,根據組織對內容的組織規范和要求進行流轉;發現式流轉最常見的形式是“知識管理”,因其具備多維度扁平化組織能力,發現式流轉具有較高的數據組織性,用戶獲取數據和使用數據會更完整,從而使數據價值得以充分釋放。3.6.3.非結構化數據服務3.6.3.非結構化數據服務非結構化數據服務基于業務導向、以用戶為中心開展具體技術實現,并不斷通過業務流程重構,將流程與組織結構解耦、去職能化,以服務和用戶角色為原點進行流程設計,構建以文檔內容和數據服務為核心的非結構化數據應用,實現以內容為核心的業務構

71、建,創造端到端的內容價值實現,全面將內容與業務緊密整合,以保證使信息系統成為業務戰略的載體,使業務能力在端到端的貫通中得以全面地呈現。在進行非結構化數據服務的應用時,組織需要基于業務進行整體設計,切入業務場景中去,以構建基于內容業務的端到端實現;將服務固化到流程引擎和表單引擎之中,通過業務流程和活動,將業務行為模型、角色行為模型、事物行為模型與主數據、業務規則、參考數據、經營指標、管理指標、績效指標等核心要素平臺化,以門戶頁面的方式對外發布非結構化數據服務,強調持續迭代,長久地進行以內容為主體的業務優化和服務監控管理。非結構化數據管理知識與實踐(2023 版)373.6.4.非結構化數據洞察3

72、.6.4.非結構化數據洞察非結構化數據洞察可以提供更廣泛的業務價值實現。但對非結構化數據的洞察需要大量的準備工作,首先,需要獲得大數據集的海量數據支撐;其次,關注技術實現的細節,如:知識圖譜、文件關聯圖譜、主題圖譜、自然語言處理和人工智能引擎等方面的應用;然后,通過智能關聯、智能推薦、智能搜索、智能識別、智能分類、智能問答、智能定密等多種應用,提供基于文本、單據、物體和人臉等為主體的多種應用場景,獲得多種形態下的數據洞察;最后,將洞察能力與業務場景進行結合,發揮洞察創新,從而通過數據洞察實現業務價值轉化的目標。非結構化數據洞察能力主要包括以下幾方面:(1)統一搜索連通各業務系統、數據源,實現結

73、構化知識、非結構化知識、內部知識、外部知識的集中與統一,通過一站式統一搜索挖掘數據價值。(2)智能搜索基于自然語言處理、機器學習技術,結合點擊反饋模型等搜索排序算法,利用大規模分布式索引與算法模型的計算與分發,構建強大的知識內容搜索引擎。同時全面整合人工智能能力和自然語言處理技術:結合識別分類轉化、聚類回歸分析算法、機器學習、用戶畫像、文本圖像、深度學習等技術進一步提升能力。(3)智能推薦智能推薦可以基于用戶屬性、用戶行為、業務場景進行分析,通過大數據技術,整合奇異值分解、支持向量機等尖端算法,構建數據挖掘系統,生成用戶畫像,為用戶主動推薦其感興趣或與當前非結構化數據管理知識與實踐(2023

74、版)38工作相關的知識內容,同時也可以激活整個知識庫,發揮長尾效應。(4)知識圖譜通過構建大規模語義網絡,發掘實體之間的關聯,將數據進行整合,幫助機器理解數據、解釋現象、知識推理,從而發掘深層關系、最終實現智能交互。(5)數據分析與挖掘預測非結構化數據系統可以基于數據挖掘,可視化地呈現數據總量、數據變化走向與數據分析成果,為用戶提供數據預測能力,從而以數據輔助用戶的戰略與決策。(6)數據洞察階段以非結構化數據系統,結合大數據分析能力,深度融合以上五點能力,從而實現非結構化數據的深度洞察。4.非結構化數據管理解決方案4.非結構化數據管理解決方案4.1.非結構化數據管理與 ECM 企業內容管理非結

75、構化數據管理與 ECM 企業內容管理非結構化數據管理在企業實踐中主要體現為 ECM 企業內容管理,其解決方案是通過企業內容管理系統,統一協調、管理各項非結構化數據應用工作,并保證其具體的落地與實施。內容是指各類文檔中包含的數據,其中以文本、圖像、音頻、視頻等非結構化數據為主。ECM 企業內容管理是一種戰略、方法和基礎設施,來幫助企業獲取、管理、存儲、保護、利用和洞察企業組織流程相關的非結構化數據(如圖 7所示)。非結構化數據管理知識與實踐(2023 版)39圖 7 企業內容管理ECM 企業內容管理是一種專注于非結構化數據領域的軟件類型,涵蓋了企業網盤、文檔管理、知識管理、文件安全交換、工程協同

76、設計、文件安全外發、檔案管理、影像文件管理、電子文檔安全管理、文檔云、ISO 質量文件體系管理、GMP 質量文件體系管理、非結構化數據管理平臺、工程內容管理等應用軟件,以及基于AI 智能和 Graph 知識圖譜技術的智能推薦、智能搜索、智能定密、智能安全分析等內容智能應用。ECM 企業內容管理系統可以幫助企業內容管理戰略完成從理念到實踐的轉變,通過內容獲取、管理、存儲、保護、利用等方式挖掘和釋放內容價值,最終促進企業數字化轉型,提升企業運營效率,并獲得企業商業洞察能力與長遠競爭優勢。Gartner 于 2017 年修正了企業內容管理的定義:企業內容管理是一種服務和微服務(如圖 8 所示),包括

77、內容協作平臺(ContentCollaboration Platform)、內容服務平臺(Content Service Platform)和內容業務平臺(Content Service Application)。具體表現為一個集非結構化數據管理知識與實踐(2023 版)40成的產品套件或具有通用 API 接口和多儲存庫的平臺型軟件,利用不同的內容類型且服務于多分支組織機構和各種應用場景。在內容服務平臺魔力象限 2021中,Gartner還提出:嵌入式智能已經成為內容服務平臺的主要趨勢人工智能已經成為內容服務的關鍵,從通信管理到案例管理,它將越來越多地嵌入到真實的業務解決方案中。圖 8 Gar

78、tner 內容服務框架進一步分析 Gartner 的內容服務框架,其主要包括內容管理平臺CMP(Content Management Platform)、內 容 服 務 應 用 CSA(Content Service Application)和內容組件(Content Component)。其中內容管理平臺是底層內容統一存儲和統一管理的基礎平臺,提供各種 API 接口和 Connector 連接器等集成支撐;內容服務應用強調以內容為中心的業務應用;內容組件則是一種類似轉檔、預覽、編輯等細顆粒的內容服務組件,其能力可輸送于內容服務平臺 CSP(Content Service Platform)和

79、內容服務應用。企業內容管理的本質是為企業業務和數字化轉型提供內容服務非結構化數據管理知識與實踐(2023 版)41支撐,并提供內容服務的快速響應能力?;趦热莘掌脚_的內容服務應用 CSA 分為體系化 CSA 和場景化 CSA。其中體系化 CSA 覆蓋了垂直業務領域的內容服務,場景化 CSA 則著眼于第三方業務系統的集成和整合。完整的內容服務框架(如圖 9 所示)的底座是內容服務平臺,中層是基于低代碼開發技術的內容業務平臺,上層構建起內容協作、內容安全、內容管理、內容治理、內容合規、內容業務、內容智能等各種內容應用場景。圖 9 內容服務框架4.2.ECM 內容管理成熟度模型 CM4.2.ECM

80、 內容管理成熟度模型 CM內容管理成熟度模型 CM(如圖 10 所示)是基于多個行業和領域的非結構化數據實踐應用以及不同階段的內容管理特征總結提出的,其中包括內容協作階段(Content Collaboration Platform)、內容服務階段(Content Service Platform)、內容業務階段(ContentService Application)和人工智能(AI)四個階段。非結構化數據管理知識與實踐(2023 版)42圖 10 內容管理成熟度模型第一階段是內容協作階段,此階段文件呈離散型存儲在用戶的電腦上,僅能完成文件之間的協作,不能與業務融合。在組織里,有 80%以上的

81、離散文件以此種形態存儲,所以此階段可以概括為離散文件的協作管理階段。第二階段是內容服務階段,此階段中的企業數據以業務系統文件、體系文件等形式存在,并通過內容元數據進行網狀式廣泛關聯,使得數據來源于業務,又輸出服務于業務。這是企業數據從文件到內容的一個過渡階段,數據經匯聚、整理、處理后,以全內容服務的形式開放,構建統一的企業非結構化數據管理平臺。第三階段是內容業務階段,在這個階段中,行業數據經過不同維度地整理、提煉,并圍繞業務的垂直領域性、體系性進行立體式地關聯與聚合,最終形成行業性的知識體系,以支持企業迅速應對市場變化和進行業務創新。第四階段是人工智能階段,這是一個通過深度學習、自然語言處理、

82、知識圖譜等技術對海量數據進行深度處理的階段,使內容管理全生命周期各環節具備智能能力,從而輔助企業的降本增效與精準決策。非結構化數據管理知識與實踐(2023 版)43總體來說,這四個階段是企業數據從內容到知識再到智能化的全面提升的過程;同時數據安全性、數據關聯性、業務融合度和數字化能力,也隨著階段發展逐階提升(如表 2所示)。表 2:內容管理成熟度四階段特征4.3.ECM 內容管理平臺架構4.3.ECM 內容管理平臺架構組織在開展數據管理能力規劃和提升時,需要從總體視角考慮大數據環境下 ECM 內容管理平臺的總體架構設計。組織需要構建基特征類型特征類型第一階段第一階段第二階段第二階段第三階段第三

83、階段第四階段第四階段數據形態數據形態過程性、離散的用戶電腦中的文件業務系統文件,體系文件經過整理、提煉后的行業領域性數據、從不同維度視角歸納后的數據海量數據,標注數據數據顆粒度數據顆粒度文件級內容級知識級語義級數據間關系數據間關系離散的,不關聯通過內容元數據進行網狀式廣泛關聯存在圍繞業務的垂直領域性、體系性關聯,是一種立體式關聯與聚合語義層關聯,主題圖譜和實體知識圖譜業務融合業務融合滿足文件協作,無業務融合數 據 來 源 于 業務,又輸出服務于業務深度融合業務,甚至形成業務應用立足于業務場景上內容智能數據安全數據安全協作過程中的數據流動,需要在存儲、訪問、流轉等階段的安全保護能力,屬于企業安全

84、防護初級階段全形態數據防護覆蓋,內容級顆粒度安全措施更精準,基于統一存儲的全生命周期全方位安全防護體業務場景化的滲透性安全防控,安全服務緊隨業務,為業務中的數據安全保駕護航多層面圖譜結合用戶畫像和操作日志,深度追溯數據安全問題,洞察預測安全風險數字化能力數字化能力文件協作層面的數字化內容中臺的數字化,數據可以經匯聚、整理、處理后以全內容服務形式開放業務數字化,基于低代碼平臺形成垂直領域的業務體系化應用,支撐企業迅速應對市場變化并進行業務創新探索智能數字化,利用 自 然 語 言 處理、人工智能、圖譜與大數據技術為企業降本增效,輔助企業決策非結構化數據管理知識與實踐(2023 版)44于非結構化數

85、據戰略、方法和工具的 ECM內容管理平臺,使其提供基于全生命周期的數據采集、存儲、保護、管理、使用、交換和歸檔等能力,并使其與組織業務流程活動中相關內容和文檔進行深度融合與應用。ECM 企業內容管理平臺具有數據采集、存儲、治理、服務、應用、洞察和安全等全方面的能力支撐,幫助企業對非結構化數據開展全生命周期的管理,其能力具體如下:(1)數據采集平臺建立起了一套有效的內容數據分類機制和方法,根據內容數據的重要程度,可通過不同采集方式實現資料采集;在管理體系上建立“事前提醒催辦,事后匯總分析”的機制,形成對內容數據的全面管控。數據采集形式主要包括用戶主動上傳、端點強制采集、API 集成采集、外網爬蟲

86、采集、郵件內容采集、打印一體機采集等多種采集手段,能夠適應企業組織內多樣的應用場景。(2)數據存儲ECM 企業內容管理平臺能夠承擔組織應用系統投產后所有新增非結構化數據的集中存儲,基于統一的分布式對象存儲方式,具備海量數據存儲、高性能讀寫、加密存儲、多副本存儲、便捷的水平擴展、冷熱數據分離、全類型存儲接口支持等特征。(3)數據治理數據治理包括對數據標準、元數據管理、數據安全、數據流轉、數據質量、內容庫模型、權限體系模型、分類模型、數據健康度等的綜合治理,能夠提供完整的數據治理情況總覽和分析。(4)數據服務通過功能組件和中間件提供非結構化數據服務,負責將平臺底非結構化數據管理知識與實踐(2023

87、 版)45層的公共能力輸出到各業務應用。數據服務范圍涵蓋全業務服務內容,通過數據服務內容、數據服務技術、數據服務模式,基于統一內容服務總線架構,以實現數據資產可視化、可管理和數據資產的價值變現。(5)數據應用數據應用是指通過 ECM 內容管理平臺提供各種非結構化數據的協同編輯、共享外發、統一搜索等基礎應用,以及基于 ECM內容管理平臺上層的體系化業務應用,例如項目文檔管理、合同管理、知識管理等。(6)數據洞察數據洞察的核心是基于人工智能和圖譜技術實現的非結構化數據知識圖譜。通過利用實體圖譜、語義主題圖譜和文件圖譜,構建起非結構化數據完整的知識圖譜,將內容深層的邏輯關系進行梳理和呈現,從而實現對

88、非結構化數據的全面洞察。(7)數據安全提供訪問安全、數據擺渡、離線安全、內容安全等服務。其中訪問安全包括權限模板、訪問權限、多級還原、動態水印、共享范圍、密級權限驗證等;數據擺渡包括直接觸發數據擺渡、流程審批數據擺渡、批量計劃數據擺渡、智能內容數據擺渡等;離線安全包括透明加密、外發加密、DLP 邊界防控等;內容安全包括敏感詞、病毒掃描、智能定密、安全域、文控流程、歷史版本和防勒索模塊等安全能力模塊,從多方面、多層級、多維度保障數據的安全可追溯。非結構化數據管理知識與實踐(2023 版)464.4.ECM 內容管理核心技術4.4.ECM 內容管理核心技術4.4.1.ECM 底層架構技術4.4.1

89、.ECM 底層架構技術現代 ECM 需要支持多種應用場景下的大規模集團化架構,包括集群架構、分區域架構、聯邦架構、混合云架構、混合云架構和多中心架構。同時需要支持 PB 級的分布式對象存儲,并實現數據的冷溫熱分層、自我恢復等;支持 10 億級海量小文件的極速尋址。目前領先的 ECM 系統底層架構需要基于微服務和容器化的云原生(Cloud Native)技術實現,配合 APM 監控運維平臺,起到對系統的監控與觀測的作用。4.4.2.ECM 服務技術4.4.2.ECM 服務技術ECM 內容服務包括對不同格式文件的轉檔與預覽服務、上傳下載與在線編輯等文件操作類服務、文檔權限類服務和內容搜索類服務等。

90、實現 ECM 內容服務的主要技術包括:CSB 內容服務總線技術,內容服務可視化技術,服務監控與調度管理,Metadata 元數據建模與服務技術等。通過可視化數據采集技術,ECM 能夠將內容數據匯聚一起,進而實現與各種應用系統融合,融合后的內容數據經過治理后,將以服務組件、WebAPI等方式輸出標準的內容服務。同時,為適應企業數據管理能力的提升,需要企業內容業務平臺能夠具備表單建模、BPM 流程引擎和 WCM 門戶展現引擎,實現“一次拖拽、多端適配”,讓業務人員具備應用開發能力。同時提供豐富的業務組件、接口集成平臺、支持標準 WCP控制模式的工作流,可大幅降低開發和維護成本?;诙说蕉思夹g的企業

91、數字化能力與內容形成閉環,實現了組織業務快速響應與持續創新。非結構化數據管理知識與實踐(2023 版)474.4.3.ECM 文檔處理技術4.4.3.ECM 文檔處理技術ECM 作為企業非結構化數據“收管存用”的統一平臺,能夠為使用者提供文檔處理與使用的一站式服務。一方面,ECM 能夠以標準組件的方式輸出服務,實現快速集成,為企業用戶提供包括文件的合成、拆分、格式轉化與版式副本的創建服務。另一方面,它也能夠深度融合 AI人工智能,賦能用戶自主挖掘非結構化數據價值。4.4.3.1 文件合成、格式轉化與版式副本基于 ECM標準的文檔組件,用戶可以將多個文檔中的內容進行合并,避免了將文檔內容復制粘貼

92、的繁瑣工作。為了實現各類文檔的在線預覽,ECM 能夠對多數企業內常見文檔類型進行格式的轉化,從而保障用戶能夠流暢地對文件進行瀏覽與使用。同時,版式文檔作為企業內常見的文檔形式,能夠防止文檔內容遭到篡改,在各類軟件與操作系統平臺上都呈現出相同的內容效果。ECM 能夠將多數流式文檔進行轉換,補充著錄或標簽信息,形成 OFD 或 PDF 格式的文檔副本,結合 ECM 的權限策略,更好地控制文件的安全流通。4.4.3.2 OCR文檔內容識別ECM 中存儲著大量的圖類型文件(掃描件、圖片文檔等),這些文件往往蘊含著豐富的信息。為了充分挖掘與利用這些信息,可以通過光學字符識別技術(OCR)將文件中所包含的

93、全文文字進行整體提取,為智能檢索、文檔抽取等應用場景創造了前提條件。4.4.3.3 文檔標簽非結構化數據管理知識與實踐(2023 版)48基于 NLP 自然語言處理技術,結合知識網格的規劃,ECM 能夠針對含有文本信息的文件進行自動提取,形成符合業務邏輯的內容標簽。通過使用 TF-IDF 等基于統計加權技術的成熟模型,對上傳至系統的文件快速提取語義標簽,當用戶選擇檢索某一標簽名時,就能夠找到被打上相同標簽的文件集合。4.4.3.4 內容檢測為了防止敏感信息的泄露,ECM 能夠提供 DLP 審批策略,輔助文檔的審批流程,結合自定義的機械規則以及基于無監督的 AI 模型算法,共同組成復雜的 DLP

94、 規則策略,從而精確地甄別文件,有效違規風險,輔助文檔定密,實現內容敏感監測和合規監測。4.4.3.5 文檔抽取在 ECM 中,能夠利用語義特征提取的 AI 技術把圖片、掃描件(包括合同、報告、證件等)中的關鍵信息要素提取出來,形成結構化的數據,便于檢索、統計分析等需要。通過使用訓練成熟的語義特征提取算法模型,精準識別文檔上下文段落中的語義特征,提煉關鍵信息要素,再以結構化的方式存儲,形成“元數據”,為非結構化數據的分析和洞察提供基礎。4.4.3.6 文檔智能審核通過將文檔內容提取技術與自定義的文檔審核規則策略相結合,ECM 能夠實現對文檔中關鍵信息要素的審核,并且能夠針對不合規的內容進行提醒

95、并給出修改建議,智能審核卡證、票據、合同等多種文檔內字段、數值的合理性與合規性。非結構化數據管理知識與實踐(2023 版)494.4.4.ECM 安全技術4.4.4.ECM 安全技術ECM安全技術主要包括以下幾個方面:數據存儲安全,基于數據塊和多副本技術的數據融災,保障數據存儲的安全和可靠;數據使用安全,通過細顆粒度地訪問權限控制、密級權限驗證和安全域邊界權限等技術保證多層數據防護,基于圖權限計算模型對深層億級海量文件進行毫秒級權限計算;數據流通安全,基于內核過濾驅動保證文件保存在終端不落地,基于智能 DLP 敏感檢測保證敏感數據無法擺渡和外發;數據審計安全,基于大數據和知識圖譜技術,滿足各種

96、場景化的數據安全審計和分析需要。4.4.5.ECM 存儲技術4.4.5.ECM 存儲技術面對企業組織內日益增長的數據量,ECM 具備全對象的存儲能力,能夠提供包括動態擴展、高性能 IOPS、集群多副本、自我恢復、存儲加密等服務;支持多類型的混合存儲、單實例存儲,同時兼容市面上主流的存儲系統,基于規則引擎實現動態存儲,給予用戶無感地海量文件導入與使用體驗;通過多級存儲與自動遷移,實現在線存儲與歸檔存儲一體化,為 ECM持續提供優質數據服務打下堅實的基礎。4.4.6.ECM 傳輸技術4.4.6.ECM 傳輸技術在大規模數據安全存儲的基礎之上,ECM 作為企業的內容統一管理平臺,需要為全員提供數據的

97、訪問、上傳、下載、編輯等服務,這就對 ECM 平臺的傳輸效率、速率、功能、安全等多個方面提非結構化數據管理知識與實踐(2023 版)50出了要求。ECM 能夠實現跨國、跨區域的傳輸加速,并且能夠通過就近上傳下載緩存,實現文件利用速率的提升。針對大體積文件,采用分塊傳輸,從而能夠在本地數據庫中記錄每一塊成功傳輸的數據塊,在發生網絡異?;蛘哂脩羰謩訒和鬏斨?,于下一次啟動傳輸的時候從本地調取未傳輸的數據塊位置,從而實現斷點續傳的需求。此外,還能夠根據權限,做到針對用戶、部門的上傳下載限速,確保文件利用的優先級。4.4.7.ECM 與人工智能4.4.7.ECM 與人工智能在 ECM系統中,需要將人

98、工智能的關鍵技術的機器學習、深度學習、NLP 自然語言處理與大數據技術進行深度融合,通過對模型語料、算法、訓練、評估、發布和持續迭代的全生命周期管理,實現了對文本和圖像的智能分類、智能標簽、智能 OCR 識別、智能抽取和生成等。通過結構化 D2R 技術、半結構化 Wrapper 技術和非結構化 NLP文本抽取技術構建起 Graph 知識圖譜。非結構化數據知識圖譜同時融合本體知識圖譜、基于語義抽象的主題圖譜和文件關聯的文檔圖譜這三大圖譜;并結合用戶畫像與行為日志,實現啟發式可交互的非結構化數據探索能力。該能力可應用于智能搜索、智能推薦、智能定密、智能安全分析、知識創新和輔助決策等領域。4.4.8

99、.ECM 生態融合技術4.4.8.ECM 生態融合技術ECM 平臺具有強開放性,能夠通過廣泛的適配器、多種集成模式、全內容整合等手段,構建起多行業、全生態的融合技術?;诜墙Y構化數據管理知識與實踐(2023 版)51此,ECM 能夠深度集成和融合財務類、ERP 類、OA 類、PDM 類、IM 類、存儲備份類、加密安全類等各種企業應用系統,實現了企業和組織非結構化數據的統一存儲、統一管理和統一服務,橫向打通了組織內的信息孤島,構建起統一的非結構化數據中臺,實現數據互通、業務融合,為企業和組織的業務創新與精準決策提供了完整且有效的非結構化數據支撐。4.5.新一代 ECM 平臺的發展方向4.5.新一

100、代 ECM 平臺的發展方向作為非結構化數據管理的一種通行的軟件類型,在國際上,自2006 年 SharePoint 問世以來,ECM 已經走過了十幾個年頭,從最初的開源內容管理平臺,到取代 DMS 文檔管理,成為企業內承托內容的一體化平臺??萍硷w速發展,內容管理的技術與形式也日新月異,2018 年 Gartner 也提出,將 ECM 拆分為內容服務平臺 CSP、內容協作平臺 CCP 和數字體驗平臺(DXP),以三個各有側重的平臺,去支撐企業內容的管理、治理與處理。而遍觀國內,隨著平臺定位的精細化與企業需求的多樣化,ECM 也面對著升級與迭代的強烈需求,針對國內企業的數據管理需求與實際應用場景,

101、ECM 未來的發展方向大概能夠分為以下幾個方面:4.5.1 成為企業基礎設施4.5.1 成為企業基礎設施數字化時代,數據始終占據著企業發展的核心地位。企業業務進行中的過程文件、內部日常運營所產生的辦公文件、各類場景下的體系化文件與 OA、ERP 等業務系統中的文件,共同組成了企業內流通的非結構化數據的總和。因此 ECM需要具備統一收集、存儲這些非結構化數據的能力,打通企業內部的數據孤島,發揮底座能非結構化數據管理知識與實踐(2023 版)52力,幫助企業構筑一站式的企業非機構化數據平臺。數據爆炸的時代,企業每天都在面臨著海量新數據的收集與利用的難題。ECM 應當以強大的底層能力,實現企業 PB

102、 級別以上的數據存儲,靈活擴容;同時能夠輕松處理高并發請求與跨國、跨區域的文件傳輸需求,支撐大規模的內容利用。4.5.2 挖掘內容生產力4.5.2 挖掘內容生產力非結構化數據占據企業內數據總量的 80%,但管理難、數量大、信息量龐雜,相比之下,結構化數據易分析、易利用,擁有更成熟的管理方式。為了提升非結構化數據管理效率,ECM 需要以元數據及各類智能手段,抽取非結構化內容中的實體,打通結構化數據與非結構化數據的轉換壁壘,實現了對非結構化數據的統一高效管理。同時,企業也需要 ECM 具備解析內容文檔的大顆粒結構、將非結構化數據龐大的信息量細顆?;哪芰?,能夠將文件檢索精準到關鍵詞與關鍵實體,從而

103、大幅度壓縮內容篩選與檢索的時間成本。在幫助企業在提升內容利用效率的同時,解放內容價值,降低內容獲取與復用的門檻,促進企業內容管理再升級。除此之外,通過 ECM 的各類組件與功能,對內容進行整理、提煉與重新組織,企業能夠提高自身數字資產管理能力,實現知識武裝員工、內容指導業務的戰略級目標。將企業內各類知識體系化,然后智能推送到不同部門,形成個性化的知識汲取環境,從而創造學習型組織,構建良好的企業文化。4.5.3 激發內容應用合力4.5.3 激發內容應用合力面對企業日益復雜的內容應用需求,ECM 應當立足于內容管理與文檔管理,助力文檔協同作業,統一數字資產管理,融合實際內非結構化數據管理知識與實踐

104、(2023 版)53容業務,智能發掘數據價值,構筑出涵蓋企業網盤、文檔云、檔案管理、知識管理、智能搜索等類型的內容管理解決方案,更有針對醫藥、制造業等特殊場景的內容管理應用,全面助力企業非結構化數據管理體系建設。未來,企業內的 ECM 平臺不僅要以內容采集、存儲、傳輸、處理、使用、保護、交換、歸檔為核心,結合企業常見內容場景,逐步構建一站式平臺,還需要連接公司營運與業務的各個環節,打通數據隔閡,在保障數據安全合規的同時,以大數據、人工智能等先進手段,實現企業內容的全生命周期管理與價值實現。企業在數字化轉型與挖掘數據價值的過程中,往往會遇到文件離散、系統孤立的數據存儲問題,并且伴隨著內容質量低下

105、、文件檢索困難、數據支撐不足、內容難以合規等多重挑戰。以 ECM作為企業非結構化數據的管理平臺,承托非結構化數據的各個使用環節,從而全方位提升企業內容應用能力。4.5.4 構建內容數字空間4.5.4 構建內容數字空間隨著數字化發展的趨勢愈發清晰,企業需要根據自身特點制定一套全局的數字化目標。未來的 ECM 應當能夠引導和幫助企業將業務逐步數字化,打造企業專屬內容數字空間,整體性建造統一的內容價值鏈,避免多個系統造成的數據孤島。助力企業不僅從業務層面,更從公司日常營運、員工培訓提升等多個方面,實現線上線下協同發展。借助 ECM平臺,匯集企業各類數據,提煉、轉化為有價值、可傳遞的知識內容,統一進行

106、管理與利用?;谄髽I的業務內容類型,通過內容元數據進行網狀式廣泛關聯,讓數據來源于業務,又輸出服務于業務。企業數據經過匯聚、整理和處理之后,以全內容非結構化數據管理知識與實踐(2023 版)54服務形式進行開放,構建起統一的企業非結構化企業管理平臺,驅動業務高效發展。位于競爭快車道的企業,無時不刻需要通過創新發展鞏固自身市場地位。而創新從來都不是無根之水,通過 ECM平臺,深度融合智能與知識管理手段,打造企業“內容新基建”,植根于企業過往的案例、經驗,充分汲取企業內容中的養分,構筑企業創新內核,賦能企業智能化、規?;?、數字化的創新之路。4.5.5 深化 AI 賦能賦智4.5.5 深化 AI 賦

107、能賦智基于內容管理底座,ECM 有能力構建起一整套涵蓋非結構化數據與各類業務結構化數據的內容智能體系。通過采集相關數據、創建模型,經過深度學習與自主優化,文本智能可以幫助企業實現文字審核、抽取、分類等功能;基于光學字符識別與機器視覺算法,圖像智能能夠實現各類 OCR 功能與目標的檢測與分類;以文檔、主題、實體為節點,構建全景的知識圖譜,從而反哺文檔智能搜索與智能推薦,最大程度釋放內容價值。同時,企業內各類實體之間有著紛繁復雜的關系,以靜態的傳統目錄方式很難完整地對其進行實時展示。ECM 能夠通過知識獲取、知識融合、知識存儲、語義理解、知識檢索和可視化展現等多個模塊,將經過梳理、總結的知識傳遞給

108、用戶,構建企業知識圖譜,激發用戶求知欲,實現智能探索。5.非結構化數據管理應用實踐5.非結構化數據管理應用實踐5.1.非結構化數據管理應用類型5.1.非結構化數據管理應用類型隨著信息技術全面升級,很多組織不僅關注內容管理層面,更非結構化數據管理知識與實踐(2023 版)55關注利用內容,助力業務流程,進一步提升生產效率,以及挖掘數據價值,從而獲得商業洞察能力。受行業背景及企業業務流程等因素的影響,企業在選擇解決方案時需結合行業特色和企業業務過程,以非結構化數據管理作為支撐,梳理內容創建、管理、儲存、保護與應用等過程,并制定相關的管理機制和管理體系。典型的企業內容管理系統包括內容協作和交互、內容

109、全生命周期管理、統一的內容管理平臺、內容的知識化平臺、內容歸檔和合規管理,以及電子文檔安全管理等。(1)內容協作和交互企業內容管理系統可以通過完善的共享、外發、擴展編輯、檢索等環節實現遠程辦公,文檔協作和交互,并通過完善的權限管理機制,保證文檔應用的安全。(2)內容全生命周期管理通過企業內容管理系統,能夠針對電子文件的全生命周期進行管理,并且根據企業業務過程管理企業內容,建立全程可追蹤的管理體系。(3)統一的內容管理統一的內容數據管理平臺可以通過標準化應用程序接口,與各大系統對接,建立跨系統內容協作,并通過分布式部署等途徑,打破物理空間對內容管理的限制,以整合各類數據的資源,提供數據能力。(4

110、)內容知識化企業內容管理系統可以對知識進行沉淀與傳承,構建知識管理和應用體系,使顯性知識規范化,并沉積存儲在員工頭腦中的隱性知識,助推隱形知識顯性化進程。非結構化數據管理知識與實踐(2023 版)56(5)內容歸檔和合規管理平臺企業內容管理系統可以自動化和智能化地收集、管理、保存和利用企業內有價值的數據信息,然后基于人工或自動的判斷,流程化地對內容進行歸檔,留存企業寶貴數據。同時保障企業內數據遵循法律法規,滿足企業合規性管理,幫助企業從容應對國內外各類質量體系要求。(6)電子文檔安全管理平臺針對非結構化數據進行體系化管理,可以用于涉密或商秘電子文檔的集中存儲及安全管控,為企業提供全程安全的文檔

111、管理業務系統與可追溯可控制的數據應用環境。5.2.非結構化數據管理應用實踐5.2.非結構化數據管理應用實踐5.2.1.某大型藥業集團內容協作案例5.2.1.某大型藥業集團內容協作案例應用領域:公司管理應用場景:公司文檔管理案例提供者:某大型藥業集團(1)案例中存在的問題某大型藥業集團在企業數據管理中面臨幾個重要的問題:一是各個廠區間的質量車間關于規章制度的互相協作修改問題;二是企業規范文檔的在線創建問題;三是分公司之間多人同時編輯文檔的問題。(2)解決方案介紹打造質量體系文件管理及在線協同編輯體系,實現基于辦公組件的文件多人編輯模式,并且在編輯模式下,顯示不同用戶修訂過的記錄,標注用戶名、時間

112、、內容,給協同編輯工作帶來極大的方非結構化數據管理知識與實踐(2023 版)57便。在有效提高工作效率的同時,壓縮了大量會議的成本和其它溝通成本。此外,對企業實驗室進行數據安全備份,使數據完整性、安全性、一致性得到保障,讓員工工作過程中對文件的操作有據可循,避免責任推諉,搭建高效易用的在線協作平臺,切實提高企業研發效率。5.2.2 某地鐵公司內容全生命周期管理案例5.2.2 某地鐵公司內容全生命周期管理案例應用領域:公司數據管理應用場景:數據資料管理案例提供者:某地鐵公司(1)案例中存在的問題為了保障地鐵安全運營,實現對安全保護區項目合同的全過程管控,提高內部工作效率和管理水平,并更好地對地鐵

113、軌道監護辦公室累計二十多年的寶貴數據資料進行管理,如技術數據、圖紙、文件等。某地鐵公司急需建立一個完整的綜合管理平臺。(2)解決方案介紹通過構建文檔檔案一體化管理平臺,實現對文件采集、圖片處理、索引分類、傳輸、海量存儲、查詢分發、歸檔和銷毀等電子檔案的全生命周期管理。該平臺能夠為監護公司檔案室提供服務功能,包括入庫、借閱等,切實提高地鐵監管部門的檔案管理能力。同時,通過信息共享和業務協同業務,實現管理工作的信息化、流程化、無紙化,使內部管理可視化、知識化。5.2.3 某電力集團統一的內容數據管理平臺案例5.2.3 某電力集團統一的內容數據管理平臺案例應用領域:公司內容數據管理應用場景:數據信息

114、檢索非結構化數據管理知識與實踐(2023 版)58案例提供者:某電力集團(1)案例中存在的問題某電力集團目前存在的問題為:不同的業務系統中的數據分散,隨著時間的積累,非結構化數據的數據量急劇增長,員工查找和利用數據信息極為不便。同時,針對海量的信息數據,如何快速精確查找所需的信息內容成為首要問題。在當前的各業務系統中均僅提供簡單的、基于指定字段的檢索,但其指定的檢索字段、檢索范圍、檢索方式對使用人員的操作門檻高,無法滿足使用人員通過簡單的關鍵字進行跨分類、跨字段的全文檢索需求。(2)解決方案介紹構建非結構化數據中臺以統一數據存儲,打破各業務系統的數據孤島,實現基于統一內容庫的統一搜索和分析利用

115、。通過如電力生產管理系統、企業信息繼承應用系統、電子商務平臺、圖紙管理系統等系統將實現組織架構同步、第三方業務系統單點登錄,僅維護一套賬號體系,大大降低工作量。系統基于獨立性、可靠性、實用性、多信息源、可擴展性、可維護性的原則,強調與其他業務系統的協同和數據共享。實現本平臺與電力生產管理系統、企業信息集成應用系統、電子商務平臺、圖紙管理系統、人事管理等系統的對接,將各業務系統中數據信息進行集成。繼承業務系統中的業務權限體系,實現對進入檢索系統中的信息內容的權限管理。提供統一的搜索利用平臺,快速便捷的綜合檢索,滿足公司員工對公司跨平臺海量信息的檢索、以及通過簡單的關鍵字進行跨分類、跨字段的全文檢

116、索需求,提升檢索效率以及準確性。非結構化數據管理知識與實踐(2023 版)595.2.4 某金融聯合組織電子文檔安全管理案例5.2.4 某金融聯合組織電子文檔安全管理案例應用領域:數據管理應用場景:數據中心案例提供者:某金融聯合組織(1)案例中存在的問題某金融聯合組織目前處于銀行卡產業的核心和樞紐地位,其面臨問題為:一是文檔分散,無法統一存儲;二是缺乏安全有效的外部數據交換手段;三是各業務系統間的信息孤島;四是文件查找使用不便,利用率低。(2)解決方案介紹建立統一非結構化數據中心,實現密級文件管控及防泄露管理,基于文件內容識別,甄別上傳文件是否屬于國家機密或一級商密文件,同時對上傳文件進行刪除

117、、轉移等安全控制。使各密級文件遵循業務管理規范,無縫整合流程平臺,實現流程審批并由數據中心對外發布。5.2.5 文檔云應用解決方案5.2.5 文檔云應用解決方案文檔云是基于企業內容管理平臺的應用解決方案,通過網盤應用將個人電腦上的文件全部上傳至文檔云;借助企業內容管理系統的各種采集和融合能力,將各種業務系統文件和體系文件上傳至文檔云,從而實現企業所有文檔的統一存儲、統一管理和統一應用。幫助企業管理采集、存儲、保護、治理、使用、交換和歸檔等過程中的文檔以及企業組織流程相關的內容與文檔,逐步構建企業非結構化數據內容服務平臺。(如圖 11所示)非結構化數據管理知識與實踐(2023 版)60圖 11

118、文檔云應用解決方案5.2.6 信創國產化解決方案5.2.6 信創國產化解決方案對 IT 基礎設施的國產化替代正是當下經濟數字化轉型、提升產業鏈發展的關鍵,而 ECM 能夠作為事業單位、黨政機關、高等院校、科研院所等組織提供內容管理支撐,成為這些組織的“新基建”,推動相關行業的數字化進程。通過完成國產化硬件的全面適配,ECM 內容管理平臺能夠解決組織內的數據安全、協作效率、業務流轉和管理合規的問題,在保障終端安全的情況下,提升效率、降低成本,以統一平臺解決辦公文檔協作共享、跨平臺數據遷移、會務組織、移動辦公、文檔內部流轉、跨網安全交換、業務附件歸檔等特色場景的需求。(如圖 12所示)非結構化數據

119、管理知識與實踐(2023 版)61圖 12 信創國產化解決方案5.2.7 某汽車金融企業非結構化數據中臺應用案例5.2.7 某汽車金融企業非結構化數據中臺應用案例應用領域:金融應用場景:數據中心案例提供者:某汽車金融企業(1)案例中存在的問題某汽車金融企業早年已部署內容管理平臺,軟件硬件設施老舊,維護成本高、難度大,系統架構復雜,基于原有內容管理平臺實施新項目、新系統的成本高,系統穩定性差,嚴重影響到了用戶的日常使用。(2)解決方案介紹非結構化數據中臺依托于 ECM 內容管理平臺的厚實底座,能夠為企業提供非結構數據統一存儲、統一管理的內容管理平臺和內容服務平臺。作為傳統內容管理平臺的升級迭代,

120、通過構建企業非結構數據中臺,更新系統架構,為該汽車金融企業提供了方便于前臺應用統一輸出的各種非結構數據服務,通過門戶、建模和表單三大引擎快速構建各種以非結構化內容為主的業務應用,實現企業業務非結構化數據管理知識與實踐(2023 版)62的內容驅動和精細化運營,從而降低運維成本,以標準化的系統設計,為未來企業的系統更新與迭代提供了更優質的解決方案。(如圖 13所示)圖 13 非結構化數據中臺應用解決方案5.2.8 涉密/商秘電子文檔安全管理應用解決方案5.2.8 涉密/商秘電子文檔安全管理應用解決方案商密電子文檔安全管理遵循國資委中央企業商業秘密信息系系統安全技術指引,完成商密密級文件在形成、流

121、轉、存儲、脫密以及銷毀等階段的全域全生命周期安全保護。涉密電子文檔安全管理遵循國家保密局涉及國家秘密的電子文檔安全保密產品技術要求標準,以密級識別技術為基礎,綜合應用電子審批、訪問控制等技術手段,對涉密文件的內容和使用權限進行安全控制,防止涉密信息在內部發布與交互過程中被肆意傳播和違規使用,最大限度保護涉密文檔的使用安全。該解決方案可以為政府單位、軍工企業、科研院所等涉密電子文檔的集中存儲及安全管控提供應用解決方向。系統遵循分級保護要求,運用身份鑒別、數據加密、細粒度訪問控制以及安全審計等多種技術進行全程全域的安全保護,做到事前防范、事中控制和事非結構化數據管理知識與實踐(2023 版)63后

122、追溯相結合,以確保涉密電子文檔全生命周期的安全(如圖 14 所示)。圖 14 涉密/商密電子文檔安全管理應用解決方案5.2.9 某技術、產品和解決方案公司內容知識化平臺案例5.2.9 某技術、產品和解決方案公司內容知識化平臺案例應用領域:公司數據管理應用場景:數據管理案例提供者:某技術、產品和解決方案公司(1)案例中存在的問題某領域全球最大的技術、產品和解決方案公司,在企業發展過程中,面臨諸多問題:一是數據離散存儲,公司同時使用多套業務系統,導致重要數據分散在各自系統及員工電腦中,無法做到集中管理;二是歷史數據與知識的檢索困難,無法對歷史數據、成果文檔進行全面檢索、利用;三是涉密文件管理困難,

123、文檔安全無法有效管控,文檔越權利用無法做到審批后自動賦權、到期后自動回收權限;四是知識缺少互通,部門間知識和經驗缺少統一分享平臺,導致協同辦公困難。(2)解決方案介紹構建企業非結構化數據的統一利用平臺,通過標準的數據接口,打通企業內部各個業務系統之間的信息孤島,將文檔及知識在非結構化數據管理知識與實踐(2023 版)64統一的平臺進行存儲,遵循統一的數據標準進行管理、應用和發現。在數據中臺為業務系統減小負擔的同時,實現了企業數據集中存儲、安全受控與合規利用?;谖⒎占軜嬎神詈系奶匦?,平臺底層的所有文檔服務也可以反過來支撐業務系統,如元數據、統一預覽、統一搜索查詢、批量歸檔和調閱利用等等。5.

124、2.10 某全球大型制造企業內容歸檔和合規管理案例5.2.10 某全球大型制造企業內容歸檔和合規管理案例應用領域:公司數據管理應用場景:公司部門間溝通管理案例提供者:某全球大型制造企業(1)案例中存在的問題作為全球恒溫器制造領導廠商,企業目前面臨著研發、生產和質量三個部門之間分散、孤立的問題。研發、生產和質量是構成企業管理的三大要素,分別由各個部門負責把控,但這三者之間又是相互關聯、密不可分的。當前情況下設計圖紙、零部件表單、管理流程等垂直業務內容仍分散、孤立在各部門,亟需實行有效的措施打破各部門間的壁壘,將三個部門有效地串連起來,并進行有效的監督和管理。(2)解決方案介紹利用附件歸檔及統一搜

125、索系統,統一存儲,打通信息孤島,對接各類業務系統數據,同時實現 BMP 業務流程自動化,提升業務內容查找效率及準確性。垂直搜索是目前相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務模式,通過實行垂直搜索這一項解決措施,可以使企業部門針對某一特定領域、某一特定人群或某一特定需求提供更高價值的信息和相關服務。非結構化數據管理知識與實踐(2023 版)655.2.11 KM 知識管理應用解決方案5.2.11 KM 知識管理應用解決方案KM 知識管理應用解決方案可為用戶提供專業的知識管理咨詢規劃,結合成熟的落地方法論,基于業界領先的 ECM 平臺提供知識統一存儲平臺,并以此構

126、建兼顧穩定性、先進性、實用性、可靠性和可拓展性,面向業務及管理需求的知識管理平臺。同時,AI 智能技術也為新技術下的知識管理應用場景提供支撐(如圖 15 所示)。圖 15 KM 知識管理應用解決方案5.2.12 文檔檔案一體化應用解決方案5.2.12 文檔檔案一體化應用解決方案文檔檔案一體化應用模式遵循“文件生命周期理論”,為企業級檔案信息化建設提供應用解決方案,提供了基于電子文檔全生命周期管理功能,以滿足企業非結構化數據的統一采集、存儲、保護、管理、使用和交換需求,同時提供了基于檔案業務全生命周期的管理功能。按照企業檔案管理規范,將檔案收集工作前置,約束各個職能部門在日常文檔管理過程中進行預

127、歸檔整理,定期向檔案系統歸檔,實現文檔業務充分融合,同時將檔案記憶知識化,為企業再生產活動提供強有力的知識支撐(如圖 16 所示)。非結構化數據管理知識與實踐(2023 版)66圖 16 文檔檔案一體化應用解決方案5.2.13 某中級法院文件安全交換應用案例5.2.13 某中級法院文件安全交換應用案例應用領域:黨政機關應用場景:內外網數據交換案例提供者:某中級法院(1)案例中存在的問題為響應“十三五規劃”中“法院信息化 3.0”決策的深化與完善,某中級法院面臨著兩大核心挑戰:需要構建符合等保條件的文檔辦公環境與內外網安全文件交換系統,法院內部禁止內外網交叉使用移動介質,且需要具備文件備份還原系

128、統與防勒索病毒的手段,全面保障法院內部各類辦公資料、文書、音視頻、法宣資料的安全。(2)解決方案介紹針對某中級法院的需求,采用了容器安全隔離的單套文件安全交換平臺。該平臺是融合網絡隔離技術和網盤技術于一體的專業應用,文件安全交換具有全方位安全管控的特點,通過授權、審批、審計、查殺毒、敏感性檢測和文檔標簽追蹤等方式保障了數據交換全過程的安全性?;谥性号c基層院之間的垂直關系,構建起了中院垂直部署,非結構化數據管理知識與實踐(2023 版)67全市統一的文件共享交換架構,用戶在不同網間進行數據擺渡時,系統會進行嚴格地交換安全控制,并留有完整日志和擺渡文件以備后續審計追溯,以保障用戶在不同網間、不同

129、環境下的數據傳輸、存儲、交換、共享與分享的安全性(如圖 17 所示)。圖 17 文件安全交換應用解決方案同時,配備了細顆粒度的訪問權限設置與防勒索+病毒查殺的模塊,通過進程識別與日志分析,阻斷感染文件上傳至服務器,保護文件本地至云端的安全。5.2.14 某藥業集團 GMP 醫藥質量應用案例5.2.14 某藥業集團 GMP 醫藥質量應用案例應用領域:醫藥制造應用場景:醫藥行業文件管理案例提供者:某藥業集團(1)案例中存在的問題該藥業集團是一家跨地區、產學研相結合、科工貿一體化的大型醫藥企業集團。集團經營過程中的所有文件、數據都需要完整有效地進行保存,隨著集團業務量的不斷擴大,企業內的文件管理正面

130、臨著越來越嚴峻的挑戰。信息量大、文件查閱難;文件審核流程復雜、效率低下,無法實時監控;文件傳遞缺乏安全管控,數據非結構化數據管理知識與實踐(2023 版)68完整性難以達到監管要求,缺乏完整的培訓體系。(2)解決方案介紹基于該藥業集團現狀,提出了醫藥質量 GMP 應用解決方案,以高效管理和使用企業運營過程中產生的業務文件、質量文件以及檔案等文件,滿足 GMP 和 GSP 等醫藥管理規范,貼近國際和國內GMP 標準的計算機系統驗證服務和安全管理技術和策略,利用醫藥領域構建集團性文檔和檔案管理技術,構筑質量文件管理體系、記錄管理體系、培訓管理體系和集團級業務流程質量管控流程體系(如圖 18所示)。

131、圖 18 醫藥質量 GMP 應用解決方案首先,建立統一的內部文件管理中心,以光學字符識別識別技術實現企業內的便捷搜索,降低企業存儲成本。其次,以信息化的流程監控,在企業節約時間、人力成本的同時,實現集團的高效協同運作,提升員工能力。同時,提供文件全生命周期管理解決方案,通過建立全面的文件管理體系,提高企業的協同效應,落實對 GMP 文件的創建、審核、培訓、發布簽收、執行修改、歸檔、廢止等全流程的有效監控。非結構化數據管理知識與實踐(2023 版)69該解決方案覆蓋了 GMP 文件全生命周期的管理方式,保證了數據的完整準確,更好地穩定產品質量、應對 GMP 的頻繁檢查,促進企業規范管理。該解決方

132、案也可以通過完整的培訓體系管理,實現集團文件及時的上傳下達,以及有效監測,實現企業知識和信息資產有效管理和利用。并且建立質量管理要素關系模型,為企業質量管理提供可靠的基礎平臺,通過安全的質量應用平臺及合規管理,實現全面高效的質量信息化管控。5.2.15 ISO 質量體系文件管理應用解決方案5.2.15 ISO 質量體系文件管理應用解決方案應用領域:大型制造企業應用場景:質量體系文件管理案例提供者:某芯片設計企業(1)案例中存在的問題作為高精尖產業中的領軍企業,多年以來,某芯片設計企業內累積了大量產品相關的質量手冊、程序文件、指導書等文件,但這些文件都分散地存儲在企業的各系統與個人電腦之中,文件

133、版本迭代快,缺乏明確的文件、版本、流程管控手段,亟需一套系統應用,遵循國際通行的 ISO 質量體系要求,對所有質量體系文件進行統一管理。(2)解決方案介紹建立基于內容管理與流程的 ISO 文檔全生命周期管理平臺,為該芯片設計企業提供從文件預審、創建與修訂、分發、簽收與培訓、生效,到復審與回收和廢止的 ISO 文檔全生命周期管理功能。通過對 ISO 質量體系文件的流程化、全生命周期管理,幫助企業明確崗位職責與權限,協調各部門之間的協作關系,實現質量管理體系要求的規范落地建設。非結構化數據管理知識與實踐(2023 版)705.2.16 工程協同設計應用解決方案5.2.16 工程協同設計應用解決方案

134、基于虛擬盤客戶端技術,保持設計師現有操作模式,將設計文件自動存于云端?;隍寗蛹壖軜嫷奶摂M盤,支持“外部參照”和“中心文件”兩種協同設計方式。工程協同設計應用實現基于網盤的日常過程設計協同,校審、提資、收發文等階段成果流程協同,以及基于 BIM 模型的全專業可視化協同三種協同應用模式(如圖19、20所示)。圖 19 工程協同設計方式比較非結構化數據管理知識與實踐(2023 版)71圖 20 工程協同設計應用解決方案5.2.17 EPC 工程內容管理應用解決方案5.2.17 EPC 工程內容管理應用解決方案EPC工程內容管理是基于 ECM企業內容管理和內容業務平臺構建起的設計協同管理系統,實現了

135、業務流程協同、設計過程及內容協同、設計模型全專業協同。流程協同可實現流程可回查,輕松排查工程、管理問題;提供可定位的關鍵節點和角色信息;項目進度量化顯示,項目細節可管理;即時消息提醒,嚴格把控任務執行進度。設計過程及內容協同可實現業務流程與文檔管理相關聯,提升協作效率;文檔集中管理,分散使用;系統根據流程運轉情況自動分配并同步文檔的保密等級;三層病毒防護結構,杜絕感染病毒。設計模型全專業協同可實現全專業設計文檔兼容,快速生成模型全貌;全專業在線協同校審,校審成果文檔可直接歸檔并發布(如圖21所示)。非結構化數據管理知識與實踐(2023 版)72圖 21 EPC 工程內容管理應用解決方案5.2.

136、18 海量數據快速發現解決方案5.2.18 海量數據快速發現解決方案基于 ECM對企業內文檔數據的統一管理,能夠為企業提供豐富的文件查找定位方式。通過基礎搜索、智能搜索和高級搜索三者的有機組合,能夠滿足企業常見基礎搜索需求,并且可以根據企業內具體的場景,提供個性化的檢索手段?;A搜索能夠借助分詞引擎,提供常規的精準搜索、模糊搜索,針對用戶輸入內容進行匹配,還能夠對文件夾名、文件名、標簽進行聯想,預測用戶意圖,提供聯想推薦;記錄用戶搜索歷史,提供歷史搜索詞條;記錄企業內熱搜詞匯,展示組織內的搜索傾向與企業熱門信息;另外,還提供切面篩選與搜索排序,幫助用戶梳理搜索結果。通過與 AI 智能深度結合,

137、ECM 能夠提供以文搜文、以圖搜圖與知識圖譜的智能檢索能力。利用 NLP 語義理解技術,能夠快速檢索出與當前文檔內容語義相同或相似的文件,擴展關鍵詞檢索的能力;借助對圖像特征的識別能力,能夠快速檢索與上傳圖片相似的圖片素材,打破只能進行文字搜索的局限;而通過知識圖譜技術,非結構化數據管理知識與實踐(2023 版)73能夠理解用戶的搜索意圖,從而為用戶匹配最符合其需求的文件,助力用戶完成對知識的挖掘。高級搜索則可以通過更多檢索條件的組合,幫助用戶更精確的定位到想要的文件,從而提升用戶文件檢索的效率??蛇x擇的條件包括:內容、文件類型、創建時間、所在文件夾、創建人等,支持自定義字段與復數條件的組合規

138、則,給用戶提供個性化的搜索體驗。5.2.19 文檔智能應用解決方案5.2.19 文檔智能應用解決方案通過與 AI 智能技術深度融合,ECM 平臺能夠具備一定的智能能力。其中與文檔、內容管理強相關的包括:以圖搜圖、以文搜文、人像識別、智能搜索、DLP、OCR 整體識別、OCR 區域識別、文檔/圖像智能標簽。除了搜索相關的幾項能力之外,人像識別能力能夠通過分析人員照片,快速篩選定位與該人員相關的其他圖片;DLP(Data leakage prevention)數據泄密防護技術則基于機器學習模型及人工錄入規則引擎對捕獲到的數據進行風險分析,從而提供文件定密、文件分類、敏感內容檢測等安全功能的能力;而

139、借助 OCR光學識別技術,能夠實現整體識別、區域識別和智能標簽的功能。將圖像類(含掃描圖像形成的 PDF)文件的文字進行提取,生成索引,輔助全文檢索,同時可以依據用戶配置將識別出的文本結果存放至指定位置;輔以 NLP 技術,能夠對圖像類文件進行關鍵內容提取,自動化賦值元數據,可以被應用在合同的關鍵要素抽取等場景之中;結合知識網絡,針對含有文本信息的文件自動提取出更加符合業務邏輯的內容標簽;借助圖像識別,對上傳至系統的圖像自動生成符合其特征的標簽。非結構化數據管理知識與實踐(2023 版)746.結束語6.結束語本白皮書圍繞非結構化數據管理展開了體系化、整體性的系統闡述,涵蓋了從非結構化數據管理

140、體系、解決方案與應用實踐的方方面面。非結構化數據作為占據每年數據增量 80%的一種重要數據類型,值得相關機構與組織進行持續地跟蹤調查與深入地研究分析,而對非結構化數據實行科學的管理,需要基于其以下的三個特征:內容完整:內容完整:非結構化數據具備很強的描述性,一份文檔、一段錄音、一部視頻往往可以對事件或者人物進行完整的描述,這是結構化數據所不具備的能力;體量巨大:體量巨大:企業級的非結構化數據大多都是 PB、EB 量級,文件數量超過“億”、“十億”量級,大量的非結構化數據占用了企業的存儲空間,擴容的需求同時也造成了投資成本的不斷攀升;形式多樣形式多樣:非結構化數據的呈現是多樣化、多種類的,也是人們日常最容易接觸到的,無論是圖文類文件、音視頻等多媒體文件,還是圖紙報告等專有格式文件,都是非結構化數據的一種,蘊含著日常人類行為活動的規律與軌跡;因此,專業的非結構化數據管理是每個企業的數字化基礎設施,利用好非結構化數據更是每個企業數字化轉型的必經之路。非結構化數據在人的活動中產生,又服務于人、貼近于人,是始終圍繞著人這一主體進行流轉的數據。只有充分挖掘、利用非結構化數據的價值,才能夠更好地適應網絡和信息化時代,更好地驅動企業革新,釋放企業生產力,獲得響應時代、弄潮時代的本領。

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(中船信息:非結構化數據管理知識與實踐白皮書(2023版)(78頁).pdf)為本站 (楊柳依依) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站