《中國人民大學&鴻翼:2020年數據管理中的文件檔案與內容管理白皮書(33頁).pdf》由會員分享,可在線閱讀,更多相關《中國人民大學&鴻翼:2020年數據管理中的文件檔案與內容管理白皮書(33頁).pdf(33頁珍藏版)》請在三個皮匠報告上搜索。
1、 數據管理中的文件檔案與內容管理數據管理中的文件檔案與內容管理白皮書白皮書(2020(2020 年年)編寫組編寫組 中國人民大學電子文件管理研究中心:劉越男 楊建梁 祁天嬌 何思源 上海鴻翼軟件技術股份有限公司:龍凌云 羅永秀 張中 姚寶敬 目目 錄錄 1 背景.1 2 文件、檔案與內容管理的相關概念.1 2.1 文件、檔案與文檔.1 2.2 內容與數據.2 2.3 文檔管理與內容管理.2 2.4 文檔生命周期與數據生命周期.3 3 數據管理框架下的文件檔案與內容管理.3 4 文檔與內容管理價值與效用.5 4.1 安全合規.5 4.2 提效降本.6 4.3 業務連續.6 4.4 決策支持.6
2、4.5 洞察創新.6 4.6 權益保障.7 4.7 資產增值.7 4.8 記憶(歷史)留存.7 5 內容管理軟件的應用及類型.7 5.1 應用架構視角下的內容管理軟件應用.7 5.1.1 企業內容管理系統.8 5.1.2 內容協作系統.8 5.1.3 網頁內容管理系統.9 5.1.4 文檔管理系統.9 5.1.5 影像管理系統.10 5.1.6 質量體系文件管理系統.10 5.1.7 知識管理系統.10 5.2 不同行業領域中的內容管理應用類型.10 5.2.1 制造行業內容管理應用.11 5.2.2 制藥行業內容管理應用.12 5.2.3 軍工行業內容管理應用.13 5.2.4 金融行業內容
3、管理應用.13 6 內容管理系統與文件檔案管理系統的發展.14 6.1 內容管理系統的發展過程.14 6.2 內容管理系統的發展階段.15 6.3 文件檔案管理系統的發展.17 7 文件檔案與內容管理的應用問題.17 7.1 IT 視角下的應用問題.17 7.1.1 業務系統核心文件“煙囪割裂”.17 7.1.2 離散過程文件難以統一存儲.18 7.1.3 海量數據帶來存儲擴展和安全問題.18 7.1.4 多分支機構對部署架構挑戰.18 7.2 業務視角下的應用問題.18 7.2.1 用戶很難發現想要的文件檔案.18 7.2.2 業務文件不能及時、完整歸檔.19 7.2.3 文件檔案未形成體系
4、化知識.19 7.2.4 文件檔案與業務融合不足.19 7.2.5 管理人員綜合能力依然欠缺.19 7.3 數據視角下的文檔檔案應用問題.20 7.3.1 文件檔案核心數字資產地位未被認可.20 7.3.2 非結構化數據管理戰略規劃缺失.20 7.3.3 內容數據化能力不足.20 7.3.4 文件檔案數據價值釋放不夠.20 8 數據管理中的文件檔案管理框架.21 8.1 價值實現層.22 8.2 文檔治理層.22 8.3 管理活動層.23 8.4 技術實現層.24 9 數據管理中文件檔案與內容管理的發展趨勢.25 9.1 結構化數據和非結構化數據融合發展.25 9.2 文檔管理和內容管理融合發
5、展.26 9.3 文檔管理和數字化業務融合發展.26 9.4 文檔管理基礎建設和智能開發融合發展.27 1 1 背景背景 隨著大數據、人工智能等信息技術的快速發展,數據的價值愈發凸顯,人們越來越意識到數據管理對于機構的重要性。然而,根據國內外多個研究機構的調查,大多數機構中非結構化數據占全部數據的 80%以上。數字環境下,大多機構的文件檔案管理依賴基于非結構化數據(即本白皮書所稱內容)的解決方案,文件檔案與內容有著異常緊密的關系。如果說數據是一座煤礦,誰能掌握這座煤礦,誰就能為機構發展提供動能,那么文件檔案與內容數據就是潛藏在煤礦深處的鉆石,誰能夠率先發現這些鉆石,誰就能先人一步洞察和刻畫機構
6、內外的種種變化,進一步將數據的價值和潛能釋放出來。國際數據管理協會在其標志性出版物數據管理知識體系指南(DAMA-DMBOK2)(第二版)中將文件檔案與內容管理放在了數據管理框架中顯著的位置,凸顯了文件檔案與內容管理對于數據管理的重要性。然而,現階段我國大多數機構管理者和相關人員對文件檔案與內容管理的認識尚有不足,文件檔案與內容管理在實踐中并沒有受到應有的重視。文件檔案與內容管理的管理范式與一般的數據管理相比也存在較大差異,相關方法和技術工具尚不豐富。面對現狀與問題,編寫組特別編制了數據管理中的文件檔案與內容管理白皮書,為行業從業人員、用戶及潛在用戶和社會相關人員提供文件檔案與內容管理涉及的基
7、本概念、效用價值、主要技術、系統功能等通識性知識,以期加強文件檔案管理領域和技術領域的對話和合作,推動文件檔案管理事業與內容管理行業的共同發展。本白皮書的編制主要參考了中華人民共和國檔案法(2020)、ISO 15489-1:2016信息與文獻 文件管理-第 1 部分:概念與原則、GB/T 18894-2016電子文件歸檔與電子檔案管理規范、GB/T 36073-2018數據管理能力成熟度評估模型、數據管理知識體系指南(DAMA-DMBOK2)(第二版)等法律法規、標準規范和文獻材料。2 文件、檔案與內容管理的相關概念文件、檔案與內容管理的相關概念 2.1 文件、文件、檔案與檔案與文檔文檔 從
8、文件檔案管理視角來看,文件(records)是指機構或個人在履行其法定義2 務或開展業務活動過程中形成、接收并維護的作為憑證和具有查考作用的信息,可簡稱為“業務憑證”。1檔案(records/archives)是指形成文件的業務活動結束之后仍然具有保存價值的文件。文檔是文件和檔案的合稱。從計算機技術視角來看,文件(file)是作為一個單元存儲或處理的命名的記錄集。2文檔(document)主要是指非結構化數據。除非特別說明,本白皮書使用的文件、檔案、文檔概念均來自文件檔案管理領域。2.2 內容與數內容與數據據 從信息的角度來看,內容是指以任何形式或載體存在的有含義和背景的信息。在計算機技術領域
9、,內容(content)一般指非結構化數據,是非結構化數據廠商提出的特定概念。在本白皮書中,數據與數字數據同義,是指以數字形式存在的信息記錄。按照數據單元被定義的程度,數據一般包括結構化數據、非結構化數據以及介于兩者之中的半結構化數據。其中,結構化數據是指存儲在數據庫里,可以用二維表結構來邏輯表達實現的數據。非結構化數據是指未通過數據模型預先定義的數據。3 2.3 文檔管理與內容管理文檔管理與內容管理 文檔管理是一項專業工作,指對文件從生成、處理、流轉、歸檔、移交、鑒定、保存到利用、處置等全生命周期進行管控的領域。手工環境下文件形成過程中的管理和檔案管理相對獨立,數字環境下文檔一體化是文件檔案
10、管理的基本要求。內容管理是一個 IT 產品分支,支持對非結構化數據進行采集、處理、組織、存儲、查詢和共享,實現從內容采集、創建、傳遞到內容分析等整個內容價值鏈 1 中華人民共和國國家標準 GB/T 26162.1-2010/ISO 15489-1:2001 信息與文獻 文件管理 第 1 部分:通則S 2 中華人民共和國國家標準 GB/T 5271.1-2000/ISO/IEC 2382-1:1993 信息技術 詞匯 第 1 部分:基本術語S 3 DAMA 國際著,DAMA 中國分會翻譯組 譯.DAMA 數據管理知識體系指南M.北京:機械工業出版社,2020:229 3 的整合。從概念來看,文件
11、檔案既可能是結構化數據,也可能是非結構化數據。但是在實踐中,文件檔案管理系統通常采用非結構化數據管理方案,以結構化數據存在的文件或者在歸檔環節被轉化為非結構化數據(比如版式電子發票),以便固化其內容、背景與結構并進行長期保存;或者以數據文件的方式保存在文檔系統中,該數據文件可能是多個業務記錄的集合體。雖然內容管理方案是非結構化數據的管理方案,但對內容的管理,需要借助于描述內容的結構化數據(元數據)展開;對內容的分析、挖掘與開發,則需要將非結構化數據轉化為結構化數據,這是電子文件數據化的重要任務。結構化數據和非結構化數據,存在互相轉化、互相支持、相互協同的關系。2.4 文檔生命周期與數據生命周期
12、文檔生命周期與數據生命周期 生命周期是看待和管理文檔、內容和數據的重要視角,它倡導將文檔、內容和數據看成一個有始有終、不斷發展變化的對象,并根據其不同階段的特點實施區別化的管理。其中,文檔生命周期是指文件從產生到最終銷毀或作為檔案永久保存的整個運動過程。從文檔價值來看,文檔生命周期包括現行文件、半現行文件和非現行文件等不同階段;從管理環節來看,文檔生命周期主要包括生成、鑒定、歸檔、分類、存儲、利用、分析、保存和處置等環節。根據 DAMA 的界定,數據生命周期包括計劃、設計、創建/接收、存儲或處置、利用或復用、增值等環節,一方面,該定義將生命周期提前到數據實際產生之前的規劃設計階段,這與1997
13、 年國際檔案理事會把電子文件劃分為設計/概念階段、形成階段和維護階段異曲同工。另一方面,該定義更為強調數據的增值利用,這提醒文檔管理工作人員也要重視文檔的復用和增值。3 數據管理框架下的文件檔案與內容管理數據管理框架下的文件檔案與內容管理 隨著文件檔案和內容的數據屬性逐漸明確,價值逐漸得到認可,文件檔案與內容管理已經成為數據管理的重要組成部分。在 DAMA 的數據管理功能框架中,文件檔案與內容管理被認為是數據生命周期管理中數據“使用與增強”階段的組4 成部分,如圖 1 所示,在文字描述部分,綜合了非結構化數據和文件檔案專業管理的內容。在數據管理的框架下,文件檔案與內容管理已經成為機構數字治理和
14、數據資產化的關鍵環節,是在數據流轉過程中數據價值洞察和挖掘的基礎性工作。圖 1 DAMA 數據管理功能框架 盡管 DAMA 將文件檔案與內容管理放到了一個比較高的位置,但是其提出的數據管理功能框架對于文件檔案與內容管理的描述層次比較單薄,對文件檔案與內容管理的價值認知有限。DAMA 的數據管理功能框架將文件檔案與內容管理描述為數據生命周期管理中一個特定階段,即在數據管理中的某個階段,數據管理會表現為文件檔案與內容管理。但是,文件檔案與內容有著更豐富的內涵,從橫向來看,文件檔案與內容管理同樣存在其生命周期。文件檔案與內容的管理過程與其生命周期相對應,包括文件檔案與內容數據的產生、捕獲、分類索引、
15、訪問控制、存儲、利用和重用、長期保存以及處置等。文件檔案與內容管理并非是數據管理的一個特定階段,而是貫穿于整個數據生命周期。從縱向來看,對于文件檔案和內容的管理也需要著眼數據治理開展規劃與監管,并提供元數據管理、風險管理等基礎數據管理活動的支撐。5 本白皮書認為:文件檔案與內容管理并不只是數據管理的一個獨立分支,而是滲透和融入數據管理的所有方面。文件檔案管理工作因內容管理方案的應用而延展,內容管理方案因文件檔案管理的應用而專業。4 文檔與內容文檔與內容管理價值與效用管理價值與效用 圖 2 文件檔案與內容管理的價值 4.1 安全合規安全合規 文件檔案與內容管理有利于幫助機構規避法律風險文件檔案與
16、內容管理有利于幫助機構規避法律風險。有效的文件檔案與內容管理能夠保障機構依法維護機構業務記錄的真實性和可靠性,保障證據性記錄的長期保管,避免重要記錄因管理不善而遺失、泄露或被篡改所帶來法律風險,保障機構的合法利益。6 4.2 提效降本提效降本 文件檔案與內容管理有利于幫助機構優化業務流程,促進機構高效透明運文件檔案與內容管理有利于幫助機構優化業務流程,促進機構高效透明運轉,提高機構運行效率轉,提高機構運行效率。相對于結構化數據,文件檔案與內容等非結構化數據更加細致的刻畫了業務流程中的事物運行情況,是對業務流程清晰的邏輯映射。有效的文件檔案與內容管理,能夠幫助管理者更好的洞察機構業務情況,從而提
17、高機構運行效率,實現機構高效透明運轉。4.3 業務連續業務連續 文件檔案與內容管理有利于幫助機構應對突發事件,迅速恢復異常業務文件檔案與內容管理有利于幫助機構應對突發事件,迅速恢復異常業務。文件檔案與內容管理能夠將機構運轉的重要業務規則和事件予以留存和保管,當機構面對包括自然災害、業務事故等突發事件而導致業務中斷時,有效的文件檔案與內容管理能夠將數據取出以還原業務,從而幫助機構迅速恢復異常業務,降低突發事件所帶來的經濟損失。4.4 決策支持決策支持 文件檔案與內容管理有利于促進信息資源共享整合,提升機構決文件檔案與內容管理有利于促進信息資源共享整合,提升機構決策水平策水平。文件檔案與內容管理強
18、調數據的資源性和業務性,有效的文件檔案與內容管理能夠幫助機構實現跨部門的信息資源共享和整合,減少部門之間因系統互操作差異等因素所帶來的信息壁壘,降低跨部門合作的障礙,從而提升機構的整體決策水平。4.5 洞察創新洞察創新 文件檔案與內容管理有利于提升機構知識發現和創新能力,幫助機構洞察文件檔案與內容管理有利于提升機構知識發現和創新能力,幫助機構洞察創新創新。有效的文件檔案與內容管理能夠實現對文件檔案與內容的有效開發和利用,能夠幫助機構充分挖掘和管理文件檔案與內容中蘊涵的知識,從而提高機構的知識管理水平,提升機構的知識發現能力,實現機構創新發展。7 4.6 權益保障權益保障 文文件件檔案與內容管理
19、有利于幫助機構留存合法憑證,保管客戶法律證據檔案與內容管理有利于幫助機構留存合法憑證,保管客戶法律證據。文件檔案與內容管理一方面能夠留存和妥善保管機構自身的證據性記錄,另一方面還可以幫助機構客戶留存相關合法憑證,保管客戶法律證據,在機構業務范圍內為客戶提供可靠的數據管理服務。有效的文件檔案與內容管理能夠一定程度上提升客戶對機構的評價,有利于增強客戶關系管理。4.7 資產增值資產增值 文件檔案與內容管理有利于強化機構信息管控能力,實現機構的信息資產文件檔案與內容管理有利于強化機構信息管控能力,實現機構的信息資產增值增值。大數據與人工智能時代,信息的資產性越來越被社會所認可。文件檔案與內容更加貼近
20、業務流程,在信息流轉過程中往往有多個經手人,容易造成信息資產的流失。有效的文件檔案與內容管理能夠有效避免相關數據泄露和遺失,強化機構對信息資產的整體管控能力,從而實現機構信息資產的保值與增值。4.8 記憶(歷史)留存記憶(歷史)留存 文件檔案與內容管理有利于留存機構記憶,促進文化建設文件檔案與內容管理有利于留存機構記憶,促進文化建設。從時間維度來看,短期來看,文件檔案與內容是業務流程和事物的真實、可靠的記錄,留存了機構的業務和流程記憶。長期來看,文件檔案與內容是機構精神與文化的積淀,是機構文化記憶的載體,有助于促進機構文化的建設,豐厚機構的歷史底蘊。5 內容管理軟件的應用及類型內容管理軟件的應
21、用及類型 5.1 應用架構應用架構視角下的內容管理軟件視角下的內容管理軟件應用應用 內容管理(Content Management,簡稱 CM)是一種以各種類型內容為主體,實現內容創建、編輯、共享流轉、利用、保護、管理、業務融合、洞察分析、歸檔銷毀的應用軟件集合。內容管理涵蓋了企業內容管理、文檔管理系統、內容協8 作系統、網頁內容管理、影像管理系統、數字資產管理、質量體系文件管理、知識管理系統、涉密電子文檔管理、內容歸檔系統、內容安全保護和內容智能應用等軟件和系統(如圖 3 所示)。接下來針對部分典型應用系統進行介紹。圖 3 內容管理應用全景圖 5.1.1 企業內容管理系統企業內容管理系統 企
22、業內容管理(Enterprise Content Management,ECM)是一種戰略、方法和工具,通常為平臺型產品,通過內容獲取、管理、存儲、保護、利用等方式挖掘和釋放組織流程相關的內容與文檔的價值,最終促進機構數字化轉型,提升運營效率,并獲得業務洞察能力與長遠競爭優勢。ECM 已有二十多年的發展歷史,在國內雖然起步較晚,但近年越來越受到各行各業的重視,在吸取國外發展經驗,正朝更成熟更智能的方向發展。ECM 的核心能力包括:各種形態內容的全生命周期管理;提供統一的非結構化數據平臺;全方位的內容數據保護技術;基于內容服務平臺與低代碼平臺,實現與業務的深度融合;內容洞察能力用于知識創新和輔助
23、決策等。5.1.2 內容協作系統內容協作系統 內容協作系統是由內容創作工具、協同編輯組件和分享功能等組成的圍繞內9 容創作、生成、互動、傳遞和利用等環節的基礎內容管理軟件。內容創作工具包括 Office、網頁超文本 Wiki、在線筆記、在線流程圖、思維導圖、Office/CAD 創作集成組件等。協同編輯組件主要是對 Office 等文檔實現基于版本控制的協同編輯或在線多人編輯。分享功能解決組織內部成員間、以及組織內外部成員間的內容傳遞和協作。內容協作系統強調用戶在進行內容創作和使用過程中的體驗和交互,不受硬件設備和訪問終端的限制,可以隨時隨地進行創作工作,并且通過全場景的團隊協作方式來提升整體
24、內容創作和利用效率。5.1.3 網頁內容管理系統網頁內容管理系統 網頁內容管理(Web Content Management,WCM)有兩個主要應用分支:WCM 和 CMS。WCM 側重于通過提供應用組件實現面向組織內部員工的信息內容聚合和呈現(在國內也稱作:Portal)。CMS 是組織進行面向公眾網站的內容創作、發布及管理的系統。隨著兩個應用分支的發展,兩者之間的界限越來越模糊,并呈現出合二為一的趨勢。兩個分支雖有不同但都是針對 Web 內容的創作、發布和管理。網頁內容管理強調創作方便、布局靈活、內容時效、表現豐富、擴展集成、宣傳利用等。通過便捷的圖文音視頻編排即可形成具有視覺沖擊和宣傳效
25、果的信息頁面供用戶瀏覽和利用。5.1.4 文檔管理系統文檔管理系統 文檔管理系統是指對非結構化文檔進行捕獲和管理并提供長期利用的信息系統,能夠實現對文檔的集中存儲、權限管理、查詢索引、文檔審計、版本控制、編目編號、安全保護、規則應用、存儲加密、數據備份、開發利用、統計編研等基本功能,強調對文檔進行全生命周期管理。文檔管理系統可以實現對電子郵件、文件、表格、圖片、賬單、文本記錄、會議紀要、設計圖紙、合同方案、單據報告、音視頻素材等與經營活動相關的各類文件檔案進行統一存儲、統一管理和統一利用。文檔管理系統主要提供了文檔收集、文檔整理、文檔價值鑒定、文檔保管、文檔編目、文檔檢索、文檔統計和文檔編輯研
26、究等功能應用。10 5.1.5 影像管理系統影像管理系統 影像管理系統(Imaging Management System,IMS)是在業務活動中將紙質原始憑證進行掃描生成電子影像文件,進行統一管理和保護,并通過文字識別和提取技術獲取影像文件中的文字信息進而規范管理和利用的系統。影像管理系統主要包含三大模塊:掃描儀、文字識別模塊和文檔管理系統。掃描儀將紙質單據憑證進行電子化和影像化;文字識別模塊通過 OCR 技術提取影像文字進行價值信息獲??;文檔管理系統則對電子影像文件進行安全存儲、共享分發、查詢搜索和電子化流程管理等后續操作。影像管理系統在金融投資、保險信托、財務會計、通信、政府機關等產生大
27、量紙質文檔、票據的行業廣泛的應用。5.1.6 質量體系質量體系文件管理系統文件管理系統 質量體系文件管理(ISO)是對體系文件的新增、發布、簽收、培訓、復審修訂、廢止等進行全生命周期管理。質量體系文件是建立并保持企業開展質量管理和質量保證的重要基礎,是質量體系審核和質量體系認證的主要依據。主要管理四類文件:質量手冊、程序文件、指導書和表單記錄。質量體系文件管理在制造業和醫藥制造方面具有普遍的需求和廣泛的應用。5.1.7 知識管理系統知識管理系統 知識管理(Knowledge Management,KM)是對知識、知識創造過程和知識的應用進行規劃和管理的活動。知識管理系統是在組織中構建的知識系統
28、,讓組織中的內容與知識,在獲得、創造、分享、整合、記錄、存取、更新、創新等過程中形成永不間斷的累積,成為管理與應用的智慧資本。知識管理系統的規劃與建設工作包括:建立知識統一存儲平臺、建立多維知識呈現體系、構建知識管理藍圖、建立社區化網絡知識管理體系等。5.2 不同行業領域中的內容管理應用類型不同行業領域中的內容管理應用類型 內容管理軟件在各行各業中被廣泛應用,其中以制造業、醫療制藥、工程建設、建筑設計、軍工、汽車、銀行金融、房地產、教育、航天航空、IT 互聯網、11 媒體出版、零售電商、運輸、通訊、政府機關和公益組織等更為突出(如圖 4 所示)。不同行業的內容管理應用涉及到的軟件系統組合各有側
29、重和特色,接下來針對部分典型行業進行介紹。圖 4 內容管理行業全景圖 5.2.1 制造行業內容管理應用制造行業內容管理應用 中國是世界工廠,需要實現全球化接軌并通過數字化轉型以支撐制造業的深層次發展。在這一進程中,制造行業必須解決海量業務中非結構化數據的高速互通、全球供應鏈的文檔數據統一存儲及一致性要求、快速擴展的員工協作要求、全生命周期的質量體系管控、技術及體系文件的外發協作、跨區域及體系的研發協作、數據安全與合規性保證、統一數據保證業務連貫性、隨需的業務訪問請求及多系統整合等問題,才能有效應對企業內容管理帶來的挑戰。因此,制造行業內容管理在底層架構層面需要以 PB 級存儲為支撐,并且進行多
30、數據中心部署、集團化架構、多站點部署、跨國部署、多系統集成、全球加速和實時數據同步。應用層面涵蓋:文檔管理系統、ISO 質量體系文件管理、文件檔案一體化管理、研發文檔安全防擴散管理、文檔外發交換管理、知識管理、紙質文件捕獲管理、12 圖文檔管理等。通過這些內容管理應用連接起企業各個部門,實現制造升級和智能制造,如圖 5 所示。圖 5 制造行業內容管理應用 5.2.2 制藥行業內容管理應用制藥行業內容管理應用 制藥行業內容管理整合了文檔管理系統、質量管理平臺、資源計劃管理、實驗室信息管理平臺、生產執行系統、記錄管理系統、培訓管理、檔案管理系統等,共同構成全面的質量管理體系。規范體系文件的無紙化生
31、命周期過程,提供涵蓋文檔、記錄、檔案及培訓等全業務過程的制藥管理應用,建立集中、安全的文件管理以及可追溯體系,同時借助系統實現業務數據的采集和分析,如圖 6 所示。圖 6 制藥行業內容管理應用 13 5.2.3 軍工行業內容管理應用軍工行業內容管理應用 軍工行業負責國家武器裝備的科研、生產和配套等工作,對數據保密性、安全性具有非常高的要求。軍工行業承接大量的以國防建設、軍事工業發展為目的的各類項目,項目過程中的項目數據、辦公數據、終端數據、業務數據和測試數據等內容需要加以管理和利用。完整的軍工行業內容管理應用體系是以電子文檔管理為基礎,并在電子文檔管理系統中通過分權管理體系、密級管控模塊、智能
32、定密模塊、文件不落地模塊等保障數據的安全和保密;在電子文檔管理基礎上結合網間文件安全交換,保障數據流轉和使用過程中的安全。在上層通過項目文檔管理應用進行項目過程及內容管理;通過質量體系文件管理應用對武器裝備制造環節的質量進行嚴格規范地管控;通過文件檔案一體化應用和知識管理應用將數據結構化和體系化,挖掘數據價值促進產品改良和組織創新,如圖 7 所示。圖 7 軍工行業內容管理應用 5.2.4 金融行業內容管理應用金融行業內容管理應用 金融行業擁有大量的產品信息、CIF 信息、CRM 信息、合同資料、員工資料、財務報告等非結構化數據,這些數據作為企業資產需要進行體系化管理。金融行業的網絡架構以生產網
33、、辦公網、互聯網分級網絡進行管理,同時根據國家檔案局 2015 年通過并施行的金融企業業務檔案管理規定要求,金融行業需要對自身業務辦理及活動中形成的各種電子文件和檔案記錄進行統一規范的管理和應用。較為典型的金融行業內容管理底層以非結構化數據中臺作為數據存儲中心和基礎平臺,在非結構化數據中臺的基礎上搭載安全網盤應用、文件安全交換應用、影像管理應用和知識管理應用等。其中,文件安全交換應用解決金融企14 業多級隔離網絡間的數據交換和擺渡需求;影像管理應用通過掃描儀捕獲業務單據憑證等影像資料并基于文字識別模塊進行數據抽取和業務流轉;知識管理應用通過挖掘企業存量數據資產和分析外部市場環境促進金融體制或金
34、融工具的創新。辦公網或互聯網用戶通過VDI安全云桌面接入方式進行網盤數據資源訪問,保障云端數據不外泄。同時從風險評估、風險控制、運行監控和應急恢復方面進行全方位的風險預警和處理,如圖 8 所示。圖 8 金融行業內容管理應用 6 內容管理內容管理系統與文件檔案管理系統系統與文件檔案管理系統的發展的發展 6.1 內容管理內容管理系統的發展過程系統的發展過程 隨著計算機技術的普及,辦公自動化的推行,非結構化數據日益增加,國內外內容管理加速發展。國際上,1990 年,Documentum 公司成立,成為第一家利用標準關系型數據庫技術以及面向對象方法提供企業級文檔管理解決方案的公司;2000 年左右,以
35、電子商務和電子政務為代表的門戶網站的發展帶來了網頁內容的指數級增長,促進了網頁內容管理的成熟與發展;2002 年 Documentum 正式發布 ECM 產品;2006 年,Sharepoint Portal Server 發布;2010 年,OpenText發布;2010 年后,云計算、移動互聯網、大數據等新技術改變了 ECM 的形式與內容,ECM 的內涵與外延不斷更新。國內來看,2002 年起,航空、核電和工程領域的國家 ECM 一線廠商開始進入我國,首先在這些行業內掀起 ECM 潮流;2008 年,上海鴻翼軟件技術股份有限公司發布國內首款完整 ECM 產品“鴻翼15 edoc2 ECM”
36、;2009 年拓爾思信息技術股份在金融和政府領域推出 WCM 產品;2010 年信雅達系統工程股份有限公司在金融領域推出 ECM 影像管理產品;2016年之后,應用層的網盤和功能更全面的 ECM 出現,ECM 系統中的文檔協同和服務能力不斷提升;2017 年開始,人工智能(AI)在 ECM 系統中的逐漸顯現,例如利用 AI 實現元數據自動化提取等(如圖 9 所示)。圖 9 內容管理系統發展時間線 6.2 內容管理系統的發展內容管理系統的發展階段階段 圖 10 內容管理系統四階段進階模型 按照其與機構業務的結合程度,內容管理系統的發展可分為四個階段:(1)內容協作階段。此階段文檔離散分布在機構內
37、 PC 端,僅能通過系統完成文檔之間的協作,不能實現內容與機構業務的融合。(2)內容服務階段。此階段機構數據以業務系統文件(比如 SAP 里票據影像)、體系文件(比如 SOP 作業標準文檔)等形式存在,通過元數據進行網狀式廣泛關聯,數據來源于業務,又輸出服務于業務。數據經匯聚、整理、處理后,以全內容服務形式開放,構建起一個統一的機構非結構化數據管理平臺。16 (3)數字業務階段。此階段,行業數據經過不同維度的整理、提煉,圍繞業務的垂直領域性、體系性進行立體式關聯與聚合,形成了行業性的知識體系,對企業迅速應對市場變化和進行業務創新進行支持。(4)智能服務階段。此階段通過深度學習,自然語言處理(N
38、LP)、知識圖譜等技術對海量數據進行深度整理,能夠立足業務場景提供內容智能化服務,為機構降本增效、決策制定提供支持。表 1 內容管理系統四階段特征 一階 二階 三階 四階 數據形態 用 戶 電 腦 上文件,過程性、離散文件 業務系統文件(比如SAP 里發票影像),體系文件(比如 SOP 作業標準)經過整理、提煉后的行業領域性數據,從不同維度視角歸納后的數據 海量數據,標注數據 數據顆粒度 文件級 內容級 知識級 語義級 數據間關系 離散的,不關聯 通過內容元數據進行網狀式廣泛關聯 圍繞業務的垂直領域性、體系性關聯,是一種能立體式關聯與聚合 語義層關聯,主題圖譜和實體知識圖譜 業務融合 滿 足
39、文 件 協作,無業務融合 數據來源于業務,又輸出服務于業務 深度融合業務,甚至形成業務應用 立足于業務場景上內容智能 數據安全 協 作 過 程 中的數據流動,需要存儲、訪問、流轉等安全保護能力,屬于企業安全防護初級階段 全形態數據防護覆蓋;內容級顆粒度安全措施更精準;基于統一存儲的全生命周期全方位安全防護體 業務場景化滲透性安全防控,安全緊隨業務,為業務中數據安全保駕護航 多層面圖譜結合用戶畫像和操作日志,深度追溯數據安全問題,洞察預測安全風險 數字化能力 文 件 協 作 層面的數字化 內容中臺數字化,數據經匯聚、整理、處理后,以全內容服務形式開放 業務數字化,基于低代碼平臺形成垂直領域的業務
40、體系化應用,支撐企業迅速應對市場變化和進行業務創新探索 智能數字化,利用NLP、AI、圖譜與大數據技術為企業降本增效、輔助決策 17 6.3 文件檔案文件檔案管理系統的發展管理系統的發展 文件檔案管理系統既可能是一個單獨的內容管理應用系統,也可能是企業內容管理平臺的應用,還可能是某些內容管理軟件的部分功能。20 世紀 80 年代,很多機構開發了輔助紙質文檔管理的早期文檔管理系統,主要用于檔案目錄信息的集成、檢索與統計等;90 年代,辦公自動化進程加快驅動電子文件管理系統的出現與發展,功能聚焦在電子文件的捕獲歸檔、存儲、長期保存和檢索等。到 21 世紀初,文件檔案管理系統已經成為信息化程度較高或
41、知識密集型企業的必備系統,數字檔案館概念興起,傳統紙質文檔的數字化、元數據著錄以及長期保存等問題成為這一階段旨在解決的主要問題。2010 年之后信息技術在業務領域的深入應用將電子文件、檔案管理系統建設推向縱深化,面向電子文件單軌運行和電子檔案單套保存的試點系統不斷出現,以民生檔案跨館出證為代表的跨機構、跨區域的檔案數據整合服務應用不斷普及。2020 年 新檔案法發布,電子文件單軌制管理走向合法合規,電子文件管理系統與業務系統的無縫掛接成為必然趨勢。同時,隨著文檔資源管理與開發能力的提升,以用戶為中心、,面向內容和知識的文檔管理系統成為新的趨勢,更加強調對文檔全生命周期的管理以及基于文檔管理的內
42、容共享與知識服務。7 文件檔案與內容管理的應用問題文件檔案與內容管理的應用問題 7.1 IT 視角下的應用問題視角下的應用問題 7.1.1 業務系統核心文件“煙囪割裂”業務系統核心文件“煙囪割裂”為了高效完成業務推進,機構業務會不斷細分,伴隨業務細分而來的是每個環節的業務單元都在逐步數字化和系統化。在系統的使用過程中,核心的業務系統文件被分散在各個業務系統中的,每個業務系統的數據體系也會愈發復雜和深化,形成一個個高聳林立的數據“煙囪”,各個“煙囪”之間沒有搭建互通的橋梁,機構數據體系在這種架構下,呈現出割裂的“煙囪群”情形?!盁焽韪盍选笔降臉I務系統給文檔管理帶來巨大挑戰。每個業務系統的數據體系
43、都異常復雜和龐大,離散在各個細分業務系統中的文檔數據變得不可知、不可控、不可取、不可聯和不可信。18 7.1.2 離散過程文件難以統一存儲離散過程文件難以統一存儲 組織的過程文件一般都離散存儲于在各種文件服務器、郵件系統、個人電腦、運行設備和文件柜中,其涵蓋了圍繞機構業務活動產生的各種往來郵件、Office文檔、會議紀要、設計圖紙、音視頻文件等。由于其形成環節眾多,過程文件往往分布廣泛且脫離控制,加之體量龐大,造成了離散過程文件的采集匯聚極為困難。7.1.3 海量數據帶來存儲擴展和安全問題海量數據帶來存儲擴展和安全問題 據 IDC 預測每年全球數據的增長量約為 40%。隨著互聯網、移動互聯網、
44、物聯網技術的發展,數據產生途徑已延伸至更廣泛的用戶群體、各種機器設備和多樣化的現實世界。海量數據在不間斷產生,業務連續性對存儲動態擴展的要求,加上勒索蠕蟲病毒的越發猖狂等,都給文檔管理帶來了嚴峻的存儲和安全挑戰。7.1.4 多分支機構對部署架構挑戰多分支機構對部署架構挑戰 多分支機構對文件檔案管理系統的部署架構帶來多方面挑戰。第一個挑戰就是多分支機構和龐大的用戶群給系統架構帶來的高并發壓力。第二個挑戰是在不同安全等級的分支機構間如何快速實現數據擺渡和高效地傳遞利用。第三個挑戰是如何滿足全球各地的分支機構都可以快速、低延遲地進行文件檔案資源訪問和利用。7.2 業務視角下的應用問題業務視角下的應用
45、問題 7.2.1 用戶很難發現想要的文件檔案用戶很難發現想要的文件檔案 用戶獲取文件檔案資源一般路徑是從分類目錄逐層進入發現、元數據檢索、內容檢索等。然而,文檔分類規則往往并不嚴格和規范,欠缺業務傳導途徑。元數據也只是涉及非常有限的業務信息,且元數據質量經常不可控,這些都大大限制了通過元數據進行內容發現的效果。而對于內容檢索,普遍性存在搜不到、搜不準、搜不完整等問題。19 7.2.2 業務文件不能及時、完整歸檔業務文件不能及時、完整歸檔 各種業務系統會產生大量的文件需要統一管理。但是在業務系統與文件檔案管理系統對接的過程中,往往由于檔案策略沒有前置、與業務系統整合難度大、整合技術能力有限、業務
46、人員與檔案管理人員缺乏有效溝通等問題,造成業務文件不能及時、完整地歸檔。7.2.3 文件檔案未形成體系化知識文件檔案未形成體系化知識 文件檔案是機構在業務運營過程中形成和沉淀的顯性知識,是數據中最寶貴、最有價值的部分。然而,在機構開展知識組織、知識挖掘過程中,往往過度重視人與隱形知識挖掘的重要性,而忽視了文件檔案顯性知識的價值創造。另外,文件檔案管理系統與業務系統進行集成整合程度較低,文件數據難匯聚一起;加上非結構化數據開發與挖掘的技術手段有限,導致文件檔案知識化效果較差。7.2.4 文件檔案與業務融合不足文件檔案與業務融合不足 文件檔案數據及其服務未能嵌入至具體應用場景中,未能成為有效而全面
47、的業務支持數據,更沒有形成文件檔案驅動業務的管理理念。文件檔案與業務融合的不足導致業務無法從文件檔案數據中汲取知識資源以進行快速響應和業務決策。7.2.5 管理人員綜合能力依然欠缺管理人員綜合能力依然欠缺 在文件檔案管理過程中,相關人員需要非常高的綜合能力,包括熟悉信息對象、業務管理、檔案管理、數據管理、信息化技術等。綜合能力的欠缺會給文件檔案管理造成幾種常見困難:其一是在建設者欠缺綜合理解情況下,無法基于行業產品和技術特色來準確描述自身需求,從而造成系統實現與應用場景產生較大偏差;其二是建設者更多地關注 IT 技術和數據管理而忽視業務場景的需求,導致文件檔案管理系統無法完全滿足業務使用;其三
48、是文檔管理者欠缺技術層面的考慮而導致系統架構支撐不力、安全性不足、難以擴展等問題。20 7.3 數據視角下的文檔檔案應用問題數據視角下的文檔檔案應用問題 7.3.1 文件檔案核心數字資產地位未被認可文件檔案核心數字資產地位未被認可 當下,文件檔案作為資產所發揮出的效用和價值并未得到明顯的關注和認可。然而隨著各種非結構化數據處理和分析技術的發展,文件檔案將漸漸發揮出非常關鍵的重要價值。不過,這種轉變還需要些時間,文件檔案的核心數字資產地位在大多數的組織機構中仍未被認可,給文件檔案管理帶來諸多不利影響。7.3.2 非結構化數據管理戰略規劃缺失非結構化數據管理戰略規劃缺失 機構數據管理實踐中,非結構
49、化數據意識相對淡薄。隨著中央文件將“數據”納入為核心生產要素,各界日益關注與重視非結構數據管理。完整的非結構化數據管理戰略包含現狀評估、業務效率、安全合規、數據文化和洞察創新等方面內容,機構若缺少非結構化數據管理戰略頂層規劃,也必然導致文件檔案在組織機構內的不被重視及其開發利用不足。7.3.3 內容數據化能力不足內容數據化能力不足 非結構化的文件是一種組織無序、難分析的大顆粒度數據,且不同類型文件其數據組織、數據形成、數據呈現等都各不一樣,從而造成了內容管理系統中的文件檔案沒有類似結構化數據的統一數據模型,也無法在其上層進行豐富的算術運算、邏輯分析和數據挖掘,更沒有形成完善的技術生態體系。雖然
50、基于元數據的著錄、標引等都是內容數據化的基本手段,但都屬于元數據應用的“淺層”狀態;目前通過 AI 與圖譜技術對文件檔案可進行一定程度的內容結構化與內容關聯,但仍處于培育與早期發展階段,無法實現全面而深層的結構化。內容數據化能力不足是當前文件檔案的利用開發不足、分析探索不夠、安全管控不力的最關鍵原因。7.3.4 文件檔案數據價值釋放不夠文件檔案數據價值釋放不夠 本應是機構最具有價值的文件檔案,卻面臨著“檔案只是用于法規遵從的檔案”、“數據中心建設與檔案無關”、“檔案人員與 IT、數據人員的語言不通”等基21 礎而又普遍存在的問題,造成多年來文件檔案開發利用手段有限、能力不足,致使本屬于高含金量
51、的數據未得到應有的價值傳遞與釋放。8 8 數據管理中的文件檔案管理框架數據管理中的文件檔案管理框架 圖 11 數據管理中的文件檔案管理框架 根據國內外文件檔案管理標準以及 DAMA 數據管理框架,結合文件檔案管理領域的實踐進展,可總結提煉出文件檔案管理框架,如圖 11 所示。該框架自上而下包括四個部分,分別是價值實現層、文檔治理層、管理活動層和技術實現層。價值實現層是文檔管理的價值目標和整體定位,是方向性的,處于最頂層;文檔治理層涉及戰略、職責、制度、溝通和監督等,是宏觀層面的統籌考量;管理活動層既涉及文件檔案生命周期中的流程性管理活動,也涉及貫穿全生命周期的管理活動,是微觀層面的操作實施;技
52、術實現層是支撐其他層次的基礎和保障。圖 11 中的箭頭代表文檔管理的動力,其中,左側的箭頭表示文檔管理是需求引導、價值驅動的,右側的箭頭表示文檔管理同時也是技術賦能、系統驅動的。22 8.1 價值實現層價值實現層 在數據管理框架下,文檔管理的核心價值包括合規與風控、協同與高效、業務連續性、創新與決策、文化記憶等五個方面。合規與風控合規與風控是合規管理和風險控制的簡稱,即滿足機構的法規遵從要求,并能以文檔的形式證明自身的合規性,規避違反安全、隱私相關規定帶來的風險;協同與高效協同與高效是指文檔的高效協作和管理,能夠減輕機構運作的壓力,提高業務工作效率;業務連續性業務連續性是指通過沉淀機構核心業務
53、信息資產(即文檔),在發生突發事故時能夠迅速恢復業務,防止業務中斷;創新與決策創新與決策是指基于人工智能和大數據等技術實現文檔的智能挖掘、分析、利用、展示、呈現和洞察,提高機構的創新水平和決策能力;文化記憶文化記憶是指文檔管理不僅具有業務方面的價值,還有文化傳承方面的貢獻,基于文檔的開發利用能有效盤活機構記憶、傳承組織機構的精神和文化內核。8.2 文檔治理層文檔治理層 文檔治理層是指在組織與文化變革的背景下,重點關注戰略管理、組織與職責、制度與流程、溝通與協調、監督與評估等方面。其中,戰略管理戰略管理包括規劃、實施和評估。戰略規劃應當明確文檔管理的理念、價值觀和愿景,組織內外部的法律和業務環境
54、,目標、使命陳述和評價手段,工作內容和時間安排以及制定規劃的路徑等;戰略實施應當根據現狀和發展目標之間的差距,確定工作內容的優先級,提供資源和資金保障,推動戰略實施;戰略評估是指在戰略實施過程中跟蹤進度,根據評估的反饋結果適時修訂和更新規劃。組織與職責組織與職責包括組織架構、崗位設置、文檔管理責任和團隊建設等內容。其中,組織架構是指建立權責明確且內部溝通順暢的文檔管理組織;崗位設置是指建立文檔管理相關的崗位,明確崗位職責及任職要求;文檔管理責任不僅是文檔管理專業人員的責任,也是組織機構內所有員工的職責,應當明確文檔管理專業人員、高層領導、管理者、系統開發與設計人員、全體員工在文檔全生命周期中的
55、責任;團隊建設包括建立文檔管理能力體系,制定系統且持續的團隊培訓和能力提升計劃,確保相關人員具備履職所需的技能。23 制度與流程制度與流程是指組織機構應建立完善的文檔管理制度規范體系,并按照制定、發布、宣貫、實施、評估和反饋的管理流程進行制度規范的檢查和更新,以確保各項文檔管理活動的規范有序開展。一般來說,制度規范體系應包括政策、辦法和細則三個層級,規定文檔生命周期各項活動的目標、遵循的行動原則、完成的明確任務、實行的工作方式和責任主體、采取的一般步驟和具體措施,以及與文檔管理系統建設運維、信息安全、人員與崗位職責等相關的管理要求。溝通與協調溝通與協調是指精準識別不同利益相關者的差異化訴求,確
56、保組織機構內全部利益相關者都能及時了解相關政策、標準、流程、角色、職責和計劃的最新情況,通過引入高層管理者等方式建立文檔管理相關事宜跨部門的協商機制,提供多元的問題溝通和解決渠道,旨在提升跨部門和部門內部的文檔管理能力,形成良好的文檔管理文化。監督與評估監督與評估是指組織機構應當根據相關規范性文件構建符合業務需求的文檔管理成熟度模型,建立具體的評價指標體系,定期開展成熟度等級評價。通過評估組織機構文檔管理的政策、系統、流程和方法,發現存在的問題并解決問題,實現文檔管理能力的持續提升。上述各項治理活動都需充分考慮組織機構內外部的法律、社會、技術與文化環境對文檔管理工作的影響。當環境發生變化時,文
57、檔治理活動需要進行適應性的靈活調整和變更。8.3 管理活動層管理活動層 管理活動層涉及兩種類型的業務活動,一種是流程性的管理活動,包括生成、鑒定、捕獲/歸檔、分類與索引、存儲、使用和復用、長期保存、處置等??茖W合理和高效有序的文檔管理活動需要分類方案、歸檔范圍、元數據方案、訪問許可規則、保管期限與處置表等配套業務管理規則的支撐。其中,生成生成是文檔生命周期的第一個階段,在此階段中,文檔通過創建或接收的方式得以積累,主要包括協作、創建、接收、流轉、更改、分發、傳輸等。鑒定鑒定是指綜合考慮法律、業務、社會、歷史、文化等因素對文檔的價值進行綜合評估,判斷其是否屬于歸檔范圍并劃分保管期限的行為。歸檔(
58、系統中的捕獲)歸檔(系統中的捕獲)是指將業務活動中生成或接收到的數據對象作為文檔及其元數據一起保存到文24 檔管理系統中的過程,包括為文檔分配唯一標識符、捕獲或生成關于文檔的元數據、建立文件與其他文件以及業務活動之間的關聯。分類與索引分類與索引是指依據分類方案中邏輯上的結構化規定、方法和程序規則,對文檔進行的系統標識并整理成類目,同時建立相應的索引元數據。存儲存儲是指確保文檔能夠不受未經授權的訪問、更改、丟失或破壞(包括盜竊和災難)的方式進行存儲,確保文檔的實體安全和信息安全。使用和復用使用和復用是指用戶對文檔的查找、使用和檢索以及基于文檔內容創建新的文檔并開展業務活動的行為。長期保存長期保存
59、是指一系列對文檔信息進行持續管理和維護的活動,包括更新、復制、遷移、仿真、封裝等策略,以確保文檔信息的長期有效性、真實可信,能夠被未來的使用者理解和應用。處置處置是指按照鑒定得出的保管期限與處置表對保管到期的文檔實施移交、銷毀或續存的一系列過程。其次是貫穿全流程的管理活動,包括安全合規、元數據管理和質量管理等,這些活動都是持續性的工作。安全管理安全管理是指文檔管理需要遵從相關法律、法規,以及合規、隱私等方面的安全保護要求,構建完備的文檔合規體系,從政策法規、數據資產、利益相關者和基礎設施角度構建基于數據全生命周期的合規控制機制。元數據管理元數據管理是有效開展文檔管理工作、確保文檔質量的關鍵。元
60、數據包括文檔元數據和文檔管理元數據,涉及文檔、業務、責任者、關系等不同類型的實體。管理的內容涉及元數據定義、元數據策略、元數據權限、元數據搜索、元數據視圖和元數據分析等關鍵環節。質量管理質量管理需要從文檔質量要求、文檔質量策略、文檔質量政策、文檔質量標準、文檔質量程序、文檔質量實施規劃等方面展開,圍繞“計劃-執行-檢查-處理”的質量管理生命周期確保文檔質量持續滿足要求。8.4 技術實現層技術實現層 技術實現層包括采集技術、傳輸技術、交換技術、處理技術、存儲技術、歸檔技術、轉檔索引、洞察技術以及面向文檔“四性”的真實性保障技術、完整性保障技術、可用性保障技術和安全性保障技術。其中,采集技術采集技
61、術包括上傳、在線創建、模板創建、一體機、同步、強制入盤、強制采集、頁面抓取、表單采集、爬蟲工具、Connector、Adapter、SDK、API 等;傳輸技術傳輸技術包括大文件切片、小文件聚合、直連存儲、端點續傳、去重技術、差量計算、block 文件塊智能調整、限速策略等高并發快速傳輸技術;交換技術交換技術包括25 共享、擺渡、數據外發等;處理技術處理技術需要將 AI 關鍵技術機器學習、深度學習、NLP(自然語言處理)與大數據技術深度融合,實現對文檔的智能分類、智能標簽、智能 OCR 識別、智能抽取和生成等;存儲技術存儲技術包括對象存儲、分布式存儲、分層存儲、混合存儲、策略存儲等技術;歸檔技
62、術歸檔技術包括基于 Web Service 的歸檔、基于中間庫的歸檔、基于 ESB 的歸檔、基于 Hessian 協議的歸檔、離線歸檔等,涉及歸檔合規化、多級歸檔、存根歸檔、轉非結構化歸檔等方面;轉檔索引技術轉檔索引技術包括格式轉換與預覽技術、大規模搜索引擎等技術;洞察技術洞察技術通過集成人工智能、知識圖譜和大數據等新一代信息技術,實現非結構化數據商業智能功能,包括統一搜索、智能搜索、智能推薦、知識圖譜、數據挖掘、可視化呈現、數據洞察等。真實性保障技術真實性保障技術包括安全網絡、用戶身份識別/認證、權限控制、操作日志、數字簽名、數字摘要、可信時間戳、區塊鏈等;完整性保障完整性保障技術技術包括定
63、義歸檔范圍、完整性檢測技術等;可讀性保障技術可讀性保障技術包括復制、更新、遷移、仿真、封裝、載體維護、技術保存等;安全性保障技術安全性保障技術包括容災備份等存儲安全技術,細顆粒度訪問權限控制、身份認證、密級權限驗證和安全域邊界權限等使用安全技術,水印、基于智能 DLP(數據泄露防護)敏感檢測的傳輸安全技術,基于大數據和知識圖譜技術的審計安全技術等。9 數據管理中文件檔案數據管理中文件檔案與與內容管理的發展趨勢內容管理的發展趨勢 9.1 結構化數據和非結構化數據融合發展結構化數據和非結構化數據融合發展 結構化數據和非結構化數據都是組織機構的重要業務資產和關鍵生產要素。其中,非結構化數據已經成為數
64、據治理體系中不可忽視的組成部分,在組織機構運轉過程中發揮著不可替代的重要作用,亟待進行資產化管理。同時結構化數據和非結構化數據之間存在相互轉化和互為補充的關系。一方面,結構化數據可以通過輸出版式文檔的方式,轉化為非結構化數據,從而滿足合規管理和長期保存的需求。另一方面,非結構化數據可以通過 OCR 識別、單據識別、物體識別、基于語義內容的智能標簽/智能分類、實體抽取、業務元數據等手段和方式轉化為結構化數據,從而滿足業務和應用的需求。其中,實體關聯圖譜的有效抽取和抽象主題圖譜的構建與持續完善是未來文件檔案內容管理的重要發展方向之一。組26 織機構設置的數據治理委員會、數據管理部門等的關注重點將從
65、結構化數據逐漸擴展至非結構化數據及其與結構化數據的融合,最終實現數據之間的關聯、展示、分析和洞察,全面發揮數據的價值。9.2 文檔管理和內容管理融合發展文檔管理和內容管理融合發展 文件檔案管理是內容管理軟件的重要功能,文檔管理行業和內容管理行業密不可分,相互支撐、互為依靠,逐漸形成聯動發展、互利共贏的良好生態。我國文檔管理行業和內容管理行業之間的聯系愈加緊密,文檔管理行業逐漸成為內容管理行業的重要支撐。兩者融合發展主要表現在以下三個方面:一是目標和理念的融合。以往的文檔管理側重安全合規、業務連續、權益保障、記憶留存等,內容管理側重支持決策、提效降本、創新發展、資產維護等,現在兩者都被納入數據管
66、理體系中,將互相利用對方的優勢,共同支撐組織機構的運作以及業務活動的高效有序開展。二是組織和職能的融合。文檔管理部門不再是居于后端的保管者,而是重新思考自身的職能和定位,一方面,參與機構整體的數據治理工作;另一方面,成為非結構化數據治理的責任部門,文檔工作者成為“內容管事”,承擔非結構化數據的統籌規劃、全生命周期管控、數據質量保障、安全合規等職責。三是技能和工具的融合。一方面,內容管理行業需要來自文檔管理行業的支撐以及與之配套的管理理念和管理規則;另一方面,文檔管理行業也需要與其需求相匹配的系統、平臺、技術、工具,內容管理行業能夠為其提供更為豐富多樣的產品及信息化的集成化解決方案。9.3 文檔
67、管理和數字化業務融合發展文檔管理和數字化業務融合發展 首先,從文檔管理與業務活動的關聯程度來看,國際標準化組織發布的文檔管理核心標準(如 ISO 15489、23081、21946、26122 等)確立了面向組織機構業務需求的以職能活動和業務流程分析為核心的方法體系,兩者的融合程度逐步提高。組織機構實施文檔管理的目標不再局限于文檔本身的規范化和有序化,而是要更多地支撐、反饋和驅動業務活動。一方面,文檔管理“從業務中來”,即業務27 數據化。通過分析業務可形成數據資產清單,準確識別文檔及其元數據,實現數據資產的實時登記和動態監測,將文檔管理需求嵌入業務流程,實施嵌入式檔案化管理,滿足合規管理要求
68、。另一方面,文檔管理要“回業務中去”,即數據業務化?;跇I務流程分析,可精準識別各項業務的數據需求,確保合適的人能夠在合適的時間以合適的方式獲取合適的文檔,實現數據賦能業務。其次,從數字轉型的角度來看,文檔管理是實現組織機構數字轉型的抓手和推力,文檔管理產品是優化資源配置、促進高效協同的重要工具。近年來,美國、英國、澳大利亞、新西蘭、加拿大等國的文檔管理主管機構相繼出臺政策法規,實施戰略部署,推動文檔管理的數字轉型。我國相關主管部門也在大力推進電子文件的單套歸檔和單軌管理。新修訂的檔案法明確規定“電子檔案與傳統載體檔案具有同等效力,可以以電子形式作為憑證使用”。文檔管理數字轉型意味著全流程的電
69、子化和數字連續性的實現,是打通組織機構數字化“最后一公里”的關鍵。例如,就數字政府建設而言,電子證照是實現在線政務服務的關鍵;就數字經濟發展而言,推行電子發票、規范電子會計憑證報銷入賬歸檔是促進企業運作無紙化、實現企業高效運作的重要舉措;對智慧法院而言,電子卷宗隨案生成和歸檔是實現案件全流程在線辦理的重要環節。9.4 文檔管理基礎建設和智能開發融合發展文檔管理基礎建設和智能開發融合發展 文檔和內容管理呈現出從簡單的文檔集中、協作辦公、安全交換走向基于人工智能的智能開發的趨勢,從數字化、數據化走向智能化,但需要指出的是,各階段之間并不是直接替代的關系,而可能長期并存。未來的文檔管理工作應該做到“
70、兩手抓”,一方面是文檔管理基礎建設,包括文檔協作、文件歸檔、安全管理等方面。近年來,基于文檔協作和共享的知識高效協同和文檔全生命周期安全防控體系的市場需求呈上升趨勢,成為文檔管理的重要基礎工作。另一方面是基于文檔的深度挖掘和分析,呈現出智能化乃至智慧化的趨勢。文檔管理應是語義層面的管理,基于人工智能,尤其是深度學習和知識圖譜,實現洞察分析,同時融合應用云計算、大數據、區塊鏈、5G 等其他信息技術,共同賦能文檔管理工作。具體來說,文檔管理的智能應用場景將重點包括智能推薦、圖譜探索、智能搜索、28 安全分析??傊?,前面的文檔管理基礎建設是實現智能開發的前提和保障,后面的智能開發技術也可以反向推動基礎工作的完善,實現文檔管理基礎建設和智能開發的融合發展。