《騰訊云:2020智能文字識別OCR能力評測與應用白皮書(35頁).pdf》由會員分享,可在線閱讀,更多相關《騰訊云:2020智能文字識別OCR能力評測與應用白皮書(35頁).pdf(35頁珍藏版)》請在三個皮匠報告上搜索。
1、 智能文字識別能力評測與應用白皮書03中國信息通信研究院騰訊云 AI 計算機視覺中心中國人工智能產業發展聯盟中國信息通信研究院是工業和信息化部直屬科研事業單位,多年來在行業發展的重大戰略、規劃、政策、標準和測試認證等方面發揮了有力支撐作用,為我國通信業跨越式發展和信息技術產業創新壯大起到了重要推動作用。 近年來, 圍繞國家 “網絡強國”和“制造強國”新戰略,中國信息通信研究院在 4G/5G、工業互聯網、云計算、大數據、人工智能、網絡與信息安全等方面進行了深入研究與前瞻布局,在國家信息通信及信息化與工業化融合領域的戰略和政策研究、 技術創新、 產業發展、安全保障等方面發揮了重要作用。騰訊云 AI
2、 計算機視覺中心是騰訊 AI 技術落地的商業化產品中心,依托騰訊三大頂級人工智能實驗室,打造全球領先的智能云平臺及豐富的 AI 應用,涵蓋人臉人體識別、文字識別、圖像識別等多個領域。憑借全球領先的技術和創新方案,騰訊云 AI 視覺中心攜手生態合作伙伴,幫助客戶在“云 +AI”的產業互聯網浪潮中,快速實現數字化和智能化的轉型,助力數字中國建設。為進一步落實“互聯網 +”人工智能三年行動實施方案提出的關于組建人工智能產業聯盟,搭建政產學研用合作平臺,構建我國人工智能產業生態的相關要求,在國家發展和改革委員會、科學技術部、工業和信息化部、中央網信辦等部門的指導和支持下,中國信息通信研究院牽頭會同相關
3、單位,共同發起成立中國人工智能產業發展聯盟。目前,聯盟已發布了多項研究成果,先后主辦、承辦多次會議、高峰論壇,組織開展了 AIIA 杯人工智能巡回賽,出版人工智能技術與應用案例征集等,為政府決策、產業發展提供支撐。04騰訊優圖騰訊云騰訊優圖實驗室成立于 2012 年,是騰訊公司旗下頂級人工智能實驗室。優圖聚焦計算機視覺,專注人臉識別、圖像識別、OCR 等領域開展技術研發和行業落地,在推動產業數字化升級過程中,優圖始終專注基礎研究、產業落地兩條腿走路的發展戰略,與騰訊云與智慧產業深度融合,挖掘客戶痛點,切實為行業降本增效。與此同時,優圖關注科技的社會價值,踐行科技向善理念,致力于通過視覺 AI
4、技術解決社會問題,幫助弱勢群體。騰訊傾力打造的云服務品牌,為客戶提供領先的云產品與云服務。依托遍布全球的數據中心,騰訊云將云計算、大數據、人工智能、物聯網、安全等先進技術與智慧產業業務場景相結合,同時面向金融、教育、醫療、零售、工業、交通、能源、廣電等領域,打造全面的智慧行業解決方案。目前,騰訊云已在互聯網行業的電商、視頻、生活服務方向取得明顯優勢地位,中國最優秀的互聯網企業大部分選擇騰訊云作為云服務商,同時服務包括中國銀行、建設銀行、中國人保、國家電網、中國商飛、中糧集團等優秀的企業,幫助他們實現數字化和智慧化產業升級。騰訊安全戰略研究部騰訊安全戰略研究部, 以實施產業互聯網安全戰略、 培育
5、網絡安全新生態為己任,致力網絡安全戰略規劃,跟蹤網絡安全政策法規,聚焦數字空間生態治理,護航互聯網產業健康發展。在 5G、AI、工業互聯網等領域開展產業研究和安全賦能。攜手合作伙伴,騰訊云致力于打造豐富、開放的云服務生態,驅動各行各業數字化轉型升級,實現“產業智變,云啟未來”的美好愿景。05 智能文字識別能力評測與應用白皮書當前,以人工智能、大數據、區塊鏈、云計算等為代表的新一代信息技術革命浪潮席卷全球,加速社會生產和生活邁向智能化階段。光學字符識別(OCR,Optical Character Recognition)技術自十九世紀七十年代初次登上歷史舞臺以來,技術路徑不斷創新、應用場景逐漸豐
6、富,已經成為人工智能領域的重要分支。今年 4 月,國家發改委首次明確將人工智能等新技術基礎設施列入“新基建”范圍,作為人工智能商業應用最為成熟的領域之一,OCR 在“新基建”戰略背景下無疑將迎來新的發展機遇,相關技術也將迎來新一輪的爆發。這些國家層面的政策布局加速了人工智能產業的不斷成熟,推動了 OCR 技術在金融、政府、物流、醫療、教育等多個領域的廣泛應用。OCR 也被稱為最“接地氣”的人工智能技術,它能將圖片中的文字快速轉化成文本,原來需要人工逐個識別和錄入的場景, 現在可以通過OCR技術自動化提取, 從而有效地降本增效,節省人力。但在實際應用中,缺乏一個有效的標準去衡量 OCR 技術在不
7、同場景中的優劣差異。中國信息通信研究院云大所、中國人工智能產業發展聯盟和騰訊公司聯合發布了智能文字識別能力評測與應用白皮書,這份白皮書從 OCR 發展背景、技術沿革、產業發展現狀、技術標準化、發展趨勢等多個維度,對國內 OCR 現狀進行了一次詳細梳理,為 OCR 的可持續、健康發展打下了堅實的基礎,相信也將為各行各業的數字化、智能化轉型提供了一份極具價值的參考資料。人工智能 + 產業發展前景廣闊、潛力巨大,讓我們共同探索,擁抱美好未來。此為序。邱躍鵬騰訊公司副總裁 序言06序言謝 呼騰訊公司副總裁從農業文明和工業文明一路走來,社會逐漸步入信息高速流動的數字文明時代。推動人類文明走向新一輪創新浪
8、潮的正是信息采集、處理和使用技術,計算機視覺處理技術 OCR 生當其時。風生于地,起于青萍之末。時代的巨變從來不是驟然而至,社會的每個角落早已撒下了微小的種子。 新基建拉開人工智能高速發展的帷幕, 我們將要迎來萬物智能、 人機共生的嶄新時代,OCR 作為最接地氣的人工智能技術之一,已經進入我們生產生活的方方面面。在人工智能技術向前的每一步探索中,OCR 都發揮著計算機“眼睛”的功能,支持和指引著技術前進的腳步。與此同時,我們也要意識到現今被廣泛使用的云端 OCR 同樣存在著侵犯用戶隱私、數據泄露等安全風險,我們必須不斷提升技術安全和抗擊風險的保障能力。為此,中國信息通信研究院云大所、中國人工智
9、能產業發展聯盟、騰訊云 AI 計算機視覺中心、安全戰略研究部、優圖實驗室聯合研究撰寫了智能文字識別能力評測與應用白皮書。白皮書系統梳理了 OCR 的技術產業現狀,技術標準與規范、評估測試與實際應用等部分,是業內首份聚焦智能文字識別的白皮書。同時,產業安全問題始終是我們的關切所在,為此騰訊安全戰略研究部立足安全領域深耕細作,聯合內外部多個團隊探索產業互聯網安全戰略,培育網絡安全新生態,努力構建產業互聯網的“安全防火墻”。發展人工智能產業任重道遠,OCR 作為一項通用性、基礎性技術既是起點,也是遠方。新的視野即將打開,我們愿意分享產業互聯網時代每一項技術給用戶帶來的快樂和喜悅,并默默守護他們的安全
10、,為產業發展與安全貢獻騰訊的智慧和力量。07 智能文字識別能力評測與應用白皮書將圖像、視頻中的文字轉變為機器可讀可處理的字符信息,一直是計算機信息處理追求的目標,是機器與現實世界進行視覺交互的重要基礎,這也催生了光學字符識別(OCR,Optical Character Recognition)技術。早期的 OCR 技術可追溯到 1870 年,電報技術和為盲人設計的閱讀設備的出現標志著 OCR 技術的誕生。近年來,隨著計算機視覺、自然語言理解、知識圖譜等人工智能技術在 OCR 中實際使用,OCR 的性能和效率都得到了質的飛躍。目前,OCR 作為一種相對成熟的人工智能技術,已經在金融、交通、政務、
11、醫療、物流等垂直領域得到了廣泛應用。單據處理、車牌識別、證照核驗等 OCR 應用不僅僅極大地釋放人的體力和腦力,節省了大量成本,已經成為支撐各垂直行業數字轉型、智能升級、融合創新的重要基礎能力。中國人工智能產業發展聯盟(AIIA)在芯片、開源框架、智能語音、計算機視覺、自然語音理解等技術領域積累了很多的研究成果。為了進一步幫助技術和產業界了解 OCR 技術的發展歷程,探討在用戶的角度如何更好評估評價不斷進步的 OCR 技術及產品,依托 AIIA 平臺,中國信息通信研究院云計算與大數據研究聯合騰訊云 AI 計算機視覺產品中心、安全戰略研究部和優圖實驗室等共同撰寫了智能文字識別能力評測與應用白皮書
12、。該白皮書對 OCR 的技術路線以及實現進行了深入的分析,對如何評價基于計算機視覺、自然語言理解、知識圖譜技術的 OCR 進行了詳細分析和討論,并提出了相關的評估評價指標和方法。下一步,我們還將在已有研究和評估評測工作基礎上,繼續與合作伙伴一起不斷深化研究,制定細分領域的標準規范等,為技術和產業界提供權威參考。感謝產業界各方對中國信息通信研究院和 AIIA 工作的大力支持,希望我們繼續攜手奮進,共同為我國人工智能產業的發展作出更大貢獻。魏 凱中國信息通信研究院云計算與大數據研究所副所長序言08目錄OCR 發展背景概述序言1. OCR 的基本概念和作用 (1)OCR 概念與內涵(2)OCR 是機
13、器處理圖像文本的基礎 2. OCR 持續向社會生產生活領域滲透(1)人工智能技術發展提升 OCR 性能(2)服務載體多樣化加快 OCR 的普及(3)產業數字化進一步擴大 OCR 應用場景3. OCR 在新基建背景下迎來新的機遇(1)OCR 是新基建提供的重要能力之一(2)新基建加速 OCR 產業新生態的構建(3)新基建推動 OCR 的新一輪技術創新/ / / OCR 技術發展現狀分析1. OCR 技術歷史沿革2. OCR 技術分類概述(1)傳統方法受限于手工設計特征(2)基于深度學習的 OCR 包括兩類3. OCR 技術發展趨勢(1)一體化的端到端 OCR 模型(2)兼具高性能高效率的 OCR
14、(3)從感知到認知的智能 OCRCONTENTS10-1305-0714-2010111214161909 智能文字識別能力評測與應用白皮書總結/ / / OCR 產業發展現狀分析1. OCR 產業情況概述(1)OCR 產業規模逐年穩步提升(2)OCR 產業生態不斷豐富完善(3)OCR 成為科技巨頭能力標配2. OCR 應用成熟度概述(1)標準場景文字識別相對成熟(2)手寫文字識別應用逐步擴大(3)復雜場景文字識別開始探索3. 典型應用案例介紹(1)豐巢快遞柜實名驗證(2)順豐快遞單自主識別(3)寧波銀行票據自動錄入(4)搜狗廣告圖片文本審核OCR 技術標準化1. 評測標準與規范(1)評測流程
15、概述(2)評測數據構建(3)主要評價指標2. 自動化評測平臺(1)標注層和樣本層實現測試樣本快速標注(2)評測層實現 OCR 能力自動測試21-2526-3435212223273210OCR 發展背景概述 1. OCR 的基本概念和作用 (1)OCR 概念與內涵光學字符識別(Optical Character Recognition, OCR)是從圖像中識別出文字的技術,利用機器將圖像中手寫或印刷文本轉換為計算機可以直接處理的格式。OCR 技術能夠處理多種不同場景的圖像,包括拍攝或掃描得到的各種卡證、紙質文檔圖像,也包括含有文字的自然場景圖像和疊加了字幕文本的視頻圖像等。(2)OCR 是機器
16、處理圖像文本的基礎OCR 是計算機視覺領域的重要分支,通過圖像文字的識別實現信息錄入,有三OCR 發展背景概述11 智能文字識別能力評測與應用白皮書大核心優勢,一是提高效率,相比傳統的人工方式,顯著提升信息錄入效率。二是降低成本,通過機器代替人工,可大幅降低人力成本的開銷。三是適用性強,OCR 技術能夠實現多種場景、多種語言的識別。此外,通過 OCR 提取圖像中的文本,并進一步分析這些文字和符號所包含的語義信息, 能夠為機器理解圖像提供高層語義線索。 2. OCR 持續向社會生產生活領域滲透 (1)人工智能技術發展提升 OCR 性能伴隨著人工智能領域技術的創新,作為一個經典的模式識別問題,OC
17、R 取得了巨大的突破。當前深度學習技術不斷發展,加速了 OCR 性能提升,為復雜場景的文字識別應用提供先決條件。文字識別應用范圍從簡單的印刷體數字、字母符號識別,逐步演進到自然場景下多形態文本檢測與識別、手寫體文本檢測與識別等復雜情形。(2)服務載體多樣化加快 OCR 的普及OCR 應用需要基于計算和服務載體,隨著移動互聯網日益成熟和產業互聯網的加速發展,OCR 服務載體呈現出多樣化特征。一方面智能手機、電腦等電子產品已經成為人們生產生活的標配,為 OCR 應用提供了多樣化終端載體,終端設備成本降低和性能提升為 OCR 發展提供利好條件。另一方面 OCR 已經嵌入到云平臺中,演變為可以隨時調用
18、的云服務,隨著云計算的大規模普及,大幅降低了使用門檻和成本。12OCR 發展背景概述(3)產業數字化進一步擴大 OCR 應用場景以圖像文字作為信息傳播載體,并使用 OCR 實現圖像和文字的轉換,成為流程自動化的前置基礎,高效率、低成本的特點極大的加速產業數字化進程,OCR 已經是當前產業數字化轉型不可或缺的支撐能力。產業數字化的浪潮進一步釋放信息采集、交互需求,OCR 將在越來越多的行業中大展身手。 3. OCR 在新基建背景下迎來新的機遇(1)OCR 是新基建提供的重要能力之一2018 年中央經濟工作會議首次定義“新基建”,2020 年 4 月國家發展改革委進一步明確“新基建”范圍。人工智能
19、作為新技術基礎設施,與 5G、大數據等技術結合,將帶動諸多行業快速發展,為很多領域數字化智能化轉型奠定基礎。OCR 作為人工智能應用中商業推廣較為成熟的領域, 正成為人工智能新基建落地應用的 “頭雁”,已經成為人工智能新基建對外提供的重要智能化服務能力之一。(2)新基建加速 OCR 產業新生態的構建新基建戰略的實施必然會加速人工智能的快速落地和傳統產業的轉型升級,將從基礎設施支撐、應用生態等多方面加速 OCR 產業新生態的完善。一是新基建將促進云計算、大數據等新技術產業發展,這也將提升 OCR 產業在計算能力、數據處理等環節的基礎支撐能力。二是融合基礎設施建設將促進傳統基礎設施智能化改造,而這
20、將為 OCR 的應用生態的發展提供動力。人工智能融入實體經濟的過程,也將為OCR 產業生態引入豐富的人才、技術、場景等要素。13 智能文字識別能力評測與應用白皮書(3)新基建推動 OCR 的新一輪技術創新隨著新型基礎設施的建設,人工智能和實體經濟融合程度將進一步加深,整個社會數字化、智能化程度不斷提高。以 OCR 為代表的人工智能技術在某種程度上是人與人、人與機器、機器與機器的溝通入口,將在未來數字社會中發揮重要作用。新技術、新需求催生新的業態,構建新型基礎設施是進一步夯實新業態的底座,同時也是催生新一輪技術創新的基礎,這將帶動 OCR 等人工智能技術的不斷創新。14OCR 技術發展現狀分析O
21、CR 技術發展現狀分析 1. OCR 技術歷史沿革OCR 技術憑借著較高的實際應用價值,一直以來都是模式識別、人工智能以及計算機視覺領域的研究熱點。早期的 OCR 技術可追溯到 1870 年,電報技術和為盲人設計的閱讀設備的出現標志著 OCR 技術的誕生。圖 1. OCR 技術的發展15 智能文字識別能力評測與應用白皮書從 2000 年開始,在線服務成為 OCR 的主要業務形態之一,這一階段 OCR 技術僅在比較規整的印刷體文檔識別上性能良好。2014 年以來,隨著深度學習技術在OCR 領域的應用,加上海量訓練數據的積累,OCR 取得了飛躍性發展,適用范圍明顯擴大。2015 年,OCR 技術開
22、始從對單個字符的識別轉變為對整行文本進行識別,通過更有效的利用文本行的序列信息,識別效果進一步提升。2017 年以來,OCR中開始引入自然語言處理技術,增強了對內容的“理解”能力,通過語義信息的關聯,復雜場景下的文字識別能力得到增強。與此同時,隨著圖像處理等技術的發展,能夠將扭曲和畸變的文字圖像進行矯正,也能夠改善 OCR 性能。OCR 技術發展現狀分析16 2. OCR 技術分類概述文本檢測和識別是 OCR 技術的兩個重要核心技術, OCR 技術可以分為傳統方法和深度學習方法。 傳統方法受限于手工設計特征的表達能力和處理流程的復雜性,在復雜場景下很難達到理想的文字識別效果,深度學習技術的出現
23、很好地彌補了這一不足。 (1)傳統方法受限于手工設計特征傳統的 OCR 方法通過針對文本檢測和識別分別設計魯棒的特征,來提高模型的文字識別效果。文本檢測主要用于定位圖片中文本的區域,傳統的文本檢測方法可以分為基于顯著特征的檢測方法和基于滑動窗口的檢測方法兩大類。 文本識別階段,可劃分為文本二值化、 文本行分段、 字符分割、 單字識別、 字符矯正等一系列子問題。然而,傳統的文本檢測與識別方法受限于手工設計特征的表達能力和處理流程的復雜性, 對于較為復雜的圖片情況, 例如帶有大角度畸變以及模糊不清的文本圖像,很難達到理想的文字識別效果。17 智能文字識別能力評測與應用白皮書圖 2 OCR 技術的傳
24、統方法和深度學習方法18OCR 技術發展現狀分析(2)基于深度學習的 OCR 包括兩類近年來隨著深度學習技術的飛速發展,OCR 技術逐漸由手工設計文本特征訓練模型的方式演變成使用深度神經網絡模型,在文字識別效果上也有了較大的提升?;谏疃葘W習的方法可分為獨立兩階段方法以及端到端一段式的文本定識方法。獨立兩階段方法獨立兩階段是指對文本檢測和文本識別兩個階段分開建模的方法。文本檢測中不同方法優劣點各異,基于回歸的檢測方法能夠很好的解決場景圖像中帶方向文字的檢測,但會受到文本區域形狀不規則的干擾;基于分割的方法不受限于文本的大小及形狀,但對距離較近的文本行容易出現文本行粘連而失效;基于分解的方法先定
25、位文本片段或單個字符,再將它們組合成最終的檢測結果,可以很好地處理任意形狀、方向的文本。文本識別的算法可分為基于 CTC 技術的方法和基于注意力機制的網絡模型兩大類。其中,CTC 技術可以有效地捕獲輸入序列的上下文依賴關系,同時能夠很好地解決圖像和文本字符對齊的問題, 但在自由度較大的手寫場景下仍會出現識別錯誤。注意力機制主要應用于卷積神經網絡特征權重的分配上,提高強特征權重,降低弱特征的權重,同時在由圖像到文字的解碼過程中又具有天然的語義捕獲能力,因此在圖像特征提取以及語義提取方面都提升了 OCR 模型的性能。端到端一段式方法與獨立兩階段方法不同,端到端的方法是將文字檢測和識別整合到一個網絡
26、模獨立兩階段方法端到端一段式方法19 智能文字識別能力評測與應用白皮書型中進行訓練,避免檢測模型和識別模型之間由于誤差傳播而導致的性能下降。近些年來,許多端到端文本檢測和識別系統(即文本定識系統)被提出。 一種經典的端到端文本定識方法是使用文本建議框生成器和經過訓練的聚合通道特征檢測器的組合來生成候選文本包圍框,對候選框進行過濾和校正后,再進行文本內容識別,根據識別結果和標注文字的差異來聯合調整網絡中文本檢測和識別兩部分參數。另一種字符級的端到端方法 Mask TextSpotter 被提出,該方法基于經典的 Mask-RCNN 方法改進,針對圖像每個可能區域生成字符響應圖,用于表示單個字符的
27、存在和位置信息,模型使用字符響應圖作為特征訓練模型來識別單字符,最后將預測的單字符連接在一起后輸出文本預測結果。 3. OCR 技術發展趨勢近年來,隨著深度學習技術在 OCR 領域的應用,機器識別文字的性能取得了顯著的提升,但距人理解圖像文字的能力依存在一定差距??傮w上來看,OCR 技術將朝著提升魯棒性、效率和智能的方向發展。20OCR 技術發展現狀分析(1)一體化的端到端 OCR 模型構建一體化的端到端網絡, 同時對文字檢測和識別進行訓練,目前已成為了 OCR 領域的一種重要技術趨勢。端到端的網絡設計,實現了基礎特征的共享,既能夠減少重復計算,又能夠提高特征的質量,促進任務性能的改善。(2)
28、兼具高性能高效率的 OCR大量的 OCR 應用需要在資源受限的移動端設備上運行,當前移動端 OCR 算法大多以犧牲一定的算法精度來換取運行速度,針對移動設備設計兼顧性能和效率的輕量 OCR 模型是未來趨勢。(3)從感知到認知的智能 OCROCR 技術通常從計算機視覺領域出發,未來與自然語言處理技術、知識圖譜等更廣領域的交叉融合,通過語義及知識的深度挖掘提升 OCR 性能是重要趨勢。此外,在 OCR 中引入強化學習和元學習等新的學習范式,讓機器自主學習如何識別文字,也將成為研究熱點。一體化高效率智能21 智能文字識別能力評測與應用白皮書OCR 產業發展現狀分析 1. OCR 產業情況概述(1)O
29、CR 產業規模逐年穩步提升目前,OCR 技術已經在金融、保險、醫療、交通、教育等諸多行業有著深入的應用,未來隨著傳統行業的數字化轉型程度進一步深入,OCR 應用范圍和場景將進一步擴展,市場規模將進一步增大。根據美國權威機構 GRAND VIEW RESEARCH發布的 全球OCR (Optical Character Recognition) 市場預測以及趨勢分析 預測,2018 年以來全球 OCR 市場將以 13.7% 的復合年增長率穩健發展,至 2025 年全球OCR 市場規模將達到 133.81 億美元。OCR 產業發展現狀分析(2)OCR 產業生態不斷豐富完善早期受限于技術發展水平,O
30、CR 廠商通常從特定應用切入,例如車牌識別系統等,形成了一系列專用設備。近年來,越來越多的終端設備及應用均嵌入了 OCR 技術, 并逐漸形成了從基礎設施、 基礎能力到終端的完整產業鏈生態, 也衍生出了卡證、票據等一系列細分 OCR 能力,通過組合的方式服務于各個行業,如圖 3 所示。22OCR 產業發展現狀分析(3)OCR 成為科技巨頭能力標配在各行各業數字化轉型的浪潮中,OCR 技術逐漸“下沉”為一項基本的能力,為上層不同的業務應用提供底層技術支撐。 國外以谷歌、 微軟等為代表, 國內以騰訊、阿里、華為、百度等為代表的科技巨頭和云計算廠商,研發各類在線或離線 OCR 技術產品,一方面服務自身
31、內部業務,同時也對外開放 OCR 能力。 2. OCR 應用成熟度概述(1)標準場景文字識別相對成熟標準化場景下 OCR 應用相對成熟,主要包括名片、身份證、護照、港澳通行證、戶口薄、駕駛證、行駛證、銀行卡等卡證識別,以及增值稅發票、銀行票據、營業執照等票據識別。由于這一類應用場景下獲取的圖像較為規整,且文字內容格式化程度高。這些識別技術在金融、政務等領域已經得到了廣泛應用。圖 3 OCR 產業生態示意圖23 智能文字識別能力評測與應用白皮書(2)手寫文字識別應用逐步擴大由于不同人手寫文字之間存在廣泛的差異, 且相比于印刷體通常存在文字粘連,提升手寫體文字的識別性能依然具有一定挑戰。 近年來,
32、 手寫體的識別能力逐步提升,在教育、物流等行業應用不斷擴大。例如在教育行業,手寫字識別幫助機器識別學生作業等,輔助教師進行標準答案比對;在物流行業,手寫字識別能夠幫助實現手寫運單的自動識別。(3)復雜場景文字識別開始探索目前,雖然特定場景的 OCR 技術已經相對成熟,但是隨著 OCR 應用領域的不斷拓寬,像人眼識別能力一樣的通用 OCR 技術成為業界研究的重點。具體一方面是追求自適應識別不同的圖片以及圖片上的文字,如在銀行、財務等相關業務場景自動識別各類證照卡票;另一方面追求在不同光照、 不同拍攝角度等方面識別的性能,如無人機器人攝像機的對拍攝內容的自適應識別。 3. 典型應用案例介紹(1)豐
33、巢快遞柜實名驗證目前我國快遞業務需要對寄件人進行身份查驗并登記,豐巢快遞通過使用騰訊云身份證 OCR 技術,身份證字段識別準確率達 99%,實現用戶自助進行實名驗證,可以有效提高用戶寄件、取件的效率。圖 4 豐巢使用 OCR 技術進行身份證識別24OCR 產業發展現狀分析(2)順豐快遞單自主識別快遞單的文字轉寫一直是快遞行業提升用戶體驗的重要需求。順豐使用手寫體文字識別技術,可以自動識別運單的收寄件人信息,提高效率并降低了人力成本。據統計,順豐使用 OCR 產品后,實現 3 小時識別 2000 萬張運單的識別的能力,可以節約相關人力成本每年約 50%。(3)寧波銀行票據自動錄入銀行業大量金融票
34、據的分類和錄入一直是簡單重復卻非常耗費人力成本的工作,提升分類和錄入速度、同時降低人力成本成為使用 OCR 技術的核心驅動。寧波銀行使用智能票據 OCR 識別解決方案,支持十余種票據的自動檢測分類、結構化識別以及信息錄入,并對字跡模糊、印章干擾、打印錯位等問題進行了優化,將識別的字段準確率提升至 90% 以上,更好地滿足了銀行業務場景的需要。圖 5 順豐基于 OCR 技術進行快遞單識別25 智能文字識別能力評測與應用白皮書圖 6 寧波銀行基于 OCR 技術進行金融票據識別圖 7 搜狗基于 OCR 技術進行圖片文字審核(4)搜狗廣告圖片文本審核目前敏感詞過濾技術已經非常成熟, 通過文字進行惡意推
35、廣往往會被網站屏蔽。所以很多不法分子開始在圖片、視頻中內嵌一些非法信息和廣告。傳統方法是以人工肉眼來審查,在目前數據的體量下已經基本無法滿足業務的需要。通用文字識別服務幫助客戶自動識別海量的圖片文字內容,從而高效地進行廣告圖片內容審核,降低客戶業務的違規風險。OCR 技術標準化OCR 是各個領域數字化的重要基礎支撐,具有廣闊的應用市場。隨著基于深度學習的 OCR 技術成為主流方法,傳統 OCR 的功能性能評測方法和工具已經逐漸無法滿足目前的評估評測需求。主要原因分為以下幾個方面:從技術實現層面看,基于計算機視覺和自然語言理解融合的 OCR 技術,與傳統OCR 技術實現的本質有較大不同,僅評估字
36、準確率的傳統方法已經無法滿足現階段OCR 的評估需求;從測試工具層面看,大量覆蓋不同場景、不同特點的測試數據集為全面測試OCR 在不同場景下的效率提供了支撐;從應用層面看,商業用戶不僅關心識別的準確率,在大負載下算法和系統的執行效率也是客戶關注的重點;從產業層面來看,隨著人工智能技術開源開放程度的提升,使進入 OCR 的門檻逐步降低,但這也出現了 OCR 技術產品魚龍混雜的局面,大大增加了用戶企業的選擇成本。26O C R 技術標準化所以,如何科學的評價 OCR 技術及系統成為當下迫切需要解決的問題,構建新業態下的 OCR 技術標準,對于樹立 OCR 行業標桿,幫助企業選擇合適的 OCR 產品
37、或服務、推動 OCR 領域技術革新具有重要意義。 1. 評測標準與規范2020 年 4 月,中國人工智能產業發展聯盟完成了OCR 服務智能化分級技術要求和評估方法,規定了 OCR 服務在功能、性能、安全等方面的技術要求以及評估方法。7 月,OCR 服務要求及評估方法在國際電信聯盟 ITU-T SG16 組成功立項(Requirements and Evaluation Methods for AI-based Optical Character Recognition Service),標志著深度學習背景下的 OCR 評測方法已經逐漸被國際標準組織所接受。(1)評測流程概述OCR 的標準評測流
38、程主要有以下幾步。第一步是對測試圖片進行人工標注,標注任務分為標簽標注和字符標注:標簽標注是指根據自定義的樣本類型進行樣本打標簽,便于測試引擎在不同場景下的 OCR 文字識別能力;字符標注是指對樣本圖片上的字符進行人工標注,字符包括了文字和標點符號。第二步是將測試圖片輸入到OCR 引擎中得到引擎的文字識別結果;第三步是將經過格式標準化處理后的標注結果和引擎輸出結果進行評測指標計算,分析各個評測指標,完成對 OCR 引擎能力的評測。圖 8 OCR 文字識別評測流程27 智能文字識別能力評測與應用白皮書(2)評測數據構建在OCR評測過程中, 如何構建測試數據集對于正確評價OCR系統性能十分重要。實
39、際應用過程中,針對不同應用場景會調用不同的 OCR 能力,因此需要準備不同應用場景的測試數據,主要涵蓋以下幾類??ㄗC類樣本數據:包括身份證、銀行卡、營業執照、駕駛證、行駛證、護照、道路運輸證等證件類圖片;票據類樣本數據:包括增值稅發票、出租車發票、火車票、機票行程單、定額發票、車輛通行費發票、機動車銷售發票等票據類圖片;車牌類樣本數據:包括警用車、港澳車、教練車、外交機構用車、臨時車牌、雙行車牌等車牌類圖片;通用印刷體類樣本數據:包括菜單、表格、試卷、行業文檔、電商廣告等圖片。此外,為了更全面模擬實際應用時出現的干擾情形,測試數據盡可能覆蓋不同干擾場景,主要包括: 不同拍攝角度:指通過正拍、斜
40、拍和圖像反轉等不同角度進行拍攝;不同光線:指在亮光(可能會出現反光)、暗光和部分亮光部分暗光的情形 下拍攝;28O C R 技術標準化文字不清晰:指存在因污損、遮擋、折痕、印章、背景紋理等造成文字不清楚的樣本;(3)主要評價指標主要考慮 OCR 識別效果、OCR 服務性能、OCR 告警功能三個方面作為主要評價指標。 1 OCR 識別效果指標包括字段粒度和字符粒度的識別效果評價指標。以字段為單位的統計和分析,適用于卡證類、票據類等結構化程度較高的 OCR 應用評測。以字符(文字和標點符號)為單位的統計和分析,適用于通用印刷體、手寫體類非結構化數據的 OCR 應用評測。具體指標包括以下幾個: 字段
41、召回率,指被完全正確識別字段(測試輸出結果與字段的所有字符完全匹配)數量與總字段數比值。 字段準確率,指被完全正確識別字段(測試輸出結果與字段的所有字符完全匹配)數量與測試返回識別結果的字段數量比值。 字符召回率,指被完全正確識別字符數量與真實字符總數的比值,可以反應識別錯和漏識別的情況。邊框不完整:主要指圖片樣本中物體(證件、票據、車牌等)邊框沒有完整出現在畫面中;其他特殊情況:主要指卡證類樣本需考慮帶有少數民族文字、生僻字,同時考慮到證件等用于高安全場景,對復印、掃描、屏幕翻拍、PS 等樣本進行告警;印刷體樣本需考慮不同字號、不同排版方向,以及彎曲的文本。abc29 智能文字識別能力評測與
42、應用白皮書 字符準確率,指被完全正確識別字符數量與測試返回的字符數的比值,可以反應識別錯和多識別的情況。 , 可以綜合反映字符識別召回效果和字符識別準確效果, 計算公式如下: 最小編輯距離,表示測試結果要與標注結果一致需要修改的字符數,忽略引擎返回行的順序與原圖標注的順序,適用于電商廣告、手機截圖等樣本版式不規范的OCR 應用評測。 全圖編輯距離,表示測試返回結果要與標注結果一致需要修改的字符數,要求引擎返回的每一行文字順序要和標注順序一致,適用于文檔、表格等樣本版式較為規范的 OCR 應用評測。 2 OCR 服務性能指標 識出率,表示成功返回識別結果的概率,識出率越高表示 OCR 服務被調用
43、成功的概率越大。計算公式為: 平均耗時,表示成功調用引擎的所有請求耗時的平均值(不包括調用 OCR 服務失敗的請求),用于衡量引擎的處理速度。計算公式為:defgab30O C R 技術標準化 TOP99 耗時,指將引擎成功被調用的所有請求的耗時按升序進行排列,排序在第99%位的耗時數據, 表示當前測試環境下, 99%的請求耗時都在這個時間范圍內,用于衡量 OCR 系統處理性能。 3 OCR 告警功能指標告警功能指標適用于樣本安全性要求較高的卡證、票據類場景,用于衡量 OCR服務對復印件、掃描件、屏幕翻拍件和 PS 樣本等高風險樣本的告警能力。 負樣本正確告警率,指復印件、掃描件、屏幕翻拍件和
44、 PS 樣本等高風險樣本,負樣本正確告警率用于衡量 OCR 服務對負樣本的正確告警概率。計算公式為: 正樣本誤告警率,指證件或票據原件圖片,正樣本誤告警率用于衡量 OCR 服務對正樣本的錯誤告警概率。計算公式為:abc31 智能文字識別能力評測與應用白皮書 2. 自動化評測平臺OCR 服務評測需考慮的應用場景豐富,且不同場景下還應模擬真實情形構建完備的測試數據集,同時也需要統計多種技術指標進行討論分析。評測階段所涉及的測試工作繁多,人為因素可能會導致測試結果的偏差。因此,構建自動化 OCR 服務評測平臺能夠標準化測試流程,能夠加速推進測試工作,客觀、全面地評價不同OCR 服務能力。中國人工智能
45、產業發展聯盟按照相關評測需求,指導騰訊云開發了天鑒 OCR 服務引擎自動化評測平臺,其平臺架構如圖 9 所示,包括標注層、樣本層和評測層。圖 9 騰訊云天鑒服務引擎自動化評測平臺框架32O C R 技術標準化(1)標注層和樣本層實現測試樣本快速標注標注層支持給樣本打上對應的標簽和詳細的文字標注,將場景數據沉淀為有價值的測試樣本。 樣本層利用樣本標簽對樣本進行自動化分類, 標簽也可以自定義設置。標注人員還可以使用平臺根據標簽進行數據篩選,方便快速找到符合需求的數據。(2)評測層實現 OCR 能力自動測試評測層使用評測樣本集測試不同 OCR 方法或系統,對字段 / 字符召回率、準確率等指標進行統計
46、分析,對比分析不同 OCR 服務系統的識別效果,自動地輸出OCR 服務評測報告。圖 10 自動化評測結果示意圖33 智能文字識別能力評測與應用白皮書平臺支持無標注樣本數據測試,用于對比不同 OCR 服務系統的識別效果差異。同時,還提供不同測試指標維度評測對比及可視化分析,方便直觀比較不同引擎能力的優劣,用于指導 OCR 產品選型和優化。4004791352163082576460080010001200140016001800圖 10 自動化評測結果示意圖 ( 續 )0.00%25.00%50.00%75.00%100.00%圖 11 多維度可視化對比分析示意圖34O C R 技術標準化隨著人
47、工智能技術發展,OCR 相關產品和服務也在不斷地演進和迭代。在這一波人工智能浪潮中,OCR 技術歷久彌新,展現出了勃勃生機,作為計算機視覺領域代表性技術,為眾多行業轉型升級提供支撐。為了適應當前 OCR 技術和產品的發展趨勢,更好的推動國內 OCR 相關產業的發展,中國人工智能產業發展聯盟聯合業界專家共同制定了 OCR 服務智能化分級評估規范,也在積極推動相關技術標準國際化。后續我們將持續推動 OCR 相關技術標準化工作,不斷豐富自動化測試平臺能力,為 OCR 技術供給方提供技術測試服務,幫助企業完善技術和產品;同時,也將發布 OCR 技術或產品的測試結果,為 OCR 需求方提供客觀公正的選型依據??偨Y35 智能文字識別能力評測與應用白皮書