什么是OCR
OCR是Optical Character Recognition的縮寫,中文譯為光學字符識別,它主要用來提取文本圖像文件上的文字內容,通常在獲取文字內容之前先對圖像文件進行一系列分析操作。它的應用領域十分廣泛,如教育、交通、醫療,是工業界和學術界的重點研究目標之一。
隨著近幾年智能手機市場的繁榮發展,很多廠商將智能手機的高像素攝像頭和OCR聯合,衍生出基于智能手機平臺的相關OCR軟件的發展。開發手機OCR應用的廠商主要分為兩種形式:一種是專業的OCR技術提供商,諸如ABBYYFinReader、漢王、尚書七號等;另一種是專業的技術服務提供商,它們會選擇購買OCR技術提供商提供的技術或者采用開源的OCR引擎,如Tesseract。
OCR技術的特點
提高效率:OCR技術相比傳統的人工方式,能夠更快實現信息錄入。
降低成本:以機器代替人工,能夠節省人力成本的開銷。
適用性強:OCR技術能夠實現多場景和多語言的識別,還能通過提取圖像中的文本分析其所包含的語義信息,為機器理解圖像提供高層語義線索。
OCR技術的特點

OCR技術發展歷程
20世紀30年代末,德國籍研究員Taushek首次將字符模板匹配運用到字符識別過程中,并因此獲得了一項OCR相關專利,自此邁進了自動獲取圖片文字的時代。此后不久,美國籍研究員Handel提出了借助OCR技術對文本資料進行文字提取的設想。
20世紀六十年代OCR技術發展進入到應用階段,學者開始將OCR技術理論運用到實際應用中,誕生了第一批OCR系統,最典型的代表系統是Farrington3010和Farrington3010,它們僅僅能識別一些簡單的字符。在1966年,美國IBM公司的兩個研究員完成了對1000個印刷體中文字符的識別過程。
20世紀七十年代初,日本籍研究人員將漢字的識別想法提上日程,于1977年由東芝綜合研究所研發的能識別2000個印刷體漢字識別系統就是其代表性作品。當時,另一個最典型的代表是一個郵政編碼自動分揀系統,即IBM1287,它對書寫整齊規整的手寫體字符識別結果偏好。
20世紀八九十年代,隨著個人電腦的發展和廣泛應用和平臺式掃描設備的性能逐漸提升和日漸成熟,OCR應用的第一個高潮出現。此時著名的應用事件是谷歌圖書館借助OCR技術實現了批量化的高速掃描。
21世紀開始將自然場景中的文字識別作為新課題來研究。2014年8月,微軟亞洲研究院在ICPR(國際模式識別大會)上公布了在自然場景下基于標準數據集(ICDAR-2013測試集)的識別,最終識別結果表明其達到了92.1%的準確率和92.3%的召回率。伴隨著云計算、大數據的迅猛發展,通過手機攝像頭進行文字資料采集,將采集后形成的圖像傳遞給后端實時處理,前端和后臺的完美結合充分體現了OCR的應用價值。
我國OCR技術發展歷程:
第一階段是從20世紀70年代末期到20世紀80年代末期,重在完成字符識別相關算法和方案的摸索。
第二階段是從20世紀90年代初期開始,OCR由實驗室走向市場,初步實用,此時出現以清華大學為代表的高校單位研發的印刷體文字識別系統。
第三階段即現在,主要針對識別系統的性能提升問題進行研究,其中包括準確率和兼容性的提高。
?OCR技術的應用場景舉例
豐巢快遞柜的實名驗證:豐巢快遞通過使用騰訊云身份證的OCR技術,對身份證的識別準確率達99%,能夠實現用戶的自助實名認證,提高用戶寄取快遞的效率。
順豐快遞單信息自主識別:快遞單文字轉寫一直是快遞行業的重要需求。順豐使用了手寫體識別技術后,快遞的收寄件人信息將被快速紀錄,能夠大大提高效率并且節省人力。數據顯示,順豐使用OCR產品后,每年節約的相關人力成本約有50%。

寧波銀行票據錄入:銀行業有大量金融票據的分類和錄入需求;寧波銀行使用的OCR識別系統能夠支持十余種票據的檢測分類、結構化識別及信息錄入,且字跡模糊、印章干擾等問題也在不斷優化,目前識別字段的準確率在90%以上。
寧波銀行票據錄入

搜狗廣告圖片文本審核:許多不法分子會在圖片、視頻中鑲嵌一些非法信息和廣告,傳統方法是以肉眼進行審查,但是隨著網絡技術發展,信息也開始海量化增加;OCR能夠幫助搜狗自動識別海量圖片的文字內容,降低客戶業務的違規風險。
本文由@AG 發布于三個皮匠報告網站,未經授權禁止轉載
更多行業知識,敬請關注三個皮匠報告行業知識欄目。
參考資料
《騰訊云:2020智能文字識別OCR能力評測與應用白皮書(35頁).pdf》
推薦閱讀
《智慧芽:2021人臉識別行業白皮書(69頁).pdf》