《AMiner:2018機器翻譯與人工智能研究報告(44頁).pdf》由會員分享,可在線閱讀,更多相關《AMiner:2018機器翻譯與人工智能研究報告(44頁).pdf(44頁珍藏版)》請在三個皮匠報告上搜索。
1、 2018 機器翻譯 與人工智能研究報告 AMiner 研究報告第五期 清華大學(計算機系)中國工程科技知識中心 知識智能聯合研究中心(K&I) 2018 年 5 月 1 概念篇 2 技術篇 2.1 理性主義方法 . 9 2.1.1 基于規則的機器翻譯 . 9 2.2 經驗主義方法 . 12 2.2.1 基于統計的機器翻譯 . 13 2.2.2 基于實例的機器翻譯 . 15 2.2.3 基于深度學習的機器翻譯 . 16 Contents 目錄 1.1 機器翻譯簡介 . 2 1.2 機器翻譯發展歷程 . 2 1.3 我國機器翻譯現狀 . 5 4 應用篇 3 人才篇 3.1 領軍人物 . 22 3
2、.2 中堅力量 . 28 3.3 領域新星 . 33 5 趨勢篇 5.1 趨勢篇 . 39 4.1 趨勢篇 . 36 圖表目錄 圖 1 抽象轉換的分層實現. 3 圖 2 機器翻譯技術源頭 . 4 圖 3 機器翻譯過程 . 9 圖 4 機器翻譯的轉換層面. 10 圖 5 直接翻譯過程 . 10 圖 6 基于轉換方法的翻譯流程 . 11 圖 7 中間語言與轉換方法比較 . 12 圖 8 中間語轉換翻譯過程. 12 圖 9 統計機器翻譯典型模型 . 13 圖 10 基于統計的機器翻譯模型 . 14 圖 11 基于實例方法翻譯過程 . 15 圖 12 深度學習發展脈絡 . 16 圖 13 機器翻譯領域
3、全球學者分布 . 21 圖 14 機器翻譯領域中國學者分布圖 . 21 圖 15 機器翻譯各國人才順逆差圖 . 22 圖 16 機器翻譯領域全局熱度 . 39 圖 17 機器翻譯領域近期熱度 . 39 摘要摘要 隨著計算機科學技術的發展, 機器翻譯作為自然語言處理研究的重要組成部分越發受到人們關注。 經過了幾十年的努力, 以機器翻譯為代表的自然語言處理工作取得了巨大的進展,并且在未來有著廣闊的發展空間, 為了梳理機器翻譯領域的研究概括, 我們編寫了此份報告,主要內容包括: 機器翻譯概論機器翻譯概論。首先對機器翻譯進行定義,接著對機器翻譯的發展歷程進行了梳理,對我國機器翻譯現狀進行了簡單介紹。
4、機器翻譯技術原理機器翻譯技術原理。機器翻譯的技術原理可以概括為基于理性主義的方法和基于經驗主義的方法兩種,分別對兩種方法下的基于規則的翻譯方法、基于實例的翻譯方法、基于統計的翻譯方法以及基于深度學習的翻譯方法進行介紹。 機器翻譯領域專家介紹。機器翻譯領域專家介紹。利用 AMiner 大數據對機器翻譯領域專家進行深入挖掘,選取國內外有代表性的專家進行簡要介紹。 機器翻譯的應用及趨勢預測。機器翻譯的應用及趨勢預測。機器翻譯在現實生活中應用廣泛, 在文本翻譯、 語音翻譯、圖像翻譯和視頻、VR 翻譯等領域均有了不同的進展,在此基礎上,對機器翻譯未來的發展趨勢做出了相應的預測。 報告(電子版)實時更新,
5、獲取請前往:https:/ 1 concept 概念篇 1 2 1 1 概念篇概念篇 1.1 機器翻譯簡介機器翻譯簡介 機器翻譯(Machine Translation)是指運用機器,通過特定的計算機程序將一種書寫形式或聲音形式的自然語言, 翻譯成另一種書寫形式或聲音形式的自然語言。 機器翻譯是一門交叉學科(邊緣學科) ,組成它的三門子學科分別是計算機語言學、人工智能和數理邏輯,各自建立在語言學、計算機科學和數學的基礎之上。 機器翻譯可以實現世界上不同國家不同語言間的低成本交流,其主要優點體現為: n 成本低成本低。相對于人工翻譯來說,機器翻譯的成本要低很多。機器翻譯需要人工參與的程序其實很少
6、,基本上由計算機自動完成翻譯,大大降低了翻譯成本。 n 易把控易把控。機器翻譯的流程簡單快捷,在翻譯時間的把控上也能進行較為精準的估算。 n 速度快速度快。計算機程序的運行速度非???,其速度是人工翻譯速度不可比擬的。 由于這些優點, 機器翻譯在這幾十年來得到了快速的發展。 在具體應用上一般分為三種,分別是:詞典翻譯軟件、計算機輔助翻譯軟件和機器翻譯軟件。 第一種是最基本的網絡查詞翻譯, 查詢對象一般為單個的字詞、 簡單的詞組或者是固定結構。 第二種為計算機輔助翻譯,英文簡稱 CAT(Computer Aided Translation) ,其原理為利用計算機的記憶功能將譯者之前翻譯的資料進行整
7、理, 以便為之后出現的類似翻譯提供便利條件。CAT 軟件產業已經比較成熟,例如 Google Translator Toolkit、Microsoft LocStudio 等,Trsdos(塔多思)占有國際計算機輔助翻譯軟件產業絕大多數的市場份額,微軟、西門子等國際大公司都是它的用戶。 第三種是機器翻譯軟件,也叫做計算機翻譯,即 MT(Machine Translation) 。其原理為應用計算機按照一定規則把一種自然語言轉換為另一種目標自然語言。 此過程一般指自然語言之間句子和段落等的翻譯,大部分見諸于世的翻譯軟件,如谷歌翻譯、金山詞霸和有道翻譯等均屬于機器翻譯軟件。 1.2 機器翻譯發展歷
8、程機器翻譯發展歷程 機器翻譯思想正式提出于 1949 年,Warren Weaver 發表翻譯備忘錄,在那以后至今的時間里,機器翻譯研究經歷了一個曲折的發展過程。 第一臺數字電子計算機誕生于 1946 年,從那以后,人們就開始思索如何運用計算機代替人從事翻譯工作的問題, 甚至在此之前, 圖靈就已經開始思考計算機是否能夠進行思維這一問題。1949 年,信息論先驅 Warren Weaver 發表了有關機器翻譯的備忘錄,提出了機器翻譯的可計算性,他提出兩個主要觀點:第一,他認為翻譯類似于解讀密碼的過程;第二,他認為原文與譯文“說的是同樣的事情” ,因此,當把語言 A 翻譯為語言 B 時,就意味著從
9、語言 A 出發,經過某一“通用語言”或“中間語言” ,可以假定是全人類共通的。這是機器翻譯發展初始階段的第一件標志性事件;1954 年美國喬治敦大學(Georgetown)在 IBM 的協同下進行的英俄翻譯實驗開始了, 在翻譯自動化方面的嘗試是機器翻譯發展初始階段的第二 3 件標志性事件。 總體來說, 這一階段人們頭腦中已經形成了機器翻譯的概念, 并且已經意識到可以利用語法規則的轉換和字典來實現翻譯目的。 人們樂觀地認為只要擴大詞匯量和語法規則, 在不久的將來,機器翻譯問題會比較完美地得以解決。所以在此之后的很長一段時間,全球各國大力支持機器翻譯項目,一個機器翻譯研究的高潮就此形成。 好景不長
10、, 1966 年 11 月, 美國語言自動處理咨詢委員會 (ALPAC) 從機器翻譯的速度、質量、 花費以及當時人們對機器翻譯的需求等幾個角度, 對當時的各個翻譯系統進行了一次評估,公布了著名的 APLAC 報告,給機器翻譯研究工作澆了一盆涼水。報告提出,機器翻譯的譯文質量明顯遠低于人工翻譯,難以克服的“語義障礙”是當時機器翻譯遇到的問題,這份報告全面否定了機器翻譯的可行性, 建議各大機構停止對機器翻譯的投資和研究。 盡管報告的結論過于倉促、 武斷, 但是這一階段關于機器翻譯的研究的確沒有解決許多至關重要的問題,并沒有對語言進行深入的分析。此后在世界范圍內,機器翻譯出現了空前的蕭條局面。 20
11、 世紀 80 年代末,由于微處理器的出現,計算機能力獲得了突飛猛進的發展,機器翻譯這一學科有著極大的開發潛力和經濟利益, 被重新提起。 許多大公司開始投入資金和人力進行研究,使得機器翻譯得到了復蘇和重新發展的機會。這一時期,計算機和語言學的一些基礎工作, 比如許多重要的算法的研究已經到達了一個比較深入的階段, 對語法和語義的研究也已經有了一些比較重大的成果,詞法分析、句法分析的算法相繼得到開發,并且加強了軟件資源,例如電子詞典的建設。翻譯方法以轉換方法為代表,開始普遍采用以分析為主,輔以語義分析的基于規則方法來進行翻譯,采用抽象轉換表示的分層實現策略,如圖 1。語法與算法的分開是這一時期機器翻
12、譯的另一個特點。 所謂語法與算法分開, 就是指把語言分析和程序設計分開來成為兩部分操作, 程序設計工作者提出規則描述的方法, 而語言學工作者使用這種方法來描述語言的規則。 圖 1 抽象轉換的分層實現 現在, 機器翻譯已經成為世界自然語言處理研究的熱門。 原因之一是網絡化和國際化對翻譯的需求日益增大, 翻譯軟件商業化的趨勢也非常明顯。 這一時期的翻譯方法我們一般稱之為基于經驗主義的翻譯方法, 主要是基于實例和基于統計的方法, 特點是注重大規模語料庫的建設,開始了針對大規模的真實文本處理。同時,這一階段的研究工作開始解決一個比文本翻譯更加復雜和艱難的問題語音翻譯。而且由于 Internet 上的機
13、器翻譯系統具有巨大的潛在市場和商業利益,此時網上翻譯機器系統也進入了實用領域的新突破階段。 4 圖 2 機器翻譯技術源頭 機器翻譯功能越來越強大, 從最初只能進行簡單的單詞翻譯, 到之后可以翻譯出基本符合語法的句子, 慢慢可以翻譯具有一定邏輯性的句子, 現在部分軟件已經可以自主聯系上下文進行翻譯,翻譯結果的準確性與可讀性都已經取得了非常大的進步。 近年來,加入了“深度學習技術”等人工智能的機器翻譯已經不止于簡單的將一個個單詞翻譯成另一種語言,而是可以像人工翻譯一樣,不斷向前回顧理解結構復雜的句子,同時聯系上下文進行翻譯。 最為明顯的就是現在的部分機器翻譯軟件已經可以理解每一個代詞具體指代誰,這
14、在許多年前是不可想象的。 實現這種功能的關鍵,分別依賴于兩種神經網絡架構,一個是循環神經網絡(RNN,Recurrent Neural Networks) , 另一個是卷積神經網絡 (CNN, Convolutional Neural Network) ,目前關于兩種網路架構哪種更適用于機器翻譯的爭論還有很多。 l 循環神經網絡循環神經網絡 循環神經網絡的關鍵在于“循環”二字,計算機系統會“記住”上一次輸出的內容,并以此來決定下一次輸出。 有了上一次和下一次的概念, 神經網絡就不會把輸入和輸出的信息看作是獨立的, 而是相互關聯的時間序列。 這樣可以通過以往的序列關聯猜測到下一個序列會出現的詞。
15、在翻譯時,神經循環網絡把源語言當作輸入序列,把翻譯語言當作輸出序列,由于每次的輸出都會參考上一次輸出的結果, 所以機器翻譯更具有整體性, 可讀性和準確性更高,而不是簡單地翻譯單詞。目前,循環神經網絡運用最為熟練的應該是谷歌翻譯,谷歌曾提出利用神經網絡系統進行機器翻譯,據稱漢譯英的錯誤率最高下降了 85%。 l 卷積神經網絡卷積神經網絡 卷積神經網絡可以同時處理多個語言片段, 并且具有信息分層處理能力。 將文本序列化、單詞向量化,經過分層處理后再輸出結果。在分層過程中,還會不斷回顧原文本來確定下一個輸出序列。提出這種技術的是 Facebook 和最近的機器翻譯新秀 DeepL。2017 年上半年
16、,Facebook 宣布推出了基于卷積神經網絡開發的語言翻譯模型,據說比基于循環神經網絡開發的語言翻譯模型速度可以快 9 倍,而且準確率更高。在測試上,Facebook 翻譯系統在英語-德語、英語-法語的測試上都比循環神經網絡更接近人工翻譯。 不管是哪種系統, 都不是機器翻譯的終點, 比如谷歌近期提到的不再基于卷積神經網絡的注意力機制,以及多層神經網絡、深度神經網絡等,都是解決機器翻譯問題的探索,在速 5 度、計算機資源消耗、情感理解等多種維度上各有不同的表現。 1.3 我國機器翻譯現狀我國機器翻譯現狀 中國的機器翻譯研究始于 20 世紀 50 年代,但是由于國際環境和電腦發展水平的束縛,國內
17、真正對機器翻譯的研究是在 20 世紀 80 年代晚期。 具有重要意義的標志性成果是著名的“863 智能英-漢翻譯系統” 。20 世紀 90 年代,隨著電腦技術的發展和對外交流的擴大,機器翻譯的使用變得日趨頻繁; 機器翻譯不僅是必要的, 而且隨著機器翻譯軟件發展到了前所未有的新高度, 機器翻譯也成為可能。 機器翻譯研究形成了獨立研究機構和政府研究組織共存的良好面貌。國內成功的機器翻譯的開發也呈現出前所未有的繁榮景象。 第一階段的開發期是在 1957 年,中科院語言研究所、電腦科技研究所與中俄機器翻譯合作,成功譯出了九類復雜的句式。作為世界上的兩種重要語言,英漢互譯是國內外諸多學者所關心的。 第二
18、階段由于政治原因和機器翻譯固有的困難而停滯。 在此階段, 漢英機器翻譯研究幾乎止步不前。 第三階段是大發展階段,始于 1975 年。國內的機器翻譯列入了“六五” “七五” “863”等主要研究計劃。 研究者集中精力進行了多個科研院所的協作研究, 開展了與國際研究機構的合作和溝通,不僅培養了大批人才,積累了資源,而且把我國機器翻譯帶入了繁榮期。 上世紀 90 年代以來,我國相繼推出了一系列機器翻譯軟件,例如“譯星” “通譯”等。隨著市場需求的擴大,機器翻譯成為一種新興產業,走向了專業化和市場化。 近幾年國內機器翻譯發展很快,各大 IT 公司都相繼推出自己的機器翻譯系統,而且神經翻譯技術和深度學習
19、技術作為一種新的機器翻譯范式, 在諸多語種及應用場景中的翻譯質量已經超越了統計機器翻譯技術,并成為目前學術界和工業界研究的熱點,以下對各大 IT公司機器翻譯進展逐一介紹。 2010 年初,百度組建了機器翻譯核心研發團隊,2011 年 6 月 30 日,百度機器翻譯服務正式上線,目前,百度翻譯支持全球 28 種語言互譯、756 個翻譯方向,每日響應過億次的翻譯請求。此外,百度翻譯還開放了 API 接口,目前已有超過 2 萬個第三方應用接入。華為、OPPO、中興、三星等手機廠商,金山詞霸、靈格斯詞霸、敦煌網等眾多產品均接入了百度翻譯 API。百度還將基于神經網絡的機器翻譯引入機器翻譯中,這一應用比
20、谷歌翻譯要早一年,在海量翻譯知識獲取、翻譯模型、多語種翻譯技術等方面取得重大突破,實時準確地響應互聯網海量、 復雜的翻譯請求。 其所研發的深度學習與多種主流翻譯模型相融合的在線翻譯系統以及基于“樞軸語言”等技術,處于業內領先水平,在國際上獲得了廣泛認可。 科大訊飛成立之時就再布局語言和翻譯領域布局項目。 基于深度神經網絡算法上的創新和突破, 科大訊飛在 2014 年國際口語翻譯大賽 IWSLT 上獲得中英和英中兩個翻譯方向的全球第一名;在 2015 年又在由美國國家標準技術研究院組織的機器翻譯大賽中取得全球第一的成績。2017 年科大訊飛還推出了多款硬件翻譯產品,其中曉譯翻譯機 1.0plus
21、 將世界上最先進的神經網絡翻譯系統, 從在線系統優化成一個離線系統。 它可以在沒有網絡的情況下提 6 供基本的翻譯服務。 阿里巴巴 2015 年收購了國內最大的眾包翻譯平臺365 翻譯,開始涉入機器翻譯領域。2016 年 10 月起正式開始自主研發 NMT 模型,2016 年 11 月首次將 NMT 系統的輸出結果應用在中英消息通訊場景下的外部測評中,并取得了不錯的成績。2017 年初阿里正式上線了自主開發的神經網絡翻譯系統, 為阿里經濟體復雜多樣的國際化需求提供可靠的技術支撐。阿里機器翻譯是基于阿里巴巴海量電商數據并結合機器學習、自然語言處理技術,實現多語言語種識別與自動翻譯功能,為跨境電商
22、信息本地化與跨語言溝通上提供精準、快捷、可靠的在線翻譯服務,其宗旨是“讓商業沒有語言障礙” 。 2016 年初,騰訊開始研發 AI 翻譯產品,并正式推出機器人翻譯翻譯君,支持中英日韓法德意土等 15 種語言和 80 個語種的對翻譯。2017 年宣布翻譯君上線“同聲傳譯”新功能, 用戶邊說邊翻的需求得到滿足, 語音識別+NMT 等技術的應用保證了邊說邊翻的速度與精準性。騰訊機器翻譯基于騰訊領先的底層算法、豐富的中文知識圖譜和先進的 NLP 引擎能力,結合了神經網絡機器翻譯和統計機器翻譯的優點,對源語言文本進行深入理解,使翻譯效果更為準確,同時支持語音翻譯、圖片翻譯、語種識別等多種場景,大大減輕傳
23、統文本翻譯的讀寫成本。 機器翻譯是搜狗人工智能戰略中的重要一環, 一方面可以滿足用戶在搜索過程中大量機器翻譯需求,一方面還可以通過搜索和機器翻譯技術的結合,幫助中文用戶打破語言障礙,搜索并瀏覽全世界外語信息。2016 年 5 月 19 日,搜狗正式上線英文搜索。搜狗英文搜索提供跨語言檢索功能,可自動將中文翻譯成英文進行查詢,再生成英文查詢結果。對于不擅長英文的用戶, 可以節省很多 “先翻后搜” 的搜索時間 2017 年 11 月的烏鎮世界互聯網大會上,搜狗展示了機器同傳技術, 可將演講者的中文同步翻譯成英文并實時上屏 12 月 21 日, 搜狗英文搜索正式升級為搜狗海外搜索頻道,并同步上線了搜
24、狗翻譯頻道。2018 年 3 月,搜狗上線定位旅游用的翻譯機翻譯寶開始了在機器翻譯領域硬件的探索。 目前, 搜狗已經上線了基于神經網絡的機器翻譯頻道, 并發布了跨語言搜索系統, 為用戶提供高質量的英文網頁搜索服務,并同時能夠將搜索結果翻譯為中文幫助用戶理解。 網易 2011 年創立網易感知與智能中心,擁有自建分布式深度學習平臺,其自主研發的圖像處理、語音識別、智能問答等 AI 技術,已經在有道翻譯中得到了應用和推廣。2017 年5 月網易有道在 GMIC 未來創新峰會上公布: 由網易公司自主研發的神經網絡翻譯技術正式上線。此次在有道上線的 YNMT 技術,由網易有道與網易杭州研究院歷時兩年合力
25、研發,讓以中文為中心的、 根據中文用戶使用習慣定制的神經翻譯系統服務于 6 億有道用戶, 服務于有道詞典、有道翻譯官、有道翻譯網頁版、有道 e 讀等產品。 除了 BAT 這類大型的 IT 公司, 一些機器翻譯的創業公司如火如荼的發展起來。 例如 “小?!狈g,由東北大學計算機科學與工程學院自主研發的機器翻譯系統 Niu Trans,榮獲錢偉長中文信息處理科學技術一等獎, 這是國內中文信息處理領域的最高科學技術獎項。 小牛翻譯是目前國際上功能最強的兩個開源統計機器翻譯之一, 目前有 70 多個國家的 2000 多個高校和企業研究機構下載使用。它不僅能翻譯外文,還能翻譯西藏、新疆等少數民族語言。由
26、微軟亞洲研究院和微軟搜索技術中心的資深技術專家創立的愛特曼科技(Atman)是一家 7 人工智能創業公司, 創立僅三個月產品還沒上線便獲得千萬級的天使輪投資。 該公司聚焦于世界領先機器翻譯技術的研發和應用,核心技術有機器翻譯、語音識別、機器寫作、知識圖譜等,提供的產品和服務包括:領先機器翻譯技術結合譯后編輯重構高質量語言轉換服務、外媒內容全鏈條生產平臺,包括外媒選材、機器翻譯、在線編輯、自動分發等。 總而言之,機器翻譯在我國從無到有,現如今其發展更是有著新的廣度和深度,深刻的時代意義和現實價值。 8 技術篇 2technology 9 2 2 技術篇技術篇 機器翻譯的過程包括三個階段,原文分析
27、、原文譯文轉換和譯文生成。 根據不同的翻譯目的和翻譯需求, 在某一具體的機器翻譯系統中, 可以將原文分析和原文譯文轉換相結合, 獨立出譯文生成, 建立相關分析獨立的生成系統。 在這一翻譯過程當中,機器翻譯在進行原文分析時要考慮文本的結構特點, 而在譯語生成時則不考慮源語的結構特點。也可以結合原文譯文轉換與譯文生成,把原文分析獨立出來,建立獨立分析相關生成系統。此時,文本分析時不考慮譯語的結構特點,而在譯語生成時要考慮源語的結構特點。還可以讓原文分析、原文譯文轉換與譯文生成分別獨立,建立獨立分析獨立生成系統。在這樣的系統中,分析源語時不考慮譯語的特點,生成譯語時也不考慮源語的特點,通過原文譯文轉
28、換解決源語譯語之間的異同。 圖 3 機器翻譯過程 自機器翻譯誕生以來, 其研究圍繞理性主義方法和經驗主義方法兩種思潮進行了兩次轉變。 所謂“理性主義”的翻譯方法,是指由人類專家通過編撰規則的方式,將不同自然語言之間的轉換規律生成算法, 計算機通過這種規則進行翻譯。 這種方法理論上能夠把握語言間深層次的轉換規律, 然而理性主義方法對專家的要求極高, 不僅要求了解源語言和目標語言,還要具備一定的語言學知識和翻譯知識, 更要熟練掌握計算機的相關操作技能。 這些因素都使得研制系統的成本高、周期長,面向小語種更是人才匱乏非常困難。因此,翻譯知識和語言學知識的獲取成為基于理性的機器翻譯方法所面臨的主要問題
29、。 所謂“經驗主義”的翻譯方法,指的是以數據驅動為基礎,主張計算機自動從大規模數據中學習自然語言之間的轉換規律。 由于互聯網文本數據不斷增長, 計算機運算能力也不斷加強, 以數據驅動為基礎的統計翻譯方法逐漸成為機器翻譯的主流技術。 但是同時統計機器翻譯也面臨諸如數據稀疏、 難以設計特征等問題, 而深度學習能夠較好的環節統計機器翻譯所面臨的挑戰, 基于深度學習的機器翻譯現在正獲得迅速發展, 成為當前機器翻譯領域的熱點。 2.1 理性主義方法理性主義方法 2.1.1 基于規則的機器翻譯基于規則的機器翻譯 基于規則的機器翻譯方法(Rule-based System)的基本思想認為,一種語言無限的句子
30、可以由有限的規則推導出來。依據語言規則對文本進行分析,再借助計算機程序進行翻譯,這是多數商用機器翻譯系統采用的方法。 10 基于規則的方法比較直觀, 能夠直接表達語言學家的知識。 規則的顆粒具有很大的可收縮性,大顆粒度的規則具有很強的概括能力,而且有比較好的系統適應性,不依賴于具體的訓練語料; 小顆粒度的規則具有精細的描述能力, 這種方法便于處理復雜的結構和進行深層次的理解,如解決長距離依賴等問題。 但是,基于規則的翻譯方法中規則主觀因素比較重,有時與客觀事實有一定差距;規則的覆蓋性比較差, 特別是細顆粒度的規則很難總結得比較全面; 規則之間的沖突沒有好的解決辦法;規則庫的調試是一個漫長枯燥的
31、過程;規則一般只局限于某一個具體的系統,規則庫開發成本太高。 圖 4 機器翻譯的轉換層面 基于規則的機器翻譯系統中,主要包括詞法、句法、短語規則和轉換生成語法規則,通過三個連續的階段實現分析、轉換、生成,根據三個階段的復雜性可以分為直接翻譯、結構轉換翻譯和中間語翻譯。 (1 1)直接翻譯直接翻譯 直接翻譯是指把源語中的單詞或句子直接替換成相應的目的語的單詞, 必要時可以對詞序進行適當的調整。 這是機器翻譯最初構想的體現, 從目的語中尋找與源語詞匯相對應的單詞,但并不是電子詞典 word-to-word 的形式,而是翻譯句子中的所有詞匯,再通過詞語翻譯、插入、刪除和局部的詞序調整來實現翻譯,不進
32、行深層次的句法和語義的分析,直接翻譯應用的后期也加入了一些簡單的句法或者是語義規則, 對替換后的詞語進行重新排序, 生成最終的目的語文本,也可以采用一些統計方法對詞語和詞類序列進行分析。 直接翻譯是早期機器翻譯系統常用的方法, 后來 IBM 提出的統計機器翻譯模型也可以認為是采用了這一范式,著名的機器翻譯系統 Systran 早期也是采用這種方法,后來逐步引入了一些句法和語義分析。 由于目的語和源語在句子語法結構等方面的差別很大, 所以使用直接翻譯法翻譯出來的句子可讀性和準確性都比較低, 但它是機器翻譯最實質性的一步, 是機器翻譯變成現實的一次邁步。 圖 5 直接翻譯過程 11 (2 2)結構
33、轉換翻譯結構轉換翻譯 結構轉換翻譯是在直接翻譯系統上出現的, 相比較于直接翻譯, 它更多的從句子的層面來分析處理源語與目的語,譯文的可讀性和準確性更高。結構轉換翻譯通常包括分析、轉換和生成三個階段。 分析要對源語言句子和源語言深層結構進行分析, 其中相關分析在分析時要考慮目標語言的特點, 而獨立分析在分析過程中則與目標語言無關。 從源語深層結構向目標語言的深層結構轉換是關鍵部分, 生成則是由目標語言深層結構生成目標語言句子, 相關生成要考慮語言的特點, 獨立生成則與源語言無關。 這種方法被認為是模擬人類翻譯活動最恰當的機制。不同的語言具有相同或者相似的深層結構,就像是一座橋梁,把人類不同的語言
34、連接起來, 使得兩種語言間可以實現翻譯交流。 目前絕大部分商品化機器翻譯系統采用轉換式機器翻譯方法。 理想的轉換方法應該做到獨立分析和獨立生成, 這樣在進行多語言翻譯的時候可以大大減少分析和生成的工作量; 轉換放大根據深層結構所處的層面可分為句法層轉換和語義層轉換,分別對應句法信息和語義信息;分析的深層次越深,歧義排除也就越充分,但同時,錯誤率也會相對越高。 1 圖 6 基于轉換方法的翻譯流程 人類自然語言中很多單詞不止有一個意思,比如中文的“意思”二字就有很多不同的意思,容易產生歧義。在機器翻譯中,為了簡化比較復雜的表達結構,避免翻譯過程中出現有歧義的語言現象, 能夠獨立于各種自然語言, 同
35、時還能夠清晰準確的表達各種自然語言的人造計算機語言便應運而生, 這種作為翻譯中介的人造計算機語言被稱作中間語。 它常見的形式有語義網絡(Semantic Network) 、框架(Frame)和邏輯(Logic) ,以某種知識表示形式作為中間語言的機器翻譯方法有時候也稱為基于知識的機器翻譯方法。 (3 3)中間語言轉換翻譯中間語言轉換翻譯 中間語言轉換的機器翻譯原理其實是在不同的語言之間建立一個通用的語義-句法表達式。整個翻譯過程分為“分析”和“生成”兩個階段,由源語言到中間語言的生成,由中間語言到目標語言的生成環節。分析過程只與源語言有關,與目標語言無關,生成過程只與目標語言有關,與源語言無
36、關。 1 劉群 機器翻譯原理與方法講義 12 中間語言方法的優點在于進行多語種翻譯的時候, 只需要對每種語言分別開發一個分析模塊和一個生成模塊,模塊總數為 2*n,相比之下,如果采用轉換方法就需要對每兩種語言之間都開發一個轉換模塊,模塊總數為 n*(n-1) 。 圖 7 中間語言與轉換方法比較 中間語言方法一般用于多語言的機器翻譯系統中, 從實踐看, 采用某種人工定義的知識表示形式作為中間語言進行多語言機器翻譯都不太成功, 如日本主持的亞洲五國語言機器翻譯系統, 總體上是失敗的。 在 CSTAR 多國機器翻譯系統中, 曾經采用了一種中間語言方法,其中間語言是一種帶話語信息的語義表示形式,由于語
37、音翻譯都限制在非常狹窄的領域中(如旅游領域或機票預定) ,語義描述可以做到比較精確,因此采用中間語言方法有一定的合理性,但該方法最終也不成功。 實際上, 領域特別窄的場合可以采用中間語言方法, 一個適合于中間語言方法的例子是數詞的翻譯,采用阿拉伯數字作為中間語言顯然是比較合理的。 圖 8 中間語轉換翻譯過程 2.2 經驗主義方法經驗主義方法 20 世紀 80 年代末至 90 年代初,隨著計算機技術的快速發展,大規模雙語語料庫的構建以及機器學習方法的興起, 機器翻譯方法逐漸由基于理性主義思維的規則方法轉向基于經驗主義思維的語料庫方法。 基于語料庫的機器翻譯方法又可以進一步劃分為基于實例的翻譯方法
38、和基于統計模型的翻譯方法。 基于語料庫的方法使用語料庫作為翻譯知識的來源, 無需人工編寫規則,系統開發成本低,速度快;而且從語料庫中學習到的知識比較客觀,覆蓋性也比較好。但是這種系統性能嚴重依賴于語料庫,有著嚴重的數據稀疏問題,也不容易獲得大顆粒度的高概括性知識。 13 2.2.1 基于統計的機器翻譯基于統計的機器翻譯 統計機器翻譯(Statistics-based machine translation)的基本思想是充分利用機器學習技術,通過對大量的平行語料進行統計分析進行翻譯。通俗來講,源語到目的語的翻譯過程是一個概率統計的問題, 任何一個目的語句子都有可能是任何一個源語的譯文, 只是概率
39、不同,機器翻譯的任務就是找到概率最大的那個句子。 20 世紀 90 年代初期,IBM 的研究人員提出了基于信源信道思想的統計機器翻譯模型,并在實驗中獲得了初步的成功, 正式標志著統計機器翻譯時代的到來。 不過由于當時計算機能力等方面限制, 真正展開機器翻譯方法研究的人并不多, 統計機器翻譯方法是否有效還受到人們的普遍懷疑, 隨著越來越多的人員投入到統計機器翻譯中并取得成功, 統計方法已經逐漸成為國際上機器翻譯研究的主流方法之一。 最初 IBM 研究人員提出的是基于詞的機器翻譯模型,但是,由于這種機器翻譯模型復雜度較高,翻譯質量也不盡人意,因此逐漸被一些更加有效的翻譯模型所替代。下圖是當前機器翻
40、譯中一些典型的翻譯模型。 2 圖 9 統計機器翻譯典型模型 統計機器翻譯也是基于語料庫的機器翻譯方法, 不需要人工撰寫規則, 而是從語料庫中獲取翻譯知識,這一點與基于實例的方法相同。為翻譯建立統計模型,把翻譯問題理解為搜索問題, 即從所有可能的譯文中選擇概率最大的譯文, 基于實例的機器翻譯則無需建立統計模型,二者的區別還在于,基于實例的機器翻譯中,語言知識表現為實例本身,而統計機器翻譯中,翻譯知識表現為模型參數。 統計機器翻譯是以嚴格的數學理論做基礎的。所有的翻譯知識都是以概率的形式呈現,表現為某種參數。 訓練的過程就是為了得到這些參數, 解碼的過程則是利用這些參數去搜索匹配最好的譯文,只要使
41、用這些參數就不需要去搜索原始的語料庫。在整個過程中,機器翻譯并不需要人工構造的翻譯知識, 所有的語言知識都是從語料庫中自動獲取。 統計機器翻譯的成功在于采用了一種新的研究范式, 這種研究范式已在語音識別等領域中被證明是一種成功的翻譯, 但在機器翻譯中是首次使用。 這種范式的明顯特點是, 公開的大規模的訓練數據、周期性的公開測評和研討以及開放源碼工具。 2機器翻譯原理與方法講義 14 目前, 統計機器翻譯所使用的語料庫是雙語句子對齊的語料庫, 規模通常在幾萬句對到幾百萬句對不等。 統計機器翻譯的過程被看作是一個最優解搜索的過程, 系統從巨大的可能譯文中搜索最優的譯文,搜索所使用的算法則采用人工智
42、能中的一些成熟算法。 統計翻譯模型的發展,迄今為止經歷了三個階段。分別是基于詞的模型,基于短語的模型和基于句子的模型。 基于短語的模型中的 “短語” 表示連續的詞串, 該模型的基本思想是:首先從雙語句子對齊的平行語料庫中抽取短語到短語的翻譯規則, 在翻譯時將源語言句子切分為短語序列, 利用翻譯規則得到目標語言的短語序列, 然后借助調序模型對目標語言短語序列進行排序, 最終獲得最佳的目標譯文。 其中, 短語調序模型, 尤其是長距離的短語調序,一直是短語翻譯模型的關鍵問題。目前,基于短語的模型是最為成熟的模型,而基于句子的模型是當前研究的熱點。統計機器翻譯的模型可以表現為一個金字塔的形式,如圖 1
43、0。 圖 10 基于統計的機器翻譯模型 在這個金字塔上,越往塔尖的方向走,對語言的分析也越深入。理論上來說,對語言的分析越深入,所具有的排歧能力就應該越強,譯文的質量也應該越高。但實際上,分析語言本身就是一個很難的問題,分析的深度越深,往往引入的錯誤也越多,反而會導致翻譯質量的下降。因此,如何通過引入更深層的語言分析來提高模型的排歧能力,同時又要避免分析導致的錯誤,就成了統計翻譯模型要解決的主要問題。 統計機器翻譯為自然語言翻譯過程建立概率模型并利用平行語料庫訓練模型參數, 無需人工編寫規則,利用語料庫直接訓練得到機器翻譯系統,人工成本低、開發周期短,只要有語料庫就很容易適應新的領域或者語種,
44、成為 Google、微軟、百度等國內外公司在線翻譯系統的核心技術。 盡管如此, 統計機器翻譯仍然面臨著一些嚴峻的挑戰。 例如統計機器翻譯依賴人類專家通過特征來表示各種翻譯知識源, 由于語言之間的結構轉換非常復雜, 人工設計特征難以保證覆蓋所有的語言現象;統計機器翻譯中的原規則結構復雜,對語料庫的依賴性強,引入復雜的語言知識比較困難, 即使現在可以用大規模語料庫訓練數據, 但仍然面臨著嚴重的數據稀疏問題。 15 2.2.2 基于實例的機器翻譯基于實例的機器翻譯 基于實例的翻譯方法(Example-based Machine Translation)由日本翻譯專家長尾真(Makoko Nagao)
45、 提出, 他在 1984 年發表了 采用類比原則進行日-英機器翻譯的一個框架一文,探討日本人初學英語時翻譯句子的基本過程,長尾真認為,日本人初學英語時總是記住一些最基本的英語句子以及一些相對應的日語句子, 他們要對比不同的英語句子和相對應的日語句子,并由此推論出句子的結構。參照這個學習過程,在機器翻譯中,如果我們給出一些英語句子的實例以及相對應的日語句子, 機器翻譯系統可以通過識別和比較這些實例以及譯文的相似之處和相差之處,從而挑選出正確的譯文。 在基于實例的機器翻譯系統中, 系統的主要知識源是雙語對照的翻譯實例庫, 實例庫主要有兩個字段,一個字段保存源語言句子,另一個字段保存與之對應的譯文,
46、每輸入一個源語言的句子時, 系統把這個句子同實例庫中的源語言句子字段進行比較, 找出與這個句子最為相似的句子,并模擬與之相對應的譯文,最后輸出譯文,這是一種由實例引導推理的機器翻譯方法,整個翻譯過程其實是查找和復現類似的例子,不需要對源語言進行任何分析,只需要通過類比, 發現和記起特定的源語言表達或以前的翻譯實例作為主要知識源來對新的句子進行翻譯。 3 圖 11 基于實例方法翻譯過程 基于實例的機器翻譯系統中, 翻譯知識以實例和語義類詞典的形式表示, 易于增加或刪除,系統的維護簡單易行,且利用了較大的翻譯實例庫并進行精確地對比,有可能產生高質量譯文,而且避免了基于規則的那些傳統的機器翻譯方法必
47、須進行深層語言學分析的難點,在翻譯策略上很有吸引力的。 基于實例的機器翻譯直接使用對齊的語料庫作為知識表示形式, 知識庫的擴充非常簡單,而且不需要進行深層次的語言分析,也可以產生高質量的譯文。 但是基于實例的機器翻譯系統的翻譯質量取決于翻譯記憶庫的規模和覆蓋率, 至少要百萬句對以上, 因此如何構建大規模翻譯記憶庫成為影響基于實例的機器翻譯研究的關鍵。 現階段,由于缺少大規模的雙語對齊語料庫,基于實例的機器翻譯系統匹配率其實并不高,往往只有限定在特定的專業領域時, 翻譯效果才能達到使用要求。 如果基于實例機器翻譯匹配 3機器翻譯原理與方法講義 16 成功, 可以獲得相對較高質量的譯文, 因此基于
48、實例的機器翻譯一般和基于規則的機器翻譯相結合使用,會產生比較好的翻譯結構。對于匹配率過低的問題,可以試著做到短語級別的雙語對齊,以提高匹配命中率,通過短語級別的局部匹配,結合相應的目標句子的框架,完成句子的翻譯。 2.2.3 基于深度學習的機器翻譯基于深度學習的機器翻譯 從最初的基于規則的機器翻譯到最新的依靠數據驅動進行的機器翻譯, 其總體發展趨勢是要讓計算機更加自主的學習如何翻譯。 利用平行語料庫進行數據的訓練, 是提高機器翻譯準確性和可讀性的關鍵,深度學習的引入則成了當前熱點。 (1 1)深度學習發展脈絡深度學習發展脈絡 以下是 AMiner 研究人員通過四個脈絡對深度學習發展脈絡進行了梳
49、理。 圖 12 深度學習發展脈絡 l 脈絡一脈絡一 cv/tensorcv/tensor 1943 年卡洛可和皮茨提出了抽象的神經元模型 MP,該模型可以看作深度學習的雛形。1957 年 Frank Rosenblatt 發明了感知機,是當時首個可以學習的人工神經網絡。1969 年 Marvin Minksy 和 Seymour Papert 用詳細的數學證明了感知機的弱點,神經網絡研究進入冰河期。1984 年福島邦彥提出了卷積神經網絡的原始模型神經感知機,產生了卷積和池化的思想。 1986年Hinton等人提出一般Delta法則, 并用反向傳播訓練MLP。 1998年以Yann LeCun為
50、首的研究人員實現了 5 層的卷積神經網絡LeNet-5,以識別手寫數字。LeNet-5 標志著CNN(卷積神經網絡)的真正面世,LeNet-5 的提出把 CNN 推上了一個小高潮。 17 之后 SVM 興起。 2012 年 AlexNet 在 ImageNet 上奪冠, 掀起了深度學習的熱潮。 AlexNet可以算是 LeNet 的一種更深更寬的版本,并加上了 relu、dropout 等技巧。這條思路被后人發展,出現了 VGG,GoogLeNet 等網絡。2016 年何愷明在層次之間加入跳躍連接,Resnet極大增加了網絡深度, 效果有很大提升。 cvpr best paper densen