1、文件翻譯中格式解析與譯文回填的研究與實踐陳件 上海一者信息科技有限公司 CTO|01背景和難點分析文件解析和格式回填的背景文件格式解析與回填的難點02一般過程文件格式解析與回填的一般過程04應用效果舉例格式回填在YiCAT中實現的效果目錄CONTENT|03AI輔助格式回填AI 在文件解析與回填的運用01背景和難點分析分文件翻譯中為什么需要格式解析與回填文件格式解析與回填的難點|背景分析文件翻譯中由于面對紛繁復雜和多樣的文件格式,除了需要將文件的文字提取外,為了翻譯后能還原原文的樣式,還需要記錄原文的格式骨架信息。|文本抽取與回填難點譯文回填要求記住原文回填的位置,盡可能的還原原文的格式信息|
2、多格式CAT軟件支持的文件格式幾十種甚至上百種doc、docx、pdf、markdown等多版本不同格式版本差異可能非常大如doc和docx個性化配置CAT軟件需要支持多種用戶個性化配置文件預覽支持對各種格式類型的原文預覽和譯文預覽,實時交互。文檔格式復雜部分文件中可能嵌套圖表甚至其他格式的文件02一般過程文件格式解析與回填的一般過程|文件格式分析-以pptx舉例pptx是一種openxml格式的演示文稿文件,本身是一種壓縮包,重命名成zip并解壓后得到xml文件夾|文件格式分析-以pptx舉例|文件格式分析-TAG是如何產生的?為了保證翻譯的內容語義信息完整,翻譯的更加準確,引入TAG機制,
3、文字轉換完成后需要譯員按照原文TAG位置進行填充|文件格式分析-TAG可視化為了提高用戶體驗,將TAG的樣式內容通過可視化的方式展現,更直觀,對譯員翻譯時體驗更友好。|傳統解析和回填流程不借助中間文件,通過標記元素位置信息進行回填|解析文件FilterSegment解析文件Filter導入導出人工翻譯機器翻譯導出譯文tuId主流解析和回填流程主流解析和回填流程需要將原文件解析xliff標準格式,翻譯過程通過填充xliff文件中的譯文內容,最后再將xliff導出成譯文|解析文件FilterXLIFF解析文件Filter導入導出人工翻譯機器翻譯導出譯文SegmenttuId文件格式分析-什么是XL
4、IFF英文全稱:XML Localization Interchange File Format中文全稱:XML本地化數據交換格式目標:制定可擴展的多語言本地化數據交換的規范,允許任何軟件開發商根據該規范創建單一數據交換格式的文件,這些單一數據交換格式的文件能夠向任何本地化服務商提交,并且能夠被本地化服務商易于理解和有效處理。XLIFF是用于翻譯XML格式文件的標準。定義將各種XML文件的內容和格式分離,實現翻譯的可理解和可重用。更詳細的概念說明請參考百度百科:http:/ 在文件解析與回填的運用|格式回填方案分析|自動譯文回填的一般步驟|詞對齊實現流程分析使用BPE算法對不同語言文本進行分詞
5、,比如原文:“我愛中國”和譯文:“I love China”,分詞后分別得到“我”,“愛”,“中”,“國”和“I”,“love”,“China“。|詞對齊實現流程分析根據分詞結果,加載mBERT預訓練模型,使用multi-head和self-attention輸出12層隱藏向量,選取最后一層隱藏向量作為詞向量.|詞對齊實現流程分析相似度包括語義相似度和位置相似度(如公式1),語義相似度為原文詞向量和譯文詞向量的余弦距離(如公式2),位置相似度為原文的詞位置和譯文的詞位置的相對距離(如公式3)。|其中,S_ij表示原文第i個詞向量和譯文第j個詞向量的相似度,SEM_ij表示原文第i個詞向量和譯文
6、第j個詞向量的語義相似度,POS_ij表示原文第i個詞向量和譯文第j個詞向量的位置相似度,v_i表示原文第i個詞向量,v_j表示譯文第j個詞向量,l_s表示原文的詞數,l_t表示譯文的詞數,為超參數,限制位置相似度的權重。詞對齊實現流程分析原文詞向量和譯文詞向量使用雙向最優匹配,即當原文第i個詞向量的相似度最高是譯文第j個詞向量,同時譯文第j個詞向量的相似度最高是原文第i個詞向量時,第i個原文詞向量與第j個譯文詞向量匹配(如公式4)。|雙向最優匹配無法一次性將所有的原文單詞和譯文單詞匹配,如圖4中,“中”和“國”相似度最高是“China”,但是“China”相似度最高是“國”,其次是“中”,根據雙向最優匹配原則,“國”和“China”形成匹配,“中”沒有匹配。為了匹配剩下的詞向量,需要在每一次雙向最優匹配后更新相似度矩陣S_ij(如公式5),將已匹配的詞對(M_ij=1)的相似度變為0(S_ij=0),進行下一次雙向最優匹配,不斷重復公式4和公式5的操作,直到所有原文和譯文單詞匹配詞對齊實現流程分析|04應用效果舉例格式回填在YiCAT中實現的效果|YiCAT當前支持的格式|YiCAT中文件可設置選項|YiCAT譯文格式自動填充舉例|YiCAT譯文格式自動填充舉例ADD RELATED TITLE WORDS|YiCAT譯文格式自動填充舉例|非常感謝您的觀看|