當前位置：首頁 > 報告詳情

達摩院：2022連續語義增強機器翻譯及魔搭社區應用實踐（53頁）.pdf

上傳人：彩旗編號：109091 2022-12-12 PDF PDF PPTX PPTX PPTX 53頁 17.85MB

下載：

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/53

立即下載

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《達摩院：2022連續語義增強機器翻譯及魔搭社區應用實踐（53頁）.pdf》由會員分享，可在線閱讀，更多相關《達摩院：2022連續語義增強機器翻譯及魔搭社區應用實踐（53頁）.pdf（53頁珍藏版）》請在三個皮匠報告上搜索。

1、連續語義增強機器翻譯及魔搭社區應用實踐連續語義增強機器翻譯及魔搭社區應用實踐達摩院-機器智能技術實驗室魏相鵬xiangpeng.wxpalibaba-2基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）問題：神經機器翻譯技術嚴重依賴于大規模、高質量的雙語平行語料問題：神經機器翻譯技術嚴重依賴于大規模、高質量的雙語平行語料整體趨勢整體趨勢：翻譯質量隨語料規模增加逐漸上升挑戰：在大量的實際應用場景中，平行語料的規模非常有限，人工生產成本高、生產周期長英俄CCMatrix

2、平行語料領域分布基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）為緩解平行語料稀缺的問題，業界通常采用數據增強技術自動產生大規模偽語料，用于優化翻譯質量?；谶B續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）為緩解平行語料稀缺的問題，業界通常采用數據增強技術自動產生大規模偽語料，用于優化翻譯質量?；谶B續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）常用技術：回譯（Back-Translation），利用逆向的翻譯模型，將目標語言端的單語數據翻譯成源語言，據此構造大量(機翻源文，人

3、工譯文）雙語句子對，進一步優化正向的翻譯模型基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）常用技術：回譯（Back-Translation），利用逆向的翻譯模型，將目標語言端的單語數據翻譯成源語言，據此構造大量(機翻源文，人工譯文）雙語句子對，進一步優化正向的翻譯模型基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）常用技術：回譯（Back-Translation），利用逆向的翻譯模型，將目標語言端的單語數據翻譯成源語言，據此構造大量(機翻源文，人工譯文）雙語句子對，進一步優化正向的翻譯模型基于連續語義增強的神

4、經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）常用技術：對抗樣本（Adversarial Examples），概念來源于生成對抗網絡，通過對原始句子進行同義詞替換、詞調序、隨機刪詞等操作，以提升翻譯模型對源文擾動的魯棒性。Wang et al.2018.SwitchOut:an efficient data augmentation algorithm for neural machine translation.基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）上述兩類數據增強技術（我們稱之為離散式數據增強，顧名思義相關技術均是

5、在離散的自然語言空間中產生增強樣本）存在局限性：基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）上述兩類數據增強技術（我們稱之為離散式數據增強，顧名思義相關技術均是在離散的自然語言空間中產生增強樣本）存在局限性：數據多樣性差容易發生語義偏移真實數據和偽數據之間的差異導致模型有偏基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）回歸本質：從自然語言的固有特性來分析為什么離散式數據增強技術容易快速遇到性能瓶頸離散式數據增強無法覆蓋（全部的、分布在整個自然語言空間的）這種即時選擇的行為，從而使得機器的求解范圍總是限制在

6、局部。Multi-HeadAttentionFeedForwardPositionEncodingAdd&NormMasked Multi-HeadAttentionMulti-HeadAttentionPositionEncodingFeedForwardAdd&NormAdd&NormSoftmaxOuput ProbabilitiesAdd&NormAdd&NormEncoderDecoderBroadcastingIntegrationSemanticEncoder基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）技術方案技術方案突破離散空間，構

7、建連續語義分布基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）技術方案技術方案突破離散空間，構建連續語義分布Multi-HeadAttentionFeedForwardPositionEncodingAdd&NormMasked Multi-HeadAttentionMulti-HeadAttentionPositionEncodingFeedForwardAdd&NormAdd&NormSoftmaxOuput ProbabilitiesAdd&NormAdd&NormEncoderDecoderBroadcastingIntegrationSema

8、nticEncoder優化目標：鄰域風險最小化優化目標：鄰域風險最小化基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）技術方案技術方案突破離散空間，構建連續語義分布Multi-HeadAttentionFeedForwardPositionEncodingAdd&NormMasked Multi-HeadAttentionMulti-HeadAttentionPositionEncodingFeedForwardAdd&NormAdd&NormSoftmaxOuput ProbabilitiesAdd&NormAdd&NormEncoderDecode

9、rBroadcastingIntegrationSemanticEncoder優化目標：鄰域風險最小化優化目標：鄰域風險最小化基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）優化語義編碼器：優化語義編碼器：Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）優化語義編碼器：優化語義編碼器：Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）優化語義編碼器：

10、優化語義編碼器：Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）優化語義編碼器：優化語義編碼器：Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）優化語義編碼器：優化語義編碼器：Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）優化語義編碼器：優化語義編碼器：Tangential Contr

11、astive Learning基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）優化語義編碼器：優化語義編碼器：Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）優化語義編碼器：優化語義編碼器：Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）優化語義編碼器：優化語義編碼器：Tangential Contrastive Learning基于連續語義增強的

12、神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）優化語義編碼器：優化語義編碼器：Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）基于鄰域進行采樣：基于鄰域進行采樣：Mixed Gaussian Recurrent Chain Sampling挑戰：鄰域分布未知挑戰：鄰域分布未知基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）基于鄰域進行采樣：基于鄰域進行采樣：Mixed Gaussian Recurrent Chain Sam

13、pling基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）基于鄰域進行采樣：基于鄰域進行采樣：Mixed Gaussian Recurrent Chain Sampling基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）基于鄰域進行采樣：基于鄰域進行采樣：Mixed Gaussian Recurrent Chain Sampling基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）基于鄰域進行采樣：基于鄰域進行采樣：Mixed Gaussian Recurrent Cha

14、in Sampling基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）基于鄰域進行采樣：基于鄰域進行采樣：Mixed Gaussian Recurrent Chain Sampling基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）基于鄰域進行采樣：基于鄰域進行采樣：Mixed Gaussian Recurrent Chain Sampling基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）NIST 中英翻譯任務（125萬平行數據）應用效果：學術公開數據集，性能應用效果

15、：學術公開數據集，性能SOTA，泛化泛化能力強能力強基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）WMT14 英德/法(450萬/3600萬平行數據)應用效果：學術公開數據集，性能應用效果：學術公開數據集，性能SOTA，泛化泛化能力強能力強基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）模型在噪音和翻譯體源文上的魯棒性模型魯棒性分析模型魯棒性分析基于連續語義增強的神經機器翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）譯文多樣性及忠實度對比結果譯文質量分析譯文質量分析基于連續語義增強的神經機器

16、翻譯技術（基于連續語義增強的神經機器翻譯技術（ACL 2022）數據利用效率分析數據利用效率分析魔搭社區應用實踐魔搭社區應用實踐魔搭社區（魔搭社區（ModelScope，官方網站：，官方網站：https:/ Package，統一封裝了數百個模型使用的接口，能夠有效地降低AI模型的使用、定制、評估和部署門檻。連續語義增強機器翻譯（連續語義增強機器翻譯（CSANMT，快速訪問：，快速訪問：https:/ Package，統一封裝了數百個模型使用的接口，能夠有效地降低AI模型的使用、定制、評估和部署門檻。連續語義增強機器翻譯（連續語義增強機器翻譯（CSANMT，快速訪問：，快速訪問：https:/

17、create n modelscope python=3.7conda activate modelscope然后，安裝然后，安裝Modelscope Library，相關依賴庫支持按，相關依賴庫支持按NLP、CV、語音等不同領域安裝：、語音等不同領域安裝：pip install modelscopenlp-f https:/modelscope.oss-cn- install“modelscopenlp”-upgrade-f https:/modelscope.oss-cn- lfs install git clone https:/ configuration.json#|_ src_vo

18、cab.txt#|_ trg_vocab.txt#|_ bpe.zh#|_ bpe.en#|_ train.zh#|_ train.en#|_ tf_ckpts#|_ checkpoint#|_ ckpt-0.data-00000-of-00001#|_ ckpt-0.index#|_ ckpt-0.meta魔搭社區應用實踐魔搭社區應用實踐準備準備CSANMT模型，以“模型，以“CSANMT連續語義增強模型連續語義增強模型-英中英中-通用領域通用領域-large”為例：”為例：git lfs install git clone https:/ configuration.json#|_ src

19、_vocab.txt#|_ trg_vocab.txt#|_ bpe.zh#|_ bpe.en#|_ train.zh#|_ train.en#|_ tf_ckpts#|_ checkpoint#|_ ckpt-0.data-00000-of-00001#|_ ckpt-0.index#|_ ckpt-0.meta參數配置文件詞表文件，源語言為英文、目標語言為中文byte-pair-encoding編碼訓練樣例，已經過tokenize 和 BPE預處理模型存儲目錄，格式為checkpoint源文件魔搭社區應用實踐魔搭社區應用實踐#English-to-Chinese Translationfr

20、om modelscope.pipelines import pipeline from modelscope.utils.constant import Tasksinput_sequence=Elon Musk,co-founder and chief executive officer of Tesla Motors.pipeline_ins=pipeline(task=Tasks.translation,model=damo/nlp_csanmt_translation_en2zh)outputs=pipeline_ins(input=input_sequence)print(outp

21、utstranslation)#特斯拉汽車公司聯合創始人兼首席執行官埃隆馬斯克。模型推理示例（用戶不需要修改任何配置，提供輸入源文，僅通過簡單的pipeline即可使用）：魔搭社區應用實踐魔搭社區應用實踐#English-to-Chinese Translationfrom modelscope.pipelines import pipeline from modelscope.utils.constant import Tasksinput_sequence=Elon Musk,co-founder and chief executive officer of Tesla Motors.p

22、ipeline_ins=pipeline(task=Tasks.translation,model=damo/nlp_csanmt_translation_en2zh)outputs=pipeline_ins(input=input_sequence)print(outputstranslation)#特斯拉汽車公司聯合創始人兼首席執行官埃隆馬斯克。模型推理示例（用戶不需要修改任何配置，提供輸入源文，僅通過簡單的pipeline即可使用）：用戶提供輸入源文指定任務類型和模型id魔搭社區應用實踐魔搭社區應用實踐#English-to-Chinese Translationfrom models

23、cope.pipelines import pipeline from modelscope.utils.constant import Tasksinput_sequence=Elon Musk,co-founder and chief executive officer of Tesla Motors.pipeline_ins=pipeline(task=Tasks.translation,model=damo/nlp_csanmt_translation_en2zh)outputs=pipeline_ins(input=input_sequence)print(outputstransl

24、ation)#特斯拉汽車公司聯合創始人兼首席執行官埃隆馬斯克。模型推理示例（用戶不需要修改任何配置，提供輸入源文，僅通過簡單的pipeline即可使用）：用戶提供輸入源文指定任務類型和模型id修改模型id即可使用其他翻譯模型，如：nlp_csanmt_translation_zh2en、nlp_csanmt_translation_en2fr、nlp_csanmt_translation_fr2en等。魔搭社區應用實踐魔搭社區應用實踐模型推理示例（用戶不需要修改任何配置，提供輸入源文，僅通過簡單的pipeline即可使用）：英中翻譯在線體驗中英翻譯在線體驗魔搭社區應用實踐魔搭社區應用實踐定制

25、微調示例（用戶需要：準備微調數據修改相關參數模型微調）：魔搭社區應用實踐魔搭社區應用實踐第一步：準備兩個文件train.zh.raw和train.en.raw，其中每一行是一一對應的平行數據，例如：#train.zh.raw這只是一個例子。今天天氣怎么樣？#train.en.rawThis is just an example.Whats the weather like today?定制微調示例（用戶需要：準備微調數據修改相關參數模型微調）：魔搭社區應用實踐魔搭社區應用實踐第一步：準備兩個文件train.zh.raw和train.en.raw，其中每一行是一一對應的平行數據，例如：#

26、train.zh.raw這只是一個例子。今天天氣怎么樣？#train.en.rawThis is just an example.Whats the weather like today?第二步：預處理，英文進行tokenization，中文進行中文分詞；然后，分別進行BPE#英文使用英文使用mosesdecoder進行進行tokenizationgit clone https:/ mosesdecoder/scripts/tokenizer/tokenizer.perl-l en train.en.tok#中文使用結巴分詞中文使用結巴分詞pip install jiebapython m j

27、ieba train.zh.raw train.zh.tok定制微調示例（用戶需要：準備微調數據修改相關參數模型微調）：#分別進行分別進行BPEpip install subword-nmtsubword-nmt apply-bpe-c bpe.en train.ensubword-nmt apply-bpe-c bpe.zh train.zh魔搭社區應用實踐魔搭社區應用實踐“model”:“attention_dropout”:0.1,“residual _dropout”:0.1,“relu _dropout”:0.1,“train”:“num_gpus”:8,“update_cycl

28、e”:1,“num_of_epochs”:10,“learning_rate”:1e-5,“learning_rate_decay”:none,“dataset”:“train_src”:“train.en”,“train_trg”:“train.zh”定制微調示例（用戶需要：準備微調數據修改相關參數模型微調）：魔搭社區應用實踐魔搭社區應用實踐“model”:“attention_dropout”:0.1,“residual _dropout”:0.1,“relu _dropout”:0.1,“train”:“num_gpus”:8,“update_cycle”:1,“num_of_epo

29、chs”:10,“learning_rate”:1e-5,“learning_rate_decay”:none,“dataset”:“train_src”:“train.en”,“train_trg”:“train.zh”定制微調示例（用戶需要：準備微調數據修改相關參數模型微調）：模型結構相關的參數（如編碼器/解碼器層數、模型寬度等）無需調整，只需要根據定制數據規模調整dropout比例指定GPU數量，0表示CPU運行定制數據規模?。ò偃f級以內）的情況下，推薦使用較小的學習率，同時關閉學習率衰減器將預處理好的數據傳入即可，其他參數無需修改魔搭社區應用實踐魔搭社區應用實踐定制微調示例（用戶需

30、要：準備微調數據修改相關參數模型微調）：#English-to-Chinese Finetunefrom modelscope.trainers.nlp import CsanmtTranslationTrainertrainer=CsanmtTranslationTrainer(model=damo/nlp_csanmt_translation_en2zh)trainer.train()指定模型id魔搭社區應用實踐魔搭社區應用實踐我們將陸續發布經過我們將陸續發布經過AliExpress、Lazada、阿里巴巴國際站、阿里云、阿里巴巴國際站、阿里云等等場景驗證、業內領先場景驗證、業內領先的機器翻的機器翻譯技術模型譯技術模型，為用戶提供高質量、多場景、多語言翻譯服務為用戶提供高質量、多場景、多語言翻譯服務。

相關圖表

本文主要介紹了基于連續語義增強的神經機器翻譯技術。文章指出，神經機器翻譯技術嚴重依賴于大規模、高質量的雙語平行語料，但在實際應用場景中，平行語料的規模往往非常有限。為緩解這一問題，業界通常采用數據增強技術自動產生大規模偽語料，用于優化翻譯質量。然而，常用的數據增強技術（如回譯和對抗樣本）存在局限性，容易發生語義偏移。為解決這一問題，文章提出了一種基于連續語義增強的神經機器翻譯技術。該技術通過構建連續語義分布，突破離散空間限制，以優化翻譯質量。文章詳細介紹了技術方案，包括優化語義編碼器（Tangential Contrastive Learning）和基于鄰域進行采樣（Mixed Gaussian Recurrent Chain Sampling）。此外，文章還介紹了魔搭社區（ModelScope）的應用實踐，包括模型推理、定制微調、在線體驗等功能。魔搭社區通過開源的Python Package，統一封裝了數百個模型使用的接口，有效降低了AI模型的使用、定制、評估和部署門檻。

連續語義增強技術如何優化神經機器翻譯？魔搭社區如何降低AI模型使用門檻？如何通過魔搭社區快速體驗高質量翻譯服務？

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站