《達摩院:2022連續語義增強機器翻譯及魔搭社區應用實踐(53頁).pdf》由會員分享,可在線閱讀,更多相關《達摩院:2022連續語義增強機器翻譯及魔搭社區應用實踐(53頁).pdf(53頁珍藏版)》請在三個皮匠報告上搜索。
1、連續語義增強機器翻譯及魔搭社區應用實踐連續語義增強機器翻譯及魔搭社區應用實踐達摩院-機器智能技術實驗室魏相鵬xiangpeng.wxpalibaba-2基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)問題:神經機器翻譯技術嚴重依賴于大規模、高質量的雙語平行語料問題:神經機器翻譯技術嚴重依賴于大規模、高質量的雙語平行語料整體趨勢整體趨勢:翻譯質量隨語料規模增加逐漸上升挑戰:在大量的實際應用場景中,平行語料的規模非常有限,人工生產成本高、生產周期長英俄CCMatrix
2、平行語料領域分布基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)為緩解平行語料稀缺的問題,業界通常采用數據增強技術自動產生大規模偽語料,用于優化翻譯質量?;谶B續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)為緩解平行語料稀缺的問題,業界通常采用數據增強技術自動產生大規模偽語料,用于優化翻譯質量?;谶B續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)常用技術:回譯(Back-Translation),利用逆向的翻譯模型,將目標語言端的單語數據翻譯成源語言,據此構造大量(機翻源文,人
3、工譯文)雙語句子對,進一步優化正向的翻譯模型基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)常用技術:回譯(Back-Translation),利用逆向的翻譯模型,將目標語言端的單語數據翻譯成源語言,據此構造大量(機翻源文,人工譯文)雙語句子對,進一步優化正向的翻譯模型基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)常用技術:回譯(Back-Translation),利用逆向的翻譯模型,將目標語言端的單語數據翻譯成源語言,據此構造大量(機翻源文,人工譯文)雙語句子對,進一步優化正向的翻譯模型基于連續語義增強的神
4、經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)常用技術:對抗樣本(Adversarial Examples),概念來源于生成對抗網絡,通過對原始句子進行同義詞替換、詞調序、隨機刪詞等操作,以提升翻譯模型對源文擾動的魯棒性。Wang et al.2018.SwitchOut:an efficient data augmentation algorithm for neural machine translation.基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)上述兩類數據增強技術(我們稱之為離散式數據增強,顧名思義相關技術均是
5、在離散的自然語言空間中產生增強樣本)存在局限性:基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)上述兩類數據增強技術(我們稱之為離散式數據增強,顧名思義相關技術均是在離散的自然語言空間中產生增強樣本)存在局限性:數據多樣性差容易發生語義偏移真實數據和偽數據之間的差異導致模型有偏基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)回歸本質:從自然語言的固有特性來分析為什么離散式數據增強技術容易快速遇到性能瓶頸離散式數據增強無法覆蓋(全部的、分布在整個自然語言空間的)這種即時選擇的行為,從而使得機器的求解范圍總是限制在
6、局部。Multi-HeadAttentionFeedForwardPositionEncodingAdd&NormMasked Multi-HeadAttentionMulti-HeadAttentionPositionEncodingFeedForwardAdd&NormAdd&NormSoftmaxOuput ProbabilitiesAdd&NormAdd&NormEncoderDecoderBroadcastingIntegrationSemanticEncoder基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)技術方案技術方案突破離散空間,構
7、建連續語義分布基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)技術方案技術方案突破離散空間,構建連續語義分布Multi-HeadAttentionFeedForwardPositionEncodingAdd&NormMasked Multi-HeadAttentionMulti-HeadAttentionPositionEncodingFeedForwardAdd&NormAdd&NormSoftmaxOuput ProbabilitiesAdd&NormAdd&NormEncoderDecoderBroadcastingIntegrationSema
8、nticEncoder優化目標:鄰域風險最小化優化目標:鄰域風險最小化基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)技術方案技術方案突破離散空間,構建連續語義分布Multi-HeadAttentionFeedForwardPositionEncodingAdd&NormMasked Multi-HeadAttentionMulti-HeadAttentionPositionEncodingFeedForwardAdd&NormAdd&NormSoftmaxOuput ProbabilitiesAdd&NormAdd&NormEncoderDecode
9、rBroadcastingIntegrationSemanticEncoder優化目標:鄰域風險最小化優化目標:鄰域風險最小化基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)優化語義編碼器:優化語義編碼器:Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)優化語義編碼器:優化語義編碼器:Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)優化語義編碼器:
10、優化語義編碼器:Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)優化語義編碼器:優化語義編碼器:Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)優化語義編碼器:優化語義編碼器:Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)優化語義編碼器:優化語義編碼器:Tangential Contr
11、astive Learning基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)優化語義編碼器:優化語義編碼器:Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)優化語義編碼器:優化語義編碼器:Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)優化語義編碼器:優化語義編碼器:Tangential Contrastive Learning基于連續語義增強的
12、神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)優化語義編碼器:優化語義編碼器:Tangential Contrastive Learning基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)基于鄰域進行采樣:基于鄰域進行采樣:Mixed Gaussian Recurrent Chain Sampling挑戰:鄰域分布未知挑戰:鄰域分布未知基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)基于鄰域進行采樣:基于鄰域進行采樣:Mixed Gaussian Recurrent Chain Sam
13、pling基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)基于鄰域進行采樣:基于鄰域進行采樣:Mixed Gaussian Recurrent Chain Sampling基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)基于鄰域進行采樣:基于鄰域進行采樣:Mixed Gaussian Recurrent Chain Sampling基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)基于鄰域進行采樣:基于鄰域進行采樣:Mixed Gaussian Recurrent Cha
14、in Sampling基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)基于鄰域進行采樣:基于鄰域進行采樣:Mixed Gaussian Recurrent Chain Sampling基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)基于鄰域進行采樣:基于鄰域進行采樣:Mixed Gaussian Recurrent Chain Sampling基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)NIST 中英翻譯任務(125萬平行數據)應用效果:學術公開數據集,性能應用效果
15、:學術公開數據集,性能SOTA,泛化泛化能力強能力強基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)WMT14 英德/法(450萬/3600萬平行數據)應用效果:學術公開數據集,性能應用效果:學術公開數據集,性能SOTA,泛化泛化能力強能力強基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)模型在噪音和翻譯體源文上的魯棒性模型魯棒性分析模型魯棒性分析基于連續語義增強的神經機器翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)譯文多樣性及忠實度對比結果譯文質量分析譯文質量分析基于連續語義增強的神經機器
16、翻譯技術(基于連續語義增強的神經機器翻譯技術(ACL 2022)數據利用效率分析數據利用效率分析魔搭社區應用實踐魔搭社區應用實踐魔搭社區(魔搭社區(ModelScope,官方網站:,官方網站:https:/ Package,統一封裝了數百個模型使用的接口,能夠有效地降低AI模型的使用、定制、評估和部署門檻。連續語義增強機器翻譯(連續語義增強機器翻譯(CSANMT,快速訪問:,快速訪問:https:/ Package,統一封裝了數百個模型使用的接口,能夠有效地降低AI模型的使用、定制、評估和部署門檻。連續語義增強機器翻譯(連續語義增強機器翻譯(CSANMT,快速訪問:,快速訪問:https:/
17、create n modelscope python=3.7conda activate modelscope然后,安裝然后,安裝Modelscope Library,相關依賴庫支持按,相關依賴庫支持按NLP、CV、語音等不同領域安裝:、語音等不同領域安裝:pip install modelscopenlp-f https:/modelscope.oss-cn- install“modelscopenlp”-upgrade-f https:/modelscope.oss-cn- lfs install git clone https:/ configuration.json#|_ src_vo
18、cab.txt#|_ trg_vocab.txt#|_ bpe.zh#|_ bpe.en#|_ train.zh#|_ train.en#|_ tf_ckpts#|_ checkpoint#|_ ckpt-0.data-00000-of-00001#|_ ckpt-0.index#|_ ckpt-0.meta魔搭社區應用實踐魔搭社區應用實踐準備準備CSANMT模型,以“模型,以“CSANMT連續語義增強模型連續語義增強模型-英中英中-通用領域通用領域-large”為例:”為例:git lfs install git clone https:/ configuration.json#|_ src
19、_vocab.txt#|_ trg_vocab.txt#|_ bpe.zh#|_ bpe.en#|_ train.zh#|_ train.en#|_ tf_ckpts#|_ checkpoint#|_ ckpt-0.data-00000-of-00001#|_ ckpt-0.index#|_ ckpt-0.meta參數配置文件詞表文件,源語言為英文、目標語言為中文byte-pair-encoding編碼訓練樣例,已經過tokenize 和 BPE預處理模型存儲目錄,格式為checkpoint源文件魔搭社區應用實踐魔搭社區應用實踐#English-to-Chinese Translationfr
20、om modelscope.pipelines import pipeline from modelscope.utils.constant import Tasksinput_sequence=Elon Musk,co-founder and chief executive officer of Tesla Motors.pipeline_ins=pipeline(task=Tasks.translation,model=damo/nlp_csanmt_translation_en2zh)outputs=pipeline_ins(input=input_sequence)print(outp
21、utstranslation)#特斯拉汽車公司聯合創始人兼首席執行官埃隆 馬斯克。模型推理示例(用戶不需要修改任何配置,提供輸入源文,僅通過簡單的pipeline即可使用):魔搭社區應用實踐魔搭社區應用實踐#English-to-Chinese Translationfrom modelscope.pipelines import pipeline from modelscope.utils.constant import Tasksinput_sequence=Elon Musk,co-founder and chief executive officer of Tesla Motors.p
22、ipeline_ins=pipeline(task=Tasks.translation,model=damo/nlp_csanmt_translation_en2zh)outputs=pipeline_ins(input=input_sequence)print(outputstranslation)#特斯拉汽車公司聯合創始人兼首席執行官埃隆 馬斯克。模型推理示例(用戶不需要修改任何配置,提供輸入源文,僅通過簡單的pipeline即可使用):用戶提供輸入源文指定任務類型和模型id魔搭社區應用實踐魔搭社區應用實踐#English-to-Chinese Translationfrom models
23、cope.pipelines import pipeline from modelscope.utils.constant import Tasksinput_sequence=Elon Musk,co-founder and chief executive officer of Tesla Motors.pipeline_ins=pipeline(task=Tasks.translation,model=damo/nlp_csanmt_translation_en2zh)outputs=pipeline_ins(input=input_sequence)print(outputstransl
24、ation)#特斯拉汽車公司聯合創始人兼首席執行官埃隆 馬斯克。模型推理示例(用戶不需要修改任何配置,提供輸入源文,僅通過簡單的pipeline即可使用):用戶提供輸入源文指定任務類型和模型id修改模型id即可使用其他翻譯模型,如:nlp_csanmt_translation_zh2en、nlp_csanmt_translation_en2fr、nlp_csanmt_translation_fr2en等。魔搭社區應用實踐魔搭社區應用實踐模型推理示例(用戶不需要修改任何配置,提供輸入源文,僅通過簡單的pipeline即可使用):英中翻譯在線體驗中英翻譯在線體驗魔搭社區應用實踐魔搭社區應用實踐定制
25、微調示例(用戶需要:準備微調數據 修改相關參數 模型微調):魔搭社區應用實踐魔搭社區應用實踐第一步:準備兩個文件train.zh.raw和train.en.raw,其中每一行是一一對應的平行數據,例如:#train.zh.raw這只是一個例子。今天天氣怎么樣?#train.en.rawThis is just an example.Whats the weather like today?定制微調示例(用戶需要:準備微調數據 修改相關參數 模型微調):魔搭社區應用實踐魔搭社區應用實踐第一步:準備兩個文件train.zh.raw和train.en.raw,其中每一行是一一對應的平行數據,例如:#
26、train.zh.raw這只是一個例子。今天天氣怎么樣?#train.en.rawThis is just an example.Whats the weather like today?第二步:預處理,英文進行tokenization,中文進行中文分詞;然后,分別進行BPE#英文使用英文使用mosesdecoder進行進行tokenizationgit clone https:/ mosesdecoder/scripts/tokenizer/tokenizer.perl-l en train.en.tok#中文使用結巴分詞中文使用結巴分詞pip install jiebapython m j
27、ieba train.zh.raw train.zh.tok定制微調示例(用戶需要:準備微調數據 修改相關參數 模型微調):#分別進行分別進行BPEpip install subword-nmtsubword-nmt apply-bpe-c bpe.en train.ensubword-nmt apply-bpe-c bpe.zh train.zh魔搭社區應用實踐魔搭社區應用實踐“model”:“attention_dropout”:0.1,“residual _dropout”:0.1,“relu _dropout”:0.1,“train”:“num_gpus”:8,“update_cycl
28、e”:1,“num_of_epochs”:10,“learning_rate”:1e-5,“learning_rate_decay”:none,“dataset”:“train_src”:“train.en”,“train_trg”:“train.zh”定制微調示例(用戶需要:準備微調數據 修改相關參數 模型微調):魔搭社區應用實踐魔搭社區應用實踐“model”:“attention_dropout”:0.1,“residual _dropout”:0.1,“relu _dropout”:0.1,“train”:“num_gpus”:8,“update_cycle”:1,“num_of_epo
29、chs”:10,“learning_rate”:1e-5,“learning_rate_decay”:none,“dataset”:“train_src”:“train.en”,“train_trg”:“train.zh”定制微調示例(用戶需要:準備微調數據 修改相關參數 模型微調):模型結構相關的參數(如編碼器/解碼器層數、模型寬度等)無需調整,只需要根據定制數據規模調整dropout比例指定GPU數量,0表示CPU運行定制數據規模?。ò偃f級以內)的情況下,推薦使用較小的學習率,同時關閉學習率衰減器將預處理好的數據傳入即可,其他參數無需修改魔搭社區應用實踐魔搭社區應用實踐定制微調示例(用戶需
30、要:準備微調數據 修改相關參數 模型微調):#English-to-Chinese Finetunefrom modelscope.trainers.nlp import CsanmtTranslationTrainertrainer=CsanmtTranslationTrainer(model=damo/nlp_csanmt_translation_en2zh)trainer.train()指定模型id魔搭社區應用實踐魔搭社區應用實踐我們將陸續發布經過我們將陸續發布經過AliExpress、Lazada、阿里巴巴國際站、阿里云、阿里巴巴國際站、阿里云等等場景驗證、業內領先場景驗證、業內領先的機器翻的機器翻譯技術模型譯技術模型,為用戶提供高質量、多場景、多語言翻譯服務為用戶提供高質量、多場景、多語言翻譯服務。