《1知識驅動機器翻譯研究和實踐_aicon2021_楊浩_v4.pdf》由會員分享,可在線閱讀,更多相關《1知識驅動機器翻譯研究和實踐_aicon2021_楊浩_v4.pdf(48頁珍藏版)》請在三個皮匠報告上搜索。
1、知識驅動機器翻譯 -研究和實踐楊浩華為 文本機器翻譯實驗室主任NMT的進展和挑戰:數據驅動 VS 知識驅動知識NMT體系:開放知識,領域知識,模型知識,多模態知識知識NMT建模:約束生成+受限解碼+知識對齊知識NMT實踐:最佳領域翻譯模型的三步走知識NMT思考:預訓練,多語言,多模態-北京郵電大學國家重點實驗室博士-微軟亞洲研究院 明日之星-Baidu 個性化搜索負責人,Alibaba 技術總監-20+AAAI/ACL/CIKM/ICLR等自然語言處理頂會論文-10+已授權搜索推薦等相關專利-WMT/IWSLT/WAT等多項國際機器翻譯比賽第一-華為文本機器翻譯實驗室主任個人簡介機器翻譯三個階
2、段:(1)規則/實例機器翻譯(2)統計機器翻譯(3)神經網絡機器翻譯圖片來源:TAUS1 機器翻譯進展與挑戰 三大趨勢:(1)更大模型:雙語NMT(2)更多語言:多語言NMT(3)更方便交互:多模態NMT機器翻譯的趨勢2014,20152016,2017Sutskever et al.(Seq2Seq)Bahdanau et al.(Attention)Wu et al.(Google-NMT)Gehring et al.(Cov-Seq2Seq)Vaswani et al.(Transformer)2019,2020Chen et al.(mT5)Chen et al.(M2M 100)Ch
3、en et al.(Mbart 50)2021Xingshan Zeng et al.(RealTranS)Ren et al.(SimulSpeech)Mansimov et al.(End-to-End Image NMT)雙語 NMT多語言 NMT多模態 NMT雙語 NMT多語言 NMT多模態 NMT How to configure s5700 arp .Source sentenceC如何如何怎么配置設置S5700S2700。arpap如何配置配置S5700S5700arparp。Target sentenceSeq2Seq 機器翻譯模型Seq2Seq:(1)Encoder(2)De
4、coderAttention&Transformer“Attention is all you need”VS“Attention is not all you need”NMT的質量提升明顯 Dataset WMT2014 EN-DEPerformance WMT2019 EN-DE大數據+大模型,效果提升明顯NMT真的沒有問題?https:/ WAT 2020 WMT 2020/2021 圖像翻譯,多對一翻譯第一通用(News)英日等多個任務第一領域翻譯(Domain)英德,英中等多項第一自動質量評估(QE)句子級,詞匯級等任務第一自動譯后編輯(APE)英中等多任務第一模型性能(Effic
5、iency)Docker 大小第一 IWSL 2020/2021研究論文諾亞語音語義實驗室&文本機器翻譯實驗室 視頻翻譯英到中任務第一 離線語音翻譯第一NMT的進展和挑戰:數據驅動 VS 知識驅動知識NMT體系:開放知識,領域知識,模型知識,多模態知識知識NMT建模:約束生成+受限解碼+知識對齊知識NMT實踐:最佳領域翻譯模型的三步走知識NMT思考:預訓練,多語言,多模態知識分類方式體系https:/ graphPLMsEntity AlignmentSimilar SentenceKnowledge distillationRdrop layerImage translationVoice
6、translation全局知識:顯式知識:知識圖譜”實體-類型”對齊(KG NMT,Jiajun zhang,2018)全局知識隱式知識:利用PLMs的“知識對齊“,初始化Embedding等領域知識詞級別受限解碼,beam search增加Constraint(Grid Beam Search,Qun Liu,2017)領域知識句級別知識增強:搜索相似句,相似句的target sentence提升NMT(SEG NMT,Jiatao Gu,2017)SRC:傳統的觀念建議發現胃息肉即予切除,但常規切除所有息肉會加重患者經濟負擔。SE-Comb:傳統的觀念建議發現胃息肉即予切除,但常規切除所有
7、息肉會加重患者經濟負擔。|Gastric polyps are common precancerous diseases.SE-Label:|T T F F F F F.TGT:Traditional idea suggests that polyps should be removed immediately,but routine removal of all polyps results in an increased financial burden on patients.SE-SRC:胃息肉是常見的癌前疾病。SE-TGT:Gastric polyps are common prec
8、ancerous diseases.模型知識整體知識:Seq KD,解決訓練和推理不一致,優化Exposure BiasSequence-level Knowledge Distillation(Kim,2016)模型知識單層知識:兩次dropout,利用KL散度,約束target 表示一致,提升NMTR-Drop(Tie-Yan Liu,2021)多模態知識多模態知識:圖像和文本實體Alignment,提升NMT“Rabbit is ready for cook!”Multimodal MT(Lucia Specia,2016)產品體驗:華為翻譯OCR翻譯+同傳翻譯NMT的進展和挑戰:數據驅
9、動 VS 知識驅動NMT知識分類:開放知識,領域知識,模型知識,多模態知識知識NMT建模:約束生成+受限解碼+約束對齊知識NMT實踐:最佳領域翻譯模型的三步走知識NMT思考:預訓練,多語言,多模態知識驅動NMT建模https:/ Augment Generation(W Yu,2020)CHENGUANG ZHU 知識驅動NMT建模https:/ acquisitionTopicKeywordSentenceKnowledge GraphKnowledge Fusion Hard-constraintSoft-constraintOutputTxtScoreKnowledge sourcesC
10、lassificationClusteringEntityAlignmentKnowledge Augment Generation(W Yu,2020)CHENGUANG ZHU 約束生成https:/ Topics,NERs,KGsCode-Switching Enhancing NMT,NAACL 2019CHENGUANG ZHU Constraints Typeproduct pricescompany namesWeb URLsLaw termsTopicsDrugs nameDiseasesSentence ClsToken ClsMulti-task Learning阿司匹林乙
11、酰水楊酸aspirin醫療ICT旅游法律受限解碼硬約束/軟約束+無需訓練/需要(lexical)must(lexical)must appear in the outputsKeyword/EntityHard Constraintdo not necessarily do not necessarily have to appear in the outputKeyword/Entity/Sentence/KG/TopicSoft ConstraintReferenceTraining約束對齊約束 Alignment+Scoresrc,(c1,c2,c3,)mt,(c1,c2,c3,)s_c
12、1,s_c2,(BertScore,ICLR 2020)NMT的進展和挑戰:數據驅動 VS 知識驅動NMT知識分類:開放知識,領域知識,模型知識,多模態知識知識NMT建模:約束生成+受限解碼+約束對齊知識NMT實踐:最佳領域翻譯模型的三步走知識驅動NMT的下一步思考:預訓練,多語言,多模態Domain NMT:WMT 21 Biomedical TranslationTaskLang-pair This task aims to evaluate systems on the translation of documents from the biomedical domainbiomedic
13、al domain.The test data will consist of biomedical abstracts biomedical abstracts and summaries of proposals for animal experiments.English-Chinese(en/zh,zh/en)English-German(en/de,de/en)English-French(en/fr,fr/en)English-Italian(en/it,it/en)English-Portuguese(en/pt,pt/en)English-Russian(en/ru,ru/en
14、)English-Spanish(en/es,es/en)English-Basque(en/eu)http:/statmt.org/wmt21/biomedical-translation-task.htmlSampleS0:This review mainly focused on the etiology and the surgical strategy for adolescent idiopathic scoliosis(AIS)treatment.T0:本文對青少年特發性脊柱側凸(AIS)的病因學研究進展和手術治療的前沿理念進行了梳理和闡述。Knowledge:the etiol
15、ogy 病因學研究進展the surgical strategy 手術治療adolescent idiopathic scoliosis(AIS)青少年特發性脊柱側凸(AIS)Domain NMT:Top Problems低頻問題為主Top Issues in Domain Translation-(Domain)entity-Entity-Missing translation-Over translation -Style transfer*Mostly low frequency issues Mostly low frequency issuesDomain NMT:NMT提升之路12
16、3Vanilla Transformer(小知識)Pre-training+Fine-tuning(大數據)Knowledge Constraint NMT(小知識+大數據=大知識)Domain NMT Version 1:Vanilla TransformerData SizePreprocessingPreprocessed pairFairseq-preprocess,預處理+詞表生成Domain NMT Version 1:Vanilla TransformerVocabularyTrainingPerformanceFairseq-train/fairseq-generate,拿到一
17、個還不錯的基線Domain NMT Version2:Pre-training+Fine-tuning Chu,Chenhui,et al,.An empirical comparison of domain adaptation methods for neural machine translation.ACL 2017.Transfer Learning in NLP2.1 Overall ArchitectureTransfer Learning for NMTDomain NMT Version 2:Pre-training+Fine-tuningData Size2.2 Out-d
18、omain Pre-trainingPretraining PerformanceVanilla Transformer VS Pretrained NMT:BLEU 1+Domain MT Ver2:Pre-training+Fine-tuning NMTPerformance(Monolingual)Back/Forward Translation2.3 In-domain Fine-tuningData SizePre-training+Fine-tuning,BLEU 6+,SOTAHao,Yang,et al.“HW-TSCs Submissions to the WMT21 Bio
19、medical Translation Task“,WMT 2021Case 分析Domain NMT Version 2:Pre-training+Fine-tuningWMT 20,5個語種雙向,9/10第一;WMT 21,2個語種雙向3/4第一,1個第二(WMT 20 Biomedical Task Results,ACL 2020)(WMT 21 Biomedical Task Results,EMNLP 2021)Domain MT Version3:Entity Enhanced Translation3.1 Entity Pair RecognitionXu,Jitao,et a
20、l.Boosting neural machine translation with similar translations.,ACL 2020Domain MT Version3:Entity Enhanced Translation3.2 Entity Pair Fusion 總體上升;有實體的句子,BLEU提升1+;無實體的略有下降,可以增加門控Min,Zhang,et al.Fuzzy Matching Entity Enhancement NMT,CCMT 2021Domain MT Version3:Entity Enhanced Translation產品體驗:華為翻譯文本翻譯+段落翻譯NMT的進展和挑戰:數據驅動 VS 知識驅動NMT知識分類:開放知識,領域知識,模型知識,多模態知識知識NMT建模:約束生成+受限解碼+約束對齊知識NMT實踐:最佳領域翻譯模型的三步走知識NMT思考:大模型,多任務,可解釋NMT展望 面向下一個十年的語言AI服務更 準 確、多 任 務 的 A I 服 務大 模 型、自 遷 移 的 A I 服 務知 識 性、可 認 知 的 A I 服 務Image from:OpenAI can-ai-ever-be-as-curious-as-humans