1、提綱知識圖譜在保險業的應用實體與關系的抽取算法信息提取工具文檔標注工具01020304知識圖譜在保險業的應用智能交互5保單條款信息提取保險經紀對話記錄保險業知識圖譜智能問答智能客服客戶數據保單數據精準推薦自動理賠反欺詐6https:/ Man+Woman=Queen自然語言處理的任務https:/ 類別-序列 文本生成,圖像描述生成 序列-類別 文本分類,情感分析關系提取關系提取 序列-序列(同步)分詞,詞性標注,語義角色標注實體識別實體識別 序列-序列(異步)機器翻譯,自動摘要 拼音輸入法分類序列標注用IDCNN和CRF做中文實體識別https:/ etc.到底該用哪種網絡結構?17信息提取
2、工具分句、分詞消歧詞性標注詞典信息提取工具NLP預處理預處理機器學習模塊機器學習模塊(高高recall)深度學習模塊深度學習模塊word2vecLSTM+CNN,BERT特征提取特征提取number_of_tokenssymbols_in_betweenin_same_sentenceverbs_countverbs_count_in_betweentotal_number_of_entitiesother_entities_in_betweenentity_distanceentity_orderbag_of_wordpos_bigrams_in_betweenbag_of_wordpos_
3、in_between分類分類lrsgdknnsvcrandomforestadaboost實體、關系等信息抽取結果基于規則模塊基于規則模塊(高高precision)主語賓語標志詞同義詞詞庫磁性文章主題針對不同文體定針對不同文體定義規則庫:義規則庫:Subject+Token(“妻子”)+Object+anythingNewFeatures用戶手動輸入網絡爬取維基百科,百度百科,新聞 etc.標注數據標注數據序列標注HMMCRF實體、關系等信息抽取結果信息提取工具展示層數據可視化用戶交互搜索探索查詢服務層搜索和排序數據查詢數據挖掘存儲層數據存儲模塊數據索引模塊API同步同步信息提取工具系統集成文
4、本標注工具為什么需要文本標注工具?22大部分機器學習任務是監督監督學習學習運氣好:標注數據自動生成點擊百度搜索結果淘寶購物車中加東西豆瓣FM上聽音樂運氣一般,但有小技巧網絡爬取遠程監督運氣差,也沒技巧(大部分時間)手動標注中文標注工具23NLP中很多任務是監督學習任務:序列標注(分詞,命名實體識別)分類(關系提取,情感識別,意圖識別)開源的中文標注數據遠沒有英文多垂直領域標注需要垂直領域標注需要領域知識領域知識(保險,金融,健康,法律,公安etc.)現有的標注工具:使用太重太復雜只支持英語非開源,只能用公有云技術過時24基于主動學習的智能標注251.用戶標注2.后端主動學習算法分為在線和離線兩
5、部分:在線學習算法實時更新模型(使用傳統較快的算法,如邏輯回歸模型和支持向量機)標注數據積累到一定程度量級,離線模型在后端更新其高準確度的深度學習模型3.離線模型更新后,在可接受的時間內對未標注數據做盡可能多的預測,將置信度排序,取置信度最低的一定量數據作為用戶待標注數據.4.重復至第一步262728模塊化設計數據流設計29可定制化編程ip:localhost,port:8000,database_type:mongodb,type:classificationname:email_spam_classification,model_type:classification,pipeline:n
6、lp_word2vec,linesplit_preprocess,feature_extractor,online_svm_classifier_sklearn,offline_svm_classifier_sklearn,language:zh,wordvec_file:./tests/data/test_embedding/vec.txt,path:./tests/models,org_data:./tests/data/test_email_classify/email_classify_chi.txt,database_name:spam_emails_chi,labels:spam,notspam,batch_num:10,inference_num:20,low_conf_num:10,confidence_threshold:0.95,log_level:INFO,log_file:null不只是一個標注工具30模塊化和模塊化和API設計:設計::1.機器學習的人機交互界面2.數據管家原始數據,預處理數據,特征工程數據,人工標注數據,算法預測數據etc.上游模塊,如爬蟲下游模塊,如可視化3.模型管家預訓練模型,可配置的在線與離線模型,固化模型4.機器學習預測服務全流程的機器學習工具全流程的機器學習工具Thank you!