1、高性能召回引擎在在線零售場景中的最佳實踐鐘靈(正鴻)阿里云計算平臺事業部阿里巴巴AI平臺 PAI典型的搜推鏈路EasyRec開源框架模型訓練和部署阿里巴巴AI平臺 PAI(Platform of Artificial Intelligence)MLFrameworksMLService(PaaS)AI Service(SaaS)機器學習框架(PAI-TensorFlow/PAI-PyTorch/Caffe/Alink etc)計算引擎(MaxCompute/EMR/實時計算)在線預測服務(EAS)一鍵部署高性能藍綠部署彈性擴縮基礎硬件(CPU/GPU/FPGA/NPU)阿里云容器服務(ACK)
2、可視化建模(Studio)近200種組件數十個場景化模版拖拽構建實驗百億特征樣本交互式建模(Data Science Workshop)JupyterLab、WebIDE、Terminal大數據引擎深度結合多框架兼容自定義Image智能標注圖像、視頻、文本、語音標注多場景模板:圖像檢測、分割、綜合標注數據集管理主動學習*智能預標注*智能生態市場Open API通用推理優化AI工具Alink-WebMNNSQL FlowAI SaaS服務(搜索推薦系統、OCR、語音識別、金融風控、視頻類、新聞分類、疾病預測等)Deep Learning ContainerInfrastructure算法、模型A
3、I解決方案典型的搜推鏈路-品牌個性化-移動頻道個性化-垂直業務-熱賣User:訪問序列相關性:i2i、Cate2iItem:實時/離線特征User:短期/長期特征實時計算(FLINK)實時特征計算數據清洗和實時樣本生成實時用戶和Item特征拼接新Item/新Item語義特征提取相似性查詢Tag生成熱門排行榜大數據計算平臺(MAX COMPUTE)實時樣本請求結果和特征各種i2iItem向量庫User向量庫機器學習/深度學習平臺(PAI)協同過濾GDBT/FM/LRDeepFM/DSSMESMM/DBMTLWord2vec/BertERNIE生成模型Item Embedding召回引擎服務(AI
4、ME)排序:GBDT/DeepFM模型服務(PAI-EAS)召回:DSSM、MIND多路召回、曝光過濾粗排、精排策略(打散策略、新品曝光)日志:結果、實驗信息推搜開發平臺(TPP)實時采集后端日志實時采集后端日志曝光點擊收藏評論等客戶端用戶請求結果存儲(AIME/ABFS/iGraph)uid:stringage:integerprice:floatIdFeatureRawFeatureSeqFeatureKVFeatureDSSM MINDctrcvrdurationCrossEntropySmoothL1L2LossAUCAccuracyMSEMaxComputeTableHDFSKafk
5、aOSSOptimizer自動超參搜索知識蒸餾多樣化輸入組件化模型PAI-EasyRec算法框架超大規模分布式訓練大規模稀疏特征分布式評估AdamAdaGradAdaDeltaModelZoo召回模型排序模型多目標模型重排序模型MultiTowerDeepFMDINDCNESMMMMoEDBMTL輸入特征特征處理離在線一致目標PAI-EasyRec算法框架( TrainingEasyRec的主要功能和客戶列表增量訓練/自動調參自定義模型客戶列表:當貝極光魯大師魔筷科技票圈視頻SigmobVV音樂伊對椰子傳媒EasyRec的優勢:豐富多樣的特征 IdFeature:離散特征如user_id,it
6、em_id,類目,標簽等特征 RawFeature:連續值特征如身高、體重、價格、歷史點擊率等,通常會做分箱離散化也支持word2vec,cnn和bert產生的embedding,做多模態訓練,短視頻、新聞推薦常用。TagFeature:多值特征如標簽特征:健身、音樂、旅游等,電商、短視頻推薦常用。ComboFeature:組合特征,如年齡+地域 LookupFeature:查找特征,如從user的訪問列表中查詢item MatchFeature:雙層查找特征,根據類別和item進行兩次查找 SequenceFeature:序列特征,用戶行為建模必備(DIN/BST)。召回模型(Candida
7、te Generation):DSSM/Mind 排序模型(Rank Models):FM/WideAndDeep/MultiTowerDeepFM/DeepCross/AutoIntDIN/BST/Rocket Launching 多目標模型(MultiTask Model):Simple MultiTask/MMoE/ESMM/DBMTL More models in development:ListWise,ReRank模型DeepGBM,連續值建模優化多臂老虎機,冷啟動模型遷移學習EasyRec的優勢:實現了業界領先的模型Candidate GenerationRankCTRCVRST
8、AYCART多目標建模多興趣建模MINDDINEasyRec Config 示例train_input_path:train.csveval_input_path:test.csvmodel_dir:experiments/”train_config log_step_count_steps:200#fine_tune_checkpoint:optimizer_config:adam_optimizer:learning_rate:num_steps:2000sync_replicas:trueeval_config metrics_set:auc data_config separator:
9、,input_fields:input_name:labelinput_fields:input_name:heightinput_type:INT32feature_configs:input_names:heightfeature_type:RawFeatureembedding_dim:16feature_configs:input_names:c1feature_type:IdFeatureembedding_dim:16hash_bucket_size:10model_config model_class:DeepFMfeature_groups group_name:deepfea
10、ture_names:heightfeature_names:c1feature_groups group_name:widefeature_names:heightfeature_names:c1deepfm dnn hidden_units:128,64,32wide_regularization:0.0001dense_regularization:1e-05EasyRec示例:訓練:本地:EMR:PAI:pai-name easy_rec_ext-project algo_public-Dconfig=oss:/easy-rec/config/deepfm.config-Dcmd=tr
11、ain-Dtrain_tables=odps:/pai_online_project/tables/dwd_avazu_ctr_deepmodel_train-Deval_tables=odps:/pai_online_project/tables/dwd_avazu_ctr_deepmodel_test-Dcluster=ps:count:1,cpu:1000,worker:count:3,cpu:1000,gpu:100,memory:40000-Darn=acs:ram:xxx:role/ev-ext-test-oss-Dbuckets=oss:/easy-rec/-DossHost=o
12、ss-cn-hangzhou-Deval_method=separate;el_submit-t tensorflow-ps-a deepfm_demo-f deepfm.config-m local-pn 2-pc 4-pm 8000-wn 150-wc 4-wm 8000-c python-m easy_rec.python.train_eval-pipeline_config_path deepfm.config”python-m easy_rec.python.train_eval-pipeline_config_path deepfm.config DSW Demo模型訓練和部署的整體鏈路PAI可視化建模PAI-EAS推理服務Dataworks生成配置HologresABFSETL+調度帶fg部署定時同步打分分流特征衍生(fg)生成EasyRec.config發起訓練評估任務特征工程分箱、維度計算a/b 服務模板化特征推薦引擎EAS預測服務:EasyRec Processorfg+tf模型聯合部署item特征存儲向量召回User特征Etrec/swing/ALSLR/GBDT/FM等EasyRec召回/排序模型