《電商搜索和推薦場景下的MLOps實踐-李友科v2.pdf》由會員分享,可在線閱讀,更多相關《電商搜索和推薦場景下的MLOps實踐-李友科v2.pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、電商搜推場景下的MLOps實踐李友科 京東-零售自我介紹自我介紹“You Got a Dream,You Gotta Protect It”Scene From The Pursuit of Happyness 京東零售 負責系統的風險控制、質量保障與效率提升 在電商搜推場景下,測試服務化、算法服務化、MLOps平臺化落地的核心參與者李友科議程概況工程實踐成就算法服務化模型雙飛輪特征工程效率與質量模型與特征算法服務化模型評測從算法服務化到MLOps平臺化工作界面改變度量與平臺自我迭代平臺系統架構規?;?,成本、效率與質量低負載治理算法協作團隊協作總結ML在需求交付流程中的位置大環境和趨勢:大環
2、境和趨勢:互聯網降本增效技術部門,工作價值量化,成本效率為主電商行業電商行業:存量競爭用戶轉化率、商家可運營、流量生態搜推系統核心競爭力,預測服務質量和算法迭代效率流量分發:流量分發:模型從簡單線性、樹型模型到復雜的深度模型業務效率持續提升業務賦能、流量調控快速應對業務需求ML生命周期與MLOps模型雙飛輪(一)實驗模型實驗模型 正在AB實驗的模型,迭代目標:效率提升、業務賦能、流量調控全量模型全量模型 通過AB實驗挑選出,滿足全量的模型。全量模型服務大部分流量,同時作為實驗模型的對比基準Holdback模模型型 對應上一個版本的全量模型,保留1-2周,對比觀察全量模型的業務效果模型雙飛輪(二
3、)特征工程的效率與質量(一)特征:Dump原始特征 效率:在線和離線并行開發算子,不需要等待算子上線,就可以開始離線模型開發和訓練??赡苄枰ㄙM大量時間對齊算后特征 質量:如果不能保障算子質量,在線和離線算后特征不一致風險極高特征工程的效率與質量(二)特征:Dump算后特征 效率:離線訓練需要等待在線算子開發、特征積累。模型開發前期等待在線Ready,一般需要2-3周 質量:理論上,不存在算后特征一致性特征工程的效率與質量(三)特征:Dump算前特征,共享算子 效率:在線和離線共享相同代碼的算子;只需要算子開發完成,就可以開始離線模型開發和訓練 質量:減小在線和離線特征不一致性問題產生的可能性
4、特征工程的效率與質量(四)方式方式離線特征離線特征效率效率特征不特征不一致一致使用場景使用場景Dump原始特征原始特征通過通過Dump在線原始特征在線原始特征,通過離線算子計算得出通過離線算子計算得出可以復用原始特征可以復用原始特征,立刻開始立刻開始模型開發模型開發風險風險較高較高簡單計算的少量特征簡單計算的少量特征Dump算后特征算后特征直接直接Dump在線算后特征在線算后特征需要等待在線開發需要等待在線開發,積累數據積累數據,周期較長周期較長風險很低風險很低復雜計算的大量特征復雜計算的大量特征Dump原始特征原始特征,共享算子共享算子通過通過Dump在線原始特征在線原始特征,通過共享算子計
5、算得出通過共享算子計算得出可以復用原始特征可以復用原始特征,但是需要等待共享算但是需要等待共享算子開發子開發。周期介于以周期介于以上兩者之間上兩者之間風險低風險低需要架構和流程支持需要架構和流程支持模型與特征算法服務化模型評測工程實踐小結模型雙飛輪模型雙飛輪特征工程效特征工程效率與質量率與質量模型與特征模型與特征算法服務化算法服務化模型評測模型評測算法工作界面改變服務檔案數據度量模型迭代時長模型迭代時長平臺交付效率平臺交付效率資源利用率資源利用率服務可靠性服務可靠性流程可用性流程可用性管理模型規模管理模型規模模型生命周期模型更新間隔流程執行時長任務執行時長CPU利用率資源核數趨勢CPU占用趨勢
6、服務MTTR加權MTTR流程可用性任務可用性在線模型個數模型增長趨勢MLOps平臺架構低負載治理能力提升能力提升 資源評估準確度提升 周期性掃描自動識別低負載集群 告警響應與自動化擴容 應對流量潮汐,實現波峰波谷彈性伸縮流程優化流程優化 資源申請流程優化 灰度縮容,縮容過程中監控服務穩定性制度明晰制度明晰 成立專門優化項目組,定期同步治理進度 資源配額管理、IT賬單 識別低負載標準算法協作模型血緣管理模型血緣管理記錄模型譜系和模型結構、特征依賴項。方便同一業務中,模型的繼承擴展,不同業務的模型之間相互借鑒。同時,方便發現或定位問題算子集市算子集市模型間特征算子的復用,避免不必要的重復開發,減少模型開發時間特征集市特征集市節省算前特征ELT開發時間,同時也節省額外存儲空間團隊協作(各種Ops)總結工程實踐成就了算法服務化,算法專注于模型迭代MLOps平臺化,幫助算法團隊提升迭代效率規?;?,成本、效率和質量持續提升