《【知乎】Alluxio在知乎的應用.pdf》由會員分享,可在線閱讀,更多相關《【知乎】Alluxio在知乎的應用.pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、Alluxio 在知乎的應用AI與大數據時代的加速方案賈承昆知乎大數據平臺負責人目錄 背景和介紹 Alluxio for AI Alluxio for Data 總結和展望背景和介紹PART 1背景和介紹知乎,中文互聯網高質量的問答社區和創作者聚集的原創內容平臺,于 2011 年 1 月正式上線,以讓人們更好的分享知識、經驗和見解,找到自己的解答為品牌使命。截至 2020 年,已有超過 4000 萬名答主在知乎創作,全站問題總數超過 4400 萬,回答總數超過 2.4 億。大模型時代的新挑戰 多機房多算力中心 延時敏感 非結構化數據增多架構圖Alluxio for AIPART 2 訓練加速的
2、場景 超低的訪問延時 長時間穩定運行 支持 FUSE 的方式訪問場景一 AI 訓練加速緩存淘汰策略:TTL LRU No Evit緩存策略問題分析:FUSE 和 Alluxio 的 block size 沒有對齊優化思路:對齊 block size,難度較大 Client Memory CacheFUSE 讀放大優化 Alluxio FUSE 讀取性能達到 NVME 的 90%性能,對比之前 S3Proxy 方案提升 250%GPU 利用率上升,IO wait 明顯減少訓練加速效果 寫立刻讀 高并發 跨機房場景二 Model Update S3 Proxy vs FUSE SSD Cache
3、Short-circuit Read Read Ahead優化策略 主動預熱 Pros:實現簡單,性能好 Cons:用戶需要改造適配 被動預熱 Pros:無需改造 Cons:性能差 實時預熱 Pros:無需改造 Cons:開始較慢,整體快數據預熱Alluxio for DataPART 3場景三 Presto 緩存加速Presto RaptorX Based on Alluxio Local Cache Data Cache Footer Cache Fragment CacheWorker 軟親和性Worker 調度策略 一致性 hash Fallback集群軟親和性集群調度策略 根據 SQL 的 table 名字進行一致性哈希,選擇一個集群 如果集群繁忙就選擇下一個加速效果 平均緩存命中率 60%查詢 P50 在 2s,BI 場景更低 排隊時間對比之前有大幅度降低場景四 運維平臺加速 數千節點 基礎組件安裝包非常大 一次滾動重啟需要數十小時總結和展望PART 4 AI 模型訓練和推理加速 統一的數據接入 大數據 OLAP 加速 對象存儲加速應用場景總結 進一步提升模型 save/load 的性能,優化大模型訓練任務的重啟時間和 checkpoint 時間 平臺化管理數據集和模型,簡化算法工程師的工作未來展望Q&ATHANKS