2017年攜程大數據平臺實踐.pdf

編號:92459 PDF 46頁 2.80MB 下載積分:VIP專享
下載報告請您先登錄!

2017年攜程大數據平臺實踐.pdf

1、攜程大數據平臺實踐OPS/IT/CC提綱大數據平臺現狀大數據平臺現狀“成長的煩惱”“成長的煩惱”再談穩定性再談穩定性系統“走馬觀花”系統“走馬觀花”挑戰和未來挑戰和未來大數據平臺現狀OPS/IT/CC平臺規模主集群規模180 1100+臺 X6數據增量(每天)250T 數據表數量正式表60000+調度任務數(每天)50000+運行實例120000+底層任務數(每天)310000+實時集群規模100+實時作業數290+Jstorm 40+Spark-streaming20152017OPS/IT/CC平臺架構OPS/IT/CC團隊規模小而精干REN SHAO SHI DUO底層數據架構:9+1開

2、發和查詢平臺:6+1運維數據分析:4+1*日常維護支持新技術調研落地“成長的煩惱”OPS/IT/CC“成長的煩惱”有什么?運維:系統規模不斷擴大系統繁多,復雜性高開源系統開源是把“雙刃劍”快速構建起相應的系統隨著系統規模的增大,開源系統的問題不斷地暴露出來服務和支持用戶不斷增長的“物質文化需求”與“短小精悍”團隊之間的矛盾臨時的支持,問題排查工作變多OPS/IT/CC運維-應對策略總體策略:“自動化”:節省運維成本,保證環境和配置一致運維自動化初始安裝/變更覆蓋范圍盡可能全(特別是客戶端)覆蓋范圍盡可能全(特別是客戶端)監控+失敗的自動回復確定的,風險不大的失敗點(進程監控/Thrift Se

3、rver的可用性監控)多次自動回復失敗需要升級我們的慘痛教訓:2015-09 Kerberos升級OPS/IT/CC開源系統-應對策略總體策略:建立“代碼級”維護能力招聘時就要選擇對技術有濃厚興趣,能夠沉的下心來的同學在底層團隊通過各種層次的分享建立學習,研究的氛圍代碼學習小組全員學習,模糊職位的邊界培養方向:一專多能模糊開發和運維的邊界思想上做好長期斗爭的準備“深挖洞(加深對現有系統的理解)”,“廣積糧(基礎知識/新系統調研)”!OPS/IT/CC實例:Hadoop調優Hadoop調優是一項長期工程從2016年10月開始(CDH4.6-CDH 5.7.1升級完成,79個commits)我們幾

4、乎每1-2個月會遇到1個影響集群的穩定性/效率的問題,而且每次問題的Root Cause往往并不相同實例一:RM調優在業務高峰的4點-10點,集群的使用率偏低通過YARN的主頁面我們發現,集群的Used的Vcores只占Vcores Total的70%-80%通過一段時間的分析,我們發現瓶頸在YARN的Fair Scheduler的效率上OPS/IT/CC實例:Hadoop調優實例二:NN優化2017-01底到2017-02初,我們發現在早上6-10點,集群的利用效率有多次較大的下跌我們分析發現,NN的RPC平均處理時間(RpcProcessingTimeAvgTime)較高解決方法:給NN減

5、負,增效HDFS-9198 HDFS-7964 HADOOP-12483主節點優化的總結1.發現發現問題問題:關注集群總體的利用率;關注NN和RM的關鍵指標(RPC ProcessTime/Call Queue Length)和GC指標2.分析分析問題問題:分析NN和RM更加細致的指標(GC問題的話分析GC Log);通過線索在去搜索相應的Jira,篩選Jira,通過Jira查看和分析相關的Code3.在保證穩定性的前提下進行嘗試嘗試OPS/IT/CC服務和支持-應對策略總體策略:從使用者的角度去設計產品,關注用戶的易用性控制推廣的節奏Early Adopter-1個BU-全面鋪開完善文檔,常

6、見問題FAQ“授人以漁”:增強BU數據開發的工程技術能力全員客服 短期再談穩定性OPS/IT/CC平臺的穩定性是項系統工程流程合理的流程能夠降低人為事故發生的概率,及時發現問題流程無法一簇而就,從失敗中學習,舉一反三很重要能做“灰度”的一定要做“灰度”提升團隊成員的責任心技術設計盡量簡單,復雜的設計修改容易出錯合適的重試機制幫助很大木桶效應:關注所有有影響的系統的短板OPS/IT/CC實例:數據開發平臺的穩定性提升2015年下半年,數據開發平臺幾乎每個月都會發生1次全局性延遲的大故障第1階段:快速止損:通過發布后輪流值班的方式避免發布后的重大事故第2階段:解決核心問題:重構調度系統的核心,簡化

7、模型第3階段:降低維護成本:監控+自動化恢復策略確定目標,不斷迭代區分系統錯誤,用戶錯誤;確定系統錯誤率0.02%的目標(目前是0.01%)強化各層的重試機制(調度系統/YARN APP Master)持續的監控和優化系統“走馬觀花”OPS/IT/CC數據開發平臺“走馬觀花”OPS/IT/CC調度和開發OPS/IT/CC調度和開發OPS/IT/CC調度和開發OPS/IT/CC調度和開發OPS/IT/CC調度和開發OPS/IT/CC數據傳輸OPS/IT/CC數據傳輸OPS/IT/CC數據傳輸OPS/IT/CC主數據OPS/IT/CC主數據OPS/IT/CC主數據OPS/IT/CC主數據OPS/I

8、T/CC數據質量OPS/IT/CC數據質量OPS/IT/CC報表平臺“走馬觀花”OPS/IT/CC報表平臺“走馬觀花”OPS/IT/CC報表平臺“走馬觀花”OPS/IT/CC機器學習平臺-基于Spark的圖形化AI平臺OPS/IT/CC機器學習平臺-基于Spark的圖形化AI平臺OPS/IT/CC機器學習平臺-基于Spark的圖形化AI平臺OPS/IT/CC機器學習平臺-基于Spark的圖形化AI平臺OPS/IT/CC機器學習平臺-基于Spark的圖形化AI平臺OPS/IT/CC機器學習平臺-基于Spark的圖形化AI平臺OPS/IT/CC機器學習平臺-GPU的云平臺(開發中)OPS/IT/C

9、C機器學習平臺-基于Spark的圖形化AI平臺挑戰和展望OPS/IT/CC當前的挑戰目前最大的挑戰:通過平臺推動公司的知識和數據的共享不能只建設數據工具!實例1:主數據平臺目前只是表的元數據及其衍生的信息希望能夠建成數據知識分享的平臺,包括數倉架構,指標體系等更多信息實例2:AI平臺不僅僅是提供模型訓練工具,需要的是全鏈路的解決方案能夠覆蓋 數據獲取,特征抽取,模型實驗,模型訓練,線上服務 等AI應用開發的各個生命周期的需求OPS/IT/CC展望目前是大數據技術正經歷著一個新舊更替MR-SparkHive-SparkSQLStorm-Flink(建議新項目)AI平臺不像大數據平臺,有比較成熟的底層平臺和解決方案更好用的工具助力“AI民主化”落地各個生命周期的工具,逐步整合成全鏈路的解決方案系統不應該是僅僅只包含通用的平臺和工具,應該更加貼近數據業務,為用戶提供一站式服務

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(2017年攜程大數據平臺實踐.pdf)為本站 (云閑) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站