《1、2023 DOD會議 - 劉志偉.pdf》由會員分享,可在線閱讀,更多相關《1、2023 DOD會議 - 劉志偉.pdf(31頁珍藏版)》請在三個皮匠報告上搜索。
1、螞蟻集團研發服務體系的構建以及大模型的應用實踐劉志偉2023 China DevOpsDays-8月12日 北京-劉志偉(比奧)劉志偉(比奧)技術風險效能部搜索與推薦團隊負責人,負責:私域搜索,包括研發知識搜索、小程序私域搜索分布式鏈路追蹤、微服務問題排查企業內智能客服代碼大模型的數據、模型解釋性方向現就職于螞蟻集團,高級技術專家軟件開發的挑戰很大程度在于規模性。規模的大小,使得技術挑戰完全處在不同的量級上。以螞蟻為例:微服務規模大:一筆調用包括了成百上千個服務,平均 320 個 數據量規模大:每天產生 PB 級的服務調用數據 協作人員規模大:1 萬+研發工程師協作服務調用量高,研發人員多,問
2、題的發生后,如何高效率的解決是非常有挑戰的事情引用:圖片引自:https:/ jar 包、版本配置不兼容、鏡像中心異常等等 部署:部署:服務無法成功部署和運行起來,例如磁盤滿了、內存不足、bean 配置錯了、中間件啟動失敗等等 測試:測試:由于測試用例或環境問題導致測試無法成功,例如測試框架啟動失敗、DB 訪問失敗等等 聯調:聯調:服務調用無法正常,例如服務調飛、參數傳錯、消息沒有投遞成功等等 運維:運維:線上服務發生告警,例如成功率下跌等等 客戶:客戶:外部客戶使用產品發生異常,例如付款沒成功,支付順序等等搜索類方向的問題場景 代碼不知道怎么用(找不到參考代碼)某個中臺接口,38 個入參、3
3、7 個出參,20 個錯誤碼。支持上萬的業務場景(包括了如掃碼付、地鐵協議支付),每個業務場景該傳什么參數 使用一個開源的組件,接口文檔不清晰,不知道怎么用 重復開發造成低效工作量浪費重復開發造成低效工作量浪費 要做個協議轉換,知道肯定有人已經寫過了,但不知道哪里有,重復開發 看到某網站使用了一個厲害的前端組件,怎么才能快速找到自己也用起來 影響太多,不敢改代碼影響太多,不敢改代碼 支付流水號擴位(16 位改 32 位),數周到數月的人工批量檢查大規模代碼 漏洞止損難漏洞止損難 業界 log4j 報了安全漏洞,全倉庫有沒有使用有問題的 log4j 版本 全倉庫是否有明文秘鑰,以及泄露在哪些地方了
4、 基礎框架升級難基礎框架升級難 Python2 要升級 Python3,全倉庫哪些地方使用 Python2,升級進展怎么樣 代碼定位難代碼定位難 日志報錯在哪打的,誰改了這段代碼復雜問題需要體系化的解決方案需求設計開發測試運維客戶問題分布式鏈路追蹤診斷&根因定位智能客服通過搜索找到問題答案技術問答論壇問題發生問題解決DevService(研發服務體系)聯調通過搜索找到答案研發領域的搜索的重要性搜索是解決大規模數據下信息和知識如何高效獲取的問題58%開發人員 58%的時間是在搜索和閱讀理解代碼60%11%當開發人員能輕松找到他們需要的東西時,他們覺得自己有能力完成工作的可能性高出 60%,此外,
5、只要團隊倉庫易于搜索,就有 11%的生產力提升數據來自:https:/ program comprehension:A large-scale field study with professionals搜索當前的痛點問題以小程序私域搜索為例:以小程序私域搜索為例:搜索流量小,實際引導和轉化效果差1、搜索框入口和Query下拉列表無任何提示引導2、搜索發現和熱搜榜單固定詞條配置,“千人一面”3、銷量主導下商品排序因子單一,中長尾商品無曝光和轉化搜索改版前研發域搜索架構關鍵點 產品層,搜索能力接入 多種數據源對接方式 離線索引數據計算和生成 索引數據存儲 用戶畫像,千人千面 在線高性能相關性召回
6、應用案例介紹:支付寶小程序云 -智能搜索應用案例介紹:支付寶小程序云 -智能搜索分布式鏈路追蹤診斷&根因定位分布式鏈路追蹤診斷&根因定位整體架構關鍵點 超越 OpenTelemetry Data 的數據體系構建 超大規模的分布式鏈路追蹤 低代碼診斷工具平臺 根因定位 服務性能分析超大規模鏈路的構建 鏈路完整度 99%+超大規模的微服務鏈路秒級到分鐘級構建完成trace log files日志存儲鏈路構建每天 TBPB Trace 日志,關鍵字段采集,全量存儲聚合&分析計算Sofa-tracer應用服務級到代碼級的兩級根因定位應用Trace ID+代碼覆蓋路徑每筆每筆 trace代碼執行路徑代碼
7、執行路徑聚合&分析計算Agent插樁增強低代碼診斷工具平臺,便捷創建診斷工具IAAS、PAAS、SAAS 三層執行診斷工具根因定位 IAAS、PAAS 各檢查項統一調度執行 SAAS 層分業務調度不同的檢查項ABCDIASS內存、CPU、網絡、磁盤 等異常檢查PASS路由、消息投遞、RPC 調用、數據庫 等異常檢查SAAS營銷抽獎異常排查SAAS無法登陸SAAS無法綁手機號SAAS扣款順序服務性能分析CodeGPT 研發的底座大模型大模型數據 采集&清洗:Github 公開倉庫 百T+,commit,PR 等公開數據;計算機類圖書、教材;論文;計算機類站點等,清洗出 T 級別的計算機高質量數據
8、集 核心清洗技術:研發領域主流LLM低質量過濾模型,以及代碼領域的深度程序分析技術,基于語法、缺陷等深度清洗,代碼畫像聚類確保數據類型分布合理大模型算法 GPT 架構,旋轉位置編碼等優化HumanEvel-X、MBPP 評測國內和國際第一梯隊 應用大模型提效大模型支持下的 DevService(研發服務體系)分布式鏈路追蹤診斷&根因定位智能客服通過搜索找到問題答案技術問答論壇問題發生問題解決CodeGPT生成式搜索生成式排查智能坐席助手大模型支持下的 DevService(研發服務體系)用戶交互站點的搜索框一行代碼嵌入搜索框組件,自動具備大模型能力螞蟻內部應用場景,暫未對外提供服務生成式排查插
9、入在站點的氣泡框搜索和答疑場景:各站點平臺在操作的過程中會遇到各種問題,比如代碼托管平臺,用戶如何申請倉庫權限螞蟻內部應用場景,暫未對外提供服務未來展望未來展望大模型:研發領域行業大模型持續改進越來越好 數據:大規模高質量清洗和加工,建設數據質量模型,精細化清洗技術 算法:大模型結構算法改進,PEFT、MQA、attention 層改造等重塑研發產品:大模型原生的 cloudIDE,產品體驗代際提升 站點智能助手:一行代碼插入搜索框或氣泡,即具備大模型交互,提升用戶體驗、留存和轉化 持續落地各業務場景,解決好研發域各種場景問題:自然語言生成代碼、網頁、小程序、text-2-command,text-2-sql,問題排查,code review,測試用例生成,故障應急等,部分場景已達到 80%準確度以上,線上應用狀態 大模型全面研發和產品重塑中,歡迎合作或加入一起 研發領域的大模型合作 支付寶小程序私域智能搜索 技術交流釘釘微信歡迎交流討論Thanks感 謝 聆 聽2023 China DevOpsDays-8月12日 北京-