《祝海林-Byze以數據方式管理大模型全生命周期.pdf》由會員分享,可在線閱讀,更多相關《祝海林-Byze以數據方式管理大模型全生命周期.pdf(49頁珍藏版)》請在三個皮匠報告上搜索。
1、Byzer:以數據方式管理大模型全生命周期祝海林 Kyligence演講嘉賓祝海林Byzer 社區 PMC/資深數據架構師/Kyligence 技術合伙人擁有 15 年研發經驗,一直專注于 Data+AI 融合,致力于幫助企業更好的落地 Data+AI。個人熱衷于開源產品的設計和研發,主要開源作品:Byzer/MLSQL。最新項目:Byzer-LLM 可幫助企業快速落地私有化大模型;Byzer-retrieval 旨在作為 LLM RAG(檢索增強生成)檢索后端。Byzer 2022 年獲得中國開源創新大賽二等獎;2023 年獲得浦東新區人工智能創新大賽一等獎。個人入選中國 2022 年開源先
2、鋒 33 人,榮獲 2023 年全球人工智能開發者先鋒大會開發者先鋒稱號。目 錄CONTENTS1.Byzer 數據庫的開發背景2.為什么我們稱 Byzer 是AI 數據庫3.我們是如何實現這個 AI 數據庫的4.使用 SQL 完成預訓練 微調 部署及調用5.快速將 Byzer 數據庫應用于企業業務中6.Byzer 數據庫現狀和未來的發展Byzer 數據庫的開發背景PART 01以數據庫為中心的傳統 Web 開發模式前端/APP/業務產品后端/業務邏輯存儲/計算/數據現有 Data/AI 開發模式專有組件繁多,學習、開發、維護成本極高,需要大量專家。復雜度太高,團隊無法專注業務Data/AI平
3、臺割裂,難以統一以 Byzer Data+AI 數據庫為中心的開發模式前端/APP/業務產品后端/業務邏輯存儲/計算/數據/大模型Byzer 數據庫的價值依托于久經驗證的Data+AI 基礎設施Byzer 數據庫的價值為什么我們稱 Byzer 是 AI 數據庫 PART 02Data+AI 從業者的視角下的Byzer 數據庫傳統 Web 開發視角下的 Byzer 數據庫大模型時代下,Data+AI(LLM)的開發會重回數據庫時代我們是如何實現這個 AI 數據庫的PART 03我們是如何實現 Byzer 數據庫的數據庫軟硬一體 插電可用使用 SQL 完成預訓練 微調 部署和調用PART 04大模
4、型全生命周期管理微調數據處理大模型全生命周期管理NoteBook 模式數據處理專家模式:直接編寫 SQL/可以利用大模型 Copilot/有強大的代碼提示Workflow 模式數據處理完全可視化交互/實時預覽自動生成 SQL/涵蓋數據和算法處理算子/后續可增加 copilot 算子數據處理的 AI Copilot用戶不會寫 SQL 也沒問題隨時獲取表 Schema/支持各種開源/Saas 模型/可在 NoteBook 中直接問詢/支持多輪對話/生成SQL 可直接運行大數據管理大模型全生命周期管理大模型全生命周期管理如何部署一個模型如何使用模型如何 Finetune 一個模型并發及資源控制Byz
5、er 使用 Hrid Runtime,使用 Ray 來完成 GPU/CPU 資源的管理和調度在 SQL 和大模型融合中的多項設計創新在 SQL 和大模型融合中實現多項技術打磨如何快速將 Byzer 應用于企業業務中PART 05SDK 訪問SDK 輔助生成 SQL Byzer-client-sdk 項目:Java/Scala SDK 快速生成 SQL 代碼Rast 接口訪問Rast 接口調用 SQL用戶直接調用 HTTP 接口傳遞 SQL 語句JDBC 接口訪問JDBC 調用 SQL(實驗 不可用)mlsql-jdbc 驅動,使用標準的 JDBC 協議傳遞 SQL 語句Byzer-RetrievalQA:基于大模型的問答知識庫引擎插件所在位置使用私有數據構建基于大模型的問答知識庫基于 Byzer 大模型全生命周期管理能力上的知識庫引擎四步純 SQL 快速構建知識庫示例加持業務數據后的大模型效果原始模型效果:要么不知道,要么完全一本正經胡編亂造 加持業務數據后的大模型效果知識庫效果:正確回答用戶的問題Byzer 數據庫現狀和未來的發展PART 06Byzer 數據庫現狀和未來的發展Byzer 數據庫現狀和未來的發展THANKS