《大模型與 RAG 技術在教育領域的應用探索-林輝 .pdf》由會員分享,可在線閱讀,更多相關《大模型與 RAG 技術在教育領域的應用探索-林輝 .pdf(43頁珍藏版)》請在三個皮匠報告上搜索。
1、大模型與RAG技術在教育領域的應用探索網易有道 林輝Outline 背景簡介“子曰”大模型 QAnything 應用落地背景簡介 關于有道 網易旗下子公司,2006.6 用戶量10億+,月活1.2億+全球用戶量最大互聯網教育品牌 關于我 2011年畢業于中科院計算所后加入有道 負責過計算廣告、圖像/語音識別、文檔翻譯等研發 目前在負責LLM/RAG的商業化落地 子曰和QAnything 子曰:國內首個教育大模型 QAnything:自研RAG引擎,2024年1月開源,近1萬stars背景簡介-技術積累場景化能力自然語言翻譯服務文本翻譯圖片翻譯語音翻譯文檔翻譯同傳通用文字識別手寫體文字識別表格識
2、別整題識別(含公式)文檔解析語音合成長語音轉寫實時語音識別實時語音評測個性化語音定制精品題庫題目識別切分中英文作文批改學業大數據平臺試卷手寫體擦除計算機視覺服務智能語音服務智慧教育服務核心引擎YNMT自然語言翻譯NLU語義理解OCR光學字符識別ASR語音識別TTS語音合成掃描交互指點交互手寫交互高拍儀輸入虛擬人交互智能交互Interspeech非母語兒童英語語音識別雙賽道第一名NLPCC中文語法糾錯第一名AACL 中文語法錯誤診斷第一名InfoQ 中國技術力量榜單TOP10量子位人工智能領航企業 TOP50技術積累-從Transformer到子曰有道NMT上線attention is all
3、you need的文章2017堅持把最先進的技術落地教育,讓“學習更加高效和輕松”,踐行“夫子教人,各因其材”有道NMT升級并基于Transformer模型2018有道詞典筆2代首次搭載離線Transformer NMT2019將基于Transformer的ASR和TTS技術落地業務2020實現基于Transformer 的流式ASR技術落地2021有道詞典筆P5搭載 的 自 研 離 線ASRTTS也升級為Transformer技術2022有道推出國內首個大模型子曰,及六大應用場景2023子曰大模型計算機視覺智能語音AI技術有道神經網絡翻譯高性能計算子曰-面向文字處理和學習場景的大模型子 曰
4、大 模 型通 用 問 答學 科 問 答文 字 處 理子曰-國內首個教育大模型9 月1日,子曰大模型通過深度合成服務算法備案。11月4日,通過國家七部委聯合公布的生成式人工智能服務管理暫行辦法的備案,成為首批通過備案的教育大模型。l參與教育、金融、政務、文旅等大模型系列標準制定子曰大模型技術架構圖妙筆生花的文字助手,答疑解惑的AI老師目標應用場景數據通用預訓練數據業務數據合成數據數據多樣性LLM翻譯AIBox寫作指導口語教練上下文語境翻譯中文語法邏輯中文表達習慣長難句翻譯精簡翻譯集合創作/問答風格化轉寫語法糾錯論文去重寫作模板寫前指導/寫后批改題目解析/核心觀點作文結構/作文素材多維評分/作文總
5、評改進建議/好詞好句自由對話場景對話對話推薦對話評價訓練雙語詞表指令微調對齊自動化評估訓練加速上下文窗口擴展數據清洗學科老師多輪互動全學科問答循循善誘多模態交互子曰-技術工作要點 LLM數據、預訓練、指令微調、對齊、評估、推理服務 數據 自有數據+專有領域數據+數據合成+安全性 質量高、數據多、業務強相關、豐富多樣 算力 1000 A800卡子曰-技術工作要點 跑通LLM數據、預訓練、指令微調、對齊、評估、推理服務全流程 技術攻關 從頭訓練 vs.合適的基座模型 高效高質量的詞表適配 上下文窗口擴展 訓練效率提升:多機多卡,3D并行、混合精度訓練、斷點重訓關鍵參數高精度 垂直領域優化:prom
6、pt調優、系統微調、人類偏好對齊 指令遵循能力提升 解碼效率提升:消費級顯卡提供在線服務,混合精度、量化、動態batch 價值觀對齊:模型安全優化+專有安全模塊 評估:人工評估 vs.自動評估RAG解決大模型應用落地教育的更多實際問題幻覺知識更新時間更新(訓練)成本質量問題服務(推理)成本優勢 Velocity(速度)Value(價值/成本)Volume(數據量)Variaty(數據多樣性)溯源檢索增強生成(RAG)2.檢索【上下文數據、實時數據等】3.增強提示查詢1.query4.回應QAnythingQAnything 開源RAG引擎 202401-Retrieval-Augmented
7、Generation 萬物皆可問 doc,ppt,excel,pdf,圖片等 網頁鏈接 視頻/音頻 一鍵安裝,快速使用 https:/qanything.ai https:/ 支持純本地部署 Github 9500 starsQAnything 開源RAG引擎 202401-Retrieval-Augmented Generation 萬物皆可問 doc,ppt,excel,pdf,圖片等 網頁鏈接 視頻/音頻 一鍵安裝,快速使用 https:/qanything.ai https:/ 支持純本地部署 Github 9500 starsQAnything 開源RAG引擎 BCEmbeeding
8、模型 跨語言問答能力 中英日韓 豎排對比 Embedding 橫排對比 Rerank 整體組合最優https:/ RAG VS LLM context 硬盤 vs 內存 什么是RAG的關鍵?形式多樣的數據 高質量的輸入處理 靈活的查詢排序 LLM的理解力與可靠性 摘要 翻譯 可控性RAG效果優化 檢索的問題 在DB里面沒有 初始檢索里面沒有 Rerank環節丟失了 放context環節漏了 LLM的問題 沒有提取出來 輸出不完整 幻覺 輸出格式不對 答案不符合要求 過于籠統 系統的問題 擴展性/穩定性 速度/精度RAG 效果優化 訓練的好處 訓練的關鍵點 問題的定義 符合RAG需求 任務的安排
9、 難易要合適 數據的生成 句子/GPT4 真實問題 Rerank score 可比較的分數RAG 效果優化 訓練的好處 訓練的關鍵點 問題的定義 符合RAG需求 任務的安排 難易要合適 數據的生成 句子/GPT4 真實問題 Rerank score 可比較的分數RAG效果優化-Why Rerank?缺數據?數據越多越好嗎?精度與速度的tradeoffRAG效果優化-Why Rerank?缺數據?數據越多越好嗎?精度與速度的tradeoffRAG效果優化-Why Rerank?RAG效果優化-Why Rerank?缺數據?數據越多越好嗎?精度與速度的tradeoffRAG效果優化-混合檢索 混合
10、檢索的必要性 特定名字 罕見專有詞 ID 性能的影響 檢索后的處理 RRF?Rerank 底層邏輯?彌補embedding和rerank的GAPRAG 效果優化 數據預處理 Quality in quality out Chunking 太大?太小 Sentence-window 自適應 Query改寫 指代替換、問題拆解 意圖理解/分叉反問 Meta信息 Title/caption/summarization/gen questions/keywords/tree indexRAG 系統的評價 數據的質量 檢索的質量 Hitrate/mrr/blue/rouge 答案的質量 評價的方式 Gp
11、t4打分 人工評測評價的維度 多樣性 完整度 準確性 相關性 真實性 細節性 流暢性 結合其他技術-視覺 更高的識別質量要求 文檔解析+版式分析:段落、標題、配圖、表格、公式、頁眉頁腳、引文 自動切題 手寫識別和干擾去除 公式識別 支持LaTeX結合其他技術-語音 中式英語識別 口型驅動 音素級糾音 中英混雜的識別和合成 聲音降噪 能打斷 多音色、有情感、更像真人 讀公式、讀古文 https:/ 高中選科/志愿填報 準確率優化45%-95%RAG中的多輪問答 對話系統的Agent應用落地-小P老師國內首個全科答疑的AI全科學習助手,全科全題型答疑精講題目的答疑和講解可追問可反問啟迪自主思考蘇格
12、拉底式,個性化講解多輪互動引導舉一反三,啟發思維,點燃興趣知識點融會貫通語音、文字、拍照、圖片多形式交互應用落地-小P老師國內首個全科答疑的AI全科學習助手,全科全題型答疑精講題目的答疑和講解可追問可反問啟迪自主思考蘇格拉底式,個性化講解多輪互動引導舉一反三,啟發思維,點燃興趣知識點融會貫通語音、文字、拍照、圖片多形式交互小P老師-常見case實際情況理想情況*均來自實際用戶日志,后頁有對比說明用戶側輸入方式多樣用戶框題隨性,帶來的題目不全用戶框題隨性,帶來的上下題干擾用戶希望講一道作答過的題,手寫干擾干凈、無扭曲、邊界清晰、內容齊整小P老師-常見case實際情況理想情況*均來自實際用戶日志全
13、題型、全場景、圖文結合靠文字可以很清晰的描述清楚一道題小P老師-技術方案輸入人格化 I 自然交互輸出拍照輸入(OCR)語音輸入(ASR)文本輸入講解問題(類真人TTS)基座模型意圖理解通用能力知識理解數理邏輯教師人格啟發式學習全科知識多輪問答善于鼓勵檢索增強知識庫教輔資料題庫資源風格扮演 輔導作業 詢問歷史知識小P老師案例4:四川省宜賓市大模型教育場景落地與四川省宜賓市教體局協作,目前已落地全科答疑教師“小P老師”、基于大模型的“AI口語教練”和人工智能創新實驗室“AI創新教室”等產品。案例1:參考信息報社智能翻譯項目案例2:海淀區開展中小學“雙師課堂”模式應用與北理工附中、十一學校龍樾實驗中
14、學、中關村三小、海淀區實驗小學4所學校試點開展人工教師+AI教師的新型“雙師課堂”模式,開展基于AI應用技術和虛擬仿真技術的AI自習室項目建設。案例3:杭州市拱墅區開展智慧教育解決方案杭州市拱墅區打造了一系列智慧教育解決方案,涵蓋了智慧體育、AI口語訓練和智慧學業等多個領域,全面滲透到拱墅區的教育場景中。案例5:海淀區信息技術課應用、智慧杯賽事與海淀教科院對接,依托 數字人 技術,探討在傳統信息技術課中設置虛擬人授課等有關的人工智能課程,并在后續智慧杯大賽賽道設置中,尋求創新,打造課程、競賽全鏈條通路。案例6:有道與雅思考試的主辦方英國文化教育協會(British Council)建立戰略合作伙伴關系在Hi Echo中體驗雅思口語模擬練習更多落地謝 謝 聆 聽Qanything公眾號我的微信https:/qanything.aiQ&A