1、硅模型技術實踐及開源社區思考AFUTURE TOWARDS OPENSOURCE ON-DEVICE AINEXA AI 在做什么?背景與困境終端 AI-未來已來0.050.0100.0150.020222023202420252026202720282029203020312032ManufacturingAutomotiveGovernmentIT&TelecomConsumers&GoodsHealthcareOther End-Use Industries15.219.123.531.140.249.357.272.088.2111.1143.6Size(USD Billion)Sou
2、rce:Market.us.Edge ai market.Year融法律醫療科研移動設備移動交通業機器基礎設施為什么是終端 AI?隱私:不會向外部傳輸任何敏感數據,從提合規性成本效益:利基于設備的計算能來降低服務器費低延遲:消除服務器通信、即時處理和反饋造成的延遲離線可:需互聯連接即可運,在任何地都可靠背景與困境當前挑戰Nexa AI 為開發者和企業提供最佳的設備端智能模型、具包和解決案模型沒有針對終端設備進優化模型太速度慢且耗電法實現流暢的性能壓縮或調整會顯著降低本地部署的準確性終端推理的持有限跨設備的持不致 部署變得復雜缺乏硬件加速持(GPU/NPU)影響速度和效率公司標背景與困境NEXA
3、 AI PRODUCTS隱私 低成本 低延遲NEXA SMALL LANGUAGE MODELS能源利效率提 70 倍;RAG+Llama3-8B 快 35 倍;在函數調:僅 0.5B 模型優于 GPT-4oNEXA ON DEVICE MODEL HUB全的量化壓縮&開源的設備端 AI 模型庫,具有便捷的篩選機制和部署,可幫助開發者實現快速原型設計NEXA SDK持 ONNX 和 GGML 模型的本地設備端推理框架。它持本、圖像、頻和多模態模型背景與困境我們的產品業界認知在 HuggingFace 的所有模型中位列第在歌 Google I/O 2024 報道背景與困境NEXA SMALL L
4、ANGUAGE MODELS能源利效率提 70 倍;RAG+Llama3-8B 快 35 倍;在函數調:僅 0.5B 模型優于 GPT-4oNEXA ON DEVICE MODEL HUB全的量化壓縮&開源的設備端 AI 模型庫,具有便捷的篩選機制和部署,可幫助開發者實現快速原型設計NEXA SDK持 ONNX 和 GGML 模型的本地設備端推理框架。它持本、圖像、頻和多模態模型我們的團隊 Our Team背景與困境DR.ALEX CHENCEO,創始人斯坦福學博;斯坦福華創業者協會主席ZACK LICTO,聯合創始人斯坦福學碩;前Googler,4年歌端側AI開發經驗COLE LENG總經理
5、哈佛學+清華學2 年帶領團隊開發 AI 產品功能令牌 FUNCTIONAL TOKEN 參數成階段 函數選擇階段 以統模型為策略設定 重新設定標關鍵步驟公通過從 到 范圍內分配功能令牌名稱,我們能夠將函數名稱預測任務轉換為 N 個功能令牌的單令牌分類任務訓練數據集樣例Below is the query from the users,please choose the correct function and generate the parameters to call the function.Query:queryResponse:(param1,param2,.)Function de
6、scription:function_description新思路 Octopus 系列模型功能令牌 FUNCTIONAL TOKEN新思路 Octopus 系列模型相較于傳統RAG,功能令牌的引可節省 95%的輸上下令牌并減少語義搜索中的延遲傳統 RAG 解決思路引功能令牌概念后OCTOPUS V2世界個持 AI AGENT GPT-4O 級別函數調準確性的設備上 SLM(0.5B 2B)適應性-High Adaptability性能表現-High Performance在 Google Gemma 上進后期訓練并適應 MicrosoftPhi、Apple Open-ELM、Meta Lla
7、ma3函數調的精度與GPT-4o相同,GPT-4o+RAG快4倍新思路 Octopus 系列模型Octopus V2 解決思路新思路 Octopus 系列模型OCTOPUS V2世界個持 AI AGENT GPT-4O 級別函數調準確性的設備上 SLM(0.5B 2B)函數調準確度超過GPT-4函數推理時間極短新思路 Octopus 系列模型Query:Tell me the result of derivative of$x3$when$x$is 2?Response:(Determine thederivative of the function$f(x)=x3$at thepoint w
8、here$x$equals 2,and interpret theresult within the context of rate of change andtangent slope.)圖遍歷 階段成 多步遍歷新思路 Octopus 系列模型圖語模型 GRAPH OF LANGUAGE MODEL圖語模型:其中每個節點都是個專的模型,邊緣于信息傳輸。該查詢是通過主節點和作節點的協作來實現的OCTO-NET端-云協作,協同各類垂直領域的開源模型新思路 Octopus 系列模型語模型作為圖節點-LM as nodes in graph每次僅激活兩個10B的SLM-實現效性能功能:將命令(use
9、r query)轉換并引導到適當的專模型參數:100億參數(10B Parameters)性能:在 MMLU 5-shot 基準測試中優于 GPT-3.5、Llama 3 8B和 Phi 3-mini使得使Octo-net的端側場景具備限的擴充擴展空間OCTO-NET端-云協作,協同各類垂直領域的開源模型新思路 Octopus 系列模型使得使Octo-net的端側場景具備限的擴充擴展空間新思路 Octopus 系列模型Octo-planner 解決思路性能表現-High Performance功能:使規劃 Agent 將任務分解為步驟,并通過操作代理執它們,優化資源受限設備上的任務處理參數:38億參數(3.8B)性能:域內測試成功率為 97%OCTO-PLANNER準確度達 97%的具有復雜規劃和函數調能的終端語模型(3.8B)新思路 Octopus 系列模型OCTO-PLANNER準確度達 97%的具有復雜規劃和函數調能的終端語模型(3.8B)新思路 Octopus 系列模型OCTOPUS V3適于各類 AI Agent的體量最輕、性能最強的多模態端側模型新思路 Octopus 系列模型Octopus V3 解決思路性能表現-High Performance功能:圖像/本輸、函數調輸出;精通普通話和英語參數:探索 nexa.ai