
多模態大模型是AI大模型的發展方向,也是AI廠商競爭的關鍵領域。多模態大模型可接受文字、圖像、語音等多種不同類型數據的輸入、處理、分析,并將結果以不同的模態形式對外輸出,實現異構模態數據協同推理。在ChatGPT推出之后,谷歌、微軟、百度等海內外科技公司紛紛加速了對多模態大模型的研發進度。相較于經過單一的文字類數據訓練的自然語言類模型,多模態模型在訓練階段融合了文字、圖像、三維物體等多維度數據的訓練,可交互的信息類型較多,通用性得到了大大增強,可應用的場景有較大拓展。我們判斷,多模態大模型的技術迭代、產品設計和商業模式的探索將成為下一階段各廠商競爭的關鍵。接下來,我們從算法模型、算力和數據三方面對多模態大模型的技術原理進行深入分析。