
在語言能力之外,AI 大模型的多模態能力也快速提升。2023 年初,主流閉源大模型通常為純文本的 LLM。2023 年至今,閉源模型的多模態能力具有大幅度提升,目前主流閉源大模型通常具備圖像理解、圖像生成能力。如圖表 24 所示,雖然開源模型的文本能力有了較大提升,但大多數開源模型尚不具備多模態能力。目前大模型多模態能力的技術聚焦轉向了原生多模態。全球僅谷歌和 OpenAI 發布了其原生多模態模型 Gemini、GPT-4o。創建多模態模型時,往往分別訓練不同模態的模型并加以拼接,而原生多模態模型一開始就在不同模態(文本、代碼、音頻、圖像和視頻)上進行預訓練,因此能夠對輸入的各模態內容順暢地理解和推理,效果更優。例如,對于非原生多模態模型的 GPT-4,其語音模式由三個獨立模型組成,分別負責將音頻轉錄為文本、接收文本并輸出文本、將該文本轉換回音頻,導致 GPT-4 丟失了大量信息——無法直接觀察音調、多個說話者或背景噪音,也無法輸出笑聲、歌唱或表達情感。而原生多模態模型 GPT-4o,多種模態的輸入和輸出都由同一神經網絡處理,因此信息丟失更少,模型效果更好。