
多模態技術持續演進,圖像、音視頻等領域取得突破性進展。隨著對跨模態數據融合、人類認知能力模擬等研究的加深,多模態大模型不斷發展。2021年初,OpenAI率先發布文生圖模型DALL·E,由此拉開多模態模型序幕。此后,文生圖領域相繼出現谷歌Imagen、Midjourney、Stable Diffusion等模型,不斷推升文生圖模型能力。在音樂領域,文生音樂模型Suno V3高質量的音樂創作能力讓文生音樂開始受到市場關注。在視頻領域,Runaway Gen-2、Pika等不斷提高生成視頻質量,此后OpenAI Sora不僅將視頻長度提升至60秒,還讓視頻具備了3D一致性。此外,谷歌推出創新性的AI生成式交互環境Genie,實現由單張圖像提示生成交互式視頻。多模態模型正在頭部AI公司與細分賽道領先者的共同推動下持續突破,技術愈發成熟。