盤古多模態大模型在多模態的各項下游任務上均取得了業界領先水平 ? 實現方式為:分別抽取圖像和文本特征,然后將一個批次的圖像和文本特征送入判別器,使得配對的跨模態特征聚集在一起,而不配對跨模態特征被拉遠,大數據充分迭代后,模型就能學會將圖像和文本對齊到同一空間。此時,圖像和文本的編碼器可以獨立用于各自下游任務,或協同用于跨模態理解類下游任務。 行業數據 下載Excel 下載圖片 原圖定位