《通義萬相:視覺生成大模型的進化與應用.pdf》由會員分享,可在線閱讀,更多相關《通義萬相:視覺生成大模型的進化與應用.pdf(20頁珍藏版)》請在三個皮匠報告上搜索。
1、通義萬相:視覺生成大模型的進化與應用劉宇通義實驗室通義萬相負責人 深度可控,能夠根據任務自我規劃和創作,大幅提升內容生成生成力 視頻和3D生成技術效果向實際應用靠攏 視覺生成成為普惠化的信息生產和傳播方式 ControlNet面世,初探可控生成之道 LLM驅動視覺生成,漸顯精準語義理解與多模生成 行業落地,AI原生應用百花齊放,嶄露頭角視覺生成大模型的進化曲線階階段段特特征征階段階段核心核心能力能力第一階段第一階段階段階段萌芽萌芽第二階段第二階段逐步滲透逐步滲透第三階段第三階段逐步成熟逐步成熟第四階段第四階段全面發展全面發展目前所處階段目前所處階段技術萌芽到開源生態的繁榮技術萌芽到開源生態的繁
2、榮初步初步可控的可控的生成生成技術能力技術能力深度可控,成為普惠化能力深度可控,成為普惠化能力 GAN 技術熱度逐漸達峰,但效果依舊單一 自回歸和擴散模型技術萌芽,生成能力逐漸凸顯 OpenAI和Google分別輸出自研方案,Midjourney v1上線 Stable Diffusion開源,成本可控生成 WebUI上線,插件多樣層出 Dreambooth、Lora定制生成,訓練方式靈活通義萬相基礎模型通義萬相基礎模型通義萬相主站通義萬相主站文生圖通義萬相-圖像生成大模型模型下載通義萬相-視頻生成大模型模型訓練模型訓練模型評測模型評測模型資產庫模型資產庫模型推理模型推理高效微調多概念定制化規
3、?;疐inetune評測體系建立Prompt評測集人類偏好打分資產管理推理優化通義萬相-視覺表征大模型電商等行業解決方案電商等行業解決方案魔搭開源社區魔搭開源社區相似圖風格遷移涂鴉作畫虛擬模特商品展示圖創意文字生成創空間模型服務DashScope通義萬相:從模型到應用生態寫真館模型模型工具工具應用應用微調定制化微調定制化零樣本定制化零樣本定制化高效微調框架高效微調框架深度挖掘數據價值和用戶需求通義萬相圖像生成基礎大模型:Composer系列通義萬相:圖像生成組合生成知識先驗高度可控組合式多概念定制Cones 2相似圖、風格遷移、X-painting、任意分辨率超分等視覺AI任意門 Anydoo
4、r高效多概念定制化Cones 1輕量級微調推理框架Swift高效微調算法Res-Tuning基礎模型:Composer 1.0 組合式生成框架,提供高度可控性和極大創作自由度,ICML ICML 20232023文生圖文生圖風格遷移風格遷移相似圖生成相似圖生成累計用戶數500,000+500,000+累計生成圖片數10 Million10 Million2023.7.7通義萬相發布以來*截止2023.10.30通義萬相統計數據基礎模型:Composer 1.X 基于大語言模型、細粒度圖文對齊的圖像生成新范式,Coming soonComing soon精確語義理解精確語義理解桌子上有10個蘋果
5、屬性綁定屬性綁定一只麻雀、一只鴿子、一只鸚鵡和一只貓頭鷹空間關系空間關系一只戴著白色VR眼鏡的大貓走在上海的城市街道上。背景中,左邊是東方明珠電視塔,右邊是城皇廟復雜場景復雜場景一只大猩猩坐在辦公室桌子前,手里拿著一杯葡萄酒,后面的墻上掛著一個鹿頭宇航員騎馬馬騎宇航員戴著藍色貝雷帽、黃色太陽鏡和紅色圍巾的金毛犬一只金屬小鳥站在木制金字塔上文本圖像實體屬性布局AI生成AI生成AI生成AI生成AI生成AI生成AI生成AI生成微調定制化:多概念定制化Cones Cones 2Cones 2 定制化生成示例定制化生成示例首個做到超多概念同時定制化生成的方法,支持定制化概念數量超過此前SOTA一倍;與現
6、有方法進行對比,從訓練的計算復雜度,以及生成效果,均有顯著提升,NeurIPSNeurIPS 20232023,已在ModelScope、GitHub開源。AI生成 Cones 1Cones 1高度輕量化、高質量、可擴展、魯棒性的多概念定制化生成,ICML 2023 OralICML 2023 Oral。零樣本定制化:視覺AI任意門 AnyDoorAnyDoor 框架圖框架圖 單目標合成單目標合成零樣本物體級圖像合成技術,將目標傳送至特定場景、特定位置,無需微調,輕松生成高質量、高保真的合成圖像。廣泛應用于圖像定制化、多目標組合、虛擬試衣、物體移動換位等多項任務,無限創意盡在掌握。技術細節可參
7、考AnyDoor arXiv論文,即將推出創新應用,敬請期待!多目標合成多目標合成 物體移動、換位物體移動、換位AI合成AI合成AI合成AI合成AI合成模型高效微調:Res-Tuning ResRes-Tuning Tuning 微調算法微調算法 SWIFT SWIFT 輕量級訓練推理框架輕量級訓練推理框架Res-Tuning BypassBasic component在CV、多模態等領域均經過了系列驗證,在訓練效果和其他微調方法相當的情況下,可以做到顯存節省顯存節省30%60%30%60%,NeurIPSNeurIPS 20232023,已在ModelScope SWIFT庫開源??蓴U展的輕
8、量級一站式訓練推理框架;集成了各種高效的微調方法,如LoRA、QLoRA、以及自研的Res-Tuning Bypass等;無縫兼容ModelScope生態系統,打通數據集讀取、模型下載、模型訓練、模型推理、模型上傳等流程https:/ XL高清圖像生成視頻大模型-I2VGen-XL,兩階段模型,分別解決語義一致性和清晰度的問題,參數量共計約37億;大規?;旌嫌柧殻涸诖笠幠R曨l和圖像數據混合預訓練,并在少量精品數據上微調得到,兼具泛化性和生成質量;已在ModelScope開源。中強度高強度輸入低強度 I2VGen XL 框架 運動強度控制 圖像生成視頻AI生成AI生成AI生成AI生成AI生成AI
9、生成AI生成視頻可控生成:VideoComposer VideoComposerVideoComposer 框架圖框架圖VideoComposer 將視頻分解成空間、時序、文本條件,通過組合生成方式提升可控性;論文發表在NeurIPS2023,已在ModelScope、GitHub開源。Motion TransferMotion Transfer Sketch to VideoSketch to Video Video TranslationVideo Translation ImageImage toto VideoVideo VideoVideo InpaintingInpaintingA
10、I生成AI生成AI生成AI生成AI生成AI生成AI生成AI生成AI生成通義萬相:發展豐富AI創作應用生態相似圖文生圖風格遷移AnyDoorVideoComposerI2VGen XL商品展示圖虛擬模特涂鴉作畫MotionAgent寫真館趣味應用:涂鴉作畫 能力:能力:手繪涂鴉,疊加簡單文字描述,手繪涂鴉,疊加簡單文字描述,一鍵生成創意大作;一鍵生成創意大作;技術:技術:ComposerComposer文本文本+涂鴉組合生成,涂鴉組合生成,同時滿足涂鴉和文本輸入約束;同時滿足涂鴉和文本輸入約束;支持多種風格化,已經上線通義萬相支持多種風格化,已經上線通義萬相-應用廣場,歡迎體驗!應用廣場,歡迎體
11、驗!https:/ 支持配置模特與場景,智能支持配置模特與場景,智能生成商品展示圖;生成商品展示圖;降低商品展示環節的場地、降低商品展示環節的場地、模特、修圖等拍攝成本,一模特、修圖等拍攝成本,一步到位獲得專屬模特大片。步到位獲得專屬模特大片。https:/ 劇本生成劇本生成 劇照生成劇照生成 視頻生成視頻生成 配樂生成配樂生成魔搭開源社區:MotionAgenthttps:/ x 阿里云 AIGC亞運郵票通義萬相行業標桿范例應用場景:考勤機使用能力:生成式動漫化業務價值:增加辦公場景的趣味性,傳遞年輕、輕松、有趣的企業文化金山樂言科技 Leyan Tech釘釘魔點ImageStory應用場景:電商使用能力:電商背景圖生成業務價值:降低商品拍攝成本,降低制作商品海報的門檻應用場景:兒童繪本生成使用能力:文生圖業務價值:降低繪本制作的門檻應用場景:辦公軟件中生成配圖使用能力:文生圖、圖生圖業務價值:提高文檔編輯效率,降低圖文插畫的門檻通義萬相,持續進化,促進視覺AIGC普惠化https:/