《A3--范昊天--文生圖效果評估體系設計與實踐.pdf》由會員分享,可在線閱讀,更多相關《A3--范昊天--文生圖效果評估體系設計與實踐.pdf(48頁珍藏版)》請在三個皮匠報告上搜索。
1、文生圖效果智能化評估體系設計與實踐范昊天字節跳動范昊天字節跳動 抖音智能評測實驗室算法工程師碩士畢業于倫敦大學,先后就職于華為和創業公司,長期負責多模態、圖像算法方向的研究工作。20年加入字節跳動,先后參與抖音音畫質評估體系建設、多模態內容理解、圖像算法工程化、AIGC生成算法評估等方向。目前在抖音智能評測實驗室負責大模型算法相關工作。抖音智能評測實驗室,基于豐富多樣的物料、測試集,評測算法,主客觀評測方案及便捷的模型管理能力組成的大模型評測體系,旨在為抖音系各業務的效果和安全提供專業的大模型評測能力。目錄C O N T E N T S1.文生圖算法簡介2.文生圖效果評估方法綜述3.T2IEV
2、AL-40K Benchmark4.抖音文生圖評測鏈路建設5.未來展望文生圖算法簡介01色彩絢麗而簡約的現代中國風,極具美學的平面風格,中國時尚女性的面部特寫,中國元素背景,簡單的平面構圖,充滿藝術氣息,對比色,高純度色,插畫作品國風倒計時2天超現實主義,電影特效,真實質感,高清,8K,東方美學,中式怪誕美學,中國神話傳說中的神獸,山海妖怪,一座巨大的鬼城,霧氣彌漫,一個巨大的人形羊頭的山海妖精立在中間月球,表面坑洼的月球,灰色地帶,1個宇航員在沙灘上,喝著西瓜汁,曬太陽,悠閑度日星空,宇宙,星球,畫面中心是一個巨大的黃色“抖音logo”,by Gustav Klimt,by Shaun Ta
3、n,梵高星空風格,莫奈的夢幻顏色AlignDRAWStackGANDALL-EGAN Based MethodAutoregressive Stable DiffusionDALL-E2Diffusion BasedMJv6FLUX豆包文生圖可圖混元什么是圖像生成模型生成模型的實質是估計訓練數據的真實分布生成網絡需要從隱空間(latent space)中隨機采樣作為輸入,其輸出結果需要盡量模仿訓練集中的真實樣本。=(0,)生成網絡簡單的圖像退化過程慢慢的將數據映射到噪聲Frozen text encoderPrompt:一個吐著舌頭的金毛狗embeddingsDiffusion modelDD
4、PM一名男子站在果園的梯子上,左手拿著一些蘋果文生圖效果評估方法介紹02文生圖模型效果的評估維度bird with white,black,and brown incolor,with a brown beak文本模態圖像模態圖文模態 滿意度(總分)圖文匹配度 多樣性 清晰度 美觀度 結構完整性Prompt實義prompt無實義prompt蘊含類prompt圖文匹配度的評價方法Question Based核心是將圖文匹配度轉換成VQA問題,通過多模態大模型的問答能力來完成圖文匹配度的打分工作。例:DA-Score 評分流程Question Based 評估方法存在的缺陷1.存在維度,GPT打分
5、準確率較低數量關系、人物年齡、位置關系、相似關系、文字,部分風格描述等,多模態大模型打分效果基本不可用2.總分相關性存在缺陷,VQA模型打分結果聚合成總分后與人工的打分相關系數較低3.部署大模型的資源成本相對較高圖文匹配度的評價方法Score BasedGoogle-Reward model CVPR 2024 Best Paper1.Score based模型相比question based,可解釋性稍差2.一般score based model跟主觀打分的相關性會更高3.可做多任務學習,同時評價圖文匹配、結構等指標畫面質量評價方法結構完整性基于MLLM進行結構問題分析A-Bench:Are
6、 LMMs Masters at Evaluating AI-generated Images?MLLM在生成圖像的結構問題判斷上效果很差畫面質量評價方法結構完整性基于圖像異常檢索方法進行評測未知結構問題的挖掘能力:畫面質量評價方法結構完整性對于訓練數據中不存在的結構問題,我們希望模型也可以很好的感知到。即模型可以具備挖掘未知結構問題的能力。UperNet 語義分割網絡結構畫面質量評價方法清晰度AIGC生成圖像需要著重關注的一些問題:清晰度圖像中物體邊緣和細節的清晰程度偽像圖像中出現的不真實、失真的視覺效果色彩圖像中色彩的準確性和飽和度,色彩之間的平和和協調性亮度生成圖像中容易出現過曝/過暗的
7、情況噪聲圖像中由于傳感器或者處理過程引入的隨機干擾低清晰度過曝偏色噪聲偽像32322812151212122128010203040彩情感畫面質量評價方法美學千人千面,但從專業的維度上可抽象成標準如:攝影美學定義構圖質感重心 質感畫面整體清晰度高,紋理細節豐富 色彩顏色協調 重心遠近景深的高級攝影處理手法 構圖美學構圖標準(中心/三分/對稱等)情感人物情緒表達自然真實場景拆解、定標準和人員培訓,使得標注人員之間的標注相關性達到較高的標準。用戶對于生成圖像的綜合滿意程度總分畫面質量評價方法模型設計團隊在CVPR2024 NTIRE 圖像質量評估賽道取得TOP名次如何衡量打分模型的性能?T2IEV
8、AL-40K 03T2IEVAL-40K 是抖音Byteval Lab和南開大學聯合推出的文生圖模型評估數據庫,數據庫包含4k個prompt和40k個圖文對,是目前業界量級最大、粒度最細的T2I Eval 數據集之一。Alignment部分數據標注流程 40K Image Text PairsExample:Rose tree,oil painting元素拆解Rose TreeOil paintingElement scoreOverall score(1-5)Generated Image531Rose tree 1Oil painting1Rose tree 1Oil painting0R
9、ose tree 0Oil painting0https:/huggingface.co/datasets/DY-Evalab/T2IEVAL業界圖像生成評估Benchmark對比抖音文生圖評測鏈路04物料管理模型生成機審能力標注管理結果品評估評測標準評測類型評測領域CVAudioNLP/LLM主觀客觀眾測下發評測指標評分模式準出建設Byteval文生圖評測效果展示數據展示,主觀打標結果和模型打標結果,直觀對比模型差異未來展望05低質數據過濾Badcase召回自動化評測未知問題挖掘廣度/Benchmark覆蓋面垂類美感圖文匹配大眾偏好結構問題評測指標性能RLHF輔助評測賦能業務featureB
10、enchmark生態評測能力應用結構問題檢測+inpainting修復鏈路攔截badcase,提升用戶體驗用戶prompt生成模型ABCDT2IEVAL-ModelABCD質量排序Reference1.Rich Human Feedback for Text-to-Image Generation2.Divide,Evaluate,and Refine:Evaluating and Improving Text-to-Image Alignment with Iterative VQA Feedback3.EVALALIGN:Supervised Fine-Tuning Multimodal
11、LLMs with Human-Aligned Data for Evaluating Text-to-Image Models4.Revisiting Text-to-Image Evaluation with Gecko:On Metrics,Prompts,and Human Ratings5.MSTRIQ:No Reference Image Quality Assessment Based on Swin Transformer with Multi-Stage Fusion6.A-Bench:Are LMMs Masters at Evaluating AI-generated Images?7.機器學習李宏毅8.擴散模型從原理到實踐李忻瑋、蘇步升、徐浩然9.TIFA:Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering10.Unified Perceptual Parsing for Scene Understandinghttps:/huggingface.co/datasets/DY-Evalab/T2IEVALT2IEVAL開源項目抖音智能評測實驗室微信公眾號感謝聆聽關注公眾號