
基于 30B 的 Movie Gen Video 模型,Meta 將參考人像、個性化文本作為輸入,實現了個性化視頻(PT2V)輸出。Meta 從已訓練好的 T2V Movie Gen Video 參數作為初始化權重,在微調當中使用視覺標記串聯,使其集成到一個統一的框架中,從而允許擴展模型大小。使用可訓練的長提示 MetaCLIP 視覺編碼器從人臉圖像中提取身份特征,然后使用投影層將其與文本特征維度對齊,進而輸入到Transformer 的交叉注意力模塊進行訓練。黃色模塊表示凍結層,采用已訓練好的參數,綠色表示可訓練模塊。訓練策略包括 PT2V 預訓練階段,然后是 PT2V 高質量的微調。