Ferret-UI-anyres(“任意分辨率”)架構 雖然 Ferret-UI-base 是基于 Ferret 的架構,但 Ferret-UI-anyres 包含額外的細粒度圖像功能。特別是,預訓練的圖像編碼器和投影層為整個屏幕生成圖像特征。對于基于原始圖像長寬比獲得的每個子圖像,都會生成額外的圖像特征。對于具有區域參考的文本,視覺采樣器會生成相應的區域連續要素。LLM 使用全圖像表示、子圖像表示、區域特征和文本嵌入來生成響應。 其它 下載Excel 下載圖片 原圖定位