當前位置：首頁 > 報告詳情

計算機行業GPT系列：具身化多模態PaLM~E-230314（17頁）.pdf

上傳人： sec****ies 編號：118311 2023-03-14 PDF PDF DOCX DOCX DOCX 17頁 2.73MB 打包全文圖表打包全文圖表

下載：

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載報告到電腦，查找使用更方便

VIP專享文檔

書簽

分享

收藏

已收藏

版權投訴

/17

立即下載

報告標簽

：具身化多模態PaLM-E報告

word格式文檔無特別注明外均可編輯修改，預覽文件經過壓縮，下載原文更清晰！

三個皮匠報告文庫所有資源均是客戶上傳分享，僅供網友學習交流，未經上傳用戶書面授權，請勿作商用。

《計算機行業GPT系列：具身化多模態PaLM~E-230314（17頁）.pdf》由會員分享，可在線閱讀，更多相關《計算機行業GPT系列：具身化多模態PaLM~E-230314（17頁）.pdf（17頁珍藏版）》請在三個皮匠報告上搜索。

1、免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。1 證券研究報告計算機計算機 GPT 系列：系列：具身化多模態具身化多模態 PaLM-E 華泰研究華泰研究計算機計算機增持增持 (維持維持)研究員謝春生謝春生 SAC No.S0570519080006 SFC No.BQZ938 +(86)21 2987 2036 聯系人袁澤世，袁澤世，PhD SAC No.S0570122080053 +(86)21 2897 2228 行業行業走勢圖走勢圖資料來源：Wind，華泰研究 2023 年 3 月 14 日中國內地專題研究專題研究 PaLM-E：具身化的多模態大語言模型：

2、具身化的多模態大語言模型 PaLM-E 是由谷歌于 3 月 6 日提出的最新大語言模型，其特點在于引入具身化和多模態概念。具身化指的是在機器學習中涉及物理實體，對應 PaLM-E指導現實的機器人完成相應任務；多模態指的是 PaLM-E 在模型輸入中嵌入了文本、圖像、具身數據等信息。PaLM-E 的核心思想在于，通過將多模態信息編碼為與語言相似的形式，嵌入已有的 PaLM 模型，實現多模態的聯合訓練。其中，規模最大的 PaLM-E 參數達 5620 億，是目前最大的視覺語言模型。從訓練結果看，PaLM-E 具有很強的泛化和遷移能力，不僅能完成機器人具身推理任務，還能完成常規的視覺語言任務和通用語

3、言任務。PaLM-E 解決了機器學習的解決了機器學習的 grounding 問題問題機器學習的 grounding 問題，指的是如何將抽象的符號或概念與真實世界的物體或事件聯系起來的問題。例如，讓機器學習模型將“蘋果”這個詞與“具有形狀、顏色、味道等屬性的水果”相關聯。已有的很多模型是基于文本數據訓練，沒能與真實世界的視覺和物理傳感器模態建立良好聯系，且多模態輸入尚未普及，限制了模型在現實世界中的推理能力。PaLM-E 通過將圖像、文字、具身數據聯合訓練，并引入多模態輸入，增強了模型對現實中對象的理解，實現了機器人處理具身推理任務，較好解決了 grounding 問題。編碼器是實現多模態輸入

4、的關鍵編碼器是實現多模態輸入的關鍵對應不同類別的多模態，需要分別設計不同類型的編碼器進行編碼。根據多模態的種類，PaLM-E 涉及的編碼器主要包括：1）狀態估計向量，實現物體位置、尺寸和顏色等狀態信息編碼；2）ViT：實現 2D 圖像編碼；3）對象為中心的表示：實現對視覺輸入中各對象的編碼；4）OSRT：實現對 3D場景的編碼；5）實體引用：實現對難以用自然語言表述的對象的指代。完成編碼后，即可注入已有模型進行訓練和下游任務執行。PaLM-E 以“在環路”的方式指導以“在環路”的方式指導現實現實機器人完成具身任務機器人完成具身任務 PaLM-E 訓練數據集包含數十個子訓練集，涉及視覺、語言和

5、具身數據。由于以往的 LLM 在具身研究和相應數據集積累上較少，因此訓練集中的具身數據占比僅 8.9%。在實際執行任務時，PaLM-E 以“在環路”的方式，一步一步指導機器人操作，并根據機器人的反饋調節輸出指令。在任務與運動規劃、桌面環境操作和移動操作等具身任務中，PaLM-E 能在部分仿真任務上取得優于 SOTA 的結果，并成功指導現實中機器人完成長期任務。PaLM-E 同樣在同樣在視覺視覺/語言任務上取得較好效果語言任務上取得較好效果雖然完成機器人具身任務是 PaLM-E 模型研究的重點，但是經過文本、圖像和具身混合數據集聯合訓練后，PaLM-E 同時獲得了良好的通用視覺語言任務處理能力

6、，甚至在某些測試集中取得了優于微調模型的結果。但是，在自然語言生成等通用語言任務上，多模態訓練使得小參數規模的 PaLM-E 存在災難性遺忘問題，PaLM-E-12B 相比其原版 PaLM-8B 的自然語言生成性能下降 87.3%。不過，可以通過增加模型參數量實現性能改善。當模型參數增大到 PaLM-E-562B 時，性能僅下降 3.9%。風險提示：宏觀經濟波動，技術進步不及預期。本報告內容均基于客觀信息整理，不構成投資建議。(24)(14)(3)818Mar-22Jul-22Nov-22Mar-23(%)計算機滬深300 免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。2 計算機

7、計算機正文目錄正文目錄 PaLM-E：具身化的多模態大語言模型：具身化的多模態大語言模型.3 現有模型：不能很好解決 grounding 問題.4 將多模態輸入將多模態輸入 LLM 的關鍵：設計編碼器的關鍵：設計編碼器.5 狀態估計向量：描述物體狀態.5 ViTs：解決 2D 圖像編碼.5 對象為中心的表示：將視覺輸入分離成對象.5 OSRT：提供 3D 場景表示.5 實體引用：直接指定引用對象.5 PaLM-E：模型設置：模型設置+訓練集選擇訓練集選擇+實驗結果實驗結果.6 模型構建：構建了從小到大多種尺寸的 PaLM-E.6 訓練數據集：多種數據的混合.6 實驗設置：多種環境下進行任務設

8、計.7 實驗結果：遷移特性良好，能夠指導真實機器人完成任務.7 任務與運動規劃.8 桌面環境操作.9 移動操作.11 其他實驗：通用視覺語言任務和通用語言任務.13 風險提示.14 8X8XdXaY9W8XcWaY7NdN8OmOmMtRoNjMoOpMfQrQqM8OnMrRNZoPoRvPqQxP 免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。3 計算機計算機 PaLM-E：具身化的多模態大語言模型：具身化的多模態大語言模型 PaLM-E 引入具身化引入具身化和多模態和多模態概念。概念。谷歌在 2022 年提出的 PaLM 模型基礎上，引入了具身化和多模態概念，實現了指導現實

9、世界機器人完成相應任務的功能。PaLM-E 的字面理解，是以 PaLM 作為預訓練的語言模型，并使其具身化（Embodied）。其中，機器學習中的具身化是指一種涉及到物理實體（如機器人）的機器學習方法，它可以使人工智能通過感知、行動和交互來學習和推理。具身化的機器學習方法可以處理多模態的數據，如語言、視覺和觸覺，并且可以適應不同的環境和任務。PaLM-E 主要思想是利主要思想是利用現有用現有 LLM 和語言嵌入方法解和語言嵌入方法解決多模態問題。決多模態問題。PaLM-E 的主要架構思想是，將連續的、具體的多模態觀察（如圖像、狀態估計或其他傳感器模態），轉化為和語言 token 嵌入空間維數相

10、同的向量序列，用和語言 token 同樣的方式注入預訓練語言模型的語言嵌入空間（embedding space），使得 LLM 能夠以處理文本的方式處理多模態信息，從而建立文字和感知之間的聯系，解決機器人相關的具身問題。PaLM-E 是一個僅基于解碼器（decoder）的自回歸的生成類 LLM，在給定前綴（prefix）或提示（prompt）的情況下，能夠自回歸地生成文本補全。PaLM-E 輸入輸入為為多模態，輸出多模態，輸出為純為純文本。文本。PaLM-E 的輸入是多模態句，由文本和連續觀察組成，與觀察相對應的多模態 token 可以包括圖像（image）、神經 3D 表示（neural 3

11、D representations）、狀態（states）。例如：“Q:What happened between and?”，其中代表的就是圖片的嵌入。PaLM-E 的輸出是由模型自回歸生成的文本，可以是問題答案，也可以是由 PaLM-E 以文本形式生成的機器人可執行的一系列決策。圖表圖表1：PaLM-E 的模型示意圖和任務示例的模型示意圖和任務示例資料來源：PaLM-E:An Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究 PaLM-E 有很強的有很強的遷移和遷移和泛化能力。泛化能力。谷歌指出，雖然不是實驗的主要目

12、的，但 PaLM-E 還是表現出廣泛地能力，包括零樣本學習多模態思維鏈（chain-of-thought，CoT，一種利用大模型的上下文學習能力來完成任務的方法）、少樣本提示、無需 OCR（光學字符識別）的數學推理、多圖推理（盡管只在單張圖像提示上進行過訓練）等能力。模型示意圖模型示意圖圖像圖像其他其他文字文字以谷歌提出的以谷歌提出的PaLM大語大語言模型（言模型（LLM）為基礎）為基礎輸輸入入輸輸出出文字文字主要任務主要任務主要是與控制機器人相關的任務主要是與控制機器人相關的任務任務和移動規劃任務和移動規劃桌面操作桌面操作移動操作移動操作次要任務次要任務與視覺問答和語言相關的任務與視覺問答和

13、語言相關的任務視覺問答，圖像描述視覺問答，圖像描述純語言類任務純語言類任務免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。4 計算機計算機圖表圖表2：PaLM-E-562B 能夠實現的部分任務能夠實現的部分任務資料來源：PaLM-E:An Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究現有模型：不能很好解決現有模型：不能很好解決 grounding 問題問題現有模型沒有很好的處理現有模型沒有很好的處理 grounding 問題，限制了模型在現實世界中的推理。問題，限制了模型在現實世界中的推理。機器學

14、習的grounding 指如何將抽象的符號或概念與真實世界的物體或事件聯系起來的問題。例如，如何讓機器學習模型理解“蘋果”這個詞不僅是一個符號，而且是一個具有形狀、顏色、味道等屬性的水果。grounding 問題的處理在涉及大量符號和感知信息的計算機視覺領域尤為重要?，F有模型的主要問題表現在：1）表示與現實沒有建立很好的聯系。表示與現實沒有建立很好的聯系。雖然在大量文本數據上訓練出的 LLM 能得到與物理世界相關的表示（representation，即某種特征），但是在計算機視覺和機器人領域中，表示與真實世界的視覺和物理傳感器模態沒有建立起很好的聯系。2）多模態輸入尚未普及。多模態輸入尚未普及

15、?，F有的研究，將 LLM 的輸出與機器人相連接來實現決策，但是這些 LLM 只能夠以文本方式輸入，不能很好地適應與幾何場景配置相關的任務（比如移動積木塊等）。3）很多模型不能實現很多模型不能實現機器人具身推理任務。機器人具身推理任務。目前已有的 SOTA 視覺語言模型，是在典型的視覺語言任務（如視覺問題回答 VQA）上進行訓練的，不能直接解決機器人相關的具身推理任務。少少樣本提示下，基于視覺約束，講冷笑話樣本提示下，基于視覺約束，講冷笑話零樣本多模態思維鏈零樣本多模態思維鏈零零樣本：多圖關系識別樣本：多圖關系識別無需無需OCR的數學推理的數學推理機器人視覺感知、對話與規劃；物理預測；空間問題；

16、機器人視覺感知、對話與規劃；物理預測；空間問題；機器人主動權；端到端的自我中心問答和對話機器人主動權；端到端的自我中心問答和對話其他任務：其他任務：免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。5 計算機計算機將多模態輸入將多模態輸入 LLM 的關鍵：的關鍵：設計編碼器設計編碼器針對不同類型的任務設計編碼器，實現將不同的多模態信息輸入到針對不同類型的任務設計編碼器，實現將不同的多模態信息輸入到 LLM 中。中。PaLM-E 模型相關任務涉及的多模態信息主要包括狀態、圖片、3D 場景等，需要分別設計編碼器。編碼器經過端到端訓練，以自然文本的形式輸出決策序列，使得具身智能體（em

17、bodied agent，例如執行任務的機器人）能夠根據這些決策，執行基本動作或針對一些具身問題進行回答。主要的編碼器包括：狀態估計向量、ViT、OSRT、實體參照等。狀態估計向量狀態估計向量：描述物體狀態：描述物體狀態狀態狀態估計估計向量是向量是 PaLM-E 最簡單的一種輸入形式。最簡單的一種輸入形式。狀態估計向量（state estimation vectors）描述了場景中物體的狀態，例如位置、尺寸、顏色等，可以用多任務感知機（MLP，也叫前饋神經網絡，是最早發明的簡單人工神經網絡）直接映射到語言嵌入空間。ViTs：解決：解決 2D 圖像編碼圖像編碼 ViT 是一種將圖像映射為一組是

18、一種將圖像映射為一組 token 嵌入的嵌入的 Transformer 架構架構，主要面向，主要面向 2D 圖像。圖像。ViT（Vision Transformers，視覺 Transformer）是 Transformer 在視覺領域的重要應用模型之一。PaLM-E 采用的 ViT 包括一個 40 億參數的 ViT-4B 和一個 220 億參數的 ViT-22B，這兩個模型都已經在圖像分類任務中完成預訓練。同時還考慮了一種端到端訓練的 ViT token 學習架構（ViT+TL）。對象為中心的表示：將視對象為中心的表示：將視覺輸入分離成對象覺輸入分離成對象對象為中心的表示將視覺輸入分離成不

19、同的對象。對象為中心的表示將視覺輸入分離成不同的對象。與語言不同，視覺輸入并沒有預先構造成有意義的實體和關系。這會導致兩個問題：1）與基于符號進行預訓練的 LLM 交互時存在問題；2）在解決需要物理物體之間相互作用的具身問題時存在問題。因此，構造結構化的編碼器對象為中心的表示（object-centric representations），將視覺輸入分離成不同的對象 token，表示場景中的獨立物體，然后再將其輸入到 LLM 中。OSRT：提供：提供 3D 場景表示場景表示 OSRT 提供了以提供了以 3D 為中心的神經場景表示。為中心的神經場景表示。OSRT（object Scene Rep

20、resentation Transformer，對象場景表示 Transformer）不需要 ground-truth（指訓練集中的正確標注，它反映了數據的真實類別或屬性），即不依賴對象的外部知識，而是通過對結構進行歸納偏置（inductive biases，幫助機器學習算法從一些例子中尋找共性、泛化，形成一個較通用的規則的過程），以無監督的方式自我發現 ground-truth。OSRT 提供了以 3D 為中心的神經場景（3D-centric neural scene，使用神經網絡來表示和渲染三維場景的方法）表示。實體實體引用引用：直接指定：直接指定引用對象引用對象實體實體引用引用直接指定

21、直接指定難以難以通過自然語言識別的對象。通過自然語言識別的對象。對于具體的計劃任務，PaLM-E 必須能夠在其生成的計劃中引用對象。在許多情況下，場景中的物體可以通過它們的一些獨特屬性在自然語言中識別出來。但是，還是存在一些場景，其中的對象不容易通過語言簡單地識別，例如在同時在桌面上存在的相同顏色、不同位置的積木塊。此時，可以用實體引用（entity referrals）的方式，直接在輸入提示（prompt）中，對相應物體的多模態 token 進行標記，例如“Object 1 is,Object j is”。指定完成后，PaLM-E 可以在生成的輸出語句中通過 obj_j 形式的特殊標記引用對

22、象。免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。6 計算機計算機 PaLM-E：模型設置：模型設置+訓練集選擇訓練集選擇+實驗結果實驗結果模型構建：構建了從小到大多種尺寸的模型構建：構建了從小到大多種尺寸的 PaLM-E PaLM-E 構建了多個不同尺寸的模型。構建了多個不同尺寸的模型。PaLM-E 由 LLM 和編碼器構成。LLM 方面，選取 80億、620 億和 5400 億參數的 PaLM（PaLM 是僅使用解碼器的 LLM，且已完成預訓練）。編碼器方面，選取 40 億參數和 22 億參數的 ViT。兩者結合，分別構建了參數為 120 億的PaLM-E-12B、840

23、億的 PaLM-E-84B、5620 億的 PaLM-E-562B，其中其中 PaLM-E-562B 是是目前現有最大的視覺語言（目前現有最大的視覺語言（vision-language）模型）模型。圖表圖表3：不同尺寸不同尺寸 PaLM-E 的構建方法的構建方法資料來源：PaLM-E:An Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究 PaLM-E 有兩種訓練策略。有兩種訓練策略。1）各模態的編碼器和 PaLM 一起訓練，同時更新參數；2）考慮到 LLM 在給定合適的提示（prompt）時能夠表現出很好的推理能力，可

24、以“凍結（freeze）”LLM，只訓練與模態相關的編碼器。訓練數據集訓練數據集：多種數據的混合多種數據的混合完整的完整的 PaLM-E 訓練數據集訓練數據集包含數十個子訓練集，包含數十個子訓練集，涉及涉及視覺、語言和具身數據。視覺、語言和具身數據。PaLM-E進行跨任務的聯合訓練，其訓練集為包含視覺、語言和具身數據。其中，完全混合（full mixture）的數據集由來自各種任務的互聯網規模的視覺和語言數據組成，通過設置采樣頻率，使得其中 8.9%的數據為具身數據。值得注意的是，目前具身數據的訓練數據集還遠少于圖像和語言訓練數據集。圖表圖表4：完全混合（完全混合（full mixture）

25、數據集的成分組成）數據集的成分組成資料來源：PaLM-E:An Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究 LLMViT8B PaLM62B PaLM540B PaLM4B ViT22B ViTPaLM-E-12BPaLM-E-84BPaLM-E-562B具具身數據（身數據（embodied data）免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。7 計算機計算機實驗實驗設置設置：多種環境下進行任務設計：多種環境下進行任務設計 PaLM-E 從兩個思路出發，與基線模型進行結果比較。從兩個思路出發，與

26、基線模型進行結果比較。1）比較不同的輸入表示（狀態估計向量、ViT 等編碼器）在性能、泛化能力、數據有效性方面的表現。2）聚焦單一的 PaLM-E架構（預訓練的 ViT+PaLM），將原始圖像作為連續輸入，針對不同的聯合訓練策略和模型參數，比較其在性能、泛化能力、數據有效性方面的表現。比較基線選取的是 SOTA 視覺語言模型 PaLI（未在機器人具身數據上訓練）+SayCan 算法（機器人模型，人工提供了機器人最優動作序列指導 oracle affordances）。實驗涉及實驗涉及 3 種不同的種不同的機器人環境機器人環境/任務任務。1）任務與運動規劃（Task and Motion Pla

27、nning，TAMP），機器人必須對物體進行抓取、堆放等操作；2）桌面環境操作（table-top pushing environment），主要是對桌面上的積木塊等物體進行操作；3）移動操作（mobile manipulation domain）。機器人在廚房環境中解決各種任務，包括在抽屜里尋找物品、挑選物品，并將其交給人類。PaLM-E 分別在各領域的專業數據集上進行訓練。例如桌面環境使用的訓練集為 Language-Table dataset。每種環境每種環境下下均進行規劃均進行規劃（planning）和視覺問答和視覺問答（VQA）兩種）兩種任務任務測試測試。對于桌面環境操作和移動操作，

28、PaLM-E 被集成到現實世界的控制環路中，從而在存在外部干擾或低級控制策略失效時重新調整計劃。實驗實驗結果結果：遷移特性良好，能夠指導真實機器人完成任務：遷移特性良好，能夠指導真實機器人完成任務總體來說總體來說，單一的，單一的 PaLM-E 在混合數據集上實現了很好的遷移特性。在混合數據集上實現了很好的遷移特性。單一的 PaLM-E 模型在混合數據集上跨任務、跨機器人具身訓練后，可以同時在所有任務上實現高性能，并超過針對單一任務訓練的現有結果，表現出很強的遷移特性。圖表圖表5：PaLM-E 在混合數據集上實現了很好的遷移特性在混合數據集上實現了很好的遷移特性資料來源：PaLM-E:An

29、Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。8 計算機計算機圖表圖表6：完全混合（完全混合（full mixture）數據集能夠訓練出性能更好的模型）數據集能夠訓練出性能更好的模型資料來源：PaLM-E:An Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究任務與運動規劃任務與運動規劃訓練場景包含桌面上訓練場景包含桌面上 3-5 個不同大小、顏色和初始位置的立方體物體。個不同大小

30、、顏色和初始位置的立方體物體。訓練數據集包含96000 個該環境下的訓練場景。任務包括 4 個視覺問答和 2 個規劃問題。其中，4 個視覺問答問題：q1 問題是關于物體的顏色，q2 是關于物體-桌面的關系，q3 是關于物體-物體的關系，q4 是關于判斷計劃是否可行；2 個規劃任務問題：p1 是關于規劃如何抓取物體，p2是關于規劃如何堆疊物體。圖表圖表7：任務與運動規劃任務與運動規劃環境布置環境布置資料來源：PaLM-E:An Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究免責聲明和披露以及分析師聲明是報告的一部分，請

31、務必一起閱讀。9 計算機計算機圖表圖表8：視覺問答與任務規劃問題示例視覺問答與任務規劃問題示例資料來源：PaLM-E:An Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究對于場景中的對于場景中的 3-5 個對象（與訓練集中的對象數量相同），大多數編碼器都有較好表現。個對象（與訓練集中的對象數量相同），大多數編碼器都有較好表現。然而，當增加對象的數量時，使用預訓練的 LLM 可以顯著提高性能，特別是在實體引用方面。而基線算法 SayCan 在任務規劃上表現欠佳。圖表圖表9：任務與運動規劃任務與運動規劃實驗結果實驗結果

32、資料來源：PaLM-E:An Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究桌面環境操作桌面環境操作仿真環境下基線算法仿真環境下基線算法 PaLI 和和 SayCan 均不能完成任務，而均不能完成任務，而 PaLM-E 能夠較好的完成任務。能夠較好的完成任務。結果再次證明了在互聯網規模的視覺和語言上進行聯合訓練，可以產生更有效的機器人規劃模型，且能夠在僅有 10 次的少樣本學習下取得更好的效果。免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。10 計算機計算機圖表圖表10：桌面環境操作實驗結果桌面環境

33、操作實驗結果資料來源：PaLM-E:An Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究 PaLM-E 能夠指導真實機器人完成多階段桌面操作任務能夠指導真實機器人完成多階段桌面操作任務。具體過程如下：PaLM-E 以 1 Hz的頻率將基于語言（text）的子目標輸出到已有的機器人操作策略中，策略以 5 Hz 的頻率輸出基礎機器人動作。隨后，根據機器人“看”到的圖像結果，PaLM-E 能夠繼續以 1 Hz的頻率進行重新規劃，指導后續動作。圖表圖表11：PaLM-E 參與到機器人的控制循環中參與到機器人的控制循環中資料來

34、源：PaLM-E:An Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究 PaLM-E 表現出良好的抗干擾性和泛化能力。表現出良好的抗干擾性和泛化能力。1）對人類的對抗性干擾保持健壯性（robust）（圖 a-c）；2）能夠進行 one-shot 和 zero-shot（圖 b-c）。即在 100 個不同的長期任務上對PaLM-E 進行了微調，每個任務都有一個訓練示例；3）PaLM-E 可以將 zero-shot 泛化到涉及新對象的任務（圖 c），甚至是原始機器人數據集或微調數據集中未見的對象的任務，例如玩具烏龜（圖 d）

35、。left Tab.免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。11 計算機計算機圖表圖表12：PaLM-E 表現出良好的抗干擾性和泛化能力表現出良好的抗干擾性和泛化能力資料來源：PaLM-E:An Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究移動操作移動操作移動操作環境下，主要包括可視性預測（affordance prediction）、故障檢測（failure detection）和長期計劃（long-horizon planning）三種測試。1）可視性預測：可視性預測：例如讓 PaLM-

36、E 預測，某個操作/技能能否在當前場景下使用?？梢杂靡曈X問答的形式來提問，例如“Given.Q:Is it possible to here?.”2）故障檢測：故障檢測：例如讓 PaLM-E 預測，某個操作/技能在當前場景下是否成功。多模態提示例如“Given.Q:Was successful?.”以上以上兩種測試，兩種測試，PaLM-E 均得到了超越參考基線的均得到了超越參考基線的 SOTA 結果。結果。免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。12 計算機計算機圖表圖表13：可視性預測可視性預測與故障檢測實驗結果與故障檢測實驗結果資料來源：PaLM-E:An Embo

37、died Multimodal Language Model，Danny Driess 等（2023）、華泰研究 3）長期規劃長期規劃+真實機器人：真實機器人：該測試涉及移動操作任務的端到端具身規劃。任務涉及的提示結構為“Human:Robot:.I see”。PaLM-E 基于歷史步驟和對當前場景圖像的觀察，生成下一步計劃，輸入到機器人中執行，直到 PaLM-E 輸出“終止”指令。在真實的廚房場景下對模型進行了定性評估，發現即使在對抗性干擾下，模型也可以執行長期移動操作任務。圖表圖表14：PaLM-E 指導真實機器人完成廚房場景下的長期任務指導真實機器人完成廚房場景下的長期任務資料來源：P

38、aLM-E:An Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。13 計算機計算機其他其他實驗實驗：通用視覺語言任務和通用語言任務：通用視覺語言任務和通用語言任務 PaLM-E 在在通用視覺語言任務通用視覺語言任務取得很好的效果。取得很好的效果。PaLM-E-562B 模型在 OK-VQA 上獲得了SOTA，優于專門針對 OK-VQA 進行微調的模型。表明 PaLM-E 不僅能完成機器人任務的具身推理，還具有很好的視覺語言多面手能力。圖表圖表15：通用視覺語

39、言任務實驗結果通用視覺語言任務實驗結果資料來源：PaLM-E:An Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究在在通用語言任務通用語言任務上，上，PaLM-E 存在語言能力的遺忘問題，但可以通過增加參數量彌補。存在語言能力的遺忘問題，但可以通過增加參數量彌補。評估了 PaLM-E 在 21 個自然語言理解（NLU）和自然語言生成（NLG）任務的通用語言基準上的平均性能。結果表明，經過多模態訓練 PaLM-E 在語言能力上存在災難性遺忘問題，最?。≒aLM-E-12B）模型的 NLG 性能相對下降 87.3%。但是

40、該問題可以通過增加模型參數解決，最大模型（PaLM-E-562B）的 NLG 性能僅下降 3.9%。圖表圖表16：通用語言任務通用語言任務上的災難性遺忘可以通過擴大模型參數量解決上的災難性遺忘可以通過擴大模型參數量解決資料來源：PaLM-E:An Embodied Multimodal Language Model，Danny Driess 等（2023）、華泰研究免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。14 計算機計算機圖表圖表17：自然語言生成和理解結果自然語言生成和理解結果資料來源：PaLM-E:An Embodied Multimodal Language

41、Model，Danny Driess 等（2023）、華泰研究圖表圖表18：提及公司列表提及公司列表公司代碼公司代碼公司簡稱公司簡稱 GOOGL US 谷歌資料來源：Bloomberg、華泰研究風險提示風險提示宏觀經濟波動。宏觀經濟波動。若宏觀經濟波動，產業變革及新技術的落地節奏或將受到影響，宏觀經濟波動還可能對 AI 投入產生負面影響，從而導致整體行業增長不及預期。技術進步技術進步不及預期。不及預期。若 AI 技術和大模型技術進步不及預期，或將對相關的行業落地情況產生不利影響。本報告內容均基于客觀信息整理，不構成投資建議。本報告內容均基于客觀信息整理，不構成投資建議。-3.9%免

42、責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。15 計算機計算機免責免責聲明聲明分析師聲明分析師聲明本人，謝春生，茲證明本報告所表達的觀點準確地反映了分析師對標的證券或發行人的個人意見；彼以往、現在或未來并無就其研究報告所提供的具體建議或所表迖的意見直接或間接收取任何報酬。一般聲明及披露一般聲明及披露本報告由華泰證券股份有限公司（已具備中國證監會批準的證券投資咨詢業務資格，以下簡稱“本公司”）制作。本報告所載資料是僅供接收人的嚴格保密資料。本報告僅供本公司及其客戶和其關聯機構使用。本公司不因接收人收到本報告而視其為客戶。本報告基于本公司認為可靠的、已公開的信息編制，但本公司

43、及其關聯機構(以下統稱為“華泰”)對該等信息的準確性及完整性不作任何保證。本報告所載的意見、評估及預測僅反映報告發布當日的觀點和判斷。在不同時期，華泰可能會發出與本報告所載意見、評估及預測不一致的研究報告。同時，本報告所指的證券或投資標的的價格、價值及投資收入可能會波動。以往表現并不能指引未來，未來回報并不能得到保證，并存在損失本金的可能。華泰不保證本報告所含信息保持在最新狀態。華泰對本報告所含信息可在不發出通知的情形下做出修改，投資者應當自行關注相應的更新或修改。本公司不是 FINRA 的注冊會員，其研究分析師亦沒有注冊為 FINRA 的研究分析師/不具有 FINRA 分析師的注冊資格。華泰

44、力求報告內容客觀、公正，但本報告所載的觀點、結論和建議僅供參考，不構成購買或出售所述證券的要約或招攬。該等觀點、建議并未考慮到個別投資者的具體投資目的、財務狀況以及特定需求，在任何時候均不構成對客戶私人投資建議。投資者應當充分考慮自身特定狀況，并完整理解和使用本報告內容，不應視本報告為做出投資決策的唯一因素。對依據或者使用本報告所造成的一切后果，華泰及作者均不承擔任何法律責任。任何形式的分享證券投資收益或者分擔證券投資損失的書面或口頭承諾均為無效。除非另行說明，本報告中所引用的關于業績的數據代表過往表現，過往的業績表現不應作為日后回報的預示。華泰不承諾也不保證任何預示的回報會得以實現，分析中所

45、做的預測可能是基于相應的假設，任何假設的變化可能會顯著影響所預測的回報。華泰及作者在自身所知情的范圍內，與本報告所指的證券或投資標的不存在法律禁止的利害關系。在法律許可的情況下，華泰可能會持有報告中提到的公司所發行的證券頭寸并進行交易，為該公司提供投資銀行、財務顧問或者金融產品等相關服務或向該公司招攬業務。華泰的銷售人員、交易人員或其他專業人士可能會依據不同假設和標準、采用不同的分析方法而口頭或書面發表與本報告意見及建議不一致的市場評論和/或交易觀點。華泰沒有將此意見及建議向報告所有接收者進行更新的義務。華泰的資產管理部門、自營部門以及其他投資業務部門可能獨立做出與本報告中的意見或建議不一致的

46、投資決策。投資者應當考慮到華泰及/或其相關人員可能存在影響本報告觀點客觀性的潛在利益沖突。投資者請勿將本報告視為投資或其他決定的唯一信賴依據。有關該方面的具體披露請參照本報告尾部。本報告并非意圖發送、發布給在當地法律或監管規則下不允許向其發送、發布的機構或人員，也并非意圖發送、發布給因可得到、使用本報告的行為而使華泰違反或受制于當地法律或監管規則的機構或人員。本報告版權僅為本公司所有。未經本公司書面許可，任何機構或個人不得以翻版、復制、發表、引用或再次分發他人(無論整份或部分)等任何形式侵犯本公司版權。如征得本公司同意進行引用、刊發的，需在允許的范圍內使用，并需在使用前獲取獨立的法律意見，以確

47、定該引用、刊發符合當地適用法規的要求，同時注明出處為“華泰證券研究所”，且不得對本報告進行任何有悖原意的引用、刪節和修改。本公司保留追究相關責任的權利。所有本報告中使用的商標、服務標記及標記均為本公司的商標、服務標記及標記。中國香港中國香港本報告由華泰證券股份有限公司制作,在香港由華泰金融控股（香港）有限公司向符合證券及期貨條例及其附屬法律規定的機構投資者和專業投資者的客戶進行分發。華泰金融控股（香港）有限公司受香港證券及期貨事務監察委員會監管，是華泰國際金融控股有限公司的全資子公司，后者為華泰證券股份有限公司的全資子公司。在香港獲得本報告的人員若有任何有關本報告的問題,請與華泰金融控股（香

48、港）有限公司聯系。免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。16 計算機計算機香港香港-重重要監管披露要監管披露華泰金融控股（香港）有限公司的雇員或其關聯人士沒有擔任本報告中提及的公司或發行人的高級人員。有關重要的披露信息，請參華泰金融控股（香港）有限公司的網頁 https:/.hk/stock_disclosure 其他信息請參見下方“美國“美國-重要監管披露”重要監管披露”。美國美國在美國本報告由華泰證券（美國）有限公司向符合美國監管規定的機構投資者進行發表與分發。華泰證券（美國）有限公司是美國注冊經紀商和美國金融業監管局（FINRA）的注冊會員。對于其在美國分發的

49、研究報告，華泰證券（美國）有限公司根據1934 年證券交易法（修訂版）第 15a-6 條規定以及美國證券交易委員會人員解釋，對本研究報告內容負責。華泰證券（美國）有限公司聯營公司的分析師不具有美國金融監管（FINRA）分析師的注冊資格，可能不屬于華泰證券（美國）有限公司的關聯人員，因此可能不受 FINRA 關于分析師與標的公司溝通、公開露面和所持交易證券的限制。華泰證券（美國）有限公司是華泰國際金融控股有限公司的全資子公司，后者為華泰證券股份有限公司的全資子公司。任何直接從華泰證券（美國）有限公司收到此報告并希望就本報告所述任何證券進行交易的人士，應通過華泰證券（美國）有限公司進行交易。美國美

50、國-重要監管披露重要監管披露分析師謝春生本人及相關人士并不擔任本報告所提及的標的證券或發行人的高級人員、董事或顧問。分析師及相關人士與本報告所提及的標的證券或發行人并無任何相關財務利益。本披露中所提及的“相關人士”包括 FINRA 定義下分析師的家庭成員。分析師根據華泰證券的整體收入和盈利能力獲得薪酬，包括源自公司投資銀行業務的收入。華泰證券股份有限公司、其子公司和/或其聯營公司,及/或不時會以自身或代理形式向客戶出售及購買華泰證券研究所覆蓋公司的證券/衍生工具，包括股票及債券（包括衍生品）華泰證券研究所覆蓋公司的證券/衍生工具，包括股票及債券（包括衍生品）。華泰證券股份有限公司、其子公司和

51、/或其聯營公司,及/或其高級管理層、董事和雇員可能會持有本報告中所提到的任何證券（或任何相關投資）頭寸，并可能不時進行增持或減持該證券（或投資）。因此，投資者應該意識到可能存在利益沖突。評級說明評級說明投資評級基于分析師對報告發布日后 6 至 12 個月內行業或公司回報潛力（含此期間的股息回報）相對基準表現的預期（A 股市場基準為滬深 300 指數，香港市場基準為恒生指數，美國市場基準為標普 500 指數），具體如下：行業評級行業評級增持：增持：預計行業股票指數超越基準中性：中性：預計行業股票指數基本與基準持平減持：減持：預計行業股票指數明顯弱于基準公司評級公司評級買入：買入：預計

52、股價超越基準 15%以上增持：增持：預計股價超越基準 5%15%持有：持有：預計股價相對基準波動在-15%5%之間賣出：賣出：預計股價弱于基準 15%以上暫停評級：暫停評級：已暫停評級、目標價及預測，以遵守適用法規及/或公司政策無評級：無評級：股票不在常規研究覆蓋范圍內。投資者不應期待華泰提供該等證券及/或公司相關的持續或補充信息免責聲明和披露以及分析師聲明是報告的一部分，請務必一起閱讀。17 計算機計算機法律實體法律實體披露披露中國中國：華泰證券股份有限公司具有中國證監會核準的“證券投資咨詢”業務資格，經營許可證編號為：91320000704041011J 香港香港：華泰金融控

53、股（香港）有限公司具有香港證監會核準的“就證券提供意見”業務資格，經營許可證編號為：AOK809 美國美國：華泰證券（美國）有限公司為美國金融業監管局（FINRA）成員，具有在美國開展經紀交易商業務的資格，經營業務許可編號為：CRD#:298809/SEC#:8-70231 華泰證券股份有限公司華泰證券股份有限公司南京南京北京北京南京市建鄴區江東中路228號華泰證券廣場1號樓/郵政編碼：210019 北京市西城區太平橋大街豐盛胡同28號太平洋保險大廈A座18層/郵政編碼：100032 電話：86 25 83389999/傳真：86 25 83387521 電話：86 10 6321116

54、6/傳真：86 10 63211275 電子郵件：ht- 電子郵件：ht- 深圳深圳上海上海深圳市福田區益田路5999號基金大廈10樓/郵政編碼：518017 上海市浦東新區東方路18號保利廣場E棟23樓/郵政編碼：200120 電話：86 755 82493932/傳真：86 755 82492062 電話：86 21 28972098/傳真：86 21 28972068 電子郵件：ht- 電子郵件：ht- 華泰金融控股（香港）有限公司華泰金融控股（香港）有限公司香港中環皇后大道中 99 號中環中心 58 樓 5808-12 室電話：+852-3658-6000/傳真：+852-2169-0770 電子郵件： http:/.hk 華泰證券華泰證券（美國美國）有限公司有限公司美國紐約公園大道 280 號 21 樓東（紐約 10017）電話：+212-763-8160/傳真：+917-725-9702 電子郵件:Huataihtsc- http:/www.htsc- 版權所有2023年華泰證券股份有限公司

相關圖表

本文主要介紹了谷歌最新推出的多模態大語言模型PaLM-E。PaLM-E引入了具身化和多模態概念，通過將多模態信息編碼為與語言相似的形式，嵌入已有的PaLM模型，實現多模態的聯合訓練。PaLM-E的核心思想在于，通過將圖像、文字、具身數據聯合訓練，并引入多模態輸入，增強了模型對現實中對象的理解，實現了機器人處理具身推理任務。PaLM-E解決了機器學習的grounding問題，即如何將抽象的符號或概念與真實世界的物體或事件聯系起來的問題。PaLM-E的訓練數據集包含數十個子訓練集，涉及視覺、語言和具身數據。PaLM-E在任務與運動規劃、桌面環境操作和移動操作等具身任務中，能在部分仿真任務上取得優于SOTA的結果，并成功指導現實中機器人完成長期任務。PaLM-E同樣在視覺/語言任務上取得較好效果。

PaLM-E如何解決機器學習的grounding問題？ PaLM-E在哪些實驗中表現出了良好的遷移和泛化能力？ PaLM-E在通用視覺語言任務和通用語言任務上的表現如何？

相關報告

聯系我們

0731-84720580
sgpjbg002
工作日 9:30 - 18:00

關于我們

侵權處理

關于我們

出版物經營許可證
工信部備案號：湘ICP備17000430號-2
公安備案號：湘公網安備43010402001071號

三個皮匠報告專業的行業報告下載站，每日更新，歡迎大家關注！

copyright@2008-2013 長沙景略智創信息技術有限公司版權所有
網站備案/許可證號：湘B2-20190120

客服

小程序

服務號

折疊

午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站