華為云:預訓練大模型白皮書(2022)(59頁).pdf

編號:109212 PDF  DOCX 59頁 14.26MB 下載積分:VIP專享
下載報告請您先登錄!

華為云:預訓練大模型白皮書(2022)(59頁).pdf

1、預訓練大模型白皮書01PREFACE高 文中國工程院院士 鵬城實驗室主任北京大學博雅講席教授自 1956 年人工智能在達特茅斯會議上被提出,人工智能領域的學者一直致力于提升算法的通用性能力,即希望人工智能方法能夠像人類一樣,快速靈活地適應各種實際應用問題,提升人類社會的生產效率。然而,在人工智能發展的前半個世紀,學者們始終沒有找到合適的方法論,而包括符號計算、專家系統等精心設計的模型,都只能用于少數限定場景,無法拓展到以計算機視覺、自然語言處理為代表的復雜系統中去。21 世紀初,隨著硬件性能的演進和大數據的興起,情況發生了根本性的變化。2010 年開始,深度學習以席卷之勢,占領了人工智能的大部

2、分領域,在許多公測數據上取得了前所未有的精確度。深度學習的本質是統計學習,即通過在大量數據上擬合復雜函數,使得該函數具有泛化能力。時至今日,這種范式已經取得了巨大的成功:一個深層神經網絡,只要在不同數據上訓練或者微調,就能夠應用于不同的任務,而這件事在 20 年前是幾乎無法想象的。然而,基于深度學習的人工智能方法,依然存在明顯的缺陷。對大數據和大算力的強烈依賴、對參數調節的敏感性,都在無形之中抬高了人工智能算法的使用門檻。為此,我們迫切地需要一種新思路,打通通用數據和領域知識,并且大幅度地降低人工智能研發的人力和算力成本。為此,業界提出了預訓練大模型的范式,通過收02集海量訓練數據,并通過一種

3、稱為預訓練的過程,將其中蘊含的知識存儲于大規模神經網絡,即大模型之中。如此,這個預訓練大模型就具有了很強的泛化能力,并且可以通過簡單的微調操作,將其能力應用到下游任務中去。在過去五年間,預訓練大模型在自然語言處理、計算機視覺等領域取得了長足的發展,模型規模屢創新高,模型泛化性也不斷提升。而我也欣喜地看到,預訓練大模型已經在華為取得商業應用,成功落地在工業質檢、智慧交通、時尚設計等多個產業中。人工智能的前路依然漫長。預訓練大模型正在逼近統計學習方法的極限,但是它也有無法解決的課題,包括模型的可解釋性和安全性等難題。同時,大模型的功耗遠遠超過人類大腦,也意味著這種方式也許不是最優的解決方案??偟膩?/p>

4、說,當前的人工智能正處在歷史的十字路口,業界需要在預訓練大模型的基礎上做出抉擇,走出未來的發展道路來。在上述背景下,華為公司發布預訓練大模型白皮書,具有重要的意義。我相信,華為在大模型的研發和落地上的投入,最終會給學術界和產業界帶來啟發,成為擴展人工智能能力邊界和推動人工智能產業升級的強大力量。03PREFACE張平安華為高級副總裁華為云 CEO當今世界正面臨百年未有之大變局。以人工智能、大數據、物聯網、云計算和 5G為代表的數字化技術,正在深刻地驅動產業變革,重塑全球的技術和產業格局。其中,人工智能發展的經濟和戰略意義,已經取得了包括中國在內的全球許多國家的共識。2021 年,習總書記在主持

5、中央政治局第三十四次集體學習時強調,支持人工智能和實體經濟深度融合,建設數字中國、智慧社會,推進數字產業化和產業數字化,打造具有國際競爭力的數字產業集群。2022年8月,科技部等六部門聯合印發了 關于加快場景創新以人工智能高水平應用促進經濟高質量發展的指導意見,系統指導各地方和各主體加快人工智能場景應用,推動經濟高質量發展。發展人工智能已經是世界高科技的方向標之一,也成為了全球各個強國推進前沿研發的綱領性原則和激烈競爭場。作為當前人工智能領域最前沿的課題和最有力的武器,預訓練大模型無疑是這場競爭中的焦點之一。以自然語言處理領域為例,預訓練大模型的參數規模已經從 2018 年的億級來到了 202

6、2 年萬億級,幾乎每年都能看到數量級上的提升。預訓練大模型是一項龐大的系統性工程,不僅涉及到先進算法的研發,還需要硬件、框架、開發工具的支持。華為公司構建了從昇騰+鯤鵬芯片到 AI 開發框架04MindSpore 和 AI 開發平臺 ModelArts 的全棧式開發能力,并基于這些能力提出了盤古預訓練大模型。一年多以來,盤古大模型持續演進,在計算機視覺、自然語言處理、科學計算等領域為業界貢獻了先進的算法和解決方案。截至 2022 年,盤古大模型已經被應用于十余個行業的百余個場景,為研發人員提供了新的開發方案,也取得了可觀的商業價值。實踐表明,盤古預訓練大模型能有效減少專家的干預和人為調優的消耗

7、,降低人工智能開發的門檻和成本,這對踐行普惠 AI,實現人工智能的泛化和規模復制,具有非常巨大的意義。在整合大模型研發和落地經驗后,華為團隊撰寫了預訓練大模型白皮書,旨在將自身對大模型的洞察毫無保留地分享給業界,以期推進以大模型為核心的人工智能產業的健康發展。前路是艱辛的,前途也是光明的。人工智能經歷六十余年的沉浮,始終沒有放棄“減少重復勞動”和“擴展人類知識邊界”這兩大根本目標。只要不忘初心、牢記使命,技術研究和行業落地就能更緊密地結合起來,在發展技術的同時,為人類社會創造更多的福祉。05FOREWORD高新波教授 重慶郵電大學校長 國家杰出青年科學基金獲得者 教育部長江學者特聘教授古有盤古

8、開天地,今有華為大模型。為解決人工智能算法落地的碎片化困境,預訓練大模型應運而生。自華為云團隊發布盤古預訓練大模型以來,形成了全棧式 AI 解決方案,在很多領域獲得了成功的應用。相信預訓練大模型白皮書將會引領大模型健康發展,為通用人工智能探索一條可能的新路徑。莊越挺浙江大學計算機學院教授國家杰出青年基金獲得者 教育部長江學者特聘教授 教育部人工智能協同創新中心主任預訓練大模型是當前新一代人工智能領域最前沿的研究方向,正成為世界各科技強國競爭的焦點。預訓練大模型率先在自然語言處理領域取得突破性的進展,并迅速拓展到涉及圖像、視頻、圖形、語言等跨媒體推理的各類任務和大量的商業應用之中,展現了巨大的發

9、展潛力。華為云發布預訓練大模型白皮書,正逢其時,必定對 AI 行業產生有價值的指導作用,也體現了作為一個科技大公司的擔當精神。我相信,預訓練大模型可望成為跨媒體智能的重要技術手段。張民教授 哈爾濱工業大學(深圳)特聘校長助理計算與智能研究院院長 國家杰出青年基金獲得者預訓練大模型被稱為人工智能應用的基礎設施,它具有強大的知識建模、知識獲取和應用泛化能力。華為云預訓練大模型白皮書以華為云盤古大模型家族為代表,全面介紹了華為在大模型方面的系列創新性工作,包括視覺、語音語義、多模態、科學計算、圖網絡大模型,以及產業落地經驗和對未來發展的展望。這本白皮書會給學術界和產業界提供重要的啟發和借鑒。06李厚

10、強教授 中國科學技術大學信息學院副院長 IEEE Fellow國家杰出青年科學基金獲得者 教育部長江學者特聘教授預訓練大模型是人工智能領域的研究熱點和前沿技術,近年來在自然語言處理、計算機視覺等方向取得了巨大成功。華為云團隊撰寫的預訓練大模型白皮書,將其在大模型研發和落地中的經驗總結出來,分享給學術界和工業界,對推動預訓練大模型理論、方法、技術、應用的發展具有重要意義。熊紅凱上海交通大學特聘教授國家杰出青年基金獲得者 教育部長江學者特聘教授愛因斯坦說:這個宇宙最讓人難以理解的地方,就是它竟然是可以被理解的。斗轉星移,大數據和人工智能在 21 世紀,為我們開啟了一個理解人類自身認知的帷幕,逐步融

11、入了我們的日常生活;也正是在這樣一種時代背景下,旨在建立一種通用智能的“大模型”應運而生。它寄望于“預訓練大模型+下游任務微調”的方式,將知識存儲到大量參數中,擴展模型的泛化能力。很大意義上,對大模型的落地部署,能夠超越產業和國家的界限,實現人類社會的福祉。華為公司的預訓練大模型白皮書,我相信,能為我們建立普遍理性和平等的社會,提供強大的力量。姜育剛復旦大學教授 博士生導師教育部長江學者特聘教授 復旦大學人事處處長近年來,以 GPT-3、CLIP 為代表的超大規模預訓練模型被陸續提出,通過在海量數據上進行自監督學習,有效提升了自然語言處理與計算機視覺領域多個下游任務的性能。華為云在預訓練大模型

12、領域有著深厚的技術積累,于 2021 年發布了“盤古”系列超大規模預訓練模型,受到了學術界和工業界的廣泛關注。華為云預訓練大模型白皮書總結了大模型的發展趨勢及其帶來的機遇,為未來研究提供了重要借鑒。07讓預訓練大模型成為 AI 的操作系統近年來,國內的云計算市場增速明顯,企業上云明顯提速??蛻舻男枨笾鸩綇摹百Y源型需求”轉向“智能型需求”及“業務型需求”,意味著 PaaS、SaaS 等各行業各場景的云解決方案將受到更多關注。盡管該市場呈現出了廣闊的前景,業務的龐大數量和場景種類夸張的多樣性也意味著巨大的難度。隨著市場的成熟上升,“一招鮮吃遍天”的套路相對于針對用戶需求定制化的解決方案已不具優勢,

13、意味著在細分領域深耕的中小型友商也具有瓜分市場的競爭力。因此,如何在保證市場占有率并支撐如此大量的業務的情況下,控制資源和成本、保證交付效率和保證產品質量是云廠商要解決的核心難題。引言PREFACE封閉的作坊式的 AI 開發局限于特定的場景。特定的數據無法滿足 AI 快速落地行業的需求AI 走進企業核心生產系統,開始創造更大價值高成本,高門檻、無積累AI 進入千行百業面臨諸多挑戰1 場景碎片化,作坊式開發難以規模復制2 行業知識與 AI 技術結合困難3 行業普通 AI 模型攻擊、隱私、安全擔憂“2025 年,企業對 AI 的采用率86%(當前4%)”EI AI 實踐:600+項目,30%進入生

14、產系統,但是如果人們對電磁的理解停留在法拉第的電磁感應層次而沒有麥克斯韋的電磁場理論,電氣革命是不可能發生的。如果刮風下雨打雷甚至連溫度變化都會導致斷電,電怎么可能變成一個普惠性的產品,怎么可能變成社會基礎設施?模型 1專家 專家 專家 定制場景 1模型 2專家 專家 專家 定制場景 2模型 3專家 專家 專家 定制場景 308為了解決這個困境,預訓練大模型應運而生。它收集大量圖像、文本等數據,利用無監督或者自監督學習方法將數據中蘊含的知識提取出來,存儲在具有大量參數的神經網絡模型中。遇到特定任務時,只要調用一個通用的流程,就能夠將這些知識釋放出來,并且與行業經驗結合,解決實際問題。近年來,預

15、訓練大模型相關研究和應用呈井噴態勢,大有一統人工智能領域的趨勢。不過我們也應該看到,預訓練大模型距離規?;纳虡I應用,還有很長的路要走,這里不僅包含技術的演進,也包含商業模式的進化。按照我們的設想,大模型是未來 AI 計算的“操作系統”,向下管理 AI 硬件,向上支撐 AI 算法,使得 AI 開發更加規范化、平民化。我們希望通過編寫預訓練大模型白皮書,將我們團隊在研究和落地中獲得的經驗總結下來,更好地促進行業的進步。另一方面,隨著工業生產越來越強調智能化,大量傳統行業開始積累領域數據,并尋求人工智能算法以解決生產和研發過程中遇到的重復而冗雜的問題。這就意味著,人工智能算法在落地的過程中,將會面

16、對大量不同場景、不同需求的用戶。這對算法的通用性提出了很高的要求。然而我們注意到,當前業界大部分人工智能開發者,正在沿用傳統的“小作坊模式”,即針對每個場景,獨立地完成模型選擇、數據處理、模型優化、模型迭代等一系列開發環節。由于無法積累通用知識,同時不同領域的調試方法有所不同,這樣的開發模式往往比較低效。特別地,當前人工智能領域存在大量專業水平不高的開發者,他們往往不能掌握規范的開發模式和高效的調優技巧,從而使得模型的精度、性能、可擴展性等指標都不能達到令人滿意的水平。我們將上述問題,稱為人工智能算法落地的碎片化困境。超大的神經網絡預訓練模型華為云盤古大模型AI 工業化開發流水線流水線流水線泛

17、化復制模型泛化 極大節省訓練投入流水線 工具集成 訓練更快盤古大模型效率提升更佳模型性能10-100 倍模型 3模型 2模型 1場景 1場景 2場景 3強壯的網絡架構優秀的泛化能力預訓練微調&部署迭代NLP大模型(千億參數)CV大模型(30億參數)多模態大模型科學計算大模型09大模型是 AI 發展的必然趨勢盤古大模型家族介紹/09/191.1 人工智能發展史簡介1.2 人工智能發展趨勢的總體研判2.1 視覺大模型2.2 語音語義大模型2.3 多模態大模型2.4 科學計算大模型2.5 圖網絡大模型10盤古大模型應用案例/433.1 視覺大模型案例:TFDS 圖像自動識別3.2 語音語義大模型:賦

18、能智慧銷售3.3 多模態大模型:一網統管事件工單分配3.4 圖網絡大模型:水泥生產系統的自動控制3.5 圖網絡大模型:煉焦系統的自動控制展望未來,大模型的機遇與挑戰并存/5511大模型是 AI 發展的必然趨勢1213人工智能從 1956 年被正式提出以來,經歷了數十年的發展歷程。人工智能誕生初期,其研究主要分為三個流派,即邏輯演繹、歸納統計和類腦計算。其中,邏輯演繹方法局限性較強,難以對建模復雜的實際問題進行建模;而類腦計算方法過多地依賴于生命科學,特別是腦科學的研究,而后者的進展難以滿足人工智能的一般要求。在進入 21 世紀依賴,在大數據和大算力的支持下,歸納統計方法逐漸占據了人工智能領域的

19、主導地位,并且催生出一系列方法論和應用,深刻地影響和改變了人類社會。1.1 人工智能發展史簡介14人工智能發展史孕育期19561974198019871994繁榮期繁榮期繁榮期低谷期低谷期反向傳播算法的提出深藍戰勝世界冠軍人工智能的樂觀思潮神經網絡的數學模型通用計算機出現圖靈測試的提出達特矛斯會議的召開感知器算法和硬件化DARPA 資金的支持Perceptron出版DARPA 終止資助對盲目樂觀的反思專家系統出現統計學習受到重視專家系統的局限性硬件需求大幅下降資金支持再次減少統計學習方法的應用深度學習開始統治AlphaGo 戰勝李世乭大規模預訓練模型再次獲得資金支持15如上圖所示,人工智能的主

20、要發展階段如下:孕育期這一時期的代表性成果,主要包括Warren S.McCulloch和 Walter Pitts 提出的人工神經網絡的視覺模型,以及Alan M.Turing 設想的驗證人工智能的思想實驗(即圖靈測試)。同時,1946 年出現的通用計算機 ENIAC,也為人工智能的復雜演算提供了硬件支撐。19431956 年第一次繁榮期以 1956 年達特茅斯會議為標志,人工智能被正式提出并且進入第一次繁榮期?;谶壿嬔堇[的人工智能算法解決了某些特定領域的問題(如證明數學定理),而基于亞符號系統的感知器算法也被實現出來,甚至在 1957年出現了專門用于模擬感知 器 的 計 算 機 Mark

21、 I。此時的學者對于人工智能抱有不切實際的樂觀幻想,包括Marvin L.Minsky(1969 年圖靈獎得主)和 Herbert A.Simon(1975 年圖靈獎得主)在內的多名學者,均預測人工智能將在 20 年內獲得徹底解決。而以 DARPA 為代表的政府機構和大型企業,也為人工智能的研究注入了大量資金。19561974 年第一次低谷期研究者們很快意識到了第一代人工智能算法的極限。1969 年,Marvin L.Minsky發表著作Perceptrons,幾乎一手摧毀了聯結主義(即人工神經網絡)方面的研究;同時,基于邏輯演繹的算法也被證明需要指數級時間以解決大部分問題。隨著DARPA 等

22、機構撤出大部分投資,人工智能領域也開啟一波反思浪潮,其中有代表性的是 James Lighthill 于 1973年發表的人工智能綜述報告和 John R.Searle 于 1980 年提出的中文房間問題。19741980 年16第二次繁榮期隨著專家系統的出現和盛行,人工智能算法開始在限定領域內解決實際問題。1975 年 出 現 的 MYCIN 算法,能夠在醫學領域完成血液傳染病的診斷工作。同時,以 Hopfield 網絡為代表的新型神經網絡和 David E.Rumelhart 發明的反向傳播算法,極大地增強了人工神經網絡的適用范圍。1989年,Yann LeCun(2018 年 圖 靈獎得

23、主)使用五層神經網絡識別手寫數字,該方法取得巨大成功并在 20 世紀 90 年代識別了美國超過 10%的手寫支票。以 DARPA 為代表的機構再次行動起來,使得20 世紀 80 年代后半段在人工智能領域的投入資金比起前半段增長了數倍。19801987 年第二次低谷期然而,專家系統很快遇到了新的困境。研究者們發現,即使在限定領域中,面對未知或者未定義的問題時,即使問題十分簡單,專家系統的表現也無法預測甚至控制。隨著支持人工智能研究資金的再度銳減,研究者們再次開始反思,并且將思路逐漸從符號系統(如歸納演繹方法)轉向亞符號系統(如統計學習方法)。這一時期,研究者們開始認識到感知和交互的重要性,其中影

24、響較大 的 觀 點 包 括 David Marr在其著作Vision中提出的視覺理解模型和 Rodney A.Brooks 提出的“模型可有可無,世界即是描述自身最好的模型”等。19871993 年第三次繁榮期隨著現代計算機的存儲能力和算力不斷增強,統計學習方法逐漸成為人工智能領域的絕對主流。在人工智能的各個領域,如計算機視覺、語音識別、自然語言處理等,手工設計的模型都逐漸被統計學習模型所取代。從 2011年開始,深度學習浪潮席卷人工智能領域,終于在多個領域達到或者超越了人類水平。人工智能的第三次繁榮期,也是歷史上最長的一次,至今仍未有結束的趨勢。雖然許多本質問題尚未得到解決,但人工智能的諸多

25、應用已經深刻地改變了人類社會。1993 年至今值得一提的是,深度學習并未解決人工智能的本質問題。未來,業界很可能還要經歷數次低潮與革新,方能達成真正的通用人工智能。在此之前,雖然存在著關于強/弱人工智能的討論和對科技奇異點的擔憂,但業界的重心依然是人工智能算法的研發。17從古早階段開始,人工智能就分為不同的流派。人工智能的先驅們,探索和論證著通向真正智能的崎嶇道路。有趣的是,有影響力的三大流派(邏輯演繹流派、歸納統計流派、類腦計算流派)從人工智能創立之初便存在,時至今日也未由其中一派徹底統一。三大流派各有優劣勢。類腦計算流派的目標最為宏遠,但在未得到生命科學的支撐之前,難以取得實際應用。歸納演

26、繹流派的思考方式與人類相似,具有較強的可解釋性。由于對數據和算力的依賴較少,歸納演繹流派成為人工智能前兩次繁榮的主角。隨著學界對人工智能困難程度的理解逐漸加深,數理邏輯方法的局限性被不斷放大,并最終在第三次繁榮期中,逐漸讓位于統計學習的“暴力美學”。這種“拋棄人類先驗,擁抱數據統計”的思想,在深度學習出現后被推向高峰。1.2 人工智能發展趨勢的總體研判18值得強調的是,深度學習是時代的產物。如果沒有與大數據(存儲設備和移動互聯網的發展)和大算力(尤以 GPU 的飛速演進為代表)的支持,深度學習就不可能在短短的 3-5 年間占領人工智能的大部分領域。而隨著人工智能模型的參數越來越多,訓練所需的數

27、據集規模也越來越大。為了適應巨大的參數空間和數據量,研究者們提出了層次化建模和分散表示的思想,使得復雜數據匹配的效率和精度獲得提升,從而大大促進了特征學習。從技術的角度看,深度學習的核心是深度神經網絡:通用的骨干網絡配合特定目的的頭部網絡,使得深度學習統一了各個子領域內的不同問題。例如,在計算機視覺領域,彼此十分相似的深度神經網絡已經成為圖像分類、物體檢測、實例分割、姿態估計等具體問題的通用框架;而在自然語言處理領域,一種被稱為 Transformer 的模塊也被大量使用,研究者們得以建立起通用的語言模型。然而,從本質上看,深度學習依然沒有跳出統計學習的基本框架:特征抽取和模板匹配。相比于人類

28、基于知識的推斷,這種方式無疑是低效的。在人工智能進入千行百業的大背景下,這種設計理念必將導致人工智能算法的通用性受限,因為對于任何新的概念乃至新的實體,算法都需要專門的訓練數據來提供相關的信息,而在沒有基礎模型支撐的情況下,開發者們必須從頭開始完成收集數據、訓練模型、調試模型、優化部署等一系列操作。對于大部分人工智能開發者而言,這無疑是重大的挑戰;同時,這也使得人工智能算法的開發成本居高不下,難以真正惠及細分行業,尤其是中小型企業。AI19回顧歷史,2011 年前后,正是傳統統計學習方法的鼎盛時期,在計算機視覺領域甚至出現了參數量超過10億的詞袋分類模型即使在 2021 年,10 億參數的計算

29、機視覺模型也足以被稱為大模型。然而,2012 年左右,深度神經網絡僅用 6000 萬參數,即徹底擊敗詞袋分類模型,引領計算機視覺發展至今。深度神經網絡之于詞袋分類模型,本質上是在特征匹配效率上產生了突破;我們猜測,在大模型發展到一定程度時,會產生另一個維度的突破,從而使得統計學習方法“進化”至下一階段。目前看來,這個突破有可能產生于大模型與知識的結合。根據實踐經驗,預訓練大模型加持下的人工智能算法(包括計算機視覺、自然語言處理等),相比于普通開發者從頭搭建的算法,精度明顯上升、數據和計算成本明顯下降,且開發難度大大降低。以計算機視覺為例:在 100 張圖像上訓練基礎物體檢測算法,原本需要 8

30、塊 GPU 運行 5 個小時、1 名開發者工作 1 個星期才能完成,而在預訓練模型的支持下,只需 1 塊 GPU 運行 2 個小時,而幾乎不需要人力干預。綜合人力、算力開銷研判,上述案例的開發成本節約至原先的10%甚至 1%。在下一個劃時代的計算模型出現以前,大模型將是人工智能領域最有效的通用范式,并將產生巨大的商業價值對大模型的研究,將有可能啟發下一個通用計算模型預訓練大模型是解決上述問題的有效手段。預訓練大模型是深度學習時代的集大成者,分為上游(模型預訓練)和下游(模型微調)兩個階段。上游階段主要是收集大量數據,并且訓練超大規模的神經網絡,以高效地存儲和理解這些數據;而下游階段則是在不同場

31、景中,利用相對較少的數據量和計算量,對模型進行微調,以達成特定的目的。我們將在第 2 章更詳細地介紹預訓練大模型的方法論。雖然預訓練大模型看起來很難導向真正的人工智能,但我們做出兩個重要的判斷:20綜上所述,預訓練大模型是現階段人工智能的集大成者,代表了統計學習流派的最高成就。在新一代技術未出現前,它將是人工智能研究和開發的最強武器。事實上,圍繞大模型的研發和落地,中美之間已經展開了新一輪的競爭。美國中國Turing-NLG(微軟,EN)參數:170 億數據:1-5 百 GB資源:300-500GPUs盤古(華為)NLP&CV&多模態&科學計算參數:1000 億數據:40TB 文本(更新)資源

32、:鵬城云腦悟道 2.0(北京智源)NLP&多模態參數:1.75 萬億數據:4.9TB 圖像,文本資源:神威超算文心 ERNIE 3.0(百度)NLP參數:100 億數據:4TB 文本資源:384 V100 GPUsM6(阿里)多模態參數:100 億數據:1.9TB 文本 292GB 圖像資源:128 A100 GPUs紫東太初(中科院自動化所)多模態參數:千億級數據:文本、圖像、音頻GPT-3(OpenA,EN)參數:170 億數據:570GB資源:10000 V100 GPUsText Sum.(OpenAI,EN)參數:67 億數據:12 萬文章資源:微調使用 320GPU-DaysSwi

33、tch-C(谷歌,EN)參數:1.6 萬億數據:750GB資源:32TPU 核威震天(微軟-英偉達,EN)參數:5300 億數據:-資源:-PaLM(谷歌,EN)參數:5400 億數據:-資源:4096 TPU-v3通過大模型構筑 AI 技術競爭壁壘是當前中美 AI 技術競爭的熱點盤古大模型在商業落地走在最前列1盤古+工作流實現低算力,低門檻,邊學邊用的使用模式結合 ModelArts 和智能體工作流能力,實現輕量化交付借助華為已有行業基礎,構筑行業大模型23盤古大模型家族介紹2123基于上述研判,華為云團隊于2020年立項AI大模型,并且于2021年4月首次以 盤古預訓練大模型(簡稱盤古大模

34、型)的名稱對外發布。盤古大模型集成了華為云團隊在 AI 領域數十項研究成果,并且受益于華為的全棧式 AI 解決方案,與昇騰(Ascend)芯片、昇思(MindSpore)語言、ModelArts 平臺深度結合。本章簡要介紹盤古大模型的若干組成部分,剖析構建大模型的關鍵技術。計算機視覺的主要目標,是設計出能夠識別視覺信號,并且對其進行各種處理和分析的程序。換句話說,計算機視覺是研究計算機如何去“看”的學科。其中,較為典型的任務包括圖像分類、物體檢測、物體分割、物體追蹤、姿態估計等。下圖展示了圖像分類中最著名的 ImageNet 數據集(超過 2 萬個物體類別)和 MS-COCO 數據集(包括檢測

35、、分割等多種任務)。2.1 視覺大模型The ImageNet dataset15M images,21K categories,1.5TBThe MS-COCO datasetdetection,segmentation,pose estimation,etc.24在計算機中,視覺信號一般以“密集采樣強度”的方式存儲:不同方向入射的光線在每個信道(如紅綠藍)上的強度被記錄下來,用于呈現圖像的基本內容。圖像中的每個基本單元被稱為像素很顯然,這些像素并不能代表基本的語義信息,因而圖像的基本存儲形態和人類能夠理解的語義之間,存在很大的差距。在學界,這種差距被稱為“語義鴻溝”,這也是幾乎所有計算機視

36、覺研究所需要處理的核心問題。進一步探究圖像的存儲形態,我們會發現圖像信號的若干特點:鑒于上述特點,基于深度神經網絡的預訓練大模型就成為了計算機視覺落地的最佳方案之一。預訓練過程能夠一定程度上完成視覺信號的壓縮,深度神經網絡能夠抽取層次化的視覺特征,而預訓練結合微調的范式則能夠應對豐富多變的域。以下,我們講述盤古視覺大模型的整體思路和技術方案。內容較復雜信息密度低域豐富多變圖像信號的基本單位是像素,但是單個像素往往不能表達語義。圖像識別的任務,就是構建特定函數,使得像素級輸入能夠產生語義級輸出。這種函數往往非常復雜,很難通過手工方式定義。圖像信號能夠忠實地反映事物的客觀表征;然而其中相當部分的數

37、據被用于表達圖像中的低頻區域(如天空)或者無明確語義的高頻(如隨機噪聲)區域。這就導致了圖像信號的有效信息密度較低,特別是相比于文本信號而言。圖像信號受到域的影響較大,而且這種影響通常具有全局性質,難以和語義區分開來。例如,同樣的語義內容,在強度不同的光照下,就會體現出截然不同的表征。同時,相同的物體能夠以不同的大小、視角、姿態出現,從而在像素上產生巨大差異,為視覺識別算法帶來困難。252.1.1 數據收集圖像是一種復雜的非結構化數據,包含豐富的語義信息?,F如今,還沒有任何一種方法能夠對圖像數據的數學規律進行準確的描述,因而人們只能通過收集大量的數據,來近似現實中圖像數據的分布。2009 年出

38、現的 ImageNet 數據集是計算機視覺領域的重要里程碑,它使得訓練、評估大規模圖像處理方法成為可能。隨著計算機視覺技術的進步和更多應用的出現,ImageNet數據集的局限性逐漸顯現出來,包括規模、復雜性等。為了解決這一問題,我們必須收集更大規模、更加復雜的圖像數據,而這也是業界的一致趨勢。我們通過多種渠道收集圖像數據,包括但不限于公共數據集合下載、自有數據集合擴充、各搜索引擎關鍵字爬取、以圖搜圖、視頻圖像抽幀等。從這些原始數據中,我們篩除了低分辨率、低曝、過曝、簡單背景等低質量圖像數據,再通過已有預訓練視覺模型進行重復圖像的判斷和去除,最終保留超過 10 億張高質量圖像數據,占據約 40T

39、B 空間。10 億+圖像數據40 TB存儲空間覆蓋自動駕駛,電力,鐵路,遙感等262.1.2 預訓練方法我們使用的神經網絡模型覆蓋了計算機視覺領域最為常見的卷積網絡和 transformer 架構,兩者既可以分開使用,也可以按需結合以達到更好的效果。利用自動機器學習算法,我們能夠支持并調用不同大小的神經網絡,其中最大的計算模型具有接近 30 億參數,最小的模型只有數十萬參數,其大小相差超過 1000 倍,為適配不同的視覺任務提供了可能性。我們收集的訓練數據大部分來自互聯網,不僅具有相當程度的噪聲,而且不包含準確的語義標簽。為了充分利用這些數據,我們設計了自監督學習方法,即通過某種或者某幾種代理

40、任務,教會模型如何理解視覺數據,在沒有語義標簽的情況下也能擬合復雜的數據分布。特別地,我們在對比學習的基礎上優化了相關代理算法,業界首創在對比度自監督學習中引入等級化語義相似度,即挑選那些距離相應聚類中心更近的最近鄰作為正樣本,并且在拉近語義相似樣本的時候引入了混合樣本增強,以減少樣本選取過程中的噪聲影響。在此基礎上,我們拓展自監督學習算法中正樣本的數目,使得正樣本集合能夠更加高效地被聚集,同時避免受到大量負樣本優化的影響。我們采用的預訓練算法(發表于 TPAMI 上)的簡略示意圖如下所示:(注:基于等級化語義聚集的對比度自監督學習)Encoder qEncoder KCandidates i

41、n DatasetBottleneckBottleneckBottleneckBottleneckBottleneckMLPMLPConvBNReLUConvBNReLUConvConvConvConvConvConvBNBNBNBNBNBNReLUReLUConvBNReLUConvBNReLUMixMixed SampleAnchor SamplePositive SampleSemanticSearch272.1.3 效果展示盤古視覺大模型在 ImageNet 數據集的線性分類評估上,首次達到了與全監督相比擬的結果。同時,受益于更好的語義對齊效果,我們的方法在小樣本學習上表現優異:使用

42、ImageNet上 1%和 10%的 標 簽 訓 練,我 們 的 方 法 達 到 了 66.7%和75.1%的分類精度,均顯著超越對比方法。以此方法為基礎,我們設計了具有 10 億參數量的基礎模型,并在超過 10 億張無標注圖像組成的數據集上進行預訓練。所得到的模型,在ImageNet 上 達 到 了 88.7%的分類精度,而 1%標簽的半監督學習精度也達到 83.0%。同時,盤古大模型在超過 20 項下游任務上進行了測試,展現出良好的泛化能力,如下表所示。盤古預訓練模型:分類性能比較盤古預訓練模型:檢測性能比較數據集業界最佳模型盤古預訓練模型1Aircraft(飛行器)90.4389.322

43、CUB-200-2011(鳥類)86.9091.803DTD(紋理)80.0585.004EuroSAT(衛星圖塊)98.8598.985Flowers102(花)97.0799.696Food101(食物)92.2194.587Pets(動物)95.2995.918SUN397(場景)71.5178.929StanfordCars(車)92.4894.0910StanfordDogs(狗)87.4191.2811Average89.2291.96數據集業界最佳模型盤古預訓練模型1VOC(自然場景)72.276.62Comic(風格變換)35.638.03Clipart(風格變換)57.561

44、.04Watercolor(風格變換)34.436.95DeepLesion(醫療)36.738.16Dota 2.0(遙感)21.221.07Kitti(自動駕駛)29.632.98Wider Face(人臉)35.336.39LISA(紅綠燈)43.542.710Kitchen(廚房場景)53.655.0average41.9643.8528自然語言,是人類進化過程中形成的一種高效的存儲和交換信息的載體。人們在使用自然語言交流時,既可以使用“聽說”的方式,也可以使用“讀寫”的方式。這就意味著,對自然語言的理解和使用可以分為兩個部分,即對于文字和音頻的處理,合成為語音語義處理。在人工智能領域

45、,這兩個子課題分別被稱為自然語言處理和語音處理。與計算機視覺類似,語音語義處理的目標,就是讓機器學會像人一樣理解并使用文字和聲音,與人類或者其他智能體交流。如圖所示,自然語言處理和語音處理都可以分為理解和生成兩個部分。其中,“理解”的目標是讓機器理解人類語言背后的語義信息,“生成”的目標讓機器使用人類語言表達自己的意圖。自然語言處理和語音處理的區別在于,前者主要處理文本信息,后者主要處理音頻信號。大部分情況下,文本和音頻信號具有很強的關聯性,但是某些情況下,它們也可以表達各自擅長,而另一種載體難以表達的事物(如音樂難以用文本準確表達出來)。2.2 語音語義大模型音頻語義語義文本床前明月光語音識

46、別(ASR)文本理解語音合成(TTS)文本生成床前明月光文本音頻29語音語義處理的一個核心問題,是將文字和聲音表達為機器容易理解和處理的形式。在深度學習誕生之前,人們主要使用特征工程的方式,通過人工定義一些特征函數,將文字和聲音轉化為特征向量。這種方法依賴專家知識,且特征很難擴展,無法規?;瘧?。隨著深度學習技術的發展,自動學習語言的向量表示逐漸成為主流。對于“理解”任務,通常使用一個神經網絡作為編碼器,將語言映射到低維向量,用向量表達語義信息;而對于“生成”任務,通常再使用一個神經網絡作為解碼器,將低維向量映射到語言,將向量中蘊含的信息表達出來。上述編碼器-解碼器框架,能夠用于處理文字和音頻

47、信號,其中文本編碼器和音頻編碼器具有較大的差異,而文本解碼器和音頻解碼器卻大致相同。在深度學習時代,如何設計編碼器和解碼器的網絡結構,以及如何學習編碼器和解碼器的參數,是兩個關鍵的技術問題。在小模型時代,CNN模型和RNN模型技術占據主流,尤其是RNN中的一類被稱為LSTM的模型,憑借其處理遠距離依賴的能力大放異彩。然而,RNN 模型的優化不穩定、且難以并行計算,這成為了構建大規模語言模型的障礙。2017 年,基于自注意力的 Transformer 模塊被提出,它結合了已有方法的優點,在速度和表達能力上都體現出巨大優勢,因而迅速占領了自然語言處理和語音識別領域。隨著大規模語料庫的出現和自監督學

48、習方法的成型,業界在 2018 年迎來了大規模預訓練模型 BERT 并就此進入大模型時代。如今,預訓練大模型憑借其出色的泛化能力和在此基礎上發展的基于提示的微調技術,大大簡化了各種下游任務的實現方式,推動了自然語言處理和語音識別領域的巨大發展,成為語音語義處理領域落地的最佳方案。以下,我們講述盤古語音語義大模型的整體思路和技術方案。302.2.1 數據收集與計算機視覺領域類似,自然語言處理和語音識別也建立在大規模數據集的基礎上。所謂“讀書破萬卷下筆如有神”,為了讓模型掌握強大的語言理解和生成能力,我們需要準備海量的數據讓模型進行學習,覆蓋各個主題和領域。關于文本部分,我們從互聯網公開爬取了 4

49、0TB 原始網頁數據,并且進行解析和清洗。我們使用正則匹配等方式,過濾掉常見噪聲數據,如網頁標簽、特殊字符、錯誤編碼等,并且使用哈希的方法對數據進行去重,然后對數據的長度進行規范,舍棄太短的文章并切分太長的文章,以確保輸入長度在合理的范圍內。最終,我們得到約 647GB 文本數據,其組成如下圖所示。關于語音部分,我們從互聯網公開爬取了超過 7 萬小時普通話音頻數據,并將其轉換為音頻文件,共計約11TB。視頻來源包括新聞播報、影視劇、綜藝節目、動畫等。270GB百科知識200GB新聞博客106GB文學作品71GB社交媒體2.2.2 預訓練方法對于語義部分,我們使用的神經網絡是基于 Transfo

50、rmer 結構的編碼-解碼器模型。編碼器負責文本理解,使用雙向自注意力機制,讓每個詞充分“觀察”它兩邊的詞,以捕獲它在上下文中的語義信息。解碼器負責文本生成,使用單向自注意力機制,逐詞進行生成,每個詞只能“看到”它前面的詞,根據上文的信息來預測下一個詞。31為了讓模型從海量文本數據中學到語言知識,需要設計合適的學習目標。我們提出多任務融合的訓練策略,以讓模型同時獲得理解能力和生成能力。針對理解能力,我們使用遮罩語言模型作為訓練目標,即在原文中挖空,讓模型做完形填空任務,例如對于“床前明月光疑是地上霜”這句話,我們從中隨機選取一些位置進行挖空,如將“明月”和“霜”挖掉,模型的訓練目標是將挖掉的內

51、容預測出來。針對生成能力,我們使用回歸語言模型作為訓練目標,即給定一句話的上半部分,讓模型預測下半部分,例如將“床前明月光”作為輸入,模型的訓練目標是將“疑是地上霜”預測出來。此外,為了讓模型具備零樣本推理能力,即直接處理下游任務的能力,我們還收集了超過 100 個下游任務訓練數據,涵蓋情感分類、意圖理解、語義匹配、實體識別等常見的自然語言任務,將這些數據也加入預訓練當中。對于語音部分,其解碼器與文本類似,我們主要考慮其音頻編碼器。我們使用卷積與 Transformer 結合的網絡結構,底層用卷積神經網絡提取局部信息,上層用 Transformer 網絡提取全局信息。我們使用對比學習的訓練目標

52、,將音頻中挖掉一個片段,再隨機采樣一些片段作為負例,讓模型從中找出正確的被挖掉的片段。多任務混合遮罩語言模型回歸語言模型下游任務床 前 X 光 疑 是 地上 Y這段新聞:俄羅斯的.類別是什么床 前 明月 光X 明月 Y 霜疑 是 地上 霜軍事編碼器解碼器編碼器解碼器編碼器解碼器322.2.3 效果展示盤古的語義模型是業界首個千億中文大模型,發布時(2021 年 5 月)在中文理解類榜單 CLUE 上獲得第一名。CLUE 是中文理解類最權威的榜單,包括新聞分類、語義匹配、閱讀理解、成語完形填空、指代消解等 10個任務。對于生成類任務,我們在 NLPCC2018 文本摘要任務上取得了業界最佳成績,

53、超越第二名 60%。由于多任務預訓練,我們的模型具有強大的零樣本推理能力,相比于 RoBERTa 模型,零樣本推理準確率提升超過 50%。我們的語音模型是當前最大的中文語音模型之一,擁有超過 4 億參數,在自有數據上相比于基線模型字符錯誤率相對降低 10%。下圖展示了幾個典型的自然語言理解任務,包括文本分類、閱讀理解、實體識別等。盤古大模型在基于提示的微調下,能夠輕松地在這些任務上取得很高的理解精度。文本分類任務輸入這件衣服款式一般,但做工挺好的,價格也便宜,推薦購買輸出積極輸出白白輸出姚明-人物上海-地點休斯頓火箭隊-組織輸入明明明明明白白白喜歡他,但他就是不說,他很高冷。提問:誰喜歡明明?

54、輸入姚明出生在上海,曾致力于休斯頓火箭隊閱讀理解任務實體識別任務33人類在理解外部世界時,往往需要綜合考慮多種信息,如視覺、聽覺等。在人工智能領域,多模態任務的主要目標就是處理和關聯多源異構信息(如語音信息、文本信息、圖像信息、視頻信息等),通過設計相應信息融合或交互方法來綜合提取多模態知識。因此,多模態任務與前述計算機視覺或者自然語言處理等處理單一模態的任務不同,需要在海量的多模態數據上完成預訓練,然后將預訓練的知識遷移到下游各項任務中,從而提升相應下游任務的精度。典型的多模態任務如下圖所示,包括跨模態檢索(譬如以文搜圖或以圖搜文)、視覺問答(通過圖像內部所提供的信息對相關問題作答)、視覺定

55、位(定位在一張圖像中一段話所描述的對應區域),等。由于多模態數據具有多源異構的特點,理解任務的核心困難就在于如何將不同形態信息進行統一化表示,從而使得計算機能夠處理完成多源異構信息的交互與知識抽取。盤古大模型圍繞視覺(圖像)和語言(文本)這兩種最常見的模態展開研究,完成了一套預訓練配合下游任務的流程。以下,我們將講述盤古大模型的整體思路和技術方案。2.3 多模態大模型A man in a brown shirt rides an elephant into the water.A man and a boy are talking about a bicycle in a store.A ma

56、n with a red helmet on a small moped on a dirt road.A pigeon greets three bicyclists on a park path.A kid is to blow out the single candle in a bowl of birthday goodness.Woman on right in white shirt342.3.1 數據收集與視覺和語音語義大模型相同,多模態大模型必須在海量、高質量的數據上進行訓練。我們采用了業界通用的做法,即從互聯網中爬取大量數據,然后使用過濾算法消除其中不符合要求的部分,最終得到

57、高質量的圖文配對數據,用于多模態大模型的預訓練。具體地說,我們設定大量文本關鍵字,在搜索引擎上獲取排名靠前的圖像,并且將圖像對應的文本(從元數據中獲得)存儲下來,形成圖文配對數據池。去掉其中的重復數據后,我們進一步篩除其中分辨率過低或者文本長度過短的數據,隨后利用已有的多模態預訓練模型對這些配對的相似度進行判斷,如果相似度太低,則將其文本描述丟棄并使用圖像自動描述算法補充生成文本數據。經過上述預處理過程,我們最終得到了約 3.5 億高質量的圖文配對數據,占據約 60TB 存儲空間。2.3.2 預訓練方法多模態大模型預訓練的關鍵,在于不同模態數據的高效交互和融合。當前主流的多模態大模型架構主要分

58、為單塔架構和雙塔架構。其中單塔架構只利用一個深度神經網絡(一般是 Transformer)結構來完成圖像和文本之間的交互融合,本質上屬于信息前融合方案;而雙塔架構利用不同的神經網絡來完成不同模態的信息抽取,然后僅在最后一層做信息交互和融合,因而屬于信息后融合方案。3.5 億對圖文數據60 TB存儲空間35盤古大模型采用了雙塔架構,其具有模型獨立性強、訓練效率高等優勢。盤古大模型的實現方式很簡單:分別使用相應網絡抽取圖像和文本特征,然后將一個批次的圖像和文本特征送入判別器,在對比損失函數的作用下,使得配對的跨模態特征聚集在一起,而不配對跨模態特征被拉遠。在大數據集上充分迭代后,模型就能學會將圖像

59、和文本對齊到同一空間。此時,圖像和文本的編碼器可以獨立用于各自下游任務,或協同用于跨模態理解類下游任務。然而,當前大多數的多模態雙塔架構方法僅僅進行了全局的信息對齊,而對于文本和圖像內容的細粒度知識卻缺乏考慮。譬如,一幅圖像中可能包含很多視覺實體區域,而對應的文本描述中也包含了很多名詞短語。以更精細的粒度對齊這些視覺實體和名詞短語,將有助于多模態大模型獲得更加強大的圖文配對能力?;诖?,盤古團隊提出了自研算法 LOUPE(發表于 NeurIPS 2022 會議)。該算法利用博弈論相關思路將圖像中的視覺實體區域和文本中的名詞短語提取出,并通過對比學習損失函數進行細粒度對齊。使用這種方法訓練出的多

60、模態大模型,在多項下游任務中表現出了更好的精度。A girl in a blue coat is looking down at a dog led by a man in front of a churchA girl in a blue coat is looking down at a dog led by a man in front of a churchWord EmbeddingsPatch EmbeddingsWord TokensCLSCLSPatch TokensEfficient and Semantics-Sensitive Dual-EncoderSemantic P

61、hrasesSemantic RegionsPhrase-Region Semantic AlignmentSemantics-level Shapley InteractionSemantic Region GenerationText EncoderText EncoderText-ImageContrastive LearningSemantics-level Shapley Interaction362.3.3 效果展示盤古多模態大模型在多模態的各項下游任務,如跨模態檢索、圖像描述自動生成、視覺定位等任務上均取得了業界領先水平。采用 LOUPE 算法預訓練所得的模型,在跨模態檢索數據集

62、 Flicker30k 以及 MS-COCO上取得了當前業界最佳的圖文檢索精度,其中在 MS-COCO 的以文搜圖任務上超過業界標桿算法 CLIP 達12.3%。此外,算法在開放域的物體檢測和視覺定位任務中也取得了良好的效果,示意結果如下:(a)Object Detection(b)Visual Grounding37視覺大模型、自然語言大模型和多模態大模型主要面向通用的人工智能問題,例如音頻分析、圖像識別、語義理解等。人類擅長解決這些問題,因而能夠標注大規模數據集供深度神經網絡學習。然而,在自然科學中,還存在許多人類也無法解決的問題,如湍流模擬、天氣預報、大形變應力建模等。這些問題有著廣泛的

63、應用場景,如下圖所示:上述問題很有價值,卻也非常復雜。在人工智能之前,科學家們通常通過分析實驗數據與推演機理公式的方式提煉這些問題的內在規律。這些傳統方法,容易在大體量、高維度的數據處理上遇到困難。近年來,隨著人工智能技術的飛速發展,業界涌現出了 AI+科學計算類方法,即使用嵌入各類科學方程的深度神經網絡,從觀測數據和仿真數據中直接學習問題蘊含的規律,以對復雜的科學數據進行分析,了解科學過程的內部機理。2.4 科學計算大模型氣象醫藥游戲水務工業機械航天航空土木.地質應用領域應用場景微分方程氣象預報熱力學狀態方程碰撞模擬拉格朗日方程地震探測程函方程藥物性質計算薛定諤方程海浪高度計算譜平衡方程機器

64、人控制歐拉角微分方程飛行器設計N-S 方程結構應力分析本構方程.電子器件性能計算麥克斯韋方程38從預訓練大模型的角度看,科學計算大模型與前述大模型存在若干相似之處。它們都建立在大規模數據集上,都需要設計大參數量的神經網絡,都需要復雜的優化過程,最后將知識存儲在網絡的參數之中。以下,我們簡單描述科學計算的獨特之處。2.4.1 數據收集在 AI+科學計算場景中,數據分為觀測數據和仿真數據兩類。其中觀測數據由觀測工具(如游標卡尺,雷達,傳感器等)產生,而仿真數據由仿真算法(對應人類知識)產生。這兩類數據及其融合數據和機理知識,都可以作為 AI 模型的學習對象。不同科學計算場景的觀測數據往往相差巨大,

65、觀測數據的收集往往需要特定領域的專業儀器與系統的實驗,例如蛋白質結構預測問題中蛋白質結構的測定需要依賴于 X 射線衍射方法與核磁共振法、短臨降雨預報問題中需要氣象雷達收集的雷達波反射率數據、植物表型分析問題中數據則來自于實驗員的收集,等等。在一些科學計算場景中,觀測數據的數據量非常龐大,例如氣象數據中的全球氣象站歷史數據、衛星數據和雷達回波數據。也有一些場景中,觀測數據量相對較少,例如結構應力分析力傳感器收集的數據。AI 模型AI 模型AI 模型AI 模型過去風速未來風速海浪高度氨基酸序列蛋白質結構藥物性質39數據量噪音數據結構數據變化幅度準確度收集方式數據特點應用雷達回波數據GBTB級別大(

66、X,Y,Z,T)每一個空間點有對應的雷達 回波值中等中等氣象雷達原始數據是極坐標形式,拼接雷達回波數據中有空白區域短臨降雨預報植物表型記錄數據MBGB級別中等(N,C)每株植物每種特定表型(如產量,株高)有對應值較小高實驗員手工收集或者高通量表型分析儀器數據收集難度較高,數據點較少植物表型-基因型關系分析氨基酸序列數據TBPB級別小固定詞表的序列數據大高由測定的DNA 序列推算出序列數據,與文本數據相近蛋白質結構預測氣象中心預報數據TBPB級別?。╔,Y,Z,T)較大低由氣象仿真算法得到仿真數據和實際場景的觀測數據有系統誤差氣象要素預報大氣資料再分析數據PB 級別大(X,Y,Z,T)較大中等由

67、氣象仿真算法與觀測算法融合得到和實際場景觀測數據有一定系統誤差,但是包含觀測數據的信息中長期氣象預報 仿真數據來自于數值仿真算法的輸出,蘊含著豐富的數學物理信息,同一個問題使用不同的仿真算法可以輸出不同的仿真數據。仿真數據不同于觀測數據,其精度受限于使用仿真算法的準確性和仿真計算的算力多少。相對于觀測數據,仿真數據通常數據量更大(取決于仿真時使用的算力),同時缺省值較少,可以作為觀測數據的有效擴充。在有些場景中,觀測數據和仿真數據由特定的機理知識結合在一起,生成融合數據。如氣象再分析數據,再分析數據通常使用同化算法融合仿真數據和實驗數據得到結構化的數據,根據不同同化算法與使用的仿真數據也可以有

68、不同的結果。以下總結了若干場景的數據情況。402.4.2 模型構建根據輸入數據的性質,算法會選用不同的基礎模型用于訓練。以海浪預測任務為例,其目標為預測全球范圍內海平面的實時浪高,輸入和輸出數據均為帶有時間戳的二維球面數據,因此適合使用二維網絡模型。如果將預測范圍擴展至三維空間,如進行全球范圍內的氣象預測,輸出和輸出均為帶有時間戳的三維數據(包括高度),則適合使用三維網絡模型。二維網絡和三維網絡均可以借鑒計算機視覺領域的相應模型,如使用卷積神經網絡或者視覺 Transformer 作為骨干架構,配合大數據進行預訓練??茖W計算的一個顯著特點,是可以利用人類在相應問題上積累的經驗,而這些經驗通常會

69、施加在輸出數據上,成為某種約束性質的偏微分方程組。如下圖所示,我們可以將此類方程組嵌入神經網絡中,輔助模型架構設計或成為額外的約束條件,與標準觀測或仿真數據一起,訓練神經網絡模型。在良好的實現下,這類知識通常能夠增強模型的魯棒性,降低模型擬合訓練數據的難度和不穩定性。(注:左圖為嵌入偏微分方程的神經網絡示意圖,右圖為海浪預報問題使用的偏微分方程)412.4.3 案例和效果展示以下,我們展示一個典型的科學計算案例,即全球海浪高度預測系統。傳統科學計算方法通過求解譜平衡方程計算波浪高度,通常需要使用超級計算機計算,同時消耗大量算力。由于計算無法做到實時完成,當風速等氣象要素改變時,傳統方法無法給出

70、實時的海浪預測,存在一定時間延遲。海浪預測問題的輸入輸出都是經緯度網格點上的氣象要素數據,在數據形式上與視頻數據相似。不同之處在于,視頻數據每個元數據是0-255 的像素值,而風速、地形、海浪高度等數據的每個元數據均為浮點數。同時,海浪預測的輸出通常不是某種分類,而是連續的預測值,因此需要用回歸損失替換深度學習中常用的分類、分割損失。此外,海浪數據和視頻數據相比,并不滿足平移對稱性等,但滿足球坐標條件下的一系列不變性,例如繞地軸旋轉,因此需要選定滿足特定不變性的 CNN 或者 Transformer 架構。盤古海浪預測模型的主體是考慮了旋轉不變性的視覺 Transformer 架構,參數量約為

71、五億。如上所述,神經網絡的損失函數由兩部分組成,即實際數據上的預測誤差和海浪預測本身需要滿足的偏微分方程。通過爬取全球近10年的實時海浪高度數據進行訓練,模型在驗證集上預測的平均誤差小于5cm,與傳統預測方法相當,完全可以滿足實際應用需求。更重要的是,AI 算法的預測時間較傳統方法大幅減少:在單張華為昇騰芯片上,1s 之內即可得到全球海浪高度預測,1 分鐘內能夠完成超過 100 次海浪預測任務,推理效率較傳統方法提升了 4-5 個數量級。使用 AI 算法,我們可以迅速得到不同可能的風速條件下的海浪高度,從而進行實時預測和未來情況模擬,對于漁業養殖、災害防控等場景有極大的價值。圖:盤古海浪預測模

72、型可以在短時間內對數千組可能情況進行模擬,得到與傳統科學計算方法相當的精度使用昇騰 AI 芯片,AI 模型可以在一秒內給出成百上千組“隨機”風速分布下的海浪分布42當前,人工智能技術正在進入千行百業。除了圖像、文本等常見數據形態外,還存在大量極度異質化的數據,如公司 ERP 數據(計劃、財務、銷售、采購)、分子基因、交通網絡、股票、點云,等。這些數據很難通過標準的卷積、Transformer 等模塊進行處理,因而需要適應不同任務和不同模態的神經網絡,以達到量化的效果。我們以圖網絡的形式對通用數據進行建模,以利用圖結構來表達數據元素間的相關性。在上述背景下,盤古圖網絡大模型被設計出來,它的目標是

73、統一大模型在通用數據域上的構造方案,從而實現不同任務場景下端到端的大模型訓練、優化、微調和部署。盤古圖網絡大模型主要實現的目標有:同時,盤古圖網絡大模型還配備有其他適合部署的功能,如模型加密(使得模型在云、邊、端等不同場景下部署時收到產權保護)和大規模數據訓練(支持多節點并發訓練),使得整套系統對實際應用更加友好。2.5 圖網絡大模型在具體任務中,盤古圖網絡大模型可自適應構建不同基模型和圖網絡,實現更高的精度盤古圖網絡大模型可基于圖網絡提供更強可解釋性,以適應敏感場景(如工業、醫療、金融等)的需求通過選擇基模型或者微調圖網絡,直接將盤古圖網絡大模型遷移至新場景使用盤古圖網絡大模型的自動學習能力

74、可以適用于不同行業和領域中的不同任務,使得一個模型能夠應用于多個任務通過刪減、增加基模型,實現盤古圖網絡大模型的終身學習高泛化終身學習高精度高可解釋性冷啟動43盤古圖網絡大模型整體架構如下圖所示:圖:盤古圖網絡大模型整體架構盤古圖網絡大模型的頂層設計,主要分為基模型構建和圖網絡融合兩個部分。在基模型構建部分,模型會自動使用超采樣的不同數據集來訓練不同的基模型:在這個過程中,不同基模型的超參數通過 AutoML 的相關技術進行搜索(圖中的不同顏色的箭頭表示不同的數據流,不同顏色的框中表示不同的基模型),減輕了開發者的調參壓力。而在圖網絡融合部分,每個基模型根據輸入數據進行預測,而不同的預測結果在

75、圖網絡中被融合起來,得到最終的輸出。該方案的優勢在于,圖網絡中的基模型可以任意增減,而不管如何增減基模型,都不會對圖網絡的匯聚產生影響,因為圖網絡本身對于輸入的基模型數量不敏感?;P凸δ埽合∈桄溄?,分區處理不同分布 模態數據技術:automl,bagging,boosting,rf,cnn,tra.優勢:終身學習,課程學習,并行訓練推理.圖網絡功能:中樞協同不同分布 模態模型技術:graph,set,tree,mlp,transformer.優勢:對分區數量不敏感,更魯棒.123412341234數據44為了讓開發者更方便地使用這套框架,盤古圖網絡大模型在代碼實現層面進行了架構的良好設計,整

76、體代碼結構清晰,易于閱讀和維護。圖:盤古圖網絡大模型代碼結構示意圖上圖展示了盤古圖網絡大模型的基本代碼邏輯。系統整體由兩部分組成,基模型構建和圖網絡融合。其中,基模型選取通過 BasicAlgorithm 產生對應算法池內的對應算法和搜索空間,之后使用 HyperparamFind 類進行超參數搜索,之后將搜索好的基模型輸入 StackNet 訓練該層的層次網絡,并輸出結果。該結果將作為下一次的輸入重復進行新的基模型選擇與超參搜索,在得到多個完整的基模型組成的層次網絡的輸出后,使用圖神經網絡進行信息聚合,得到輸出結果。同時我們也可以將其他訓練好的基模型,通過 add_base_algorith

77、m方便地加入其中,進行圖網絡匯聚(例如圖 1 中的虛線的 ModelOutput5),而不需要更改其他基模型、層次網絡以及圖神經網絡。這樣的特點,使得盤古圖網絡大模型能夠很容易地應用于各種差異較大的任務。在下一章節,我們會展示盤古圖網絡大模型的若干實際應用案例。GNNStackNetClassificationBasicAlgorithmRegressionBasicAlgorithmHyperparamFindadd_base_algorithmLayerOutputLayerOutputFinalOutputXGBLGBRFMLP.XGBLGBRFMLP.Modeloutput3Model

78、output1Modeloutput2Modeloutput4Modeloutput5GNN Base model fusionBase model selection45盤古大模型應用案例47TFDS 是 Trouble of moving Freight car Detection System 的縮寫,即貨車故障軌旁圖像檢測系統,由檢測信息采集、信息處理傳輸和列檢檢測中心等設備構成,通過高速像機陣列,拍攝列車車底和側下部的全部可視信息,經數字化處理后顯示于檢測中心的信息終端上,通過人機結合的方式,對抓拍后貨車車輛的圖像進行分析,實現故障檢測功能。全路約有 6000 人動態檢車員承擔著對

79、TFDS 檢測設備所拍攝車輛圖像的分析工作。龐大的檢車員數量造成每個路局的資金負擔。當前,以人均年工資支出約為 15 萬元計算,則全路每年在該領域的支出近 10 億元;同時,車輛故障分析工作強度大、難度高,對車輛專業理論與實際運用需要有很好的水平,要求動態檢車員在短時間完成整列車的故障分析,確保整列車的運行安全。TFDS 圖像自動識別從 2007 年就開始嘗試采用圖像自動識別技術進行研究,當時從故障部件的邊緣及灰度面積進行,受故障形態多變、圖像質量差異大、車體污染等影響,識別結果一直不理想,而且只能對故障形態非常明顯的故障進行識別,如:截斷塞門手把關閉故障,并采 SVM(支持向量機)技術,識別

80、率才達到80%以上,但對于其他故障,一直沒有好的解決辦法。因此,當前各路局車輛段都還是采用人工分析方式,TFDS 的智能分析需求并沒有得到很好的滿足。3.1 視覺大模型案例:TFDS 圖像自動識別48基于盤古行業預訓練模型的鐵路 TFDS 開發方案整車故障綜合分析部件目標檢測故障識別語義相似樣本聚集行業預訓練行業預訓練部件位置信息基于先驗的模板匹配部件故障分類關鍵點檢測局部故障檢測大面積地板破損、異物、形變TFDS 行業預訓練部件定位模板匹配故障識別異常檢測圖像質量評估整車綜合分析增強圖像亮度特征提取圖像正常綜合判別質量評估模型過曝、欠曝等等級化語義聚集盤古行業預訓練模型圖像質量評估異常檢測部

81、件丟失、錯位、出現異常部件等算法識別預報故障形變、折斷、脫落等角度、尺寸等故障破損、裂縫部件定位故障識別行業預訓練49上圖展示了盤古視覺大模型在為 TFDS 定制的解決方案。依托于盤古行業預訓練大模型,我們定制化地開發了整體解決方案,包括車型篩選、工位分類、配件篩選、圖像質量評估、已與車型先驗的模板匹配、多車級聯分析等模塊,其中盤古大模型核心解決方案包含以下組成部分:基于盤古視覺大模型的整體解決方案,在 5T 檢測車間集中作業分析的 14 條線路進行了驗證。在 2021 年 9月 19 日至 2021 年 10 月 20 日期間,由 5T 檢測車間動態檢車員預報并經組長確認為提報故障的數據樣本

82、(故障圖片)共計 32007 張。在測試環境下,這些故障圖片與大量正常圖片混合,送入盤古大模型進行判斷。如下表所示,實測結果表明,當前盤古大模型的識別精度已經超過人類檢測員水平。攔停重點一般準確預測119漏報1故障總數120識別率99.17%識別率98.24%識別率99.45%故障總數28786故障總數3101漏報506漏報17準確預測28280準確預測3084行業預訓練模型車輛拆分自動增強和評估模板匹配故障定位、識別根據整列車圖像,定 位 出 每 輛 車 的 圖像利用百萬級無標注鐵路行業生成鐵路行業預訓練模型圖 像 進 行 自 動 評估,對正常圖像做進一步故障識別,非正常圖像返回人工審核根據

83、已知的車型信息建立零部件的相對位置模板,預報部件位置異常(丟失、錯位)基于鐵路行業預訓練大模型,結合目標檢測、圖像識別框架,進行部件定位、故障識別50銷售在許多行業中都是十分重要的角色,包括銀行、保險、汽車、地產等,銷售的水平直接影響企業的業績。銷售要求具備優秀的語言能力,一方面要理解客戶潛在的意圖,推薦客戶可能感興趣的產品,另一方面要運用合理的表達方式,突出產品的優點,刺激客戶的購買意向。在傳統銷售場景中,往往以結果作為唯一評價指標,無法對銷售的中間過程進行監測,導致客戶的潛在購買意圖沒有被充分挖掘,低水平銷售不清楚短板在哪里,難以找到提升方向,高水平銷售的成功經驗也難以總結。為了改善這一現

84、象,我們將盤古語音語義大模型引入銷售過程中,利用大模型強大的語音識別、語言理解、語言生成能力,對銷售人員進行賦能。我們對銷售和客戶的對話內容進行實時處理,首先利用語音模型得到對話內容,再利用語義模型進行分析。對于客戶側,我們分析其購買意向,避免在低意向客戶身上花費太多時間,同時分析其潛在購買意圖,推薦他可能感興趣的產品。對于銷售側,我們分析銷售人員的講解內容,避免產品關鍵信息的遺漏,幫助企業了解每名銷售的完成情況,同時為銷售推薦恰當的話術,以提升其表達能力。在銷售輔助系統的幫助下,可以使初級銷售的產能提升 50%左右,中級銷售的產能提升 10%到 30%,客戶成單率提升 2 到 3 倍。3.2

85、 語音語義大模型:賦能智慧銷售 深入業務流程的銷售輔助閉環 提升初級銷售的產能高達 50%,中 級 銷 售 產 能 10%30%線下銀行網點依然適用 普通銷售人員和精英銷售人員業績差異相當大 企業缺乏有效手段及時發現每名銷售的短板并及時給予指導,造成大量業績損失循環智能的解決方案和業務結果業務場景挑戰在銀行、保險的線上&線下網點銷售場景,借助銷售實時輔助系統,提升人員產能 10%50%執行監督實時輔助話術挖掘數據采集51依托于大模型的通用性和泛化性,我們可以將該系統遷移到各個行業中,性能保持穩定。除 B 端場景外,語音語義大模型也瞄準 C 端的多個場景進行發力,包括語音助手、自動問答、對話生成

86、等。由于在預訓練中學習過海量的百科類數據,模型中存儲了大量通用知識,可以針對特定問題生成合理的答案。如提問“北京有哪些好玩的景點”,模型可以給出“故宮”、“長城”、“798 藝術區”等答案。此外,模型還具備聊天能力,可以生成合理的多輪對話回復。在保險的銷售場景,借助名單意向預測和產品推薦系統,實現銷售轉化率 2x3x 創造性地基于過往溝通內容與成單結果進行意向預測 通過未成交名單意向排序和已成交客戶增購意向排序及產品推薦,實現轉化率 2x3x 適用于電銷、網銷、代理人等多種銷售渠道 銷售人員在“低意向客戶”上浪費了大部分精力,銷售轉化率難提升 產品推薦完全基于人工經驗,未經數據驗證循環智能的解

87、決方案和業務結果業務場景挑戰52一網統管事件工單分配是每個城市運營中必不可少的業務之一。通過對工單分配,可以有效地安排對應部門處理城市當中發現的問題,縮小發現事件和處理事件之間的時間差。當前,一網統管的事項類別分布十分廣泛,多達 300 類;此外,大規模城市往往每天都面臨著大規模事件工單進行分發,因此事件工單的智能分配是非常關鍵的問題。事件工單的輸入信息,往往是網格員通過巡查上報(拍照+描述)或者市民通過隨手拍上報(圖片+文本描述)而形成。在使用小模型時,這些事件的分類精度較低,因而產生了大量錯誤分類,導致事件沒有分配到對應的處置單位中,嚴重影響事件的處理效率。此外,由于事件分類缺乏國家標準,

88、不同城市的事件類別也有一定的特異性;如果使用小模型,就會需要對每個城市做一次數據的重新收集和模型迭代訓練,耗時耗力,并不便于城市功能智能分配系統的快速部署。盤古多模態大模型的出現,給了城市事件工單智能分配統一解決方案?;谧匝兴惴?,盤古多模態大模型能夠在大規模通用圖文配對數據上進行預訓練?;陬A訓練模型,就可以在網格員或者市民上傳的圖片或者文本上抽取有效信息,進而與相應類別的圖像或者文本特征進行相似度匹配、關聯。通過這種方式,系統甚至可以在零樣本標注條件下,解決一網統管事件智能分配系統在各城市應用部署的冷啟動、缺乏樣本標注等問題,使得一個模型方案就可適配所有城市的業務。同時大模型帶來的高泛化能

89、力也使得最終事件分類精度較高,同時伴隨著邊用邊學功能來積累歷史工單能夠進一步提升模型效果。最終,在該方案下,盤古多模態大模型相較于小模型在事件智能分配上識別精度提升 15%以上,識別精度達到專家水平,取得了客戶的廣泛認可。當前該業務系統已經在部分省市展開試點驗證。3.3 多模態大模型:一網統管事件工單分配53傳統流程每個城市均需重新迭代 工作量大 周期長城市 1數據收集、標注耗費大量時間模型重新訓練模型部署城市 2數據收集、標注耗費大量時間模型重新訓練模型部署解決冷啟動 效率高 成本低基于多模態大模型的流程城市 1城市 2城市 3模型部署模型部署通用多模態數據多模態大模型訓練模型部署543.4

90、 圖網絡大模型:水泥生產系統的 自動控制水泥生產需要不斷根據窯內相關信息,調整系統的 CV(control variables,可控變量)設定值。在傳統生產過程中,這一過程由人工根據設定值和經驗手動調節,無法做到實時。而自動化、實時的調節,需要預測器與求解器相結合,由預測器提供準確的窯內條件,而求解器提供 CV 值條件下相關指標的預測結果,并將該結果提供給求解器產生下一個 CV 值,直到找到符合約束的 CV 值輸入窯內。這一過程可以視為優化問題,優化目標是能耗最小,約束是相關產品的產量和質量。盤古圖網絡大模型應用于水泥生產系統時,可以根據水泥窯內實時數據和求解器生成對應的 CV 設定值,從而精

91、準預測當前窯內情況下,相應的 CV 設定值需要的煤耗以及產出水泥的質量。這些信息可以輔助優化過程計算出能耗更低、質量更有保證的水泥生產 CV 設定值,從而實現節能增產的目標。具體流程如下圖所示:圖:盤古大模型在水泥能耗優化中使用的流程圖盤古水泥大模型求解器優化,產生新的CV 設定值窯頭煤耗預測結果窯尾煤耗預測結果質量預測水泥窯最優 CV 值窯內實時數據CV 設定值55如下表所示,與傳統方法相比,盤古圖網絡大模型顯著提升了 CV 值的預測準確率:R2(越大越好)原版算法盤古 Graph工況 0窯頭煤耗0.2180.511窯尾煤耗-1.6660.147質量預測0.0070.534工況 1窯頭煤耗0

92、.3540.661窯尾煤耗-1.2350.098質量預測-0.3070.47156圖:盤古大模型在焦化系統在使用的示意圖3.5 圖網絡大模型:煉焦系統的自動控制配煤是煉焦的成本控制的關鍵,而現階段焦化行業傳統配煤方式無法全局掌握各環節的數據,很大程度上依賴于專業配煤師的經驗以實現準確配煤。同時,基于傳統單一配煤理論的實現方法,很難有效應對煤質混雜愈加頻繁的情況。將盤古圖網絡大模型應用于煉焦系統時,可以將多種配煤理論作為機理模型,作為基模型的一部分輸入大模型,與優化方案結合,實現高精度焦炭質量預測和最優配煤比例的高效尋找。引入機理模型后,模型不僅取得了更高的精度,還具有更強的可解釋性。適配于焦化

93、行業的圖網絡大模型的整體應用流程如下圖所示:盤古焦化大模型產線數據工藝數據數據預處理及特征工程尋找全局較優解較優解持續迭代優化全局最優解其他生產數據各指標基礎機理模型訓練優化算法軟測量模型57展望未來,大模型的機遇與挑戰并存59事物的發展往往體現著歷史的必然性。就像人工智能是計算機科學發展到一定階段后與認知科學結合的產物那樣,預訓練大模型的出現,是人工智能與大數據、大算力結合的必然結果。如果僅僅局限于深度學習的范疇,那么我們可以這樣說:大模型的出現和繁榮,既是當前深度學習的頂峰,也代表著深度學習算法的瓶頸。對大模型的需求,本質上是對大數據的需求:當前的人工智能算法,尚無法高效地建模不同數據之間

94、的關系,并以此解決模型泛化的問題;取而代之地,通過收集并處理大量訓練數據,人工智能算法能夠通過死記硬背的方式,一定程度上提升泛化能力。從這一角度看,大模型對數據的應用,依然處于比較初級而低效的水平??梢灶A見到,這種方式的邊際效應是明顯的:數據集越大、模型越大,提升同等精度所需要的代價就越大。要想通過預訓練大模型真正解決人工智能問題,看來也是不太現實的。雖然預訓練大模型存在上述局限性,我們也應該看到,大模型給人工智能的落地方案帶來了思路上的變化。在實際落地中,尤其針對小樣本、長尾分布等場景,預訓練大模型與預置工作流配合,往往能夠達到很好的效果在預訓練數據的加持下,自動生成算法的性能甚至能夠超出一

95、般人工智能算法工程師手工設計算法的性能,并且在模型調優所需要的計算復雜度方面也具有相當優勢。這說明,預訓練大模型在人工智能算法自動化的方向上,又往前邁了一小步。假以時日,在學界和業界的共同孵化下,預訓練大模型將成為基于深度學習的算法底座,支撐更多人工智能應用落地,節約更多人力和算力資源。60當然,要實現真正的通用人工智能,業界還有很長的路要走。除了在數據集構建、模型設計乃至評測標準方面持續演進,業界首先需要做的,是拋棄預訓練大模型 參數量至上 的評判標準。我們回顧 2010 年左右的計算機視覺算法,可以發現,當時不少視覺算法的參數量也很大;然而,這些大參數量的模型并沒有被冠以大模型的稱呼,也沒

96、有在實際應用中取得很好的效果。在 2012 年舉辦的第二屆 ImageNet 大規模視覺識別競賽中,僅擁有 6000 萬參數的深度神經網絡模型,以巨大優勢戰勝了擁有 10 億參數的線性 SVM 模型,并隨即開啟了深度學習在計算機視覺領域的統治。因此,參數量并不是評判模型能力的最好標準如何用好參數、將模型的魯棒性做得更好,才是我們真正應該關注的問題。技術是跳躍式發展的。在人工智能領域,上一次顯著的技術跳躍正是深度學習。然而業界也已經清楚地認識到,深度學習不是終點,基于深度學習的大模型也不是解決任何問題的靈丹妙藥。要想達到基本的通用人工智能,像深度學習這樣的技術跳躍,至少還需要發生兩次。筆者希望,

97、本白皮書的內容能夠啟發業界的研究者和工程師們:讓我們在大模型的基礎上更進一步,將人工智能導向更加光明的未來!華為技術有限公司深圳龍崗區坂田華為基地電話:+86 755 28780808郵編:免責聲明本文檔可能含有預測信息,包括但不限于有關未來的財務、運營、產品系列、新技術等信息。由于實踐中存在很多不確定因素,可能導致實際結果與預測信息有很大的差別。因此,本文檔信息僅供參考,不構成任何要約或承諾,華為不對您在本文檔基礎上做出的任何行為承擔責任。華為可能不經通知修改上述信息,恕不另行通知。版權所有 華為技術有限公司 2022。保留一切權利。非經華為技術有限公司書面同意,任何單位和個人不得擅自摘抄、復制本手冊內容的部分或全部,并不得以任何形式傳播。商標聲明 ,是華為技術有限公司商標或者注冊商標,在本手冊中以及本手冊描述的產品中,出現的其它商標,產品名稱,服務名稱以及公司名稱,由其各自的所有人擁有。

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(華為云:預訓練大模型白皮書(2022)(59頁).pdf)為本站 (人生如夢) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站