《華為:2024年云AI視頻技術白皮書(35頁).pdf》由會員分享,可在線閱讀,更多相關《華為:2024年云AI視頻技術白皮書(35頁).pdf(35頁珍藏版)》請在三個皮匠報告上搜索。
1、華為云AI視頻 技術白皮書引 言/01AI 與視頻的碰撞/052.1 發展趨勢 .052.2 典型場景 .07AI 視頻介紹/093.1 參考架構 .093.2 行業視頻管理服務(IVM).113.3 視頻智能分析服務(VIAS).133.4 盤古CV大模型 .153.5 盤古視頻解譯大模型 .21華為云 AI 視頻技術白皮書AI 視頻應用案例/234.1 華為門店 .234.2 物流 .254.3 鐵路 .264.4 礦山 .284.5 電力 .30展望未來,從感知到生成/31華為云AI視頻技術白皮書0101|引 言引 言用攝像機拍攝,記錄并播放視頻可以回溯到 19 世紀,大家公認的第一部電
2、影是法國影片工廠的大門,1895 年由路易斯 盧米埃爾攝影。表現當時法國里昂盧米埃爾工廠放工時的情景,片長僅一分多鐘。從這以后,攝影技術持續發展,從模擬技術到數字技術,從電影攝像機到家用攝像機,直到電腦,手機等便攜終端內置攝像頭,攝像已經成為當今社會人們記錄信息并傳播交流的最重要工具和手段,也是大眾百姓所需要和掌握的一項基本生活技能。攝像技術應用也從電影,廣播電視發展到生活中的方方面面,包括城市治理、安全防護、工業質檢等等。每個城市,每個企業都有大量的攝像機,不斷在記錄發生的一切。海量的視頻數據,在方便大眾的生活的同時,也帶來了很多管理上的困擾。數據如何有效存儲,如何能夠感知并記錄關鍵事件,如
3、何能夠將屏幕面前的工作人員解放出來或者減輕他們工作的強度,已經成為視頻使用者最關心的問題。與此同時,AI 技術雖然起步較晚,但隨著其快速的發展,已經在諸多方面與視頻技術產生了深度的融合。華為云AI視頻技術白皮書02引 言|011950 年,艾倫 圖靈(Alan Turing)在論文計算機器與智能(Computing Machinery and Intelligence)中提出了著名的“圖靈測試”,給出了判定機器是否有“智能”的試驗方法。1956 年夏,麥卡錫、明斯基等科學家在美國達特茅斯學院開會研討“如何用機器模擬人的智能”,首次提出“人工智能(Artificial Intelligence,
4、簡稱 AI)”這一概念,標志著人工智能學科的誕生。人工智能從誕生之初,就希望讓機器理解這個世界,將人類從繁瑣,重復性的事務中脫離出來。從符號主義、專家系統、神經網絡、深度學習、強化學習到預訓練大模型,一個又一個技術的突破,讓人類看到了通用人工智能的希望。自然而然,用人工智能識別視頻數據,甚至生成視頻數據成為了技術路線的必然選擇。華為公司在視頻技術和人工智能技術上都有深厚的積累和豐富的實踐,華為云 AI 視頻產品正是將 AI 和視頻技術相結合的優秀典范。此篇華為云 AI 視頻白皮書,是我們團隊研究和實踐經驗的總結,希望能夠更好地促進產業的發展,讓攝像機“看得懂、會說話”。02|AI 與視頻的碰撞
5、華為云AI視頻技術白皮書03AI與視頻的碰撞沒有孤立的技術,融合才能發展。視頻技術和 AI 技術雖然起步時間不同,但在發展中卻交相輝映,在最需要彼此的時候相遇。如下圖所示,人工智能和視頻編解碼,都經歷了漫長的摸索期,并先后于 21 世紀取得突破式發展。深度學習將人工智能帶入千行百業的生產流程,H.264 編碼技術將視頻業務帶入移動互聯網,成為每個消費者日常的必需品。兩條平行發展的技術踩著同樣的步點,在視頻數據爆發增長,預訓練大模型橫空出世的時代相遇。AI 和視頻的結合是趨勢和必然,給所有人,所有行業無限的想象空間和發展潛力。兩個超萬億產值的行業相乘,將帶來無法估量的產業價值。AI 與視頻的碰撞
6、|02華為云AI視頻技術白皮書04人工智能起步階段專家系統階段機器學習&深度學習階段大模型&通用人工智能使用時間壓縮的幀間預測編碼DCT 圖像壓縮算法H.261H.266MPEG-1H.262/MPEG-2H.264/MPEG-4 AVCH.265/HEVCH.263MPEG-4H.263+H.263+19561960s199320061980s2017202319741980第一次寒冬算法只能解決狹窄領域的問題,算力不足以支撐發展起源達特茅斯會議的人工智能研討,標志著 AI 誕生第一次高潮-黃金發展期符號主義和聯接主義接連出現,機器學習理論和計算機視覺學科誕生第二次高潮-快速發展期“專家系統
7、”出現,為企業一年節省數千萬美金。專家系統所依賴的知識庫系統和知識工程成為主要研究方向,政府開始重視人工智能項目第三次興起2000 年以后,算力+算法+數據的突破帶來深度學習的興起2007 年,李飛飛構建開源ImageNet,世界最大的圖像識別數據集(2 萬多類別)Transformer 出現Google 提出Transformer 替換CNN/RNNChatGPTOpenAI 發布ChatGPT第二次寒冬專家系統通用性差成本高,維護復雜圖表 1 人工智能 VS 視頻編解碼發展歷史02|AI 與視頻的碰撞華為云AI視頻技術白皮書052.1發展趨勢趨勢 1:視頻流云上集中管理大量的攝像機安裝完成
8、后,面臨的問題是如何集中式管理。攝像機分散在不同的地方,管理者需要在一個平臺上,跨區域、大范圍集中管理,通過完善的分權分域能力保護隱私安全。同時,各攝像機采集的視頻需要集中存儲,因為本地化分散存儲會造成信息碎片化,無法形成多個視頻流之間的聯動,且本地存儲易丟失、管理成本高。統一的云上存儲,則可以有效解決以上問題。咨詢報告指出,2023 年到 2027 年,視頻流上云和云存儲的年復合增長率超過 27%。在云化的趨勢下,視頻流云上管理、存儲越來越成為業界趨勢,企業的主流選擇。趨勢 2:用預訓練的大模型生成場景模型AI 技術中,處理視頻的相關技術一般被稱為計算機視覺(Computing Vision
9、)。計算機視覺是一種利用計算機和數學算法來模擬和自動化人類視覺的過程。它涉及到從數字圖像或視頻中提取信息,如對象識別、場景理解、運動跟蹤、三維重建等。計算機視覺技術在許多領域都有應用,如自動駕駛、醫學影像分析、機器人視覺等。計算機視頻分析視頻流或者圖片時采用計算機視覺模型。計算機視覺模型是指使用深度學習技術訓練的神經網絡模型,用于解決計算機視覺領域的各種問題。這些模型通常由數百萬或更多個參數組成,可以對圖像、視頻等視覺數據進行高級別的理解和分析,例如圖像分類、目標檢測、語義分割、人臉識別等任務。AI 與視頻的碰撞|02華為云AI視頻技術白皮書06隨著大數據和 AI 算力的發展,模型參數越來越大
10、,大模型應運而生。大模型指網絡規模巨大的深度學習模型,具體表現為模型的參數量規模較大,其規模通常在百億以上級別。研究發現,模型的性能(指精度)通常與模型的參數規模息息相關。模型參數規模越大,模型的學習能力越強,最終的精度也將更高,泛化性也越強。用大模型可以有效提升場景模型的準確率和泛化性,加上預訓練的海量數據,用少量樣本,甚至零樣本就可以生成場景模型,解決視頻算法長尾的問題。趨勢 3:用視頻解譯大模型理解視頻內容視頻場景模型可以用確定的規則對視頻流進行分析,識別關鍵事件,輔助人工進行判別并給出決策建議。但現實世界紛繁復雜,花鳥魚蟲,春夏秋冬,都在表達著自己的個性和不同,規則是無法窮盡的,判別式
11、算法不斷遇到新的需求和挑戰。如何能夠用泛化性強的模型理解視頻,并通過自然語言的方式進行交互和報告,真正讓人類從繁瑣、重復性的事務中脫離出來是行業內普遍的需求。視頻解譯大模型融合了視覺大模型、多模態大模型、自然語言大模型多種模型,可以實現對視頻、圖片、聲音、文本多種模態組合分析,感知視頻流發生的各種事件,實現讓攝像機開口說話,實現真正的智能分析、智能交互、智能決策。02|AI 與視頻的碰撞華為云AI視頻技術白皮書072.2典型場景城市日常管理在城市治理場景中,往往建設有龐大復雜的城市事件類別體系,包含了繁多細碎的事項類別,如垃圾暴露、道路破損、圍欄破損等等,一個城市一般有幾百種事件類別。同時,不
12、同城市可能還有不同的標準,可能某城市關注某一些特定事件類別,另一個城市又關注另一些特定事件類別。因此,城市政務場景面臨著眾多碎片化 AI 需求場景。城市事件的類別數量眾多,同時絕大多數的城市事件又難以采集到大量數據來訓練 AI 模型,這種問題我們稱為“碎片化長尾需求場景”?!八槠L尾需求”一直是 AI 開發面臨的難題,傳統的 AI 開發模式需要對每種目標類別單獨采集數據、訓練模型,依賴專家經驗進行算法參數調優,最后才能上線應用,每種算法的開發周期耗費幾周至幾個月,低下的效率難以滿足當前高速的城市建設發展。華為 AI 視頻方案,基于 AI 開發工作流,將數據標注、模型訓練、部署上線等繁雜的流程
13、固化為一個流水線的步驟,無需編寫代碼,任何人只要有準備數據,都可以通過流水線交互步驟快速地完成一個 AI 應用的開發和上線。每個AI 算法的開發周期縮短至幾天便可完成。同時基于預訓練 CV 大模型的能力,依托于海量的大規模數據預訓練,即便只有少量樣本,也可以達到良好的模型泛化性和魯棒性,解決碎片化長尾需求的問題。由此可見,AI視頻方案中的預訓練CV大模型+AI開發工作流,可以更好地契合城市治理的痛點需求,解決碎片化長尾需求場景的問題,更好地將 AI 落地到智慧城市的建設發展中。AI 與視頻的碰撞|02華為云AI視頻技術白皮書08城市應急處置在城市建設過程中,除了事先設定好的事件類別,還經常有突
14、發性的臨時需求。比如突發暴雨,很多地方會臨時地希望檢測各地是否有積水內澇的情況,以便及時預防與救援;或者某地突發交通事故,相關部門也想快速地排查周邊受影響交通擁堵的路段,以及時安排人力疏通車流。這些突發性的臨時需求,可能根據天氣、地點、時間等不同因素千變萬化,這在城市政務的場景十分常見,也對于保障城市正常運轉有著非常重要的作用。然而,這種臨時性的需求對于傳統 AI 開發來說是災難性的。傳統的 AI 開發需要對每種待識別的事件采集數據、訓練模型,而訓練出來的模型也僅能解決這一特定的任務。當一個臨時性的 AI 需求來臨時,既往訓練出來的模型肯定是無法適應這個新的任務的,那又要基于這個新的需求采集對
15、應數據、訓練模型,這一流程走下來即便有 AI 開發工作流支撐,少說也要幾天的時間開發上線。但是臨時性的需求往往是緊急的,比如對于積水內澇的場景,時間就是生命,業務往往要求算法立刻就能發揮作用、識別事件。因此傳統的 AI 開發模式面對這種緊急的臨時性需求就顯得捉襟見肘了。華為 AI 視頻方案,基于業界最新的多模態大模型技術,構建了開放式的目標檢測和分割模型。該算法模型基于海量數據預訓練的大模型,具備通用的特征提取能力,同時內嵌預言大模型,可以理解用戶輸入文本的語義信息。因此,該模型可以結合用戶輸入的任意文本信息,實現對應物體的檢測,即便這個物體之前沒有出現在模型的訓練集里。這種特性非常符合城市治
16、理里突發性的臨時需求場景。比如面對積水內澇的場景,就不需要再針對積水事件重新訓練一個模型,而是簡單地輸入一個類似“請問畫面中是否有積水內澇?”的語句,算法通過圖片和文本的語義理解,就可以識別出來畫面中是否有積水內澇的事件了。這樣一來,算法就不再局限于僅能識別特定范圍的一些事件,應用的廣度被無限地拉大,也能更好地滿足城市政務場景中靈活變化的業務需求。更詳細的應用場景請參考章節“4 AI 視頻應用案例”03|AI 視頻介紹華為云AI視頻技術白皮書09AI 視頻介紹AI 視頻服務依托聯接、云、AI、計算等新一代 ICT 技術與知識創新融合,將感知、認知、決策、行動實現深度協同。其充分利用云計算能力,
17、系統功能可靠、穩定、完整。平臺設計秉承模塊化、框架化、集群化、服務化的設計理念,提供電信級系統可靠性、可擴展性和可維護性,滿足不同場景對接整合、兼容應用和可持續發展的需要。AI 視頻服務是面向行業視頻場景的組合方案,參考華為公司架構,包括行業視頻管理(IVM),智能視頻分析服務(VIAS)和盤古 CV 大模型三個產品??梢蕴峁┮徽臼椒?,將視頻流從攝像機接入上來,進行調閱管理、存儲管理,同時對視頻流中的內容進行分析,識別關鍵事件,捕捉異常場景,并上報給上層應用系統進行處理,實現用人工智能的方式,用攝像機感知萬物、掌控全局。如下圖所示,典型的組網分為接入層、網絡層、平臺層和應用層。AI 視頻服務
18、屬于平臺層網元,和接入層、網絡層、應用層設備互聯互動,相互配合,形成整體解決方案。3.1 參考架構AI 視頻介紹|03華為云AI視頻技術白皮書10圖表 2 AI 視頻系統架構圖應用場景終端接入層網絡層平臺層云基礎:計算/存儲(對象存儲)/網絡/安全智慧城市任務中心視頻接入視頻存儲視頻傳輸視頻中心算法中心運維中心事件中心基礎模型萬物檢測萬物分割視頻專網虛擬專用網互聯網智慧園區智能安防邊緣視頻設備(攝像頭、NVR)智慧企業.視頻流統一的標準接口統一的標準接口視頻智能分析服務(VIAS)盤古 CV 模型行業視頻管理(IVM)視頻流03|AI 視頻介紹華為云AI視頻技術白皮書113.2.1 業務需求部
19、署攝像機(SDC/IPC)等端側設備后,首先需要集中管理功能,包括設備信息注冊、遠程配置、分權分域等功能。同時還要能夠實現基于互聯網任意時間、任意地點查看攝像機狀態、視頻流內容。同時,為了追溯、回溯,還要能夠實現視頻流存儲,將視頻流錄制下來,長時間安全保存。3.2.2 方案建議行業視頻管理服務(Industry Video Management Service)依托于華為云基礎設施與音視頻領域技術優勢,為攝像機(SDC/IPC)、網絡視頻錄像機(NVR)、智能視頻存儲(IVS1800)等華為及第三方設備,提供云端視頻接入、視頻傳輸及視頻存儲能力,適用于安全防范、生產管理、智慧運營等場景。行業視
20、頻管理服務可以幫助企業快速完成視頻設備上云和智能化,助力企業數字化轉型。主要包括設備接入,視頻調閱,錄像管理等功能。1.設備接入行業視頻管理服務(IVM)支持國際標準協議接入攝像機,接入層主要設備為攝像機和 NVR,負責采集視頻數據,并通過標準協議注冊到平臺層,被平臺進行管理;NVR可以實現對多個攝像機匯聚管理,并在本地存儲視頻。網絡層主要為網絡設備,負責通過 IP 協議,將攝像機,NVR 等邊緣設備接入到平臺層,同時負責包保障視頻流傳輸的質量,包括但不限于丟包,抖動,時延等等。平臺層的 AI 視頻服務,采用云化架構,支持公有云,混合云等多種模式。AI 視頻屬于 SaaS 服務,依賴云平臺虛擬
21、機,OBS 存儲,網絡傳輸等能力,完成對攝像機設備信息,以及產生的視頻流管理。同時基于人工智能技術,AI 視頻提供對視頻流的分析能力,理解視頻流內容、關鍵事件,并將相應的結果推送給上層應用系統。應用層負責面向行業,提供圖形化頁面和管理功能。不同行業有不同的應用系統,例如連鎖門店客流管理系統、智慧安防系統、智慧園區管理系統等等。華為云 AI 視頻服務和應用層是松耦合關系,采用消息接口對接。也支持中國標準 GB/T28181 協議,同時還支持私有協議接入,通過私有協議或者SDK,實現視頻流解碼顯示能力。2.視頻調閱行業視頻管理服務具備為公眾及其他業務系統提供媒體流播放能力。媒體轉碼主要滿足互聯網
22、web/H5 技術和視頻系統媒體流之間的轉換適配需求,通過將碼流轉換為 RTMP、HTTP-FLV、HLS 等 PC 端可直接播放的視頻流,為業務集成和開放提供快速的技術方案,同時提供基于視頻技術的富媒體應用技術。支持遠程查看前端攝像機的實時視頻,根據現場情況進行事件預判,實現視頻實時瀏覽播放,實時播放時可顯示視頻相關信息,便于視頻流的狀態查詢和故障診斷。支持多布局能力,支持多個視頻點位同時進行實況預覽;單擊攝像機開啟視頻按照從左到右、從上到下的順序選擇播放窗口;如果當前所有窗格已經用完,可手動增加另一個多窗格布局;系統客戶端支持同時播放多個前端設備的實時視頻。支持顯示當前實況攝像頭的視頻信息
23、,其中視頻信息包括:當前碼率、平均碼率、編碼格式、分辨率等;支持聲音控制,例如靜音、取消靜音;支持以拖動攝像頭的3.2 行業視頻管理服務(IVM)AI 視頻介紹|03華為云AI視頻技術白皮書12行事后錄像的檢索,通過錄像可查看之前發生的事件現場視頻,實現事后取證功能。同時支持查詢平臺錄像、前端錄像;支持自定義時間范圍進行錄像查詢;支持錄像查詢結果以進度條方式展現,進度條可以前后拖動,支持精度縮放等功能。3.2.3 小結行業視頻管理服務(IVM)基于華為公有云,提供攝像機設備管理、接入、調閱、存儲等服務。主要功能服務方式如下,供項目參考。方式進行播放和停止;支持單畫面停止播放,支持全部畫面停止。
24、3.錄像管理行業視頻管理服務提供大容量的云端存儲,通過互聯網實時將前端數據傳出至云端,依托于華為云 OBS 服務,為客戶提供可靠的數據數據備份,幫助客戶實現更長周期、更大容量、更高安全的云上數據管理。用戶可以在客戶端上回放錄像,也可以將系統錄像文件下載到本地,支持使用通用播放器進行回放。用戶可進行業視頻管理服務視頻接入調閱帶寬視圖云存儲路/年Mbps/年GB/年公有云必選公有云必選云存儲、云備份、告警錄像產品組合商 品應用場景量 綱圖表 3 行業視頻管理(IVM)方案建議03|AI 視頻介紹華為云AI視頻技術白皮書133.3.1 業務需求完成攝像機和行業視頻管理平臺建設后,實現了視頻流集中管理
25、、集中存儲。如果僅僅依靠人工監看的方式,必然消耗大量人力,識別準確率依賴人員技能。如何實現視頻流的自動分析、準確識別關事件主動上報成為普遍的業務需求?;谌斯ぶ悄艿囊曨l分析服務,要能夠為上層的行業應用提供 AI 能力,包括但不限于:豐富的視頻分析算法,滿足復雜場景分析需求;建設視頻統一分析平臺,集中管理,充分盤活視頻資源;算法統一管理,算法和算力解耦,多廠家算法共享算法倉,算力統一調度。3.3.2 方案建議視頻智能分析服務(VIAS)是集成視頻 AI 分析、事件感知等能力的一體化平臺,實現智慧園區、城市治理、安全生產等場景的事件感知、分析和決策能力,助力業務閉環。視頻智能分析服務提供豐富的“開
26、箱即用”的算法模型,包括城市治理、公共安全、連鎖門店、智慧物流、智慧園區等等,幫助千行百業快速使用成熟的人工智能技術,提效降本。主要包括分析服務、算法中心、視頻中心、任務中心、事件中心等功能。1.分析服務視頻分析服務是承載視頻 AI 算法的彈性計算引擎,提供視頻數據接入、分析及告警輸出的能力,可通過 API 支撐業務開發應用,同時能夠幫助 AI 開發人員提升視頻 AI集成效率,助力其核心業務價值開發。視頻分析能力主要基于如下技術構建:1)物體檢測技術物體檢測是視覺感知的第一步,也是計算機視覺的一個重要分支。物體檢測的目標,就是用框去標出物體的位置,并給出物體的類別。在當前視頻分析服務構建的能力
27、中,人或者車的檢測是第一步,也是最關鍵的一步。人與車目標檢測的準確率也會直接影響后續算法的效果,但由于目標環境的多樣性復雜性,對于物體的檢測,通常會受到不同環境的干擾。所以為了提高算法的準確率,通常會針對實際的應用場景進行定制化的訓練,以此排除復雜的環境帶來的干擾。2)圖像分類技術一張圖像中是否包含某種物體,對圖像進行特征描述是物體分類的主要研究內容。一般說來,物體分類算法通過手工特征或者特征學習方法對整個圖像進行全局描述,然后使用分類器判斷是否存在某類物體。圖像分類的研究,通常衍生出來對特定目標物體進行檢測的能力,比如識別大貨車、公交車等特定的目標。3)物體定位技術如果說圖像識別解決的是 w
28、hat,那么物體定位解決的則是 where 的問題。利用計算視覺技術找到圖像中某一目標物體在圖像中的位置,即定位。對物體的定位,通常能衍生出很廣的應用場景。比如在安防領域,判斷目標3.3 視頻智能分析服務(VIAS)AI 視頻介紹|03華為云AI視頻技術白皮書14實現視頻算法的整體功能性配置,構建基于視頻數據的智能分析應用。視頻中心支持視頻源管理,視頻質量巡檢,攝像機分組管理等功能。4.任務中心任務中心提供算法作業配置、算法作業管理能力,是算法的核心配置模塊,通過該模塊的配置,算法即可具備分析功能。任務中心支持作業配置、作業管理、批量配置、公共模板、定時任務等功能。5.事件中心事件中心提供事件
29、統一管理,是算法的分析結果輸出模塊,委辦單位可通過該模塊查看視頻分析的事件結果,同時支持將事件分析結果上報到現網業務系統,及時發現事件并形成工單分派,提升網格處置效率。事件中心支持事件管理,事件重復聚合,事件審核,事件訂閱,運營報告生成等功能。3.3.3 小結視頻智能分析服務(VIAS)基于華為公有云,提供視頻算法分析服務、算法管理、算力管理、任務管理、事件管理等。主要功能服務方式如下,供項目參考。物體的位置,可以進行入侵檢測、徘徊檢測以及過線計數等等算法?;谌缟霞夹g,視頻分析服務可提供面向智慧園區、水利、交通、應急管理等場景的視頻 AI 分析能力,不但能保證自研 AI 算法的接入,還能保證
30、第三方算法和行業共享算法的對接,最終實現 AI 能力的穩步提升。華為視頻分析算法,基于 100+項目實踐經驗持續積累、優化,已沉淀形成多種類型的算法能力。2.算法中心算法中心提供多廠商、多框架、多功能的統一管理能力,支持用戶將導入的算法鏡像進行統一管理,支持算法版本的全生命周期管理,為后續算法部署提供基礎管理能力。用戶可在該模塊查看已上線的算法能力,同時為三方開發者提供賬號體系,開發者可在該模塊發布新算法、更新算法版本。算法中心可跳轉算法商城,算法商城展示了可上線的算法能力清單,可根據用戶業務需求上線。3.視頻中心視頻中心提供視頻源數據接入管理能力,是算法的前置輸入模塊,通過該模塊的配置,任務
31、中心即可選擇輸入源,視頻智能分析視頻分析服務路/年路/年云上通用算法包云上專業算法包產品組合商 品應用場景量 綱圖表 4 視頻智能分析服務方案建議03|AI 視頻介紹華為云AI視頻技術白皮書153.4.1 業務需求隨著工業生產越來越強調智能化,大量傳統行業開始積累領域數據,并尋求人工智能算法以解決生產和研發過程中遇到的重復而冗雜的問題。這就意味著,人工智能算法在落地的過程中,將會面對大量不同場景、不同需求的用戶。這對算法的通用性提出了很高的要求。然而我們注意到,當前業界大部分人工智能開發者,正在沿用傳統的“小作坊模式”,即針對每個場景,獨立地完成模型選擇、數據處理、模型優化、模型迭代等一系列開
32、發環節。由于無法積累通用知識,同時不同領域的調試方法有所不同,這樣的開發模式往往比較低效。特別地,當前人工智能領域存在大量專業水平不高的開發者,他們往往不能掌握規范的開發模式和高效的調優技巧,從而使得模型的精度、性能、可擴展性等指標都不能達到令人滿意的水平。我們將上述問題,稱為人工智能算法落地的碎片化困境。因此如何能夠類似流水線的方式,用少量樣本,快速生成場景化模型,成為行業的迫切需求。3.4.2 方案建議華為盤古 CV 大模型瞄準人工智能在工業場景應用中的困境,創造性提出用經過海量數據預訓練的視覺大模型作為訓練工作流,用類似工業流水線的方式快速生成場景化模型。盤古 CV 大模型收集大量圖像數
33、據,以及圖像和文本對比數據,利用無監督或者自監督學習方法將數據中蘊含的知識提取出來,存儲在具有大量參數的神經網絡模型中。遇到特定任務時,只要調用一個通用的流程,就能夠將這些知識釋放出來,并且與行業經驗結合,解決實際問題。3.4 盤古 CV 大模型圖表 5 盤古 CV 大模型工作流原理超大的神經網絡預訓練模型華為云盤古大模型AI 工業化開發流水線流水線流水線泛化復制模型泛化 極大節省訓練投入流水線 工具集成 訓練更快盤古大模型效率提升更佳模型性能10-100 倍模型 3模型 2模型 1場景 1場景 2場景 3強壯的網絡架構優秀的泛化能力預訓練微調&部署迭代NLP大模型(千億參數)CV大模型(30
34、億參數)多模態大模型科學計算大模型AI 視頻介紹|03華為云AI視頻技術白皮書16圖表 6 盤古 CV 大模型應用場景和優勢對于常見的視覺處理任務,盤古 CV 大模型通過自動化模型抽取、參數自動化調優等模塊實現場景模型的訓練和推理。盤古CV大模型包括物體檢測、姿態估計、視頻分類、圖像分類、異常檢測、目標跟蹤、語義分割、實例分割等多條預訓練工作流,可以全面覆蓋場景模型訓練需求,并在礦山、鋼鐵、鐵路、交通等多個行業進行驗證和實踐,成為行業首選。由于盤古 CV 大模型配套完善的工程套件,可以基于圖形化界面,零代碼前提下,實現數據標注、模型開發、推理部署,實現AI落地零門檻。購買盤古CV大模型的企業,
35、實現人工智能轉型,構建“內生的,持續發展”的 AI 能力。小樣本,結合數據檢索及數據增廣技術,相對傳統訓練方式,數據需求減少 80%以上;高精度,受益于更好的語義對齊效果,在小樣本學習上表現優異,顯著超越對比方法;高效率,利用行業模型高效表征及數據篩選能力,數據處理效率提升 5 倍以上;由于盤古 CV 大模型配套完善的工程套件,可以基于圖形化界面,零代碼前提下,實現數據標注、模型開發、推理部署、實現AI落地零門檻。購買盤古CV大模型的企業,實現人工智能轉型,構建“內生的持續發展”的 AI 能力。技術原理計算機視覺的主要目標,是設計出能夠識別視覺信號,并且對其進行各種處理和分析的程序。換句話說,
36、計算機視覺是研究計算機如何去“看”的學科。其中,較為典型的任務包括圖像分類、物體檢測、物體分割、物體追蹤、姿態估計等。下圖展示了圖像分類中最著名的ImageNet 數據集(超過 2 萬個物體類別)和 MS-COCO數據集(包括檢測、分割等多種任務)。L2場 景L1行業大模型L0基礎大模型盤古 CV 模型 目標檢測|異常檢測|圖像分類|語義分割|實例分割|視頻分類|目標跟蹤|姿勢估計腰帶物體檢測皮帶跑偏檢測流量檢測違章停車貨物檢測高速列車故障檢測安全帽爬圍欄容器檢測違章停車.每個行業的模型開發套件礦 山城市治理鐵 路工 地港 口亮點介紹強大的預訓練模型快速適配任務模型少樣本實現高準確率行業特定模
37、型03|AI 視頻介紹華為云AI視頻技術白皮書17在計算機中,視覺信號一般以“密集采樣強度”的方式存儲:不同方向入射的光線在每個信道(如紅綠藍)上的強度被記錄下來,用于呈現圖像的基本內容。圖像中的每個基本單元被稱為像素很顯然,這些像素并不能代表基本的語義信息,因而圖像的基本存儲形態和人類能夠理解的語義之間,存在很大的差距。在學界,這種差距被稱為“語義鴻溝”,這也是幾乎所有計算機視覺研究所需要處理的核心問題。進一步探究圖像的存儲形態,我們會發現圖像信號的若干特點:圖表 7 測試數據集The ImageNet dataset15M images,21K categories,1.5TBThe MS
38、-COCO datasetdetection,segmentation,pose estimation,etc.內容較復雜信息密度低域豐富多變圖像信號的基本單位是像素,但是單個像素往往不能表達語義。圖像識別的任務,就是構建特定函數,使得像素級輸入能夠產生語義級輸出。這種函數往往非常復雜,很難通過手工方式定義。圖像信號能夠忠實地反映事物的客觀表征;然而其中相當部分的數據被用于表達圖像中的低頻區域(如天空)或者無明確語義的高頻(如隨機噪聲)區域。這就導致了圖像信號的有效信息密度較低,特別是相比于文本信號而言。圖像信號受到域的影響較大,而且這種影響通常具有全局性質,難以和語義區分開來。例如,同樣的語
39、義內容,在強度不同的光照下,就會體現出截然不同的表征。同時,相同的物體能夠以不同的大小、視角、姿態出現,從而在像素上產生巨大差異,為視覺識別算法帶來困難。AI 視頻介紹|03華為云AI視頻技術白皮書18鑒于上述特點,基于深度神經網絡的預訓練大模型就成為了計算機視覺落地的最佳方案之一。預訓練過程能夠一定程度上完成視覺信號的壓縮,深度神經網絡能夠抽取層次化的視覺特征,而預訓練結合微調的范式則能夠應對豐富多變的域。數據收集圖像是一種復雜的非結構化數據,包含豐富的語義信息?,F如今,還沒有任何一種方法能夠對圖像數據的數學規律進行準確的描述,因而人們只能通過收集大量的數據,來近似現實中圖像數據的分布。20
40、09 年出現的ImageNet 數據集是計算機視覺領域的重要里程碑,它使得訓練、評估大規模圖像處理方法成為可能。隨著計算機視覺技術的進步和更多應用的出現,ImageNet 數據集的局限性逐漸顯現出來,包括規模、復雜性等。為了解決這一問題,我們必須收集更大規模、更加復雜的圖像數據,而這也是業界的一致趨勢。通過多種渠道收集圖像數據,包括但不限于公共數據集合下載、自有數據集合擴充、各搜索引擎關鍵字爬取、以圖搜圖、視頻圖像抽幀等。從這些原始數據中,我們篩除了低分辨率、低曝、過曝、簡單背景等低質量圖像數據,再通過已有預訓練視覺模型進行重復圖像的判斷和去除,最終保留超過 10 億張高質量圖像數據,占據約
41、40TB 空間。10 億+圖像數據40 TB存儲空間覆蓋自動駕駛,電力,鐵路,遙感等03|AI 視頻介紹華為云AI視頻技術白皮書19預訓練方法我們使用的神經網絡模型覆蓋了計算機視覺領域最為常見的卷積網絡和transformer架構,兩者既可以分開使用,也可以按需結合以達到更好的效果。利用自動機器學習算法,能夠支持并調用不同大小的神經網絡,其中最大的計算模型具有接近 30 億參數,最小的模型只有數十萬參數,其大小相差超過 1000 倍,為適配不同的視覺任務提供了可能性。我們收集的訓練數據大部分來自互聯網,不僅具有相當程度的噪聲,而且不包含準確的語義標簽。為了充分利用這些數據,我們設計了自監督學習
42、方法,即通過某種或者某幾種代理任務,教會模型如何理解視覺數據,在沒有語義標簽的情況下也能擬合復雜的數據分布。與此同時,我們在對比學習的基礎上優化了相關代理算法,業界首創在對比度自監督學習中引入等級化語義相似度,即挑選那些距離相應聚類中心更近的最近鄰作為正樣本,并且在拉近語義相似樣本的時候引入了混合樣本增強,以減少樣本選取過程中的噪聲影響。在此基礎上,我們拓展自監督學習算法中正樣本的數目,使得正樣本集合能夠更加高效地被聚集,同時避免受到大量負樣本優化的影響。我們采用的預訓練算法(發表于 TPAMI 上)的簡略示意圖如下所示:(注:基于等級化語義聚集的對比度自監督學習)Encoder qEncod
43、er KCandidates in DatasetBottleneckBottleneckBottleneckBottleneckBottleneckMLPMLPConvBNReLUConvBNReLUConvConvConvConvConvConvBNBNBNBNBNBNReLUReLUConvBNReLUConvBNReLUMixMixed SampleAnchor SamplePositive SampleSemanticSearchAI 視頻介紹|03華為云AI視頻技術白皮書20效果展示盤古視覺大模型在 ImageNet 數據集的線性分類評估上,首次達到了與全監督相比擬的結果。同時,受
44、益于更好的語義對齊效果,我們的方法在小樣本學習上表現優異:使用ImageNet上1%和10%的標簽訓練,我們的方法達到了 66.7%和 75.1%的分類精度,均顯著超圖表 8 盤古預訓練模型分類性能比較列表圖表 9 盤古預訓練模型檢測性能比較列表越對比方法。以此方法為基礎,我們設計了具有 10 億參數量的基礎模型,并在超過 10 億張無標注圖像組成的數據集上進行預訓練。所得到的模型,在 ImageNet 上達到了 88.7%的分類精度,而 1%標簽的半監督學習精度也達到 83.0%。同時,盤古大模型在超過 20 項下游任務上進行了測試,展現出良好的泛化能力,如下表所示。數據集業界最佳模型盤古預
45、訓練模型1Aircraft(飛行器)90.4389.322CUB-200-2011(鳥類)86.9091.803DTD(紋理)80.0585.004EuroSAT(衛星圖塊)98.8598.985Flowers102(花)97.0799.696Food101(食物)92.2194.587Pets(動物)95.2995.918SUN397(場景)71.5178.929StanfordCars(車)92.4894.0910StanfordDogs(狗)87.4191.2811Average89.2291.96數據集業界最佳模型盤古預訓練模型1VOC(自然場景)72.276.62Comic(風格變換
46、)35.638.03Clipart(風格變換)57.561.04Watercolor(風格變換)34.436.95DeepLesion(醫療)36.738.16Dota 2.0(遙感)21.221.07Kitti(自動駕駛)29.632.98Wider Face(人臉)35.336.39LISA(紅綠燈)43.542.710Kitchen(廚房場景)53.655.0average41.9643.8503|AI 視頻介紹華為云AI視頻技術白皮書213.5.1 業務需求在特定場景分析基礎上,開放式場景分析和識別需求越來越強烈,尤其是針對應急事件的處理。包括但不限于以下需求:智能視頻檢索,通過自然語
47、言對攝像機,或者視頻存儲進行開放式檢索,如檢索發生在特定時間,地點的特殊事件;檢索多個線索關聯的場景等等;視覺標簽庫,通過對視覺數據進行標簽化處理,可以對所有視頻流的標簽進行精細化管理,提升全域攝像機標簽數據的準確性和實用性,同時還可以動態刷新,確保數據的實時性和有效性;關鍵幀定位,借助視頻向量化能力,可以實現對關心事件檢索時,可以定位到攝像頭關鍵幀,并對關鍵幀前后視頻直接查看,提升問題定位的效率;智能視頻摘要,借助大語言模型的能力,匯總攝像機關鍵標簽,摘要文本數據,生成一句話摘要或分析報告,將攝像機所拍攝的關鍵內容報告給管理者,實現讓攝像機說話。3.5 盤古視頻解譯大模型AI 視頻介紹|03
48、華為云AI視頻技術白皮書223.5.2 方案建議盤古視頻解譯大模型,是在視頻智能分析服務(VIAS)和盤古 CV 大模型基礎上,融合多模態大模型能力,進一步延伸人工智能在視頻領域的應用。此方案依托大模型的萬物理解能力,實現視頻檢索、視頻標簽、以及視頻摘要能力。將攝像機拍攝的畫面描述出來,實現讓攝像機開口說話。如上圖所示,此方案主要包括四個主要部分。中間核心為“盤古大模型重構 AI 視頻服務交互”,CV 大模型+多模態大模型雙輪驅動,開放場景視覺分析,快速覆蓋數千個場景,并兼容專家模型支持專屬場景準確識別。盤古大模型基礎上,用“Agent 驅動視覺感知”,作為視覺感知能力入口,通過可編排可組合可
49、插拔特性,實現大語言模型對視覺感知能力的驅動。最后向上,可以覆蓋海量“場景應用”從視覺+文本協調應用出發,牽引視覺感知能力“可看”向“可交互”轉變;向下重構“攝像頭&標簽資源”,構建分層分類視覺標簽體系、動態標注,并實現視頻存儲資源的精細治理,釋放視頻數據資源價值。圖表 10 視頻解譯大模型架構圖盤古大模型重構 AI 視頻服務交互盤古大模型(Core)多模態|CV|NLP視頻數據智能+盤古視頻任務管理+盤古端邊云協同+盤古AI 視頻框架+盤古場景應用大模型驅動視覺任務管理視覺場景智能問數智能標簽檢索智能視頻摘要標簽指引的精細化存儲業務自適應彈性調度多攝像頭聯動分析視覺建議生成Agent 驅動視
50、覺感知Agent 平臺盤古 Inside 視覺算法AI 視頻開發平臺開放視頻分析盤古 LLM 調度 CV 能力攝像頭&標簽資源視覺接入資源視覺存儲資源視覺標簽體系 全域攝像頭接入 多協議解析 視頻存儲 事件存儲 基礎標簽 場所標簽 部件標簽 事件標簽04|AI 視頻應用案例華為云AI視頻技術白皮書23AI 視頻應用案例秉承“自己的降落傘自己先跳”的原則,華為率先將行業視頻管理服務(IVM)應用于華為門店管理。華為終端 BG 有超過 1 萬家門店,每個門店都有若干攝像機,對門店進行管理。為了管理高效,華為終端 BG 需要一套集中式管理系統,實現對超過10 萬路攝像機統一管理,統一調閱和統一存儲。
51、4.1 華為門店圖表 11 華為門店關鍵需求客戶需求和痛點 攝像機統一管理 視頻數據安全 全國所有門店統一監管 外墻廣告 清潔墻壁 員工著裝和行為 店內廣告 商品和樣品放置 店內地板清潔 店內櫥窗品牌推廣AI 視頻應用案例|04華為云AI視頻技術白皮書24行業視頻管理服務(IVM)完美滿足以上需求,提供云化管理平臺,實現視頻接入、視頻調閱和視頻存儲,一個管理中心可以管理分布在全國的所有華為門店。在華為門店項目中,IVM 實現接入多廠家攝像機,充分保護前期攝像機建設成本,門店不需要任何物理改造,通過軟件適配實現統一管理。IVM利用云存儲可靠性高,永不丟失等能力,確保門店關鍵事件被記錄、可回溯;同
52、時支持視頻水印,視頻加密,端到端可回溯等能力,確保視頻傳輸和存儲的安全,并不被盜取。同時 IVM還提供完善的分權分域管理機制,隔離多級管理者,確保顧客隱私和數據安全。行業視頻管理服務已經成為華為門店管理環節中不可或缺的組成部分,融入到華為終端銷售的管理體系中,為華為終端業務增長保駕護航。圖表 12 IVM 華為門店解決方案華為云 AI 視頻解決方案 1 個 AI 視頻云平臺,監控和檢查所有門店攝像頭 華為云視頻存儲 支持攝像機遠程升級和配置應用層華為云設備層華為 SDC統一巡檢平臺其他攝像頭實況預覽視頻點檢設備配置升級設備接入云存儲開放接口華為云行業視頻管理TO Be04|AI 視頻應用案例華
53、為云AI視頻技術白皮書25伴隨電子商務的蓬勃發展,物流是近些年發展快速的行業,無論是營業額還是覆蓋地區的數量都在快速增長。物流行業屬于勞動力密集型行業,有大量分支機構、倉庫,一般都采用攝像機方式進行遠程管理,確保安全,有序傳輸,既保證效率,又保證客戶端滿意度。因此物流行業普遍存在以下需求:上千個分支機構,超萬路攝像機的集中管理 攝像機產生的視頻數據,需要采用高安全的手段進行存儲 物品傳遞過程中,要最大程度避免暴力分揀、錯誤配送等問題,亟需人工智能的方式進行監管,改善服務質量華為云提供行業視頻管理服務(IVM)和視頻智能分析服務(VIAS),滿足以上需求。IVM 基于華為公有云提供攝像機管理、視
54、頻流傳輸和存儲功能。確保物流公司管理者在任何地方,都可以遠程查看視頻畫面。VIAS 提供 AI 分析算法,包括暴力分揀、吸煙檢測等,實時識別不符合工作規范要求的行為并上報,對工作質量進行監督,極大提升了物流行業的工作規范性和服務質量。4.2 物流圖表 13 物流行業視頻接入分析系統架構圖暴力分揀檢測吸煙檢測更多.應用場景實況/告警視頻ONVIF互聯網互聯網互聯網ONVIFONVIF華為云端攝像頭物料亂堆亂放檢查安全帽識別車輛裝載率檢測擁塞識別視頻智能分析服務攝像機管理AI 算法中心任務中心事件報警中心AI 視頻應用案例|04華為云AI視頻技術白皮書26中國漫長的鐵路線上運行著近百萬輛鐵路貨車,
55、安全運行的重要性不言而喻。當前,鐵路系統廣泛采用 TFDS(Trouble of moving Freight car Detection System,貨車運行故障動態圖像檢測系統)來檢測列車安全,簡言之,就是利用部署在鐵軌旁的高速相機拍攝通過 TFDS 探測站的列車部件圖像,再由列檢員對這些圖像逐一分析,識別車輛故障隱患并預警處置。受制于技術發展,TFDS 過去大多采用人工方式進行故障識別。以鄭州北車輛段 5T 檢測車間為例,日均檢車 4 萬余輛,識別圖片 280 萬余張。列檢員每天需要檢查大量極其相似的圖片,并且需要在 5 秒左右的時間及時發現細微的差別,找出列車存在的故障。人工方式識別
56、勞動強度大、人力成本高,高強度的重復勞動也極易產生疲勞,造成誤判。2021 年,國鐵集團貨車事業部把 TFDS 故障圖像智能識別項目作為國鐵集團第一批科研計劃“揭榜掛帥”課題,指定鄭州局集團公司鄭州北車輛段 5T 檢測車間作為該項目的試點單位,與華為公司、慧鐵科技公司共同研究、聯手推進。在項目中,盤古大模型充當了 TFDS 系統的“AI 訓練師”,它能夠基于海量無標注數據進行預訓練,還可以“邊用邊學”;具備小樣本學習和樣本生成能力,能夠生成大量訓練樣本提升模型質量。比如搖枕心盤脫出的故障,全國范圍內只找到一張故障樣本,借助小樣本學習,目前盤古大模型已經能正確識別這個故障。下圖展示了盤古視覺大模
57、型在為TFDS 定制的解決方案。依托于盤古行業預訓練大模型,定制化地開發了整體解4.3 鐵路圖表 14 基于盤古行業預訓練模型的鐵路 TFDS 開發方案TFDS 行業預訓練部件定位模板匹配故障識別異常檢測圖像質量評估整車綜合分析整車故障綜合分析部件目標檢測故障識別語義相似樣本聚集行業預訓練行業預訓練部件位置信息基于先驗的模板匹配部件故障分類關鍵點檢測局部故障檢測大面積地板破損、異物、形變增強圖像亮度特征提取圖像正常綜合判別質量評估模型過曝、欠曝等等級化語義聚集異常檢測部件丟失、錯位、出現異常部件等算法識別預報故障形變、折斷、脫落等角度、尺寸等故障破損、裂縫行業預訓練盤古行業預訓練模型圖像質量評
58、估部件定位故障識別04|AI 視頻應用案例華為云AI視頻技術白皮書27決方案,包括車型篩選、工位分類、配件篩選、圖像質量評估、已與車型先驗的模板匹配、多車級聯分析等模塊,其中盤古大模型核心解決方案包含以下組成部分:2022 年 12 月,華為云盤古大模型加持的 TFDS 系統正式投入使用,可根據大量的數據樣本,自動總結部件特征、自動尋找故障規律,并在實際試用中持續改善分析效果,實現從整體到局部、再到故障細節特征的逐步精細識別。得益于一雙又快又準的“盤古眼”,這套 TFDS 系統能精準識別 67 種貨車 430 多種故障類別,重大異常故障 100%識別,綜合故障識別率達 99.8%;原來人工需要
59、識別 4000 張圖片,現在僅需要復檢 170 多張圖片,工人勞動強度下降95.75%,極大提升了檢測效率和故障識別率,提高了列車安全性?;诒P古視覺大模型的整體解決方案,在 5T 檢測車間集中作業分析的 14 條線路進行了驗證。由 5T 檢測車間動態檢車員預報并經組長確認為提報故障的數據樣本(故障圖片)共計 32007 張。在測試環境下,這些故障圖片與大量正常圖片混合,送入盤古大模型進行判斷。如下表所示,實測結果表明,當前盤古大模型的識別精度已經超過人類檢測員水平。攔停重點一般準確預測119漏報1故障總數120識別率99.17%識別率98.24%識別率99.45%故障總數28786故障總數3
60、101漏報506漏報17準確預測28280準確預測3084行業預訓練模型車輛拆分自動增強和評估模板匹配故障定位、識別根據整列車圖像,定 位 出 每 輛 車 的 圖像利用百萬級無標注鐵路行業生成鐵路行業預訓練模型圖 像 進 行 自 動 評估,對正常圖像做進一步故障識別,非正常圖像返回人工審核根據已知的車型信息建立零部件的相對位置模板,預報部件位置異常(丟失、錯位)基于鐵路行業預訓練大模型,結合目標檢測、圖像識別框架,進行部件定位、故障識別AI 視頻應用案例|04華為云AI視頻技術白皮書28山東能源集團(簡稱山能集團)以礦業、高端化工、電力、新能源新材料、高端裝備制造、現代物流貿易為主導產業。其中
61、,煤炭產量位居全國煤炭行業第三位,礦井智能化生產水平居行業前列,9 處礦井成為首批國家級智能化示范礦井。山能集團依托盤古大模型建設了集團人工智能訓練中心,把盤古礦山大模型全面應用到采、掘、機、運、通、洗選等 9 大業務系統,具備視覺大模型、預測大模型、自然語言大模型等三大能力,探索和發掘煤礦生產領域全場景的人工智能應用,通過技術創新實現“人工智能大規模下礦”,讓員工遠離井下作業環境,實現“高效、安全、可持續性”的生產運營管理。1.支持智能生產模式創新1)樣本訓練效率高通過云邊協同方案,打通集團中心云和礦山邊緣云數據,低代碼小樣本訓練,模型自動優化,邊用邊學,能以更少的數據達到其他模型相同乃至更
62、高的精度;通過云邊協同方案,在其 AI 標桿興隆莊煤礦的一處訓練,全集團共享,未來可復制到集團其他 70+礦井。2)海量吞吐信息處理利用無監督訓練策略對海量信息(圖片數量 10 億+,視頻信號 100TB)進行歸納抽取訓練得到的模型,具備強大視覺表征識別能力。3)模型移植能力大模型相比小模型有良好的泛化性能,在相似場景上訓練的模型可遷移到未進行訓練的新場景上,并且可以快速地在新的礦井進行部署和上線應用,無需從零開始大量重復訓練。4)數據篩選效率高大模型具有在全新場景實現缺陷樣本高效篩選的能力,相對傳統小模型訓練方式,可以節省 85%的標注人力。5)模型識別精度高基于“非正常即異?!弊R別原則,快
63、速訓練生產、安監、決策的 L2 場景化模型,在同等少量樣本訓練的情況下,大模型精度高出小模型 10%。4.4 礦山04|AI 視頻應用案例華為云AI視頻技術白皮書292.提升生產質量效益如在洗選煤和配煤場景中,相關生產工藝數據輸入因素關系復雜,無法完全憑人工經驗來確定。大模型通過廠礦實際數據進行建模,協助解決相關參數準確預測和控制的問題,平衡生產質量與成本,提高生產效率和效益。在洗選煤參數優化場景中,通過預測大模型構建自主預測分選密度模型和產品灰分預測模型,進行旋流器/全流程控制參數優化,根據系統觀測到的灰分比,快速自動調整懸浮液密度以及入口壓力等工作參數,實現穩定精煤灰分、提升精煤回收率 0
64、.1%0.2%,每年多產出8000 噸精煤。這個能力推廣到全國,可讓每個煤礦每年平均多產出 2000 噸精煤。在焦化配煤優化場景中,利用圖網絡技術訓練配煤優化模型,可幫助配煤師提升輸出配比效率,預計人工耗時可從 1-2 天縮短到分鐘級。在興隆莊一期項目中,對于危險區域人員入侵識別等場景,大模型識別率達 90%以上?;诖竽P退惴?,系統識別精度比傳統小模型提高 10%。在實際應用中,系統可通過告警提醒,避免潛在危險發展為安全事故,并進一步規范井下人員的作業行為,提升安全意識。鉆孔深度是防沖卸壓工程的關鍵參數之一是防沖工程管理人工核驗的重點?;诒P古礦山大模型,實現了防沖卸壓施工孔深度智能監管?;?/p>
65、于專用攝像儀對施工過程動態監管,現場視頻可實現實時上傳、智能核驗,在孔深不足時及時進行聲光數字化告警。系統還可設置施工計劃管理、識別結果查詢、施工深度核驗、施工數量統計等功能,便于工程核驗和監管,提高監管時效性與準確性,降低人工核驗工作量 80%。3.降低安全生產風險通過盤古礦山大模型和 AI 應用的視覺識別能力,原惡劣作業環境下每天巡檢改為每周巡檢一次,節省人力的同時,也改善了巡檢人員的作業環境。AI 視頻應用案例|04華為云AI視頻技術白皮書30電力公司負責電網規劃建設、運行管理、電力銷售和供電服務工作。通過引入華為云針對電力行業開發的盤古預訓練大模型AI推理服務,實現了山區高壓輸電線的無
66、人機智能巡檢。一個大模型替代原有 20 多個小模型,并且模型精度提升18.4%。原來需要人工登塔才能完成的桿塔巡檢,現在通過操作無人機就可以完成。原本人工需要 16 天才能完成的桿塔巡檢縮減至 2 天、效率提升 8 倍、線路故障率降低 60%?!耙郧拔胰パ采?,一出門就是半個月,現在有了無人機這個千里眼,又快又準,2 天收工?!蹦畴娏ρ矙z工作人員如是說。4.5 電力05|展望未來,從感知到生成華為云AI視頻技術白皮書31視頻智能分析服務(VIAS)開箱即用的算法,可以實現智慧園區、城市治理、安全生產等場景的事件感知、分析和決策能力。盤古 CV 大模型提供預訓練工作流,可以用類似工業流水線的方式快
67、速生成場景化模型,助力企業實現人工智能轉型,構建“內生的,持續發展”的 AI能力。盤古視頻解譯大模型更進一步,實現視頻、圖像、文本、語音之間的自由轉換,提供多模態理解能力,讓攝像機開口說話,可以為多個行業帶來變革。例和城市治理領域,將攝像機拍攝的視頻流轉換成文本,可以實現異常事件(例如火災,極端天氣等)的主動上報;自動駕駛領域,將車載攝像頭捕捉的道路圖像轉換成文本,以幫助自動駕駛系統理解周圍環境;客戶服務和智能助手領域,將視頻通話中的對話、動作、表情轉換成文本,以便智能客服代理理解用戶需求并提供支持;廣告和內容推薦領域,將在線視頻的內容轉換成文本標簽,以便更好地匹配廣告或推薦相關內容,同時分析
68、用戶觀看的視頻流,將其轉換成文本,以便為用戶提供個性化的推薦;教育和培訓領域,將教學視頻轉換成文本,以便學生搜索和理解課程內容。善于利用工具讓人類從眾多生靈中脫穎而出,成為世界的主宰。攝像機是人類眼睛的延伸,功能甚至比眼睛還要強大。紅外攝像機、紫外攝像機、高速攝像機、偏振攝像機等等,可以捕捉到人類眼睛無法捕捉的畫面。海量攝展望未來,從感知到生成像機產生的海量視頻數據,記錄了世界的點點滴滴,也帶來了數據爆炸的困擾。海量的視頻數據存儲成本高昂,導致很多視頻流數據被忽略,很多攝像機拍攝畫面沒有被利用,形同虛設。人工智能技術和視頻技術的深度結合,相信可以解決這個問題。用更高效的方式記錄和存儲,用有效的
69、方式感知和判斷,忽略無效畫面,不放過任何有效信息。城市角落的安全時間,工業生產的細微缺陷,四季更替的極端天氣,甚至浩瀚星空中的天外來客,都應該觸發人工智能的識別,感知和分析,讓城市更安全,工業更高效,生活更美好,實現科技服務生活。著名的物理學大師費曼說過“凡我不能創造的,我都不能理解”。意味著理解和生成是相伴而生的。如果能夠充分理解視頻,那么生成視頻所需的訓練數據問題就迎刃而解,可控、高質量視頻生成也自然水到渠成。所有人都對虛擬世界充分幻想、影視、游戲、短視頻等娛樂領域,會因為視頻生成釋放萬億的產值。工業生產中,也大量需要模擬和仿真、異常場景構建等等。生活中,也需要用增強現實的技術,提升溝通的
70、效率,徹底解決“可意會不可言傳”。技術發展會起起伏伏,但沒有人會忽視人工智能和視頻這兩個和人類生活息息相關的領域。人工智能一定能和視頻技術碰撞出絢爛的火花,進一步釋放人類的想象力,讓生活變得更加美好。華為技術有限公司深圳龍崗區坂田華為基地電話:+86 755 28780808郵編:免責聲明本文檔可能含有預測信息,包括但不限于有關未來的財務、運營、產品系列、新技術等信息。由于實踐中存在很多不確定因素,可能導致實際結果與預測信息有很大的差別。因此,本文檔信息僅供參考,不構成任何要約或承諾,華為不對您在本文檔基礎上做出的任何行為承擔責任。華為可能不經通知修改上述信息,恕不另行通知。版權所有 華為技術有限公司 2024。保留一切權利。非經華為技術有限公司書面同意,任何單位和個人不得擅自摘抄、復制本手冊內容的部分或全部,并不得以任何形式傳播。商標聲明 ,是華為技術有限公司商標或者注冊商標,在本手冊中以及本手冊描述的產品中,出現的其它商標,產品名稱,服務名稱以及公司名稱,由其各自的所有人擁有。