《2023SAM模型發展現狀及SAM與其衍生模型賦能場景分析報告.pdf》由會員分享,可在線閱讀,更多相關《2023SAM模型發展現狀及SAM與其衍生模型賦能場景分析報告.pdf(27頁珍藏版)》請在三個皮匠報告上搜索。
1、2023 年深度行業分析研究報告 內容目錄內容目錄SAMSAM 模型模型:CVCV 領域的領域的 C ChatGPThatGPT.5 5SAM:“分割一切”的 AI 新模型.5Prompt:將 ChatGPT 的學習思維應用在 CV 領域.5ZSL:零樣本學習降本增效,提高模型泛化能力.9SA-1B:迄今為止最大的分割數據集,助力模型增效.10SAM 核心優勢:減少訓練需求,提升分割性能.12基于基于 SAMSAM 二次創作,衍生模型提升性能二次創作,衍生模型提升性能.1313SEEM:交互、語義更泛化,分割質量提升.13MedSAM:提升感知力,應用醫學圖像分割.15SAM-Adapter:
2、陰影檢測再升級,偽體分割更精準.16SAM-Track:擴展 SAM 應用領域,增強視頻分割性能.18SAMSAM 及衍生模型賦能多場景應用及衍生模型賦能多場景應用.1818基于 3D 重建,賦能 AR、游戲.18跟蹤運動物體,賦能安防監控.19解決長尾難題,賦能自動駕駛.20提高分割性能,賦能遙感圖像.21算力應用驅動,賦能機器視覺.24圖表圖表目錄目錄圖1:SAM 模型官方文章.5圖2:自然語言處理(NLP)的常用算法和模型.6圖3:預訓練模型(PLM)的發展階段和特征.6圖4:基于提示的學習(prompt-based learning)各分支.7圖5:傳統的預訓練+微調模型以及 prom
3、pt 范式.7圖6:Fine-tune 和 prompt 兩種范式的區別.8圖7:預訓練+下游任務微調(PLM+Fine-tuning)處理情感分類任務(寫影評).8圖8:零樣本學習(ZSL)示例.9圖9:SAM 的零樣本學習能力在 CT 影像中的應用.10圖10:SAM 使用數據引擎(data engine)漸進式收集數據示意圖.10圖11:SA-1B 比現有分割數據集多 400 倍.11圖12:SA-1B 掩碼標注速度更快.11圖13:SA-1B 數據集的跨區域代表性較強.12圖14:SAM 的可提示分割模型分為三部分.13圖15:框選分割(BOX).13圖16:全選分割(Everythi
4、ng).13圖17:SEEM 在交互和語義空間上都比 SAM 更具泛化性.14圖18:SEEM 根據用戶輸入的點和涂鴉進行圖像識別.14圖19:SEEM 根據用戶輸入的文本進行圖像分割.14圖20:SEEM 根據參考圖像對其他圖像進行分割.15圖21:SAM 分割醫學影像測試的詳細框架.15圖22:測試 SAM 對醫學影像分割性能的數據集 COSMOS 553K 及分割效果.16圖23:MedSAM 示意圖.16圖24:SAM 模型不能很好地感知自然場景中的偽體.17圖25:SAM 在工業場景中缺陷檢測能力較差.17圖26:SAM-Adapter 示意圖.17圖27:SAM 可在 AR 眼鏡中
5、識別日常物體.19圖28:SAM 的 3D 重建功能.19圖29:SEEM 在跑酷、運動、游戲視頻中可以準確分割參考對象.20圖30:城市道路場景中長尾場景較多.21圖31:遙感圖像處理發展階段.22圖32:大模型應用于遙感圖像處理.22圖33:基于錨點的 prompter.23圖34:基于查詢的 prompter.23圖36:機器視覺四大功能及難度.24圖37:機器視覺發展歷程.24圖38:基于 AI 的輕量級人臉識別網絡,可用于視頻實時分析、安防監控等.25圖39:OVD 目標檢測基本流程.26圖40:AI 大模型驅動空天信息產業發展.26圖41:天權大模型技術路線.27圖42:中科星圖“
6、空天靈眸”大模型.27SAMSAM 模型模型:CVCV 領域的領域的 C ChatGPThatGPTSAMSAM:“分割一切分割一切”的的 AIAI 新模型新模型2023 年 4 月,Meta 發布了全新的 AI 模型 Segment Anything Model,即 SAM。官網對該模型的描述為:“只需一次點擊,便可在任何圖像中分割出任何物體”。Segment Anything 文章指出,SAM 建立了一個基礎圖像分割模型,并在一個巨大的數據集上進行訓練,從而試圖解決一系列下游任務,成為一種通用的模型。論文的關鍵詞包含了:prompt(基于提示學習)、task(下游任務)、zero-shot
7、(零樣本)、data(豐富的數據集)。模型的核心要點為:(1)與 ChatGPT 的啟發思想一樣,采用 Prompt-based learning 的可提示學習范式,提高學習效率;(2)建立了迄今為止最大的分割數據集 Segment Anything 1-Billion(SA-1B),含 1100 萬張圖像,超過 10 億個掩碼,比任何現有的分割數據集多 400 倍;(3)建立了通用的,全自動的分割模型,零樣本靈活轉化新任務,新領域,結果甚至優于之前的監督結果。圖1:SAM 模型官方文章資料來源:Alexander Kirillov and Eric Mintun and Nikhila Ra
8、vi and Hanzi Mao and Chloe Rollandand Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C.Berg and Wan-Yen Lo andPiotr Dollr and Ross Girshick.Computer Science.(2023).,國信證券經濟研究所整理PromptPrompt:將將 C Chahat tGPTGPT 的學習思維應用在的學習思維應用在 CVCV 領域領域SAM 模型的學習訓練方式是 prompt,來源于近年來突飛猛進的 NLP 下游任務的優化過
9、程。Prompt 代表的 prompt-based learning,即基于提示的學習,區別于傳統的監督學習,被 GPT-3 團隊推進使用。SAM 利用這種先進的技術路線,完成 CV底層技術突破,并且具有廣泛的通用性和零樣本遷移的能力。為了較深刻了解 prompt,本節對 NLP、PLM 及其他相關模型做簡單介紹。P Promptrompt 之前的模型在做什么之前的模型在做什么自然語言處理(NLP,Nature Language Processing)主要研究人和計算機的交互,其中預訓練語言模型(PLM,Pretrained Language Models)是較為前沿的 NLP處理模型。圖2:
10、自然語言處理(NLP)的常用算法和模型資料來源:CSDN,國信證券經濟研究所整理根據學習范式和發展階段的不同,預訓練模型可以簡單劃分為四代:(1)基于特征的學習(Feature-based):第一代預訓練模型,根據“人的知識”設置規則來提取文本特征,以此來對文本進行編碼。代表模型是 TF-DIF;(2)基于結構的學習(Architecture-based):第二代預訓練模型,開啟了 NLP的深度學習應用。代表模型是 W2V;一二代預訓練模型的共同點是模型的輸出會作為下游任務的輸入,但本身不做下游任務,之后的模型會將預訓練的結果和模型本身都投入到下游任務中。圖3:預訓練模型(PLM)的發展階段和
11、特征資料來源:Pengfei Liu and Weizhe Yuan and Jinlan Fu and Zhengbao Jiang and Hiroaki Hayashi andGraham Neubig,.Computer Science,(2021).,國信證券經濟研究所整理(3)基于下游微調(Fine-tuning):第三代預訓練模型,采用預訓練+下游微調的方式,代表模型是 BERT 和 GPT。(4)基于提示的學習(Prompt-based):第四代預訓練模型,在三代模型 BERT和 GPT 的基礎上做了進一步的改進。將輸入信息按照特定模板進行處理,把任務重構成一個更能夠充分利用預
12、訓練語言模型處理的形式。代表模型是 ChapGPT,gpt3.5,SAM。其中,三代和四代的核心都是先進行預訓練,再進行下游微調。簡單來說,預訓練模型是培養得到的“高中畢業生”,下游任務為“高校里的專業課程”,給這批“高中畢業生”再學習與未來應用領域相關的課程,將其培養成具備專業技能和知識的“大學生”,再應對專業崗位的要求。圖4:基于提示的學習(prompt-based learning)各分支資料來源:Pengfei Liu and Weizhe Yuan and Jinlan Fu and Zhengbao Jiang and Hiroaki Hayashi andGraham Neubi
13、g,.Computer Science,(2021).,國信證券經濟研究所整理P Promptrompt 的優勢的優勢:實現預訓練和下游任務的統一實現預訓練和下游任務的統一如圖 5(左)所示,傳統、標準的 PLM+finetuning 范式(這里指三代模型)存在上下游差異大,應用不匹配的問題。預訓練階段采用的是自回歸、自編碼方式,而對下游微調來說,就需要大量的新數據來適應新形式。圖5:傳統的預訓練+微調模型以及 prompt 范式資料來源:CSDN,國信證券經濟研究所整理但是,如今的模型的參數量越來越大,企業部署起來成本極高,而為了每一種下游任務都要去專門微調一個模型,會造成資源的極大浪費。整
14、體來說,這類模型的缺點在于:1.微調樣本需求量大;2.模型的專用性強,導致部署成本高。GPT-3 團隊認為在閱讀大量無監督文本后,語言模型可以“培養廣泛的技能和模式識別的能力”,并有效證明了在少樣本場景下,模型不需要更新任何參數,就能夠實現不俗效果。在這個基礎上發展 prompt 的范式。預訓練+微調范式是通過大量訓練讓模型去適配下游任務。而 Prompt 是把下游任務統一成預訓練任務的形式,以特定的模板,將下游任務的數據組裝成自然語言形式,充分挖掘預訓練模型本身的能力。圖6:Fine-tune 和 prompt 兩種范式的區別資料來源:Pengfei Liu and Weizhe Yuan
15、and Jinlan Fu and Zhengbao Jiang and Hiroaki Hayashi andGraham Neubig,.Computer Science,(2021).,國信證券經濟研究所整理以情感分類任務為例,使用兩種預訓練模型進行處理,比如利用模型寫影評、書評、讀后感等。如果使用傳統 Fine-tune,需要人力來準備一個微調數據集,里面必須包含各種對電影/書籍的評價,以及這些評價人工閱讀后的感受(是積極的還是消極的)。這個下游微調數據集必須足夠大,才能應對復雜的任務。微調數據集的大小可能遠超過了預訓練數據集,乃至失去了預訓練的意義;而 prompt使用預訓練語言模型
16、最擅長的完形填空模式等方式,讓模型根據輸入句,輸出對MASK 位置單詞的預測,推測出評價用戶對這部作品究竟是持 Positive(積極)還是 Negative(消極)的態度。圖7:預訓練+下游任務微調(PLM+Fine-tuning)處理情感分類任務(寫影評)資料來源:CSDN,國信證券經濟研究所整理綜上,prompt 范式的優點在于:1.可以減少模型訓練的樣本量,在少樣本甚至零樣本的情況下進行訓練;2.提高通用性,在實際使用中降本增效。如今 GPT-4等大模型,已不再完全開放全部的模型參數,用戶都只能通過 API 接口使用模型進行預測,Prompt 工程對下游任務的重要性已無需多言。ZSLZ
17、SL:零樣本學習降本增效零樣本學習降本增效,提高模型泛化能力提高模型泛化能力零樣本學習能力是什么零樣本學習能力是什么零樣本學習(zero-shot learning,ZSL)是機器學習的難題,其目標是模型對于從未見過樣本的“未知物體”也能進行識別和分類。ZSL 在標記數據稀缺或獲取成本高的領域有許多潛在的應用。圖 7 描述了零樣本學習的經典案例:認識斑馬。一個“兒童”在動物園里見過了馬、熊貓、獅子、老虎等動物,但是從未見過斑馬,通過老師的描述,該“兒童”了解到斑馬有四條腿、黑白相間的條紋,有尾巴。最終輕松地辨認出斑馬。模型也可以通過零樣本學習,從見過的類別(第一列)中提取特征(如:外形像馬、條
18、紋、黑白),然后根據對未知類別特征的描述,識別未見過的類別。圖8:零樣本學習(ZSL)示例資料來源:C.H.Lampert,H.Nickisch and S.Harmeling,.IEEEConferenceonComputerVisionandPatternRecognition,(2009),pp.951-958,國信證券經濟研究所整理SAMSAM 的零樣本學習能力得到認可的零樣本學習能力得到認可SAM 正具備這樣一種零樣本分割能力,它可以從各種 prompt 輸入(包括點、方框和文本)中生成高質量的掩膜(Mask)。學術界有多篇論文探討了 SAM 的 ZSL 能力,如SAM.MD:Zer
19、o-shot medical image segmentation capabilities of theSegment Anything Model測試了 SAM 的 ZSL 效果,在圖像分割任務中輸入了部分點和框作為 prompt 提示,結果顯示:專家用戶可以通過 SAM 實現大部分場景下的快速半自動分割。雖然在實驗中 SAM 沒有表現出領先的全自動分割性能,但可成為推動臨床醫生半自動分割工具發展的潛在催化劑,預示了這類模型進一步適應復雜醫療領域的無限可能性。圖9:SAM 的零樣本學習能力在 CT 影像中的應用資料來源:Roy,Saikat&Wald,Tassilo&Koehler,Gre
20、gor&Rokuss,Maximilian&Disch,Nico&Holzschuh,Julius&Zimmerer,David&Maier-Hein,Klaus.Medical Imaging with Deep Learning.(2023).,國信證券經濟研究所整理總的來說,ZSL 在沒有任何訓練數據的情況下,也可以完成一些任務。這種技術在大模型發展中具有重要意義。隨著大模型的發展,模型的參數數量和計算量不斷增加,需要更多的數據來訓練。但是數據收集和標注是非常耗時和昂貴的。ZSL技術可以減少對數據的依賴,從而降低了訓練成本。同時,ZSL 技術還可以提高模型的泛化能力,使其能夠處理更多的任
21、務。SA-1BSA-1B:迄今為止最大的分割數據集迄今為止最大的分割數據集,助力模型增效助力模型增效DataData EngineEngine:使用數據引擎生成掩碼使用數據引擎生成掩碼SAM 使用數據集進行訓練,標注者使用 SAM 交互式注釋圖像,反過來更新 SAM;形成閉環成長,且收集新的分割掩碼比以前更快?;谶@種方法,SAM 建立數據引擎,采用新穎的數據收集方法,將模型和標注人員結合起來,最大限度提高數據收集的效率和質量。一共分為 3 個階段:圖10:SAM 使用數據引擎(data engine)漸進式收集數據示意圖資料來源:Alexander Kirillov and Eric Min
22、tun and Nikhila Ravi and Hanzi Mao and Chloe Rollandand Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C.Berg and Wan-Yen Lo andPiotr Dollr and Ross Girshick.Computer Science.(2023).,國信證券經濟研究所整理(1)模型輔助的手工注釋階段。在這個階段,標注人員使用 SAM 模型作為輔助工具,通過點擊、框選或輸入文本等方式來生成 MASK,且模型根據標注人員的輸入實時更新 MASK,
23、并提供一些候選 MASK 供標注人員選擇和修改。這樣,標注人員可快速精確分割圖像中的對象,不需要手動繪制。這個階段的目標是收集高質量MASK 用于訓練和改進 SAM 模型;(2)半自動階段。在這個階段,SAM 模型已經有了一定的分割能力,可以自動對圖像中的對象進行預測。但是由于模型還不夠完善,預測的 MASK 可能存在錯誤或者遺漏。標注人員的主要任務是收集更多的檢查和修正模型的預測結果,保證MASK 的準確性和完整性。這個階段的目的是收集更多的掩碼,用于進一步提升 SAM模型的性能和泛化能力(3)全自動階段。這個階段 SAM 模型已經達到了較高的水平,可以準確分割出圖形中的所有對象,不需要任何
24、人工干預。因此,標注人員的工作就變成了確認和驗證模型輸出,保證沒有任何錯誤。這個階段的目標是利用 SAM 模型的自動化標注能力,快速擴充數據集的規模和覆蓋范圍。DataData SetSet:使用數據引擎生成掩碼使用數據引擎生成掩碼SAM 團隊通過這種“模型輔助的手工注釋半自動半注釋模型全自動分割掩碼”的漸進式方式收集掩碼。最終成功地創建了規??涨?、質量優良、多樣化豐富、隱私保護的圖像分割數據集 SA-1B。該數據集:(1)包含了 1100 萬張多樣化、高清晰度、隱私保護的照片(明確為相機拍攝),照片由一家大型圖片公司提供并授權,在數據許可證允許的前提下,可用于計算機視覺研究;(2)包含 11
25、 億個精細的分割 Mask(掩碼),這些 Mask 是由 Meta 開發的數據引擎(Data Engine)自動生成的,展示了該引擎強大的自動化標注能力;(3)每張圖像的平均分辨率為 15002250 像素,每張圖像包含約 100 個 Mask。(4)比現有的分割數據集多 400 多倍;比 COCO 完全手動的基于多邊形的掩碼標注快 6.5 倍,比以前最大的數據標注工作快 2 倍。圖11:SA-1B 比現有分割數據集多 400 倍圖12:SA-1B 掩碼標注速度更快資料來源:Alexander Kirillov and Eric Mintun and Nikhila Raviand Hanzi
26、 Mao and Chloe Rolland and Laura Gustafson and TeteXiao and Spencer Whitehead and Alexander C.Berg and Wan-YenLo and Piotr Dollr and Ross Girshick.Computer Science.(2023).,國信證券經濟研究所整理資料來源:Alexander Kirillov and Eric Mintun and Nikhila Raviand Hanzi Mao and Chloe Rolland and Laura Gustafson and Tete
27、Xiaoand Spencer Whitehead and Alexander C.Berg and Wan-Yen Lo andPiotr Dollr and Ross Girshick.ComputerScience.(2023).,國信證券經濟研究所整理這個數據集旨在訓練一個能夠從開放世界圖像中分割任何物體的通用模型。數據集不僅為 SAM 模型提供了強大的訓練基礎,也為圖像分割領域提供了一個新的研究資源和基準。此外,SAM 的論文對數據集進行了 RAI(responsible AI,人工智能的責任性)分析,認為 SA-1B 的圖像相比之前的分割數據集具有更強的跨區域代表性,大部分國家的圖
28、片都超過了 1000 張。圖13:SA-1B 數據集的跨區域代表性較強資料來源:Alexander Kirillov and Eric Mintun and Nikhila Ravi and Hanzi Mao and Chloe Rollandand Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C.Berg and Wan-Yen Lo andPiotr Dollr and Ross Girshick.Computer Science.(2023).,國信證券經濟研究所整理SAMSAM 核心優勢:減少訓練
29、需求,提升分割性能核心優勢:減少訓練需求,提升分割性能SAM 的核心愿景為:減少對于特定任務的專業建模知識要求,減少訓練計算需求,減少自己標注掩碼的需求,在“不會/少會、不標注/少標注、不訓練/少訓練”的情況下分割目標。SAM 主要通過以下三種手段來逐步實現圖像領域的“通用分割大模型“,(1)數據的規模和質量。SAM 通過使用零樣本遷移能力,在不同的數據源和任務上收集了大量的高質量的圖像分割數據(1100 萬張圖像和 11 億個掩碼(Mask),構建了 SA-1B 數據集,這是目前最大的圖像分割數據集,遠遠超過了之前的數據集。(2)模型的效率和靈活性。SAM 主要借鑒了 Transformer
30、 模型架構,采用注意力機制和卷積神經網絡,實現了一個高效且可提示的圖像分割模型,可以處理任意大小和比例的圖像,并且可以根據不同的輸入提示生成不同的分割結果。圖14:SAM 的可提示分割模型分為三部分資料來源:Alexander Kirillov and Eric Mintun and Nikhila Ravi and Hanzi Mao and Chloe Rollandand Laura Gustafson and Tete Xiao and Spencer Whitehead and Alexander C.Berg and Wan-Yen Lo andPiotr Dollr and Ro
31、ss Girshick.Computer Science.(2023).,國信證券經濟研究所整理(3)任務的泛化和遷移。SAM 通過使用可提示分割任務(prompt segment tasks),實現了一個可以零樣本遷移的圖像分割模型,可以適應新的圖像分布和任務,而無需額外的訓練數據或微調。這使得 SAM 可以在多個圖像分割任務上表現出色,甚至超過一些有監督的模型。目前模型已經實現的功能有:1)SAM 已經學會了物體的概念;2)可以為圖像或者視頻中的物體生成掩碼,甚至沒有見過;3)通用性很強;4)支持用戶使用各種交互性的方式來分割圖像和視頻,如全選分割自動識別圖像內所有物體、框選分割將用戶想選
32、定的部分框選出來即可完成分割。圖15:框選分割(BOX)圖16:全選分割(Everything)資料來源:SAM 官網,國信證券經濟研究所整理資料來源:SAM 官網,國信證券經濟研究所整理總的來說,SAM 是一個具有劃時代意義的模型,它為圖像分割領域提供了一個新的范式和思路,也為計算機視覺領域的基礎模型研究提供了一個新的視角和方向?;诨?SAMSAM 二次創作,衍生模型提升性能二次創作,衍生模型提升性能自從 SAM 發布以來,已引起 AI 屆的廣泛關注和討論,產生了一批衍生模型和相關的應用。如 SEEM 模型,MedSAM 模型等,可以應用在工程、醫學影像、遙感圖像和農業等領域。S SEE
33、MEEM:交互、語義更泛化,交互、語義更泛化,分割質量提升分割質量提升圖17:SEEM 在交互和語義空間上都比 SAM 更具泛化性資料來源:Xueyan Zou and Jianwei Yang and Hao Zhang and Feng Li and Linjie Li and Jianfeng Wangand Lijuan Wang and Jianfeng Gao and Yong Jae Lee.Computer Science.(2023).,國信證券經濟研究所整理SEEM(Segment everything everywhere at once)是研究者基于 SAM 提出的新的
34、交互模型,利用 SAM 強大的零樣本泛化能力,實現對任意圖像中的所有物體進行分割。研究者提出了一種新的分割框架,將 SAM 與一個檢測器結合,通過給 SAM提供檢測器輸出的邊界框作為輸入提示,從而生成對應物體的掩碼。SEEM 能夠根據用戶給出的各種模態的輸入(包括文本、圖像、涂鴉等等),一次性分割圖像或視頻中的所有內容,并識別出物體類別。(1)論文已在多個公開數據集上進行實驗,在分割質量和效率上都優于 SAM;(2)SEEM 是第一個不僅支持經典分割任務,還支持各種用戶輸入類型的通用接口,包括文本、點、涂鴉、框和圖像,提供強大的組合功能。圖18:SEEM 根據用戶輸入的點和涂鴉進行圖像識別圖1
35、9:SEEM 根據用戶輸入的文本進行圖像分割資料來源:Xueyan Zou and Jianwei Yang and Hao Zhang and FengLi and Linjie Li and Jianfeng Wang and Lijuan Wang andJianfengGaoandYongJaeLee.Computer Science.(2023).,國信證券經濟研究所整理資料來源:Xueyan Zou and Jianwei Yang and Hao Zhang and Feng Liand Linjie Li and Jianfeng Wang and Lijuan Wang an
36、d Jianfeng Gaoand Yong Jae Lee.Computer Science.(2023).,國信證券經濟研究所整理(3)能直接輸入參考圖像并指出參考區域,對其他圖像進行分割,找出與參考區域一致的物體。該性能具有分類識別特質;(4)視頻中的零樣本分割功能。使用第一幀以及用戶輸入的涂鴉等,在模糊或者劇烈變形的視頻中也可以準確分割參考對象。該功能可在道路場景、運動場景等應用中體現。圖20:SEEM 根據參考圖像對其他圖像進行分割資料來源:Xueyan Zou and Jianwei Yang and Hao Zhang and Feng Li and Linjie Li and
37、Jianfeng Wangand Lijuan Wang and Jianfeng Gao and Yong Jae Lee.Computer Science.(2023).,國信證券經濟研究所整理M MedSAMedSAM:提升感知力,應用提升感知力,應用醫學圖像分割醫學圖像分割醫學圖像由于多樣的成像模式、精細的解剖結構、不明確且復雜的邊界以及廣泛的物體尺度等,在圖像分割上具有較大的挑戰性。為了測評 SAM 對醫學影像分割的性能,深圳大學等多所高校聯合整理了一個迄今為止最大規模的醫學影像分割數據集 COSMOS 553K,并基于該數據集率先對 SAM 進行了全面、多角度、大規模的細致評估。圖
38、21:SAM 分割醫學影像測試的詳細框架資料來源:Maciej A.Mazurowski and Haoyu Dong and Hanxue Gu and Jichen Yang and Nicholas Konzand Yixin Zhang.Computer Science.(2023).,國信證券經濟研究所整理評估結果顯示,盡管 SAM 有可能成為一個通用的醫學影像分割模型,但它在醫學影像分割任務中的表現目前還不穩定,特別是全自動 Everything 的分割模式不適用于大多數醫學影像分割任務,在這種模式下,SAM 對醫學分割目標的感知能力較差。圖22:測試 SAM 對醫學影像分割性能的
39、數據集 COSMOS 553K 及分割效果資料來源:Maciej A.Mazurowski and Haoyu Dong and Hanxue Gu and Jichen Yang and Nicholas Konzand Yixin Zhang.Computer Science.(2023).,國信證券經濟研究所整理因此,SAM 在醫學影像分割的研究重點應該在如何有效地使用少量醫學影像來微調 SAM 以提高模型的可靠性,搭建屬于醫學影像的 Segment Anything 模型。MedSAM為將 SAM 應用到醫學影像分割的研究,該研究提出了一種簡單的微調方法來適應SAM 到通用的醫學影像分
40、割任務,并在 21 個三維分割任務和 9 個二維分割任務上進行了全面的實驗,證明 MedSAM 分割效果優于默認的 SAM 模型。圖23:MedSAM 示意圖資料來源:Jun Ma and Yuting He and Feifei Li and Lin Han and Chenyu You and Bo Wang.Electrical Engineering and Systems Science.(2023).,國信證券經濟研究所整理SAM-ASAM-Adaptdapterer:陰影檢測再升級,偽體分割更精準陰影檢測再升級,偽體分割更精準除了醫學影像分割難度較大之外,陰影檢測和偽裝物體分割任
41、務對于 SAM 來說是比較困難的,因為它們涉及到一些細微的視覺線索和復雜的背景。SAM Struggles in Concealed Scenes-Empirical Study on Segment Anything“這篇技術報告選取了當前偽裝目標分割領域中三個常用的數據集合,在無提示的情況下測試了基于三種不同骨架的 SAM 模型的分割性能。結果顯示:1)在自然場景中,SAM 模型分割隱蔽動物具有一定難度,且難以準確定位;2)在工業場景下,SAM 仍然無法做到“分割一切”,比如難以區分缺陷區域和紋理背景之間的差異性。圖24:SAM 模型不能很好地感知自然場景中的偽體圖25:SAM 在工業場景
42、中缺陷檢測能力較差資料來源:Ge-Peng Ji and Deng-Ping Fan and Peng Xu andMing-Ming Cheng and Bowen Zhou and Luc Van Gool.Computer Science.(2023).,國信證券經濟研究所整理資料來源:Ge-Peng Ji and Deng-Ping Fan and Peng Xu and Ming-MingCheng and Bowen Zhou and Luc Van Gool.Computer Science.(2023).,國信證券經濟研究所整理因此,解決 SAM 在某些分割任務中表現不佳的問題
43、非常重要。SAM Fails toSegment Anything?SAM-Adapter:Adapting SAM in Few-shot Learning提出了一種基于少樣本學習的適配方法。該方法沒有對 SAM 網絡進行微調,而是提出了 SAM-Adapter,它通過使用簡單而有效的適配器將特定領域的信息或視覺提示納入分割網絡,從而提高其在陰影檢測和偽裝物體分割等任務上的性能。圖26:SAM-Adapter 示意圖資料來源:Chen,Tianrun&Zhu,Lanyun&Ding,Chaotao&Cao,Runlong&Zhang,Shangzhan&Wang,Yan&Li,Zejian&
44、Sun,Lingyun&Mao,Papa&Zang,Ying.,ComputerVision and Pattern Recognition,(2023).,國信證券經濟研究所整理SAM-TracSAM-Track k:擴展擴展 SAMSAM 應用領域,應用領域,增強視頻分割增強視頻分割性能性能SAM 模型展現了強大的圖像分割能力,但缺乏對視頻數據的支持。然而,浙江大學 ReLER 實驗室的科研人員最新開源的 SAM-Track 項目,提升了 SAM 的視頻分割能力,即:分割并跟蹤任何物體(Segment-and-track anything)。SAM-Track在單卡上就能夠支持各種時空場景
45、中的目標分割和跟蹤,包括街景、AR、細胞、動畫、航拍等多種場景,能夠同時追蹤超過 200 個物體,為用戶提供了強大的視頻編輯能力。SAM-Track 擴展了 SAM 模型的應用領域,使其可以更好地應對視頻數據的挑戰。相比于傳統的視頻分割技術,SAM-Track 具有更高的準確性和可靠性。它能夠自適應地識別不同場景下的物體,并進行快速而精確的分割和跟蹤。這讓用戶可以輕松地進行視頻編輯和后期制作,得到更加出色的視覺效果??傊?,SAM-Track 是基于 SAM 的有意義的研究成果,為視頻分割和跟蹤領域的研究和應用提供了新的可能性。它的出現將會為視頻編輯、后期制作等領域帶來更多的機會和挑戰。SAMS
46、AM 及衍生模型賦能多場景應用及衍生模型賦能多場景應用SAM 模型是一種高效且準確的圖像分割模型,其應用能夠為計算機視覺相關的行業和賽道提供更快和更準確的圖像指示識別能力。根據應用難度的不同,可以將SAM 的應用落地區分為以下三個方面:首先是工業機器視覺。在這個行業中,圖像識別與處理已經得到了廣泛的應用。SAM 模型的賦能可以帶來降本增效,可以大大縮短訓練時間和減少對數據的依賴。其次是 AR/CR 行業、自動駕駛、安防監控等賽道,需要捕捉和分割動態圖像,基于 3D 重建等、對技術、算力的要求較高。且可能涉及數據、算法的倫理與隱私問題,應用落地需要一定時間;此外,SAM 也有分割任務實現較為困難
47、的場景,在這方面 SAM 衍生模型的發展突破,后續將能對遙感,醫學影像處理產業帶來巨大推推動。如:(1)醫學圖像具有多樣的模態、低對比度、噪聲干擾等特點。SAM 可以通過簡單的微調來適應通用的醫學圖像分割,或通過輸入提示來實現特定醫學目標分割;(2)陰影檢測和偽裝物體分割任務涉及微小的視覺線索且背景復雜,對于 SAM比較困難的。因此,SAM 可以通過利用少量標注數據,few-shot 訓練一個適配器模塊,來調整其輸出,從而改善其分割效果,應用于遙感圖像、農業等領域。最后,SAM 還可以作為基礎模型,與其他模型或系統結合:例如 SAM 可以與一個分類器結合,實現對任意圖像中的所有物體進行檢測和識
48、別;或者與一個生成器結合,實現對任意圖像中的任意物體進行編輯和轉換等。這種結合能夠提高圖像識別和分割的準確性和效率,為不同行業帶來更多應用場景?;诨?3 3D D 重建重建,賦能賦能 ARAR、游戲游戲在 AR/VR 領域,SAM 模型可以基于 3D 重建技術,為用戶提供更加沉浸式的視覺體驗。通過該模型,用戶可以根據自己的目光選擇一個物體,并將其轉化為 3D 空間中的實體物體。具體來說,SAM 模型結合了 3D 重建技術和圖像處理算法,能夠將 2D 圖像轉化為3D 場景,從而實現對真實世界的還原和模擬。用戶可以通過 AR 或 VR 設備觀察和操控這些 3D 場景中的物件,享受高度沉浸式的互
49、動體驗。圖27:SAM 可在 AR 眼鏡中識別日常物體圖28:SAM 的 3D 重建功能資料來源:SAM 官網,國信證券經濟研究所整理資料來源:SAM 官網,國信證券經濟研究所整理此外,SAM 模型還能夠通過深度學習算法,對用戶的視線和手勢進行識別和跟蹤,實現更加智能化的互動方式。例如,當用戶注視某個物體時,SAM 可以自動聚焦并為其提供更加詳細的信息。同時,當用戶做出手勢操作時,SAM 也能夠快速響應并實現對場景的調整和變化??傊?,SAM 模型基于 3D 重建技術的應用賦能了 AR 和游戲等領域,為用戶提供了更加沉浸式和智能化的虛擬體驗。隨著技術的不斷進步和應用場景的不斷擴展,SAM 模型在
50、未來將會有更加廣泛的應用前景。跟蹤運動物體跟蹤運動物體,賦能安防監控賦能安防監控SAM 是一種高效且準確的圖像分割模型,其能力在視頻和動態圖像分割方面得到了強化,并衍生出了 SEEM 和 SAM-Track 兩種應用。這些衍生模型充分借鑒了 SAM的零樣本泛化能力,使得使用參考圖像及用戶輸入的涂鴉、文字等信息,在模糊或者劇烈變形的視頻中也可以準確地分割參考對象。如圖 29 所示,SEEM 可以在跑酷、運動和游戲等視頻中準確分割指定對象。對于這些運動場景的視頻,傳統的圖像分割算法難以處理,因為場景中存在著復雜的背景和快速移動的目標物體。但是,SEEM 模型不僅可以準確地識別參考對象,還可以消除背
51、景干擾,從而提高分割的精度。圖29:SEEM 在跑酷、運動、游戲視頻中可以準確分割參考對象資料來源:Xueyan Zou and Jianwei Yang and Hao Zhang and Feng Li and Linjie Li and Jianfeng Wangand Lijuan Wang and Jianfeng Gao and Yong Jae Lee.Computer Science.(2023).,國信證券經濟研究所整理該功能除了在運動場景中體現之外,還可賦能安防、視頻監控等賽道。在這些領域中,需要實現對視頻中的物體進行精確分割,以便進行后續的識別和處理。SEEM和 SAM-
52、Track 可以通過輸入提示準確判斷目標物體,并進行精確分割。這種分割功能可以為安防、視頻監控等領域帶來更高效、準確和智能化的處理能力。綜上所述,SAM 及其衍生的 SEEM 和 SAM-Track 模型具有強大的視頻和動態圖像分割功能,并能夠在運動場景、安防、視頻監控等領域發揮重要作用。隨著技術的不斷進步和應用場景的擴展,這些模型在未來將會有更加廣泛的應用前景。解決長尾難題解決長尾難題,賦能自動駕駛賦能自動駕駛在自動駕駛領域中,技術上的長尾問題是當前自動駕駛商業化進程中的主要制約因素。雖然現有技術已經實現了 90%以上道路場景的自動駕駛,但由于路面環境和車輛行駛情況的不可預測性,剩下 10%
53、的長尾場景依然存在很大難度。這些長尾場景通常涉及到突發事件、復雜地形或氣候條件等極端情況,例如強烈的降雨、暴風雪、雷電等,這些情況會對自動駕駛系統的識別和決策能力產生很大挑戰。此外,在城市交通中,還有一些特殊情況需要考慮,如非機動車、行人和建筑物等存在的影響,這些都增加了自動駕駛系統的復雜度和難度。長尾場景如果不得到解決,自動駕駛就始終無法落地。為了解決長尾問題,自動駕駛技術需要集成更多的算法和傳感器,并通過數據采集和深度學習等手段提高系統的智能水平。例如,可以結合雷達、攝像頭、激光雷達等傳感器進行數據融合,提高目標物體的識別和跟蹤能力,同時可以通過深度學習算法實現對復雜場景的模擬和預測。此外
54、,也可以引入人工智能技術,讓自動駕駛系統在長尾場景中不斷學習和優化,以提高其適應性和泛化能力。圖30:城市道路場景中長尾場景較多資料來源:CSDN,國信證券經濟研究所整理在自動駕駛領域中,SAM 可以用于對車輛行駛過程中的圖像進行分割,以標注出圖像中的不同物體和區域。自動駕駛系統需要實時地對路面情況進行感知,以便做出合適的決策。因此,對道路標記、車道線、行人、交通信號燈等物體和區域進行準確的標注非常重要。傳統的手動標注方法需要大量的時間和人力成本,而且容易出現誤差。使用 SAM可以自動地進行圖像分割和物體識別,從而大大減少了標注的成本;與傳統的機器學習算法相比,SAM 可以更好地處理復雜的場景
55、和變化,具有更高的準確性和穩定性。此外,SAM 還可以與其他深度學習模型結合使用,例如目標檢測和路徑規劃等模型,從而幫助自動駕駛系統更加準確地感知和理解周圍環境,以實現安全、高效的自動駕駛。例如,在行人識別和車道線跟蹤中使用 SAM 可以幫助自動駕駛系統更好地預測行人和車輛運動軌跡,從而避免潛在的交通事故發生??傊?,SAM 是一項非常有用的技術,它可以大大減少標注成本,并提高標注的準確性和效率。在自動駕駛領域中,SAM 的應用將會越來越廣泛,為自動駕駛技術的快速發展和商業化進程做出貢獻。提高分割性能提高分割性能,賦能賦能遙感圖像遙感圖像遙感圖像是一種通過衛星、飛機等遙測手段獲取地球表面信息的重
56、要手段,具有多樣化、全覆蓋、高精度等特點,成為現代科技發展中不可或缺的一部分。它的應用領域十分廣泛,包括環境監測、自然資源管理、城市規劃、災害預警等方面。遙感的數據類型分為很多種:包括光學遙感數據、光譜數據、SAR 雷達數據、無人機數據等。遙感數據的處理一般分為 2 個部分:(1)首先是遙感地面處理系統接收來自天上的衛星數據,通過大氣校正、勻光勻色、裁剪分割等處理將原始的太空圖像變成可以進一步識別、處理的圖像;(2)在上述的基礎上,對遙感圖像進一步處理,包括圖像的解譯等,其中解譯主要完成對太空遙感圖像中具體物體的識別工作,此前主要是通過人工協助完成。遙感圖像因其多樣性、復雜性、數據量大等特點,
57、在處理過程中存在很多挑戰和困難。其圖像處理經歷了三個階段:(1)人工解譯階段,這個階段完全依賴標注人員進行圖像解釋,人工成本高且解譯成果轉化率低;(2)AI+遙感階段,這個階段 AI 技術已經對遙感圖像處理有一定的幫助,通過 AI模型以及算力的支持,有效緩解了圖像解譯的工作痛點,同時實現了人機協同。隨著遙感、測繪等對比觀測平臺及衛星數量不斷增長,AI+遙感的結合為圖像解譯提供了更多可能性;(3)隨著大型神經網絡模型的發布,遙感圖像的解譯工作有望進入到大模型階段。圖31:遙感圖像處理發展階段資料來源:航天宏圖官網,國信證券經濟研究所整理SAM 大模型作為一種新興的圖像分割技術,為處理遙感圖像提供
58、了全新的思路和方法。它基于深度學習算法,對遙感圖像進行統一的分割、識別、生成,大幅提升遙感解譯工作的效率;使用 SAM 模型進行遙感圖像分割,可以幫助用戶快速準確地生成高質量的地圖和三維模型,提高環境監測和資源管理的效率和精度。此外,SAM 模型還可以支持多源數據融合,將遙感圖像和其他數據結合起來,得到更全面、更精準的分析結果。遙感數據處理效率的提升也為下游的遙感應用爆發打下了良好的基礎。圖32:大模型應用于遙感圖像處理資料來源:航天宏圖官網,泰伯網,國信證券經濟研究所整理SAM 大模型在處理陰影、掩體分割等難度較高的分割任務時仍然面臨著相當大的挑戰(如圖 24 所示),如在自然場景中很難準確
59、分割出隱蔽動物的區域并進行定位。遙感圖像分割任務涉及一些微妙的視覺線索和復雜的背景,需要模型具有更高的感知力和識別能力,這導致 SAM 模型無法做到“分割一切”,尤其是在處理一些細節方面還需要進一步提高其性能。但是,可以通過不斷改進和優化來提高其性能。例如,可通過引入更多的數據集進行訓練,或采用更加先進的神經網絡架構來提升模型的感知力和識別精度,SAM 的衍生模型 SAM-adapter 也可以通過增加適配器的方式解決 SAM 在某些分割任務中表現不佳的問題,以及下文介紹的RS-promter:在 SAM 發布之后,有專家團隊二次創作了基于 SAM 基礎模型的遙感圖像實例分割的 prompt
60、learning 方法,這使得 SAM 能夠為遙感圖像生成語義可辨別的分割結果,該方法稱之為 RSPrompter。它與原始的 SAM 不同,不需要手動制作 prompt,RSPrompter 的目標是自動生成 prompt,以自動獲取語義實例級掩碼。此方法不僅適用于 SAM,還可以擴展到其他基礎模型。從實現上,該團隊提出了兩種方案:基 于 預 設 錨 點 的 RSPrompter-anchor 和 基 于 查 詢 與 最 優 傳 輸 匹 配 的RSPrompter-query。圖33:基于錨點的 prompter圖34:基于查詢的 prompter資料來源:Keyan Chen and Ch
61、enyang Liu and Hao Chen and HaotianZhang and Wenyuan Li and Zhengxia Zou and Zhenwei Shi.ComputerScience.(2023).,國信證券經濟研究所整理資料來源:Keyan Chen and Chenyang Liu and Hao Chen and HaotianZhang and Wenyuan Li and Zhengxia Zou and Zhenwei Shi.ComputerScience.(2023).,國信證券經濟研究所整理為驗證 RSPrompter 的效果進行了系列的實驗。這些實
62、驗不僅證明了每個組件的有效性,還在三個公共遙感數據集上顯示出其對比其他先進實例分割技術以及基于SAM 的方法都有優越的性能。圖35:大模型為空天信息產業帶來了驅動和挑戰資料來源:航天宏圖官網,國信證券經濟研究所整理此外,大模型為遙感圖像領域的研究和應用帶來了新的驅動力和挑戰。大模型在基于 SAR、光學、多光譜衛星、無人機航拍等多模態時空遙感數據領域具有廣泛的應用,可以依托開源大模型基礎結構,面向遙感數據進行定制化模型研發,實現一站式、全流程遙感大模型構建能力;其次,通過支持億級模型參數和標注數據量下降,大模型可以實現更高效、精準的遙感數據處理和分析,并賦能影像智能檢索與推送、地物智能提取采編、
63、數字孿生產品線等領域;在未來還要將大模型訓練與小模型部署相結合,達到更好的落地應用??偟膩碚f,傳統的圖像處理方法在面對遙感影像處理的挑戰時,常常難以滿足實際需求,不能夠達到高精度和高效率的要求。因此,采用大型模型來處理遙感圖像已經成為當前研究的一個重要方向。SAM 模型賦能遙感圖像,具有重要的意義和應用價值。它為遙感圖像領域的研究和應用帶來了新的機會和挑戰,也為人們更好地認識和利用地球資源提供了更好的技術支持。算力應用驅動算力應用驅動,賦能賦能機器視覺機器視覺機器視覺機器視覺的的功能主要歸類為四種:識別、測量、定位、檢測功能主要歸類為四種:識別、測量、定位、檢測。1)識別:基于目標物的特征進行
64、甄別,例如外形、顏色、字符、條碼等,要求高速度和高準確度;2)測量:將圖像像素信息標定成常用的度量衡單位并在圖像中精確計算出目標物的幾何尺寸。復雜形態測量+高精度是機器視覺的優勢領域;3)定位:獲取目標物體的二維或者三維位置信息。定位精度和速度是主要參考指標;4)檢測:一般指外觀檢測,內涵種類繁多。如產品裝配后的完整性檢測、外觀缺陷檢測(如是否有劃痕、凹凸不平等)。圖36:機器視覺四大功能及難度資料來源:中國機器視覺產業白皮書,國信證券經濟研究所整理機器視覺是“智能制造之眼”,作為關鍵零部件廣泛應用于工業自動化領域。典型的機器視覺系統包括:光源及光源控制器、鏡頭、相機、視覺控制系統(視覺處理分
65、析軟件及視覺控制器硬件)等,按照技術可分為基于硬件的成像技術和基于軟件的視覺分析技術。機器視覺發展受到四大核心驅動力的影響機器視覺發展受到四大核心驅動力的影響,包括成像包括成像、算法算法、算力和應用算力和應用。在這四個方面,每個都對機器視覺的發展產生了不可或缺的推動作用:圖37:機器視覺發展歷程資料來源:前瞻產業研究院,國信證券經濟研究所整理(1)應用驅動:傳統制造業逐步采納機器視覺技術,提高了其滲透率,同時新興行業的崛起增加了機器視覺需求。例如,在智能制造領域,機器視覺技術可以幫助企業實現自動化生產,提高生產效率和產品質量;在智能醫療領域,機器視覺技術可以輔助醫生進行診斷和治療,提高醫療水平
66、和治療效果。(2 2)算力/算法驅動:自 21 世紀起,CPU 算力大幅增長,尤其是 2016 年后 AI 算法迅速進化,為機器視覺技術的發展帶來推動。高性能計算設備強化了其計算能力,使圖像處理更高效。AI 算法進展,如深度學習,為機器視覺在圖像識別與分析上開創了更多可能。AIAI 大模型的引入為機器視覺產業帶來了技術底層的重大突破大模型的引入為機器視覺產業帶來了技術底層的重大突破。目前,機器視覺領域的先進技術包括深度學習、3D 處理與分析、圖像感知融合以及硬件加速圖像處理等。這些技術和模型提升了機器視覺的智能應用能力,優化了圖像識別的復雜度與精度,并降低成本,提高效率。圖38:基于 AI 的
67、輕量級人臉識別網絡,可用于視頻實時分析、安防監控等資料來源:Fernando Alonso-Fernandez and Kevin Hernandez-Diaz and Jose Maria Buades Rubio and JosefBigun.Computer Science.(2023).,國信證券經濟研究所整理AI 在機器視覺中的主要應用包括:1)物體檢測和識別:用深度學習網絡,如 CNN,識別圖像中的對象。2)圖像分類:適用于病變圖像識別或圖片庫整理。3)場景理解:除識別物體,還分析對象間的關系,關鍵于機器人導航或監控系統。4)圖像增強和恢復:如用超分辨率技術提高圖像質量。5)實時分
68、析:適用于實時監控領域。6)異常檢測:在工業中預測故障或進行質檢。7)3D 重建和增強現實:從 2D 提取 3D 信息或結合真實與虛擬對象。還有如 OCR、情感分析、手勢識別等的應用??傊?,AI 賦予機器視覺“理解”其所“看到”的能力,創造無數新機會。SAM 是視覺領域重要的 AI 大模型,應用 SAM 可推進機器視覺領域的創新和進步。SAM 可直接應用在智慧城市中,提高交通監測、人臉識別等的效率;也可在智能制造中,增強視覺檢測和質量控制;此外 SAM 可以與 OVD(Open-VocabularyDetection)技術結合自動,增強 SAM 的語義理解能力,自動地生成 SAM 需要的box
69、 信息,強化用戶交互。圖39:OVD 目標檢測基本流程資料來源:Zareian,K.D.Rosa,D.H.Hu and S.-F.Chang,.2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),(2021),pp.14388-14397,國信證券經濟研究所整理投資建議投資建議AIAI 大模型驅動了空天信息產業的發展,通用性遙感大模型技術成為一種必然趨大模型驅動了空天信息產業的發展,通用性遙感大模型技術成為一種必然趨勢。勢。遙感圖像解譯工作正逐步邁向遙感大模型階段,特別是隨著 SAM 大模型的推出。
70、與此前受限于人工成本和模型泛化能力不足的傳統方法相比,大模型展現出對遙感圖像進行統一的分割、識別和生成的潛力,從而極大提升解譯效率。此外,在目標檢測和要素分割領域,大模型展現出了顯著的魯棒性,有效地降低了工作量。效率的增加、工作量的減少也為下游遙感應用的拓展帶來益處,如地球環境檢測、特種領域地形構建等。圖40:AI 大模型驅動空天信息產業發展資料來源:航天宏圖官方,國信證券經濟研究所整理航天宏圖發布天權大模型航天宏圖發布天權大模型,可應用于多個領域可應用于多個領域。天權遙感大模型結合了 CV 和 NLP技術,專為遙感解譯設計,如光學遙感、光譜數據、SAR 雷達和無人機數據等多種類型的遙感數據。
71、經過多階段的開發和優化,其功能強大,能夠交互式自動提取分割圖像,增強樣本標注業務,提高模型的通用識別能力以及能夠自動學習生成物體。此外,未來還將推出 PIE-Engine studio,實現代碼的自動生成?;凇疤鞕唷贝竽P偷闹悄軉柎饝檬敲嫦蜻b感領域的人機對話協作系統,提供感知交互式的知識檢索和內容生成能力,賦能國防安全、應急管理、交通水利、國土資源等多個領域。圖41:天權大模型技術路線資料來源:航天宏圖官方,國信證券經濟研究所整理中科星圖推出空天靈眸大模型,構建第二增長曲線。中科星圖推出空天靈眸大模型,構建第二增長曲線。中科星圖與空天院成功聯手研發了名為“空天靈眸”的大模型。這一模型是基于
72、 transformer 算法和自監督訓練機制構建的。作為一個基座模型,空天靈眸可以通過下游的微調(fine-tuning)實現更廣泛的應用發展。例如,利用 dataplog 的數據基礎,它能夠在全國范圍內精確提取建筑物的輪廓和高度,進一步實現精細化的土地分類。該大模型極好地融合了數據和算力,因此在公開的數據集上已取得了令人滿意的成果。此外,中科星圖正積極投身于在線數字地球業務,利用云服務模式迅速擴展,并推出了“GEOVIS Earth 星圖地球”系列產品。這成功構建了第二增長曲線,不僅標志著公司業務的線上化轉型,還拓展到了教育、文旅等新的應用領域。圖42:中科星圖“空天靈眸”大模型資料來源:中科星圖,國信證券經濟研究所整理