《計算機行業SAM動態跟蹤:通用的圖像分割方法降本拓新賦能工業、自動駕駛、安防等領域-230409(25頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業SAM動態跟蹤:通用的圖像分割方法降本拓新賦能工業、自動駕駛、安防等領域-230409(25頁).pdf(25頁珍藏版)》請在三個皮匠報告上搜索。
1、SAMSAM動態跟蹤:通用的圖像分割方法,降本拓新,賦能工業、動態跟蹤:通用的圖像分割方法,降本拓新,賦能工業、自動駕駛、安防等領域自動駕駛、安防等領域證券研究報告證券研究報告 行業動態報告行業動態報告發布日期:2023年4月9日本報告由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。在遵守適用的法律法規情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。同時請參閱最后一頁的重要聲明。分析師:于芳博分析師:于芳博SAC編號:S1440522030001分析師:金戈分析師:金戈SAC編號:S1440517110001SFC編號:BPD352分析師
2、:分析師:閻貴成閻貴成SAC編號:S1440518040002SFC編號:BNS315 核心觀點:核心觀點:Meta發布發布SAM,成為成為CV圖像分割領域的基礎模型圖像分割領域的基礎模型,引起產學界較大反響引起產學界較大反響。SAM使用提示工程進行任務學習使用提示工程進行任務學習,能夠通過交互式點擊等操作實現圖像物體的分割能夠通過交互式點擊等操作實現圖像物體的分割,并且具有模糊感知能力并且具有模糊感知能力,很好解決了分割過程中產生的歧義問題很好解決了分割過程中產生的歧義問題,SAM在下游任務的零樣本學習表現上成績優秀在下游任務的零樣本學習表現上成績優秀,使得兩種應用領域有了新的變化:一是原來
3、采用計算機視覺技術使得兩種應用領域有了新的變化:一是原來采用計算機視覺技術,但是因為長但是因為長尾場景多尾場景多,需要大量標簽數據需要大量標簽數據,因此訓練成本較高因此訓練成本較高,有了大模型后可以大幅降低定制化開發產品成本有了大模型后可以大幅降低定制化開發產品成本,帶來毛利率提升帶來毛利率提升,比如工業中的機器視覺比如工業中的機器視覺、自動駕駛自動駕駛、安防等行業;二是原來沒有用計算機視覺技術的領域安防等行業;二是原來沒有用計算機視覺技術的領域,主要因為過去樣本少難以應用主要因為過去樣本少難以應用深度學習等深度學習等AI算法算法,由于由于SAM在零樣本或者少量樣本上表現優秀在零樣本或者少量樣
4、本上表現優秀,一些新的應用領域將被拓展一些新的應用領域將被拓展,比如從代碼驅動變為視覺比如從代碼驅動變為視覺驅動的機器人領域驅動的機器人領域、流程工業場景等流程工業場景等。4月月5日日,Meta發布發布Segment Anything Model,即即SAM,用來處理用來處理CV領域的圖像分割領域的圖像分割,引起學界引起學界/業界較大反響業界較大反響。SAM由一由一個圖像編碼器個圖像編碼器、一個提示編碼器和一個掩碼解碼器組成一個提示編碼器和一個掩碼解碼器組成,具有以下特點:具有以下特點:1)使用提示工程進行任務學習使用提示工程進行任務學習,交互式點擊交互式點擊、選選擇框甚至文本操作進行物體分割
5、;擇框甚至文本操作進行物體分割;2)具有模糊感知功能具有模糊感知功能,面對分割對象存在歧義時面對分割對象存在歧義時,可以輸出多個有效掩碼;可以輸出多個有效掩碼;3)與與ChatGPT類似類似,SAM巧妙的巧妙的將人工標注與大數據結合將人工標注與大數據結合(數據引擎數據引擎),最終實現了最終實現了“分割一切分割一切”的功能的功能。SAM在下游任務在下游任務領域表現優秀領域表現優秀,雖然在某些領域雖然在某些領域不如當前最優模型的表現不如當前最優模型的表現,但其良好的但其良好的zerozero-shotshot泛化能力依舊證明該模型性能的強悍泛化能力依舊證明該模型性能的強悍。英偉達人工智能科學家英偉
6、達人工智能科學家JimJim FanFan更是認為更是認為SAMSAM是是CVCV的的“GPTGPT-3 3時刻時刻”之一之一。我們認為我們認為SAM的提出對于的提出對于CV領域具有重要意義領域具有重要意義,會成為和會成為和CLIP一樣同等重要的基礎模型:一樣同等重要的基礎模型:圖像分割是計算機視覺一個非圖像分割是計算機視覺一個非常重要領域常重要領域,是當前該領域的前沿是當前該領域的前沿,甚至可以說是該領域的核心研究問題甚至可以說是該領域的核心研究問題,SAM的提出的提出,使得圖像分割領域有了基礎模型使得圖像分割領域有了基礎模型(foundation model),預計未來基于預計未來基于SA
7、M模型模型,CV領域尤其圖像分割領域許多問題將迎刃而解;此外領域尤其圖像分割領域許多問題將迎刃而解;此外,SAM整理了整理了SA-1B數據集數據集,是圖像分割領域數據集的一個重要補充是圖像分割領域數據集的一個重要補充。核心觀點 RUlZkZQVgUiXnOsRpN6MaOaQsQpPnPsRiNmMrNjMmNnM6MrRuNxNoMoMvPpOqP核心推薦領域及標的SAM及其改良版本預計將被廣泛應用于工業及其改良版本預計將被廣泛應用于工業、自動駕駛自動駕駛、VR/AR、安防安防、衛星遙感等眾多領域衛星遙感等眾多領域,將催生巨將催生巨大應用藍海大應用藍海,建議持續跟蹤建議持續跟蹤。工業領域工業
8、領域:1)機器視覺機器視覺:國內工業視覺檢測多數是面對長尾的缺陷檢測場景做定制化開發:國內工業視覺檢測多數是面對長尾的缺陷檢測場景做定制化開發,因此相比于因此相比于海外的標準品公司海外的標準品公司,國內機器視覺公司毛利率普遍較低國內機器視覺公司毛利率普遍較低,未來大模型可以大幅降低定制化開發的產品未來大模型可以大幅降低定制化開發的產品,只只需要少量的樣本需要少量的樣本(比如蘋果的幾個缺陷產品比如蘋果的幾個缺陷產品)就可以部署產線了就可以部署產線了,建議關注建議關注【凌云光凌云光】、【奧普特奧普特】(機機械組覆蓋械組覆蓋);2)流程工業流程工業:生產流程及工藝:生產流程及工藝、生產線配置生產線配
9、置、原材料及產品類型均具有較大差異性原材料及產品類型均具有較大差異性,此前此前,由于樣本少難以應用深度學習等由于樣本少難以應用深度學習等AI算法算法,而而SAM在零樣本或者少量樣本上表現優秀在零樣本或者少量樣本上表現優秀,意味著意味著AI可以在更多可以在更多的石油化工裝置的自適應控制的石油化工裝置的自適應控制、診斷與預測預警診斷與預測預警、智能決策領域有新的應用智能決策領域有新的應用,重點推薦重點推薦【中控技術中控技術】;3)機器人領域機器人領域:切割機器人可以從過去的代碼驅動變為視覺驅動:切割機器人可以從過去的代碼驅動變為視覺驅動,處理更多樣的應用場景處理更多樣的應用場景,重點推薦重點推薦【
10、柏楚柏楚電子電子】。自動駕駛自動駕駛:自動駕駛長尾場景較多:自動駕駛長尾場景較多,導致很多物體識別不出來導致很多物體識別不出來、識別不準確或者識別成本高識別不準確或者識別成本高(需要大量標需要大量標簽進行數據訓練簽進行數據訓練),在在SAM的大模型基礎上的大模型基礎上,能零樣本或者少量樣本將物體分割出來能零樣本或者少量樣本將物體分割出來。通過進一步改進通過進一步改進,SAM可用于三維重建領域可用于三維重建領域,SAM良好的性能表現預計可以很好彌補原先圖像分割在自動駕駛領域中的缺陷良好的性能表現預計可以很好彌補原先圖像分割在自動駕駛領域中的缺陷,對于當前使用占用網絡進行三維重建的自動駕駛來說對于
11、當前使用占用網絡進行三維重建的自動駕駛來說,是另外一個技術催化是另外一個技術催化,重點推薦重點推薦【中科創達中科創達】、【德賽西威德賽西威】、【經緯恒潤經緯恒潤】。安防領域安防領域:過去一些長尾場景難以覆蓋或者訓練成本高:過去一些長尾場景難以覆蓋或者訓練成本高,對于安防領域的龍頭公司對于安防領域的龍頭公司,實際上就能覆蓋更多實際上就能覆蓋更多的場景的場景,結合制造業和渠道的優勢結合制造業和渠道的優勢,客戶覆蓋范圍進一步增加客戶覆蓋范圍進一步增加,建議關注建議關注【??低暫?低暋?、【大華股份大華股份】以以及及【千方科技千方科技】。AR/VR眼鏡眼鏡:通過將通過將ARAR眼鏡集成眼鏡集成SAM
12、SAM模型模型,可以從視野圖像中切割出物體可以從視野圖像中切割出物體,從而為用戶選擇視線關注的對從而為用戶選擇視線關注的對象象,在分割并鎖定相關對象后在分割并鎖定相關對象后,ARAR眼鏡就可以根據該對象進行后續交互操作眼鏡就可以根據該對象進行后續交互操作,讓人機交互過程更加智能讓人機交互過程更加智能。衛星遙感衛星遙感:隨著衛星數的增加:隨著衛星數的增加、遙感圖像的時間和空間分辨率的提高遙感圖像的時間和空間分辨率的提高,遙感數據呈現爆發式增長遙感數據呈現爆發式增長,如何利如何利用海量遙感數據服務人類生產生活越發重要用海量遙感數據服務人類生產生活越發重要。SAMSAM等等CVCV領域大模型可以更好
13、地檢測領域大模型可以更好地檢測、分割分割、追蹤目標物追蹤目標物,有利于更精準的分析圖像信息有利于更精準的分析圖像信息,建議關注建議關注【中科星圖中科星圖】。核心推薦領域及標的 目錄一、計算機視覺一、計算機視覺二、二、SAMSAM模型介紹模型介紹三、三、SAMSAM模型應用模型應用四、風險提示四、風險提示 1.1 計算機視覺基本任務(1/2)計算機視覺領域中的基本任務包括:分類(計算機視覺領域中的基本任務包括:分類(Classification)、檢測()、檢測(Detection)、分割()、分割(Segmentation)。)。分類(分類(Classificaiton):對于輸入的圖像,判斷
14、出圖像中包含的物體的類別。):對于輸入的圖像,判斷出圖像中包含的物體的類別。如下左圖所示,識別出圖像中包括人(person)、羊(sheep)、狗(dog)三種對象。分類任務數據集:ImageNet、CIFAR-10、CIFAR-100、MNIST等分類任務網絡結構:LeNet-5、AlexNet、VGG-16/VGG-19、GoogLeNet、ResNet等檢測(檢測(Detection):對于輸入的圖像,以包圍框的方式確定圖像中物體的幾何位置,并識別出被框定物體的類別。):對于輸入的圖像,以包圍框的方式確定圖像中物體的幾何位置,并識別出被框定物體的類別。如下右圖所示,分別用三種不同顏色的框
15、框定出了人、羊、狗三種不同實體的位置。檢測任務數據集:PASCAL VOC、MS COCO、mAP等檢測任務網絡結構:R-CNN、Fast R-CNN、YOLO、RetinaNet等圖圖:分類任務示意圖:分類任務示意圖圖圖:檢測任務示意圖:檢測任務示意圖資料來源:華為云,中信建投 1.2 計算機視覺基本任務(2/2)計算機視覺領域中的基本任務包括:分類(計算機視覺領域中的基本任務包括:分類(Classification)、檢測()、檢測(Detection)、分割()、分割(Segmentation)。)。分割(分割(Segmentation):對于輸入的圖像,判斷出圖像中的每個像素屬于哪個物
16、體,相較于檢測而言是更加進階的任務。):對于輸入的圖像,判斷出圖像中的每個像素屬于哪個物體,相較于檢測而言是更加進階的任務。如左圖所示,不同顏色的區域代表著不同的物體對應的像素點。同時根據分割粒度的不同可以進一步劃分為語義分割和實例分割,實例分割在語義分割的基礎上進一步區分圖像中同一種類的不同物體,例如右圖將不同的方塊(cube)進行分割便屬于實例分割。分割任務數據集:PASCAL VOC 2012、MS COCO等分割任務網絡結構:PSPNet、DenseASPP、SegNet等圖圖:分割任務示意圖:分割任務示意圖圖圖:語義分割和實例分割的差異:語義分割和實例分割的差異資料來源:華為云,中信
17、建投 1.3 分割任務的重要意義宏觀層面上,分割任務為圖像理解提供了基礎。宏觀層面上,分割任務為圖像理解提供了基礎。分割的準確率和精細度決定了從相關圖像中提取信息的能力,也深刻影響著后續圖像處理與分析相關環節的效果,是計算機視覺中提取、分析、推理圖像中的相關信息的重要一環。微觀層面上,分割任務提供細粒度的圖像信息,為決策和后續圖像處理提供便利。微觀層面上,分割任務提供細粒度的圖像信息,為決策和后續圖像處理提供便利。分割任務通過像素級別的精確度對圖像進行劃分,一方面,分割后的圖像可以直接展示圖像中的相關信息,為人類決策提供輔助,如左圖所示,直觀展現出X光片中的不同的部分,另一方面,若進一步進行圖
18、像分析處理,其減少了后續分析中的不相關信息,將使后續的圖像處理過程的得到強化。圖圖:醫學圖像診斷中的分割:醫學圖像診斷中的分割圖圖:DeepLabV3DeepLabV3的的部分分割結果部分分割結果資料來源:Image Segmentation Using Deep Learning:A Survey、騰訊云,中信建投 1.4 分割任務的難點目前分割任務面臨著分割對象形狀不確定、圖像中的對象干擾、高質量訓練數據缺乏等三方面困難。1)圖像中對象形狀的不確定性使得對對象進行分割相較于通過矩形邊界對對象進行框定更加困難。2)圖像中可能存在對象目標小、數量多、相互重疊等干擾因素(如左圖),導致難以區分和
19、識別出其中的對象。3)分割任務的訓練數據集也需要對于圖像的精確標注,一方面這部分數據難以從互聯網數據中直接獲取,另一方面進行相關的數據標注時間和人力成本高昂。圖圖:圖像中對象之間存在干擾圖像中對象之間存在干擾(對象數量對象數量500)500)圖圖:MsMs COCOCOCO數據集的部分標注結果數據集的部分標注結果資料來源:Segment Anything,Microsoft COCO:Common Objects in Context,中信建投 1.5 高質量數據集缺乏阻礙CV領域大模型應用數據作為人工智能模型訓練的三要素,對模型的性能起到至關重要的作用,數據作為人工智能模型訓練的三要素,對模
20、型的性能起到至關重要的作用,CV領域相關數據及數據獲取方式的缺乏阻礙了大模型的進展:領域相關數據及數據獲取方式的缺乏阻礙了大模型的進展:在NLP大模型的訓練過程中,來自互聯網的海量文本數據起到了重要的作用,其中著名的數據集如:Common Crawl。但是在CV領域中,除了應用于CLIP的海量圖像-文本對外,缺乏獲取方便、并能用于訓練的高質量數據,因此對大模型在CV領域的推廣產生了較大的阻礙。具體在分割任務中,過去的的數據標注方式效率低,成本高:具體在分割任務中,過去的的數據標注方式效率低,成本高:以Ms COCO數據集為例,數據標注需要經過,a)給圖像中的物體相應的標簽;b)給同種物體的不同
21、實例的位置標注;c)描繪出每一個實例的邊緣以完成標注(如右圖所示)。SAM模型提出了更為高效的數據標注方式,讓大模型在分割任務中的應用成為可能:模型提出了更為高效的數據標注方式,讓大模型在分割任務中的應用成為可能:標注者在SAM模型的輔助下,通過交互的方式注釋圖像。在交互式地注釋方法下,完成一個目標(分割掩碼)的注釋只需要大約14秒,相較于過去 COCO 的完全手動基于多邊形的掩碼注釋快 6.5 倍,比之前最大的數據注釋工作快 2 倍。圖圖:MsMs COCOCOCO數據集的標注工作流程數據集的標注工作流程圖圖:MsMs COCOCOCO數據集的實例標注(數據集的實例標注(c c)界面)界面資
22、料來源:Microsoft COCO:Common Objects in Context,中信建投 目錄一、計算機視覺一、計算機視覺二、二、SAMSAM模型介紹模型介紹三、三、SAMSAM模型應用模型應用四、風險提示四、風險提示 資料來源:Segment Anything,中信建投2.1 SAM使用提示工程進行任務學習SAMSAM從從NLPNLP領域得到靈感,將提示學習用于圖像分割領域中。領域得到靈感,將提示學習用于圖像分割領域中。提示是用來指示要分割圖像的哪部分,可以是一些框、一組文等,可提示是用來指示要分割圖像的哪部分,可以是一些框、一組文等,可提示的分割任務是要給定任何提示的情況下,返回
23、有效的分割掩碼?!坝行А敝傅氖钱敺指钛诖a有多個或者不明確的時候,至少提示的分割任務是要給定任何提示的情況下,返回有效的分割掩碼?!坝行А敝傅氖钱敺指钛诖a有多個或者不明確的時候,至少返回一個模型認為合理的結果。返回一個模型認為合理的結果。預訓練階段,預訓練階段,SAMSAM學習“提示學習“提示-掩碼生成”的場景,即,為每個訓練樣本模擬一系列提示,然后將生成的掩碼與基本的圖像進行比掩碼生成”的場景,即,為每個訓練樣本模擬一系列提示,然后將生成的掩碼與基本的圖像進行比較,從而學習到參數。較,從而學習到參數。圖圖表:表:SAMSAM任務情況任務情況圖圖表:表:SAMSAM任務詳情任務詳情1、使用提示工
24、程進行零樣本學習2、提示是指要分割圖像的哪部分,包括分割物體的空間或者文本信息3、提示不明確或者可能指代多個對象時,輸出至少是其中的一個合理對象。資料來源:Segment Anything,中信建投2.2 SAM包括圖像編碼器、提示編碼器和掩碼解碼器SAMSAM由一個圖像編碼器、一個提示編碼器和一個掩碼解碼器組成。由一個圖像編碼器、一個提示編碼器和一個掩碼解碼器組成。圖像編碼器將圖像編碼后的圖像嵌套可以在不同提示下充分使用,給定一個圖像嵌套,圖像編碼器將圖像編碼后的圖像嵌套可以在不同提示下充分使用,給定一個圖像嵌套,SAMSAM模型中的提示編碼器和掩碼解碼器在模型中的提示編碼器和掩碼解碼器在5
25、050毫秒的時間內預測掩碼。毫秒的時間內預測掩碼。為了讓為了讓SAMSAM有模糊感知功能,在模型設計上,為一個提示,設計多個掩碼輸出(有模糊感知功能,在模型設計上,為一個提示,設計多個掩碼輸出(SAMSAM發現發現3 3個掩碼輸出夠用了)。個掩碼輸出夠用了)。1、對SAM模型要求:支持靈活提示、實時性以及具有模糊感知;2、SAM包括圖像編碼器、提示編碼器和一個輕量級的掩碼解碼器。圖圖表:表:SAMSAM模型情況模型情況圖圖表:表:SAMSAM模型詳情模型詳情圖像編碼器:MAE模型提示編碼器:位置編碼(點和框)與CLIP(文本)掩碼解碼器:Transformer Decoder 資料來源:Seg
26、ment Anything,中信建投2.3 使用數據引擎來構建數據集由于互聯網上圖像分割掩碼并不豐富,因此由于互聯網上圖像分割掩碼并不豐富,因此MetaMeta的研究者構建了一個數據引擎(的研究者構建了一個數據引擎(Data engineData engine)來收集)來收集1.1B1.1B的的SASA-1B1B數據集進行預數據集進行預訓練,訓練,數據引擎包括三個步驟,分別為手工輔助、半自動和全自動。數據引擎包括三個步驟,分別為手工輔助、半自動和全自動。第一階段的手工輔助過程中,標注者參與到第一階段的手工輔助過程中,標注者參與到SAMSAM模型的圖像掩碼標注過程,這個過程中從模型的圖像掩碼標注
27、過程,這個過程中從1212萬張圖片中得到萬張圖片中得到430430萬個萬個maskmask標注;第標注;第二階段的半自動,二階段的半自動,SAMSAM通過提示為一小部分圖像進行自動化標注,人工標注圖像中剩余的物體,這個過程中從通過提示為一小部分圖像進行自動化標注,人工標注圖像中剩余的物體,這個過程中從1818萬張圖片中得到萬張圖片中得到590590萬萬maskmask標注;第三階段的全自動,使用規則網格對標注;第三階段的全自動,使用規則網格對SAMSAM進行提示,對每張圖像進行標注,最終得到進行提示,對每張圖像進行標注,最終得到1111億的億的maskmask標注。標注。這與這與ChatGPT
28、ChatGPT RLHFRLHF有異曲同工之妙。有異曲同工之妙。最終,對于最終,對于11001100萬張圖像,萬張圖像,SAMSAM標注了標注了1010億個掩碼,每張圖像平均生成約億個掩碼,每張圖像平均生成約100100個高質量掩碼。個高質量掩碼。圖圖表:表:SAMSAM模型情況模型情況圖圖表:表:SAMSAM數據引擎詳情數據引擎詳情1、使用數據引擎構建帶有掩碼的圖像2、數據引擎包括三個階段:手工輔助、半自動、全自動3、每個階段循序漸進,讓數據引擎自動生成圖像掩碼,即類似于將圖像的物體提取出來。資料來源:Segment Anything,中信建投2.4 能通過單點提取高質量圖像部分SAMSAM
29、做了兩組實驗:做了兩組實驗:1 1、在、在2323個新數據集上,使用單點進行圖像分割;個新數據集上,使用單點進行圖像分割;2 2、在、在4 4個下游任務上進行零樣本學習。個下游任務上進行零樣本學習。在單點測試中,在單點測試中,SAMSAM在新的在新的2323個圖像分割數據集上進行推理,結果發現,在個圖像分割數據集上進行推理,結果發現,在1616個數據集中都要比原來交互式分割器個數據集中都要比原來交互式分割器RITMRITM的的SOTASOTA表表現的更好,現的更好,SAMSAM能夠從單點生成高質量掩碼。能夠從單點生成高質量掩碼。圖圖表:表:SAMSAM單點分割表現單點分割表現IoU:真實標簽和
30、預測值的交和并的比值SAM比RITM在16個數據集上表現都更好SAM效果要好于RITM 資料來源:Segment Anything,中信建投2.5 SAM在各下游任務中零樣本學習表現依舊出色SAMSAM在邊緣檢測、在邊緣檢測、object proposal generationobject proposal generation、實體分割、實體分割、text to masktext to mask等下游場景表現依舊出眾,雖然某些領域下不如當前等下游場景表現依舊出眾,雖然某些領域下不如當前最優模型的表現,但其良好的最優模型的表現,但其良好的zerozero-shotshot泛化能力依舊證明該模型
31、性能的強悍。泛化能力依舊證明該模型性能的強悍。圖圖表:表:SAMSAM進行邊緣預測進行邊緣預測圖圖表:通過文本提示進行圖像切割表:通過文本提示進行圖像切割圖圖表:零樣本下,表:零樣本下,SAMSAM能在目標能在目標proposalproposal生成任務表現優異生成任務表現優異圖圖表:人類評分中,表:人類評分中,SAMSAM在實例分割的表現優秀在實例分割的表現優秀 目錄一、一、MetaMeta基本盤基本盤二、二、SAMSAM模型介紹模型介紹三、三、SAMSAM模型應用模型應用四、風險提示四、風險提示 資料來源:Meta,中信建投3.1 SAM可用于AR眼鏡進行日常物體識別,增強人機交互Meta
32、Meta發布發布SAMSAM的一個重要應用領域是與的一個重要應用領域是與ARAR眼鏡設備,例如眼鏡設備,例如Meta QuestMeta Quest相結合;相結合;通過將通過將ARAR眼鏡集成眼鏡集成SAMSAM模型,可以從視野圖像中切割出物體,從而為用戶選擇視線關注的對象;在分割并鎖定相關對象后,模型,可以從視野圖像中切割出物體,從而為用戶選擇視線關注的對象;在分割并鎖定相關對象后,ARAR眼眼睛就可以根據該對象進行后續交互操作,讓人機交互過程更加智能。睛就可以根據該對象進行后續交互操作,讓人機交互過程更加智能。圖圖表:表:SAMSAM可通過可通過ARAR眼鏡識別日常物體,對用戶進行提示和指
33、導眼鏡識別日常物體,對用戶進行提示和指導 資料來源:Meta,中信建投3.2 基于SAM進行3D物體重建,將利好自動駕駛SAMSAM模型在圖像分割領域表現優異,能夠以零樣本學習對圖像進行很好的分割,因此,很自然的被遷移到其他視覺領域。例如,模型在圖像分割領域表現優異,能夠以零樣本學習對圖像進行很好的分割,因此,很自然的被遷移到其他視覺領域。例如,MetaMeta內部的團隊將內部的團隊將SAMSAM應用于應用于3D3D物體重建領域,開發出物體重建領域,開發出MCCMCC模型,在單圖像的模型,在單圖像的3D3D物體重建上表現優秀。物體重建上表現優秀。先進的自動駕駛視覺算法目前主要使用占用網絡而并非
34、圖像分割,主要是因為先進的自動駕駛視覺算法目前主要使用占用網絡而并非圖像分割,主要是因為2D2D場景下的圖像分割轉化為場景下的圖像分割轉化為3D3D過程將會出現不必要過程將會出現不必要的噪音。預計的噪音。預計SAMSAM在圖像分割領域優秀的表現性能和其在在圖像分割領域優秀的表現性能和其在3D3D物體重建領域的應用將推動自動駕駛視覺的技術進步。物體重建領域的應用將推動自動駕駛視覺的技術進步。此外,若此外,若SAMSAM應用于自動駕駛場景,預計可能將有助于汽車更好地識別車前物體,對于汽車駕駛判斷有更好的幫助。應用于自動駕駛場景,預計可能將有助于汽車更好地識別車前物體,對于汽車駕駛判斷有更好的幫助。
35、圖圖表:表:MetaMeta的的MCCMCC模型使用模型使用SAMSAM的輸出進行的輸出進行3D3D物體重建物體重建 資料來源:凌云光、賽迪顧問,中信建投3.3 工業機器視覺領域預計也將受益機器視覺目的是代替人眼對被測物進行觀察和判斷,硬件設備主要包括光源、鏡頭、相機等,軟件主要包括傳統的數字圖像處理機器視覺目的是代替人眼對被測物進行觀察和判斷,硬件設備主要包括光源、鏡頭、相機等,軟件主要包括傳統的數字圖像處理算法和基于深度學習的圖像處理算法。機器視覺系統的算法軟件部分是利用計算機視覺算法對獲取圖像進行分析,進而為進一步算法和基于深度學習的圖像處理算法。機器視覺系統的算法軟件部分是利用計算機視
36、覺算法對獲取圖像進行分析,進而為進一步決策提供所需信息,其中圖像分割是機器視覺中重要一環。決策提供所需信息,其中圖像分割是機器視覺中重要一環。工業機器視覺領域一大痛點在于其可用樣本較為匱乏,類似工業機器視覺領域一大痛點在于其可用樣本較為匱乏,類似SAMSAM的基礎模型出現,將成為推動工業領域智能化轉向的關鍵。的基礎模型出現,將成為推動工業領域智能化轉向的關鍵。國內工業視覺檢測多數是面對長尾的缺陷檢測場景做定制化開發,因此相比于海外的標準品公司,國內機器視覺公司毛利率普遍國內工業視覺檢測多數是面對長尾的缺陷檢測場景做定制化開發,因此相比于海外的標準品公司,國內機器視覺公司毛利率普遍較低,未來大模
37、型可以大幅降低定制化開發的產品,只需要少量的樣本(比如蘋果的幾個缺陷產品)就可以部署產線。較低,未來大模型可以大幅降低定制化開發的產品,只需要少量的樣本(比如蘋果的幾個缺陷產品)就可以部署產線。圖圖表:機器視覺系統構成表:機器視覺系統構成圖圖表:機器視覺底層算法表:機器視覺底層算法機器視覺系統機器視覺系統機器視覺裝備機器視覺裝備 資料來源:Meta,中信建投3.4 SAM將應用于涉及圖像處理的各行各業除了虛擬現實、自動駕駛、工業領域外,除了虛擬現實、自動駕駛、工業領域外,SAMSAM在科研、醫療、衛星遙感等領域預計會有廣泛應用。在科研、醫療、衛星遙感等領域預計會有廣泛應用。圖圖表:表:SAMS
38、AM在醫療影像處理中的應用在醫療影像處理中的應用圖圖表:表:SAMSAM在衛星遙感領域中的應用在衛星遙感領域中的應用圖圖表:表:SAMSAM在砂巖切片中進行標記在砂巖切片中進行標記圖圖表:細胞科研領域中進行圖像切割研究表:細胞科研領域中進行圖像切割研究 目錄一、一、MetaMeta基本盤基本盤二、二、SAMSAM模型介紹模型介紹三、三、SAMSAM模型應用模型應用四、風險提示四、風險提示 風險提示CV模型技術發展不及預期:模型技術發展不及預期:SAM屬于先進AI算法,若后續算法更新迭代效果不及預期,則會影響CV圖像分割演進及拓展,進而會影響其商業化落地等;算法隱私問題:算法隱私問題:SAM在進
39、行預訓練過程中,使用了大量數據,其中會涉及相關隱私問題;應用不及預期:應用不及預期:SAM屬于CV圖像分割領域具有重大影響的新模型,預計后續會催生巨大應用,但該模型剛剛出現,與相關應用落地之間還存在一定距離,需要注意應用落地不及預期風險。算力基礎設施支持不及預期:算力基礎設施支持不及預期:美國制裁中國高科技企業,對中國形成芯片、算力的封鎖,CV基礎模型訓練過程中需要大量算力資源,需要關注中美關系帶來的中國算力的壓力;數據數量與數據質量不及預期:數據數量與數據質量不及預期:CV基礎模型需要大量的高質量數據進行訓練,若數據數量和質量存在短板,則會影響模型效果;倫理沖突風險:倫理沖突風險:SAM將進
40、一步推動人工智能邁向通用型人工智能,人工智能進一步智能化將產生人工智能欺騙、人工智能上癮、人與人工智能之間的關系等一系列倫理問題;感謝辛俠平、陳思玥、樊文輝對本報告的貢獻。分析師介紹分析師介紹閻貴成:閻貴成:中信建投證券通信&計算機行業首席分析師,北京大學學士、碩士,專注于云計算、物聯網、信息安全、信創與5G等領域研究。近8年中國移動工作經驗,6年多證券研究經驗。系2019-2021年新財富、水晶球通信行業最佳分析師第一名,2017-2018年新財富、水晶球通信行業最佳分析師第一名團隊核心成員。金戈:金戈:中信建投證券研究發展部計算機行業聯席首席分析師,帝國理工學院工科碩士,擅長云計算、金融科
41、技、人工智能等領域。于芳博于芳博:中信建投計算機行業分析師,北京大學空間物理學學士、碩士,2019年7月加入中信建投,主要覆蓋方向智能汽車、CPU/GPU/FPGA/ASIC、EDA和工業軟件等方向。評級說明評級說明投資評級標準評級說明報告中投資建議涉及的評級標準為報告發布日后6個月內的相對市場表現,也即報告發布日后的6個月內公司股價(或行業指數)相對同期相關證券市場代表性指數的漲跌幅作為基準。A股市場以滬深300指數作為基準;新三板市場以三板成指為基準;香港市場以恒生指數作為基準;美國市場以標普 500 指數為基準。股票評級買入相對漲幅15以上增持相對漲幅5%15中性相對漲幅-5%5之間減持
42、相對跌幅5%15賣出相對跌幅15以上行業評級強于大市相對漲幅10%以上中性相對漲幅-10-10%之間弱于大市相對跌幅10%以上 分析師聲明分析師聲明本報告署名分析師在此聲明:(i)以勤勉的職業態度、專業審慎的研究方法,使用合法合規的信息,獨立、客觀地出具本報告,結論不受任何第三方的授意或影響。(ii)本人不曾因,不因,也將不會因本報告中的具體推薦意見或觀點而直接或間接收到任何形式的補償。法律主體說明法律主體說明本報告由中信建投證券股份有限公司及/或其附屬機構(以下合稱“中信建投”)制作,由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。中信建投證券股份有
43、限公司具有中國證監會許可的投資咨詢業務資格,本報告署名分析師所持中國證券業協會授予的證券投資咨詢執業資格證書編號已披露在報告首頁。本報告由中信建投(國際)證券有限公司在香港提供。本報告作者所持香港證監會牌照的中央編號已披露在報告首頁。一般性聲明一般性聲明本報告由中信建投制作。發送本報告不構成任何合同或承諾的基礎,不因接收者收到本報告而視其為中信建投客戶。本報告的信息均來源于中信建投認為可靠的公開資料,但中信建投對這些信息的準確性及完整性不作任何保證。本報告所載觀點、評估和預測僅反映本報告出具日該分析師的判斷,該等觀點、評估和預測可能在不發出通知的情況下有所變更,亦有可能因使用不同假設和標準或者
44、采用不同分析方法而與中信建投其他部門、人員口頭或書面表達的意見不同或相反。本報告所引證券或其他金融工具的過往業績不代表其未來表現。報告中所含任何具有預測性質的內容皆基于相應的假設條件,而任何假設條件都可能隨時發生變化并影響實際投資收益。中信建投不承諾、不保證本報告所含具有預測性質的內容必然得以實現。本報告內容的全部或部分均不構成投資建議。本報告所包含的觀點、建議并未考慮報告接收人在財務狀況、投資目的、風險偏好等方面的具體情況,報告接收者應當獨立評估本報告所含信息,基于自身投資目標、需求、市場機會、風險及其他因素自主做出決策并自行承擔投資風險。中信建投建議所有投資者應就任何潛在投資向其稅務、會計
45、或法律顧問咨詢。不論報告接收者是否根據本報告做出投資決策,中信建投都不對該等投資決策提供任何形式的擔保,亦不以任何形式分享投資收益或者分擔投資損失。中信建投不對使用本報告所產生的任何直接或間接損失承擔責任。在法律法規及監管規定允許的范圍內,中信建投可能持有并交易本報告中所提公司的股份或其他財產權益,也可能在過去12個月、目前或者將來為本報告中所提公司提供或者爭取為其提供投資銀行、做市交易、財務顧問或其他金融服務。本報告內容真實、準確、完整地反映了署名分析師的觀點,分析師的薪酬無論過去、現在或未來都不會直接或間接與其所撰寫報告中的具體觀點相聯系,分析師亦不會因撰寫本報告而獲取不當利益。本報告為中
46、信建投所有。未經中信建投事先書面許可,任何機構和/或個人不得以任何形式轉發、翻版、復制、發布或引用本報告全部或部分內容,亦不得從未經中信建投書面授權的任何機構、個人或其運營的媒體平臺接收、翻版、復制或引用本報告全部或部分內容。版權所有,違者必究。中信建投證券研究發展部中信建投證券研究發展部中信建投(國際)中信建投(國際)北京東城區朝內大街2號凱恒中心B座12層電話:(8610)8513-0588聯系人:李祉瑤郵箱:上海浦東新區浦東南路528號南塔2103室電話:(8621)6882-1612聯系人:翁起帆郵箱:深圳福田區福中三路與鵬程一路交匯處廣電金融中心35樓電話:(86755)8252-1369聯系人:曹瑩郵箱:香港中環交易廣場2期18樓電話:(852)3465-5600聯系人:劉泓麟郵箱:charleneliucsci.hk25