10機器感知.pdf

編號:111495 PDF 86頁 6.57MB 下載積分:VIP專享
下載報告請您先登錄!

10機器感知.pdf

1、110機器感知2 中科院研究員山世光:從看臉到讀心:基于視覺的情感感知技術整理:智源社區張魯洋中科院計算所研究員山世光的報告主題是從看臉到讀心:基于視覺的情感感知技術。在報告中,山世光提到:“人臉識別已近尾聲,世間一切盡在臉上,我們能夠從臉上看到更多的內容,若干年后我們很可能從“看臉時代”進入到“讀心時代”。讀心對于我們打造有溫度、有情商的 AI 是至關重要的?!彼^讀心,即通過人的外顯語言或行為來推測、估計出人的內在心理和精神狀態,從情感角度對一個人進行評估。使用機器解決“讀心”問題,可以更好地預知危險、評估風險,幫助警務人員破案等。山世光在報告中介紹了他所帶領的團隊在該領域的一系列研究成果

2、。包括精神疾病輔助診斷技術、人臉表情識別、面部動作檢測、自監督學習以及基于視頻的遙測式生理信號的測量等。當然,現階段讓機器像人一樣具備察言觀色的能力,還有很長的路要走;山世光認為,我們不能操之過急,而需要先立足于解決現存的問題,比如弱信號檢測、數據匱乏等。以下為山世光的演講正文:圖 1:人臉識別研究已接近尾聲在過去的八年中,人臉識別技術取得了非常大的進步。但從某種意義上說人臉識別研究已經接近尾聲。但這并不意味著我們已經把人臉上的信息讀完了我們人類本身除了識別人臉,還能夠從臉上得到更多的信息。例如中醫可以望、聞、問、切,其中的望就是通過看臉來診??;普通人也都具備察言觀色的能力,這是我們在人3類社

3、會中生存的基本能力。因此,人臉技術的下一步也許將從“看臉時代”進入到“讀心時代”。讀心,對我們打造有溫度、有情商的 AI 至關重要。但什么是讀心?本質上就是通過人的外顯語言或行為推測、估計出人內在的心理和精神狀態的技術,從情感角度對一個人進行評估。其內涵和外延有三個層次:1)瞬態特征,即生理指標,包括身高、體重、心律、呼吸、血壓、血氧、眨眼率、視線等。2)短期特征,即心理狀態,包括疲勞、專注、亢奮、無聊等內心在相對較短時間內的狀態。3)長期特征,即精神狀況,主要涉及到自閉癥、抑郁癥、焦慮、狂躁等,甚至是人格特質。AI 如果能夠識別出以上三個層次的心理和精神狀態,在實際應用中將起到重要作用。比如

4、,在自動駕駛領域,可以通過對司機疲勞狀態進行評估,從而可以預防危險的駕駛行為;在精神健康領域,可以通過計算機視覺技術,獲取更多客觀化的評估;在機器人領域,可以利用這些技術讓機器人擁有對人類情感進行理解和反饋的能力,使其能夠更好地陪護人類;也可以將這些技術應用于用戶畫像的評估,比如貸款風險評估、人力資源評估等。在精神性疾病的輔助診斷方面(包括孤獨癥、抑郁和焦慮等),國內、外已經有很多研究者在進行研究:2018 年,來自澳大利亞幾個大學的聯合團隊采用多模態融合的方法1,將語言特征(Paralinguistic)、頭部姿態特征(Headpose)以及眼神特征(Eyegazebehaviors)相結合

5、,對抑郁癥與健康人群的分類。融合之后的分類精度達到 88%。2018 年,郭國棟團隊也利用深度學習進行了抑郁癥診斷的研究2,他們通過融合面部特征(Appearance)和動態特征(Dynamics)進行抑郁狀態的評估。在 AVEC2013 數據集(包括 82 個人、150 段視頻)上進行實驗,結果達到 7.58(MAE)、9.82(RMSE)。雖然誤差還不是很理想,但精度卻非常得好。李飛飛團隊在 2018 年也做了基于 3D 人臉表情和語音的抑郁程度評估工作3,其使用的是 CasualCNN 方法,最終獲得了 83.3%Sensitivity 和 82.8%Specificity 的實驗結果。

6、國外也有一些人格計算(PersonalityComputing)方面的工作,即通過一個人的照片或視頻,對其進行第一印象的分類。今年 6 月,ScienceReport 上發表了一篇來自俄羅斯團隊的文章4,他們通過照片評估一個人的 Big-five 人格分類(外向性、親和性、盡責性、神經質性和開放性)。這類工作在之前也有人研究,但是這篇文章使用了一個大規模的數據集,收集了 12447人的 31367張照片,每個人對自己的人格進行報告。他們用深度神經網絡去做評估,結果顯示模型的評估精度基本和人的直覺評估吻合。事實上這項工作在國外很早就有研究,2014 年 IEEETrans.onAffective

7、Computing 就有一篇綜述性文章5,介紹了這方面的一百多篇文章,雖然采用的并不完全是視覺,但是不少工作都是基于視覺的方法來做的。前面對從看臉到讀心的變化做了概括性的介紹,下面介紹一下我們在學術上的一些工作,下面著重介紹幾個方面。4圖 2:深刻理解人的視覺關鍵技術之內涵和外延一、在自閉癥兒童早期診斷上的應用探索早期兒童抑郁癥診斷的探索,首先是通過傳感器希望記錄兒童的社交行為或者個體行為的過程,然后利用計算機視覺的技術分析行為特征。為了讓視線捕捉能夠不依賴于專用的設備,目前我們希望能夠采用普通的攝像頭去做視線估計。ASD 或者孤獨癥兒童本身已經有非常多的工作,包括視點特征、表情特征、日常行為

8、特征等,過去都有比較多的經驗總結,我們依賴這些經驗總結,重點去通過普通攝像頭捕捉兒童的視線,然后分析他們的面部表情,以及在社交過程中和別人眼神對視以及互動的方式。圖 3:ASD 視點特征結論目前涉及到的技術包括視線估計技術、表情識別技術、面部動作識別以及數據挖掘技術。我們也開展了這些方面的研究工作,例如在視線、眼神的估計方面,我們已經做了一些系統的工作;在專注度估計方面,2018 年我們也參加 EmotiW2018挑戰賽,通過視覺的方法估計一對一教學過程當中學員專注的等級。在這一領域仍然面臨著非常多的挑戰,包括傳感器和數據層面。特別是數據層面,目前我們發現幾乎不太可能依賴有監督的、大規模的數據

9、進行深度學習來實現這些功能,所以我們必須去研究如何能夠在弱監督、無監督、5半監督、小樣本等數據條件下,將知識嵌入到數據驅動中,使我們可以不依賴于大量的數據。二、遮擋魯棒的人臉表情識別這個工作6主要是考慮人在做表情的時候經常下意識地用手遮擋自己的面部的問題。我們提出基于面部分塊的門卷積神經網絡,利用注意力機制自動感知人臉被遮擋的區域,進而增強非遮擋區域的重要性,最后結合局部注意力和全局注意力,使得我們能夠保留對表情識別的全局和局部的信息。圖 4:局部遮擋表情識別辦法我們根據人臉特征點對人臉分塊,然后為每個區塊學習分類“貢獻”的權重。通過這樣的機制,我們能夠把更多的特征增強在非遮擋的面部區域,使得

10、被遮擋情況下的面部表情識別結果更加魯棒。我們的方法已經取得了明顯優于之前算法的性能,在一些數據集上取得了比較優異的表現。三、基于半監督學習的 AU 檢測剛才提到做表情識別、情緒識別等工作,但這些任務的數據集是不足的。那么我們有沒有可能在有一部分標注數據和大量無標注數據的條件下去完成這些表情、情緒識別呢?去年我們在 NeurIPS 上發表的工作7就是試圖解決這樣的問題,即在半監督條件下如何做面部動作檢測。面部動作檢測,我們又稱之為 ActionUnit,它是根據面部肌肉解剖定義出來的一些類似于眼瞼下垂、閉眼、嘴唇收窄等動作,簡稱 AU。這個工作對數據標注是一個非常大的挑戰,往往標注一分鐘的視頻可

11、能需要一個專家花半小時以上的時間。這就導致這一領域的數據非常匱乏。那么有沒有可能利用無監督的數據做這方面的工作呢?6圖 5:Co-Training 的方式同時利用 Label 和 Unlabel 的數據我們采用 Co-Training 的方式同時利用 Label 和 Unlabel 的數據,學習兩個模型。先用 Label 數據得到一個預測器,預測器會把所有 Unlabel 的數據進行 label 化,然后再和已有帶有 groundtruth 的數據結合,然后去訓練第二個模型;第二個模型在把 unlabel 的數據 label 化,把這個結果和原有的 label 數據合并,然后再訓練第一個模型。

12、這是一個迭代的 Co-Training 過程。其實這種方式不是我們首先提出的,但我們采用了兩個不同的views,也就是兩個不同的神經網絡,兩個網絡會協同學習。圖 6:協同學習過程圖在協同學習的時候,我們為了保證兩個網絡有一定的獨立性和相關性,會設計相應的 Loss 函數。同時我們也把多個不同的 views 之間進行協同,不同的面部動作單元之間也要協同,把不同的 loss 加進去作為目標函數,使得我們學習到兩個不同的網絡。這樣的方法在 EmotionNet 數據集上的結果比之前高了 2.6%;在 BP4D 數據集上,比原來的方法高了 1.8%。四、基于自監督表示學習的 AU 建模與檢測前面的工作

13、是有一部分數據是監督的,另一部分數據是沒有監督的。但我們覺得這還不夠,我們希望做一個完全采用自監督方法學習 AU 的模型,這樣才能夠讓我們在檢測 AU 過程中大大減少對數據的依賴。所以這項工7作8的出發點就是希望利用大量帶有情緒變化,但又無標注的視頻數據,去更好地學習 AU 模型。圖 7:頭部運動事實包含兩部分視頻中頭部的運動事實上包含兩部分,一部分是面部動作導致的,另一部分則是頭部姿態導致的。所以我們首先要做的是將這兩部分動作進行解耦,然后保留面部變化的數據。圖 8:基于自監督方法學習 AU 的模型為此我們設計了一個自監督模型,通過分解面部動作導致的運動和姿態導致的運動,然后再合成新的數據集

14、。當我們分解的足夠好時,就可以更好的從 T 幀去合成 T+K 幀。具體來說,我們采用了兩個分支,一個是 AU,一個是姿態,最后通過合成去逼近 Minimum 誤差?;诖罅康挠柧?,使得我們能夠在 BP4D 數據集上取得和有監督的方法媲美的精度,甚至在 GFT 數據上我們也獲得了比有監督方法更好的性能。8五、基于遠距離普通攝像頭的心率估計上面是我們在面部表情方面的一些工作,特別是后面的兩個工作我們都是希望能夠在數據不夠多的情況下有更好的 AU 檢測和表情識別的精度,接下來再介紹基于遠距離普通攝像頭在心率估計方面的工作。在這一方面,從2018 年開始,我們陸續發表了一些文章。9101112圖 9:

15、基于遠距離普通攝像頭的心率估計我們人類不具有從遠距離觀看從而估計出一個人心率的能力,但是我們的心臟跳動會導致皮膚顏色出現周期性變化。醫學上有關心率、呼吸率、血氧的測量,過去我們常用的是 PPG 技術,即根據血液對光的吸收強弱的原理,來實現對血液流量變化的檢測。目前人們期望能夠在遠距離(例如 0.7 米)測量人的心率、呼吸率以及血氧等。圖 10:通過數據驅動的方法學習更具判別力的特征表示通過對人臉拍攝視頻來估計心率,這些工作從 2008 年開始引起大家的關注。之前的方法大都是采用對顏色變化進行獨立的 PCA、ICA 以及 Filtering 等分析,從而獲取特定的頻率。那么,我們能否通過數據驅動

16、的方法來9學習呢?當我們嘗試去做時,發現結果并不好,因為這方面的數據非常少。比如在 2018 年時,最大的數據集不到 50 個人,很容易過擬合。圖 11:使用 RyhthmNet 做訓練一個容易想到的方法是使用遷移學習,但我們發現簡單的遷移學習 gap 非常大。于是我們想到了一個新的方法9,即先合成一些周期性的時序信號,用這些合成的信號對模型做預訓練,然后再用真實數據進行精細訓練。我們發現這樣可以獲得不錯的結果,在 MAHNOB-HCI 數據集上將 HRrmse 從過去最好的 6.23%降到了 4.49%。當然數據匱乏是一個很大的問題,因此我們自己也做了一個包含 107 人的數據集,包括了 3

17、000 多段視頻,涉及到不同光照、不同攝像頭等。最近我們又發布了 500 人的數據。10由于數據分布不均衡,大多數的心跳都分布在 60-90 這樣的區間,這就導致我們很難估計其他區間的心跳。為了解決這個問題,我們采取了數據增廣的方法,通過對視頻的上下采樣來模擬不同心率,通過這種擾動的方式我們可以獲得更好的精度。為了解決頭部運動干擾的問題,我們也有引入注意力機制,在我們自己的數據集VIPL-HR 上將 RMSE 提高到了 7.99。11為了更好地用深度學習方法進行學習,我們將視頻數據擴展成二維時空,然后直接用 CNN 對其進行估計,在時序上利用 RNN 建立相鄰視頻片段關系。最后在 MAHNOB

18、-HCI 數據集上將 RMSE 提升到了 3.99,在我們自己的 VIPL-HR 數據集上得到了 5.3 的 MAE。1210六、唇語識別在路上最后介紹一下我們在唇語識別方面的工作。我們發布了 LRW-1000 數據集,數據集包含了 500 多小時的原始視頻,1000 個漢語詞。圖 12:LRW 數據集另外,在牛津大學發布的 LRW 數據集上我們獲得了 87.3%的準確率。在我們自己發布的數據集中,最開始的精度是 38.19%,現在已經提升到了 56.85%。在句子級唇語識別上我們獲得了 11.2%的錯誤率。在私有指令級比如“打開后車窗”、“打開導航”等短語句子的識別上,準確率達到了 93%。

19、七、總結在人臉識別得到非常好的解決之后,我們認為未來會有更多的希望利用人臉技術去理解人的情感。當然,這項工作非常有挑戰性,距離我最開始介紹的“像人一樣察言觀色”的能力還有很長的路要走。但是在特定的應用上,我們已經可以做很多事情,比如疲勞檢測,現在已經逐漸落地;當然即使這些已經成熟的技術也有很多挑戰,以呼吸率、心率和血氧估計的任務為例,它們面臨著嚴重的弱信號檢測問題,如何提高信噪比是值得關注的。最重要的是方法層面,因為數據的匱乏,我們必須要去研究如何把領域知識、醫學知識、健康知識引入到弱監督、小樣本數據這樣的機器學習中,使我們能夠更好的解決這些問題。因此,可以說人臉表情識別任重而道遠,仍然有很多

20、值得學術領域去做的基本問題,希望有更多的老師和同學一起合作來開展這些研究。圖 13:人臉識別的挑戰和具體應用11參考資料:1 SharifaAlghowinem,RolandGoecke,MichaelWagner,JulienEpps,MatthewHyett,GordonParker,andMichaelBreakspear.MultimodalDepressionDetection:FusionAnalysisofParalinguistic,HeadPoseandEyeGazeBehaviors.IEEETonAffectiveComputing.10-122018;2 YuZhu,Y

21、uanyuanShang,ZhuhongShao,andGuodongGuo.AutomatedDepressionDiagnosisBasedonDeepNetworkstoEncodeFacialAppearanceandDynamics.IEEETonAffectiveComputing,20183 MeasuringDepressionSymptomSeverityfromSpokenLanguageand3DFacialExpressions.MachineLearningforHealth(ML4H)WorkshopatNeurIPS2018.ByLiFei-feigroup4 K

22、achur,A.,Osin,E.,Davydov,D.etal.AssessingtheBigFivepersonalitytraitsusingreal-lifestaticfacialimages.SciRep10,8487(2020).https:/doi.org/10.1038/s41598-020-65358-65 A.VinciarelliandG.Mohammadi,“ASurveyofPersonalityComputing,”inIEEETransactionsonAffective Computing,vol.5,no.3,pp.273-291,1July-Sept.201

23、4,doi:10.1109/TAFFC.2014.2330816.6 YongLi,JiabeiZeng,ShiguangShanandXilinChen,OcclusionawarefacialexpressionrecognitionusingCNNwithattentionmechanism,IEEETransactionsonImageProcessing.28(5),pp2439-2450,20197 XuesongNiu,HuHan,ShiguangShan,XilinChen.Multi-labelCo-regularizationforSemi-supervisedFacial

24、ActionUnitRecognition.NeurIPS20198 YongLi,JiabeiZeng,ShiguangShan,XilinChen.Twin-CycleAutoencoder:Self-supervisedRepresentationLearningfromEntangledMovementforFacialActionUnitDetection.IEEE/CVFCVPR20199 XuesongNiu,ShiguangShan,HuHan,andXilinChen.SynRhythm:LearningaDeepHeartRateEstimatorfromGeneralto

25、Specific.ICPR2018.10 X.Niu,H.Han.S.Shan,andX.Chen.VIPL-HR:AMulti-modalDatabaseforPulseEstimationfromLess-constrainedFaceVideo.ACCV2018.11 X.Niu,X.Zhao,H.Han,A.Das,A.Dantcheva,S.Shan,andX.Chen.RobustRemoteHeartRateEstimationfromFaceUtilizingSpatial-temporalAttention.IEEEFG2019(最佳海報論文)12 XuesongNiu,Sh

26、iguangShan*,HuHan,XilinChen.RhythmNet:End-to-endHeartRateEstimationfromFaceviaSpatial-temporalRepresentation.IEEETransactionsonImageProcessing.202012 中科院研究員王亮:面向復雜任務的視覺認知計算整理:智源社區沈磊賢王亮本次的報告主題是面向復雜任務的視覺認知計算。王亮,中國科學院自動化研究所研究員,模式識別國家重點實驗室副主任,中國計算機學會計算機視覺專委會副主任。曾獲得國家杰出青年科學基金、中國青年科技獎,是IEEETPAMI、IEEETIP、P

27、atternRecognition等國際知名期刊的編委。主要從事計算機視覺、模式識別、機器學習等相關領域的研究。在報告中王亮介紹了基于深度學習的視覺認知機制建模,包括注意、記憶、推理、反饋等,并用于提升視覺語言匹配、視覺語言描述等復雜視覺任務的性能。一、研究背景和挑戰1.1研究背景基本的視覺任務,比如目標檢測、目標分割、目標識別等,在視覺認知計算領域已經得到了廣泛的研究。但是復雜的視覺探索相對較少,這里的復雜視覺任務指的是多模態的學習任務,這樣的任務除了視覺之外,還與文本、語音等相關聯。復雜視覺任務中幾個具體的研究問題如圖1所示,比如視覺問答(給定圖片,描述圖中內容)、跨模態檢索(給定圖像檢索

28、語義相關段落,或者通過文字檢索圖片)等。圖 1:復雜視覺任務的研究問題復雜視覺任務有很多潛在的應用,但相比較于基本的視覺任務,復雜視覺任務研究起來也面臨更多的挑戰,因為不僅要處理視覺任務中的高級語義問題(譬如關系的推理、運動的推理等),同時還要處理與文本、語音等跨模態的交互、關聯問題。131.2研究挑戰以視覺與語言(VisionandLanguage)場景為例,復雜視覺任務研究中存在 4 個挑戰性問題:圖2:復雜視覺任務的四個挑戰性問題數據內容的冗余:以上圖左上角的圖片和文字段落為例,若衡量這二者之間的語義相關性,可以發現,圖像中表示“蔬菜”的區域和句子中“vegetable”(蔬菜)這個單詞

29、存在語義相關性,但對于其他的單詞或者圖像區域沒有直接的關聯,所以類似這樣的剩余信息就是一種與任務無關的干擾信息,且難以去除。小樣本問題:在多模態的情況下,樣本分布存在小樣本問題,要標注成對的模態是非常耗時耗力的。模態之間的異質性:在視覺-語言的場景下,存在復雜的視覺語義鴻溝問題,圖像和文本從局部到整體的不同層面可能存在復雜的對應關系,解決這種復雜的跨模態關系是一個重要的挑戰。模型的泛化性能差:模型在特定條件下表現良好,而在不同環境中性能則大打折扣。此外,很多相對高精度的工作是依靠復雜的模型堆疊處理的,現實的場景下很難進行高效率的部署??傊?,在數據理解時牽涉到一些認知的功能,比如信息的過濾、存儲

30、、再使用或者信息的推理等,這些功能并不能通過當前簡單的視覺感知的計算來實現。1.3相關研究進展在研究進展方面,王亮在報告中介紹了國內外在視覺感知和認知領域的近況。視覺感知計算,如圖 3 中左側所示,通過借鑒生物學神經網絡的結構,來感知視覺信息當中的形狀、色彩和運動以及相關的信息。王亮認為在感知層面,很難處理復雜視覺任務當中的信息冗余以及復雜的關系推理。他舉14出了視覺感知計算在視覺問答、視覺對話、視覺描述和跨視覺檢索等任務上的表現,如圖 3 右側所示,即便是目前最好的模型,在約束受限的數據庫上進行測試,準確率(2019 年)只有 70%左右,遠低于人的推理感知能力。圖3:視覺感知計算因此,研究

31、者想在感知計算的基礎上引入認知計算,來解決這樣的問題。目前計算機視覺領域主要在探索視覺注意力機制和記憶機制,從而可以實現信息的濾波、存儲、比對和推理等認知功能。王亮認為,將這樣的研究思路借鑒到復雜的視覺任務當中,就可以實現一些小樣本分析、知識的 Transfer,關系的推理以及決策等復雜的問題。圖4:在感知計算的基礎上引入認知計算目前的相關研究進展,主要有注意力機制、記憶機制和推理機制三個方面的建模。注意力機制建模。主要分為軟注意力機制(SoftAttention)和硬注意力機制(HardAttention)。圖 5 左側給出了軟注意力機制計算的模式,對不同的局部特征分別預測其權重值。注意力機

32、制建模后的結果是一個加權和,這樣權值大的局部特征將主導注意后的特征。硬注意力機制不采用加權和的方式,而是選擇權值最大的局部特15征作為整體特征。在實際應用中 softattention 效果要更好一些,因為 HardAttention 會丟失很多的信息。圖5:注意力機制建模記憶機制建模。主要兩種形式,圖 6 左側中的形式是端到端的記憶模式,代表短時記憶建模,通常具有讀取的功能,但不具備寫入的功能,記憶特征的初始化選擇已有的樣本等。圖6右側為神經圖靈記憶,可以對長時記憶進行建模,具有讀取和寫入功能。這中機制是更一般的形式,記憶特征的初始化一般是隨機特征進行開始,目前記憶機制的建模在序列化的預測任

33、務中展示了較強的作用,用于建模長時間的相互依賴關系。圖6:記憶機制建模推理機制建模。主要是推理不同的視覺目標、屬性以及行為之間的關聯關系。圖 7 左側是一個機器人導航的例子,從出發點進行推理決策,到目標點的過程,右側是視覺關系的推理,比如空間關系,天空在樹之上,樹在天空之下這種視覺目標關系的推理過程。在推理機制建模中使用比較多的是強化學習和圖卷積神經網絡,因為兩者可以很好地建模數據之間地關系,而且推理常常不是一次完成的,需要反復循環迭代得到最終的結果。16圖7:推理機制建模二、團隊工作王亮介紹了他們團隊的幾個工作,也是從注意建模、記憶建模和推理建模三個方面展開。圖8:王亮團隊在注意力建模、記憶

34、建模、推理建模方面的工作2.1注意力機制建模首先是注意建模,發表在 CVPR2020 上。這項工作面向圖像與句子的匹配任務。顧名思義,圖像與句子的匹配其實是描述二者之間的相似度,應用場景十分廣泛,比如圖像句子的跨模態檢索、圖像描述、圖像問答等等。在圖像與句子的匹配方面,傳統研究方法提取圖像或者句子的全局特征,使用結構化的損失函數或具有正則關系的目標函數進行關聯。但在實際過程當中,王亮團隊發現,無論是句子還是圖像除了語義相關的一小部分外,其它的都是與任務無關的背景噪聲,如果直接使用全局的圖像特征并不合適。17圖9:注意相關工作王亮團隊通過語義概念的提取和語義順序的組織來解決上述問題:采用使用多區

35、域、多標簽的卷積神經網絡提取語義概念;使用上下文調制的策略學習語義順序,使用句子生成作為指導。王亮首先介紹了語義概念和語義順序的定義。語義的概念即圖像當中的目標、目標的屬性以及目標行為,語義的順序指的是語義概念之間組成一個句子的先后順序。只有學習合適的語義概念,然后以一定的語義順序組織以后,才能以一個比較準確的句子來描述圖像中的內容。以下圖為例,與之相匹配的語句是“一個快速奔跑的獵豹在草地上追逐小羚羊”,如果把“羚羊”和“獵豹”順序顛倒的話,語義順序就完全不一樣。圖10:語義順序對于語義概念的提取,王亮團隊采用是多區域、多標簽的 CNN 進行實現,如圖 11 所示,由于概念的生成沒有現成的數據

36、集進行處理,所以他們使用當前數據庫當中的句子進行處理,選擇理想的概念并且減少詞匯表中詞匯的數量,同時使用多標簽、多區域的 CNN 進行概念的預測。18圖11:多區域、多標簽的 CNN對于語義順序的學習,王亮團隊使用全局的上下文特征作為參考。全局的上下文特征標注了語義概念在空間上的關系。選擇性地平衡語義的概念和全局上下文之間的重要性,并利用句子生成作為一種指導,把融合后的全局上下文語義概念作為圖像的表達,同時使用真實的語義順序監督圖像表達的學習過程。圖 12:全局上下文特征標注該模型在幾個典型的數據庫上進行實驗。主要有兩種任務:1.圖像標注(imageannotation)即給定圖像,檢索相匹配

37、的句子;2.圖像檢索,給定一個句子,檢索對應的圖像。19如圖 13 所示,實驗結果表明上述方法在這兩個數據集都獲得了最好的性能。圖 13:實驗結果王亮進一步給出了一些具體的例子,如圖 14 所示。真實的匹配句子是紅色標記,用下劃線標注的句子是共享相似語義。表格從左向右,第 2-4 列分別是上下文、概念+上下文、概念+上下文+句子生成,可以看出隨著各種方法的加入,性能的指標越來越好。圖14:圖像標注實例對比202.2記憶機制建模王亮介紹的第二項工作是記憶機制建模,發表在 ACMMM2019,該工作是關于視頻描述(VideoCaptioning)任務的。視頻描述,即給定一個簡短的視頻,通過一句話描

38、述視頻當中發生的內容。它有很多潛在的應用,最典型是導盲:通過攝像頭閱讀道路環境,同時能夠解說使用者周圍的路況,可以協助盲人在公共場所的活動。視頻描述挑戰有兩個方面,一是如何在視覺空間和語言空間能夠架起一個有效的映射關系,二是如何建模長時間的視覺與文本之間的依賴性。眾所周知,LSTM 在序列建模上有很好的效果,但是不能夠很好地建模長期的依賴關系。而任務中的視頻和相應的句子都是比較長的,比如大于 20 個點、30 個點以上的過程。王亮認為 LSTM 在這方面做得就不是很好,因此他們在工作中加入了記憶機制解決上述問題。王亮團隊提出的用于視覺描述的框架性網絡如圖15 所示。圖中最上面的模塊是針對視覺的

39、部分,使用 2D 或3DCNN 來提取外部特征或運動特征;最下面的部分是基于 LSTM 的文本解碼器,用于生成文字。而架起視覺和文字之間的中間模塊,就是所謂的記憶部分。在這個部分中,提出了三模塊:TM 是指文本記憶,VM 指是視覺記憶,IM 指是屬性記憶,分別存儲基于 LSTM 文本解碼器的表達,視頻表達以及語義屬性。圖15:視覺描述的框架性網絡21對于屬性的檢測來講,王亮團隊使用了下圖所示的常見方法,圖16:屬性檢測如上所述,記憶建模采取分層的記憶建模機制,提取了三個方面的記憶:文本的記憶;屬性的記憶;視覺的記憶。三個方面之間進行如下的交互,完成視覺描述的任務。圖17:分層的記憶建模機制將上

40、述模型應用在幾個主要數據集上,結果如圖 18 所示。王亮團隊所提的分層視覺記憶機制是在幾個數據庫上面獲得了最好的性能,并且該模型框架對于不同視覺特征的輸入是不敏感的。22圖 18:實驗結果此外,王亮給出了一些定性化的例子,SA 作為比較的方法,HMM 是所提方法。以表格中第二行為例,給定一個輸入的視頻,SA 的輸出結果是“Amanisplayingwithaguitar”,而 HMM 的結果是“Amanisplayingwithadog”,而視頻中本身就是一個狗,不是吉他??梢娫谏删渥拥恼Z義之前,所提 HMM 方法可以得到更準確的視覺字。圖19:實例對比232.3推理機制建模王亮介紹的最后一

41、個工作是推理機制的建模,發表于 CVPR2019oral,與行為定位相關。王亮首先解釋了行為分類、行為定位的基本概念。行為分類指給定一段裁減好的視頻,標注該視頻的類別。而行為定位在行為分類的基礎上更進一步,不光給行為做標注,同時也要標注行為在一段長視頻中間的起始位置。具體實例如下圖所示。行為的定位對視頻監控十分意義,因為視頻監控通常都是非常長且沒有裁減,如果想在視頻監控中找到一個特定的事件起始時間點,行為檢測就是非常重要的環節。在這項工作中,王亮團隊設計了面向語言驅動的視覺行為定位,架起了視覺與語言的橋梁。語言驅動的視覺行為定位,即給定一個語言的查詢,查找視頻中對應行為發生的起始時間點。圖 2

42、0 中,“一個人走下了窗口,并且向外看”,就是一個語言的查詢事件。這對視頻監控是非常重要的過程,因為在實際事件中,行為通常是非常復雜的,多變的,不可能通過一個單一的字進行描述,所以通過語言的查詢去檢索事件是非常重要。圖20:查找視頻中對應行為發生的起始時間點傳統的解決方法,如圖 21 所示,也是對語言和視頻提取全局特征,然后通過不同的損失的來解決行為檢測的問題。但王亮團隊認為,當前的很多方法在時間上計算復雜度非常高,因為采用滑動窗的形式在長視頻中不斷地去試,直到找到目標的行為,這是非常耗時的。并且在此過程中時間的信息沒有被完全充分地探索。24圖21:相關工作王亮團隊提出了語義匹配的強化學習網絡

43、,通過這樣的網絡選擇性地觀察一序列視頻,從而發現視覺語義的相關信息。相關信息即為對應所查詢的語義事件。圖 22:語義匹配的強化學習網絡具體來說,該模型所用強化學習的代理基于 LSTM,因為 LSTM 可以動態地去觀察一序列的視頻任務,并且最終輸出所檢測的結果。在前向通路中,句子的查詢是通過 skip-thoughts 編碼,同時全局的上下文特征和語義的概念特征也被提取出來,所用方法與前文介紹的內容相同;當前觀察幀的位置也被嵌入特征中。接下來是LSTM 序列的總結信息,也是從歷史的觀察進行信息總結,并且編碼視頻的時間信息。隱藏的狀態和句子結合在一起,最終輸出行為和狀態值,行為用來選擇下一個觀察的

44、位置,狀態值(StateValue)包含一個候選的檢測結果、一個匹配的分值,還有一個二值化預測的指示器。獎勵或懲罰的函數通過狀態值加以計算。25上述公式給出了具體的損失函數的形式和語義概念提取的形式。王亮團隊在當前的典型數據集上做了行為定位的實驗,結果如圖 23 所示。從實驗結果可以看出,所提方法的速度是傳統方法速度的 6 倍以上,并且語義概念的嵌入確實帶來了性能的提高。圖23:行為定位實驗結果進一步地,王亮給除了兩個定性的例子。如圖 24 所示,例 1 查詢的是“thepersonwashestheleeksinthesink”,即一個人在水池當中淘洗韭菜,可以看到,當代理接近于達到行為結束

45、時間時,它往后倒退了一步,來優化假設的位置,例 2 查詢的是“Personputonapairofshoes”,即一個人穿上了一雙鞋,從中也可以看處,對于這個句子的查詢,整個系統在結束前向后倒退了兩步,以優化起始時間和結束時間。26圖24:定性的例子三、總結與未來工作最后王亮對上述工作做一個簡單的總結:注意建??梢赃x擇性地處理視覺信息,減少冗余信息的影響;記憶建模能夠存儲歷史信息或者先驗知識,且能夠再使用表達沒有看到的或小樣本的信息;推理建模能夠捕捉到目標屬性等之間的潛在關系,支持在高層做出判斷。整個復雜視覺任務的處理過程中,學習中級的視覺屬性能夠幫助減少大的視覺語義的鴻溝。同時王亮也從三個方

46、面簡單地介紹了未來的工作方向:如何做 DecisionMaking。雖然注意、記憶、推理的建模有助于提升復雜視覺任務的性能,但做決策是最終目的。目前的工作與決策相關的不多,有也大多是都是單個步驟的決策,研究進行更深一步的多步決策是比較有意義的事情。視覺、語言和音頻的結合。當前更多的模態的識別都是單一處理,比如視覺、語音或者音頻;跨模態的檢索和分析都是兩兩模態之間。但其實每一種模態之間都有互補性的作用,在視覺語言的基礎上再增加一個音頻也是需要研究的問題。與類人智能機器人結合。類人智能機器人是視覺研究最容易應用的載體,把復雜的任務或者視覺與外界的交互這樣的分析和與類人智能機器人結合有實際應用價值。

47、27下圖為近幾年來王亮團隊在多模態學習相關發表的文章。圖 25:相關文章28 北大教授吳璽宏:一種具身自監督學習框架面向任何語種的音系構建任務整理:智源社區蔣寶尚在第二屆北京智源大會“機器感知論壇”上,北京大學信息科學技術學院副院長吳璽宏教授做了一種具身自監督學習框架面向任何語種的音系構建任務的報告。在報告中,吳璽宏提到,所謂“具身自監督學習框架”指的是就是利用人的身體和物理的模型幫助自監督學習。這種具身自監督學習框架能夠克服傳統方法存在的很多問題,例如數據獲取代價太大,同樣存在推廣性的問題等等。這種方法旨在對任意方言、語種的發音姿態和音系構建,從而輔助語音學家以及語言教學工作,也可以推動方言

48、、小語種的語音識別和語音合成的研究。此外,基于物理模型或實際物理過程的具身學習方法,可推廣到視覺-運動、聽覺-運動等機器感知工作。以下是智源社區編輯對吳璽宏演講進行的文字整理:我的報告主題是“一種具身自監督學習框架,面向任何語種的音系構建任務”,顧名思義,這種具身自監督學習框架,目的在于思考當面向任意語種和方言時,能否構建出音系?例如拼音系統。如果能夠構建出音系,那么就能實現任何方言、語種的識別。所謂“具身自監督學習框架”指的是就是利用人的身體和物理的模型幫助自監督學習。在介紹這個模型之前,先看語音識別的研究現狀、困境和反思。一、語音識別的研究現狀、困境與反思圖 1:語音識別的現狀和困境29當

49、前的語音識別研究現狀好的一面,最直觀的展現是:識別率上升,抗噪聲性能提高。但是識別率上升,需要付出的成本是增大標注數據量、更多的計算資源。因此,數據和計算資源慢慢構成企業主要的研發成本,成為核心戰略資源。而當前語音識別的缺陷和挑戰有兩個方面:其一,隨著標注數據量增大,種種跡象表明語音識別的性能出現了“天棚”現象;其二,方言、兒童和小語種語音識別尚無有效的應對辦法。圖 2:反思:語言識別研究隱含的工作假設為什么會出現上述兩個挑戰呢?經過反思,發現其原因可能是,語音識別研究隱含的工作假設和現實的不一致造成的。當前語音識別研究隱含的工作假設主要有三個,首先,可識別方言、語種必須有文字符號系統,例如東

50、北方言中的“波棱蓋”一詞,必須在字典中有明確的文字符號(雖然有的方言有文字系統,但是不全面);其次,除了文字符號之外,還需要語音學家提供用于注音的音系系統;最后,需要語言學家提供詞典。只有滿足上述三個假設,語音識別工作才能完成。編者注:波棱蓋音為“blnggier”,書面意思是膝蓋。造句為:波棱蓋兒卡馬路牙子上禿嚕皮了。禿魯皮指皮膚表面被擦破或被開水燙過的狀態,馬路牙子是馬路邊上,這句是膝蓋碰在馬路邊上把皮擦破了。而現實是:1.語音可能隨著講話的方式而變化,多變已經成為語音的本質;2.許多語種/方言其實并沒有文字系統;3.很多語種/方言尚未構建音系系統。因此,“假設”與“事實”不一致,便帶來了

51、兩個挑戰問題,即如何實現新方言、新語種的音系自動構建?如何實現對語音的精細、自動標注?下面我介紹具身認知啟發的表示學習與范疇學習,從而嘗試找到解決這兩個問題的方案。二、具身認知啟發的表示學習與范疇學習首先回顧一下語音產生的過程:嘴通過肺部的氣流壓力,經過聲門激勵到咽腔、口腔和鼻腔。這期間經歷的姿態變化會產語音。隨后,語音會經過人耳,在語譜的作用下完成聽覺過程。30圖 3:語音的多變性此外,語音具有有多變性,例如同一個人對單詞“zero”進行發音,會得到不一樣的效果,例如:同一個人的正常發音、溫柔發音、快速發音都會產生不一樣的效果;吐字清晰、小聲耳語以及喊叫的語譜的變化非常之大。另外,不同人的“

52、head”發音,對應的成年男性、成年女性的語譜差別也很大。所以,基于上述觀察,如果想通過語譜的表達把聲音信號進行范疇化和分類,便會出現推廣性問題,即語音語譜表示的多變性,不可能覆蓋所有的變化數據!這個推廣性問題產生“數據越多好”的現象,但同時也要明確,在語音層面,有永遠都見不到的數據。同樣,也會出現可解釋性問題:人工粗略標記,不能描述精細變化!例如只能對著一段語譜標注一個符號,沒有進行共振風和諧波的標注,無解釋“音”如何發出來。因此,通過語譜表達語音似乎行不通。圖 4:基于肌動理論的音位系統構建31在這種情況下,我們便探索了基于肌動理論的音位系統構建,采用了國際音標表和言語知覺的肌動理論兩個“

53、輔助工具“,其中,國際音標(縮寫:IPA),是一套用來標音的系統,以拉丁字母為基礎,由國際語音學學會設計來作為口語聲音的標準化標示方法,能夠把世界各地的語言語音音位刻畫出來。言語知覺的肌動理論有兩個重要的結論,一個是在 1985 年,Liberman 提出的,即感知言語,就是感知講話者的目標發聲動作;另一個是 1975 年,Ferguson 提出的,即嬰兒先掌握發生動作的模式,然后才學到詞匯。顯然,這兩個理論都表達了發聲姿勢的重要性。圖 5:表示問題和范疇問題因此,我們如果聽到語音不是經過語譜表達,而是通過語音推測發言姿態,是不是就可以解決推廣性的問題?其實,通過語音推測發言姿態不僅能夠解決推

54、廣性問題,還能夠解決可解釋問題。因為,動態的語音信號可自適應地表示為發聲姿態的連續變化,意味著可以刻畫每一時刻精細的物理過程。圖 6:表示學習和范疇學習針對表示問題和范疇問題,進行的表示學習和范疇學習的過程如上圖所示。首先通過語音信號,從而進行語音的發音姿態表示(表示學習),然后“進入”語音的音位范疇(范疇學習),就能夠得到音位符號串(對某種方言構建音系系統)。32三、基于發聲物理模型的語音發聲姿態:自監督學習圖 7:從語音到發音姿態關于發音姿態預測其實已經有了不少研究,傳統的方法叫語音反演,即從語音到發音姿態。具體操作過程如上圖所示:通過在舌部貼上傳感器,經過外部的設備可以捕捉發聲過程當中口

55、腔的姿態,如此便能實現發音的時候記錄語音和各個姿態,即得到語音數據和發音姿態的數據,然后經過監督學習實現語音到發音姿態的反演。圖 8:具身認知與具身學習傳統方法存在很多問題,例如數據獲取代價太大,同樣存在推廣性的問題。如何解決?首先要明確聽覺系統是存在一個言語鏈的概念,即通過神經驅動肌肉進行控制說出語音,然后進入耳朵解碼,解碼之后,還需要耳朵進行校正校準。33因此,自己發聲、自己聽,就會反饋構成一個閉合鏈。根據閉合鏈,我們提出具身認知概念,即將語音的聽覺表示轉換成發聲的肌肉控制,發聲器官的姿態成為語音的具有物理意義的表示;具身學習概念,即協同物理的發聲過程與聽覺的逆過程,實現物理系統約束下的自

56、監督的學習。圖 9:聲門-聲道發聲濾波器 TRM 模型 Hill,2017有了概念,具體怎么操作呢?在 2017 年,有一個聲門-聲道發聲濾波器 TRM 模型,包含的要素包括:聲門、聲道、鼻腔、口腔以及(小舌)軟腭的調節。如上圖所示,此物理模型能夠通過這些短的聲管進行串聯和并聯,從而控制這個氣流激勵、聲帶振動,得出聲音。圖 10:具身自監督學習框架34有了物理模型之后,我們又提出了具身自監督的學習框架:首先搜集語音信號,然后通過神經網絡推測發音參數,隨后用發音參數驅動 TRM 模型。由于姿態是不準確的,發出的聲音也是不準的,但是此聲音一定是物理模型產生,于是會和“不準確的姿態”有對應關系。隨后

57、把不準確的聲音信號經過神經網絡進行姿態推測學習,即作為監督信息求解梯度方向,實現一輪的學習。如此循環反復,經過不斷的調整和迭代,就能夠實現具身基于 TRM 物理模型的自監督學習框架。效果如何呢?我們采用 10 個小時,單說話人(英語、女性)的語音庫,經過網絡模型的迭代學習,能夠推特測出發音姿態。另外,也可以合成語音。在漢語層面上,模型的推測結果是:漢語的輔音、元音比較準確,聲調、韻律和聲調都能恢復出來。因此,通過物理模型的幫助,能夠實現語音到發音姿態的表示和轉換。在此基礎之上,我們希望能夠建立一個音位范疇,如此便能對任意語音(方言)進行識別,四、音位范疇學習及音系構建圖 11:發音目標姿態音位

58、范疇怎么構建?雖然發音的姿態隨著時間一直在動態變化,但是發音過程中,每個音位都有一個目標,這些“目標“會有一些特點?例如一定的峰值和寬度,當然也有一些窄峰的情況。所以在實際構建的過程中,需要考慮各個器官和部位之間協同的變化,以及實際的語音信號,自適應漢語的信號,從而在語譜當中推測出來發音姿態,從中繼續推測這些發音的目標。35找到“目標”之后,然后可以進行降維處理,包括采用上下文加權等方法,把這些所謂的“目標”進行聚類,從而形成范疇分類。形成范疇之后,便可以進行語音識別,畢竟這相當于建立一套新的拼音系統。此外,有了語音就可以實現文字符號的轉換。五、結論和展望圖 12:一種具身自監督學習框架最后做

59、出一些結論和展望:首先我們的工作基于具身認知和肌動理論,提出了一種具身自監督學習框架;然后我們進行了表示學習的工作,通過發聲物理模型-深度神經網絡模型之間的協同學習,實現了具有強推廣性和精細描述能力的語音發聲姿態的估計;此外,還通過范疇學習,構建了漢語的音位范疇系統;最后,通過實驗證明可以構建符合人類言語獲得機理的系統。展望一下:我們的工作希望能夠對任意方言、語種的發音姿態和音系構建,其作用可以輔助語音學家以及語言教學工作,也可以推動方言、小語種的語音識別和語音合成的研究。此外,基于物理模型或實際物理過程的具身學習方法,可推廣到視覺-運動、聽覺-運動等機器感知工作。通過重新定義機器學習,期待解

60、決推廣性、泛化問題。也希望能夠通過機器智能,將我們的身體與智能系統緊密聯系在一起,將身體做為智能的來源。最后,需要重新考慮未來智能研究的核心戰略資源是什么?是標注大數據?還是其它資源?這個問題供大家思考。問答觀眾:如果能夠從語音獲取發言姿態,是否可以考慮由于不同的人具有不同的發言習慣,不同人同一句話發言姿態實現語音識別或者活體檢測?36吳璽宏:我們的第一步是表式學習,不同的人說同樣的話,發言姿態一定是不一樣的,現在能夠忠實地從語音信號當中找出發言姿態,然后就可以進行后續的說話識別以及活體檢測。就像我們說的聲源一樣,光源打到臉上再反射回來就是一個物理過程,再就是人臉肌肉拉伸使得面部表情發生變化,

61、這也是一個物理過程。實際上很多工作都有物理過程,物理模型以后可能是結合我們所謂的學習開辟很多新的天地。觀眾:語音方面有沒有可能通過面部圖象處理或者面部運動機理讓聾啞人發聲?吳璽宏:關鍵要有一個信息源驅動,如果只是因為聲帶問題,比如喉部做手術了,嘴如果能動,就能通過這個模型完全是可以出聲音的,如果嘴不知道怎么動,那我也不知道怎么發音了。觀眾:聲音的物理模型是不是很重要?吳璽宏:沒錯,物理模型太重要了,就是因為有物理模型才不用監督標簽。37 清華大學教授孫富春:機器人視觸覺傳感器與主動感知整理:智源社區張魯洋在第二屆北京智源大會“機器感知”專題論壇上,清華大學孫富春教授做了機器人視觸覺傳感器與主動

62、感知的報告。傳感器如何能夠做到心靈手巧呢?一個非常重要的部分就是信息融合,這需要機器人的傳感器觸覺部分應該包含有視覺部分,這樣才能實現對目標的精確感知和規劃。而且還要像人一樣能夠學習技能,隨著不斷地學習技能也會不斷地增強,同時要能夠應對復雜多任務的場景。我們國內的觸覺傳感器達到了什么水平?國內的觸覺傳感器目前也有“卡脖子”的問題,關鍵零部件目前還依賴國外進口,國產傳感器在穩定性和一致性方面有待加強,如量程問題、材料問題,但是國內目前也在加強這方面的工作。如何提高機器人的感知能力?一是“傳感器要長腿,即主動感知”;二是要會選擇合適的傳感器;三是讓機器人的傳感器不斷地增長知識和發育。通過孫富春的報

63、告,我們會了解到他團隊已經開發了很多性能較好的傳感器,比如壓阻型柔性觸覺陣列傳感器、電容式傳感器、指尖傳感器等,有一些在國際上都是屬于最先進的。這些傳感器還被應用到了醫療器械、高精密設備等領域。另外還開拓性地將視覺傳感與觸覺傳感相結合形成主動感知系統,為機器人的發展開辟了新的方向。在報告最后,孫富春總結了未來機器人在感知方面的研究框架,即主動感知、認知發育和行為決策要緊密結合,形成一個完美閉環。以下為孫富春的演講正文。今天我要跟大家匯報關于機器人視觸覺的傳感器,特別是觸覺傳感器,包括機器人究竟需要什么樣的感知。一、機器人的發展我們先來看下機器人究竟需要什么樣的感知。機器人的概念是 1920 年

64、捷克斯洛伐克的卡雷爾.開陪克的巨作羅薩姆的萬能機器人中首次提出的概念。其實機器人的發展與人類的發展密切關聯,工具的發明就是將人的手延長,這種動力是人提供的。我們國家也有很多這方面的記載,如列子里面講到西周時期能歌善舞的伶人,以及古今注中記載張衡做的機器人,它分為上下兩層,且用到了世界上最早的減速器,所以世界上最早的減速器其實是中國人發明的。到了機器時代,由于蒸汽機的發明,機器實現了對人的脫離,可以獨立地從事很多工作。在計算機時代,機器人可以執行多任務的工作,而在網絡時代,最大的改變是集群控制,即使多個機器人協同工作。38圖 1:機器人的發展歷程當前,我們已經可以做到 200 架固定翼無人機的飛

65、行,這個過程涉及的就是機器人感知的問題。從自動控制、數字控制到協同。在協同的過程中視覺因素非常重要,其實人工智能發展最早的是視覺。但是,我們想實現機器又長腦袋又有雙手及身體的運動,它們在執行任務的過程中能夠自主決策。讓機器人能夠代替人做非常精細化的工作是我們最大的夢想,其實讓機器人擁有人類一樣的行為,可能比交互和翻譯更難。一方面,行為離不開腦袋越來越聰明,那么我們的人工智能算法能否做的更好;另一方面是腦體協同的問題,機器人的手要高自由度,且行為要與大腦關聯在一起。機器人想要學習人類,有三個問題需要解決:人工智能能否把神經中樞做好?機器人能否像人一樣有感知?機器人能否擁有一雙靈巧的手?這三者之間

66、是相互關聯的。更高層次的,要想使機器人達到心靈手巧,首先要像人手一樣高自由度,其次是能夠進行分布式的控制,最后是要有需要聰明的大腦,使其能夠學習和發育,面對變化無常的任務,包括復雜的產品,積累經驗、形成知識。二、視觸覺傳感器下面介紹一下傳感器的問題,我們國家在列出了 35 個卡脖子的問題,其中包括了光刻機、芯片技術、操作系統、航空發電等,其實還有觸覺傳感器。39圖 2:35 項“卡脖子”技術和中國尚未掌控地 60 余項核心技術當前的很多觸覺傳感器無法應用在實際環境中,主要原因是現在的觸覺傳感器分辨率不夠高,無法比擬人手皮膚,特別是我們需要的三維觸覺。要實現心靈巧手必須安裝觸覺傳感器和視覺傳感器

67、,前面談及跨模態問題,一個非常重要的部分是信息必須融合,這需要機器人傳感器的觸覺部分應該包含有視覺部分,這樣才能實現對目標的精確感知和規劃。此外,還要像人一樣能夠學習技能,同時要能夠應對復雜多任務的場景。在人工皮膚的研究過程中,主要是把人的皮膚作為樣板,目前的研究主要分為兩個方面:一部分是光電技術,比如通過電容、壓阻以及光研究傳感器;另一部分是研究人的皮膚表層的 Merkel 細胞,即通過生物傳感的角度研究這種皮膚。圖 3:人手皮膚傳感結構我們團隊現在研究的主要是光,即通過微視覺實現指尖傳感。目前我們可以實現空間分辨率在 1 毫米左右,密度 241 個毫米/cm2,可以檢測到 700Hz 的振

68、動,可以感受到不同位置的兩個接觸事件的時間間隔為 30-50毫秒,也可以檢測到 40 m 的精細的表面紋理。我們團隊做過四代的傳感器,其中第四代是 1 個中心,再加上 24 個陣列的新型結構,它是模擬真實手指指肚的感知方式,通過通道占比分類器實現觸覺的方向識別。40圖 4:八種指尖運動還有一種電容式傳感器,我們做過一些滑動和振動試驗,并與國際上近期做的一些工作做了比較,因為這項工作在國際上是屬于最前列的。圖 5:劃動/振動測試我們的第三代處理傳感器在中醫上進行了應用,主要目的是測量人的脈搏,并取得了得了較好的結果。我們也做了壓阻式的處理傳感器,包括抓取不同物體的觸覺感知。我們的一款壓阻型柔性觸

69、覺陣列傳感器在橫向滑動實驗、抓取穩定性實驗都獲得了很好的表現,達到了產品級,并曾經在第七屆電子信息博覽會上展示過,它同樣可以安裝在桌面的小型機械臂上做為教學方面的實驗器材。41圖 6:壓阻型柔性觸覺陣列傳感器結合儀器開發的觸覺傳感裝置,我們建立了首個集成觸覺信息和視覺信息的多模態主動操作公開數據集。此外,我們也開發了數據手套,研究人手感知操作特征,并建立了人手抓取操作的數據集,為機器人的精細操作提供了示數。圖 7:視觸覺操作的公開數據集圖 8:基于數據手套建立的人手操作數據集42面向膝關節置換中壓力測量問題,我們研制了醫用的柔性處理傳感器陣列,可以實時測量壓力為成功膝關節置換手術提供保障。微創

70、手術過程中,存在因醫生過力操作而導致的器官損傷問題,我們與山東省一家醫院合作,研發了帶有傳感器結構的微創手術夾鉗末端。圖 9:帶有傳感器結構的微創手術夾鉗末端目前我們正在做的、分辨率最好的一款指尖傳感器,特點就是類似在人的指尖部分植入一個表層有大量的標志點的 LED 攝像機,如果手指在按動目標的時候產生形變,標志點也會產生相應的形變,就像攝像機可以將這個變形拍下來變成圖像,接下來我們就要主要處理這個標志點移動的圖像,進而獲得物體表面的顏色信息、紋理信息,包括三維的觸覺信息。目前我們也在開發溫度信息,一種方法是將溫感材料加在表層,能夠很容易地測量溫度,而且這種測量是不受環境結構光的影響,所以在結

71、構光不好用的情況下同樣能夠測量溫度。圖 10:基于視覺的軟體觸感研究成為了前沿研究熱點通過視觸覺傳感器在相同部位采集的物體的光學信息和觸覺信息,可以獲得包含很多結構和深度的信息,可以用來做目標的識別和材質的識別,以及感知更深層次的紋理信息、溫度信息等。43圖 11:視觸覺傳感器顯著增加了機器人在操作物體過程中的信息收集我們將這個觸覺傳感器應用在機械臂的末端,使得非常細小的精細化操作都能夠在其輔助下完成。多種實驗結果表明,通過多模態的方法,可以有效識別其識別效率。圖 12:高分辨率多模態智能傳感裝置利用這套高分辨率多模態智能傳感裝置系統,可以進行認知方面的工作,即通過人的大量交互形成觸覺的認知部

72、分,并從局部感知擴展到全域感知。44圖 13:是否可以擴大機器人操作過程中的感知區域?三、機器人的主動感知以下是主動感知的概念:傳統的感知有一個最大的缺點,即視覺系統僅僅根據傳感器感受到的圖像來做識別,但是人類是可以感知圖像采集的好壞,并作出相應的調整。我們一方面利用傳感器感知到的信息來做目標的跟蹤、檢測和識別,另一方面根據環境之間的交互,使得傳感器感知的環境更加精細。二者結合起來進行行為分析,就是今天我們談到的立體視覺部分,也是腦體協同部分。圖 14:立體視覺目前感知部分如果僅僅通過圖片、通過機器學習、深度學習的改良是不夠的,還需要通過腦體合作,不斷去適應環境、克服傳統視覺的脆弱性,通過交互

73、不斷提高魯棒性和認知能力。45圖 15:動態性、自適應性、魯棒性和交互性如何通過腦體結合提高機器人的感知能力?一是傳感器要長腿,即主動感知;二是要選擇合適的傳感器;三是讓機器人的傳感器不斷地增長知識和發育。1)傳感器要長腿,即主動感知在這主動感知方面,我們的一個工作是通過特征金字塔網絡和反向連接原理,增加底層語義,實現對小目標的識別。還有一個工作室通過組合的方法,結合深度學習方法,使其能夠更好的檢測以動物體,我們將這個工作應用到了咽試紙上面,獲得了不錯的表現。觸覺建模遇到的最大問題在于和時間相關,所以不能用一個靜態的圖像的方法來做觸覺的建模。我們用線性動態系統的辦法建立觸覺模型,為了解決空間不

74、匹配問題,我們把函數的方法用在映射過程當中,將 LDS 空間轉化到歐吉里空間,通過這種方法很容易得到觸覺的編碼。這項工作也是 2016 年的一篇最佳論文。圖 16:通過核函數變換完成稀疏編碼462)傳感器的選擇機器人有很多傳感器,包括視覺、聽覺、觸覺和雷達等,那么如何根據任務和場景進行選擇?在這一方面,我們提出了主動感知網絡,它能夠根據需要選擇傳感器。我們還有一個工作是通過強化學習,讓視覺傳感器可以對準最佳方位。最近我們的工作主要是開發模型實現這種選擇,即通過主動感知網絡,學習模態間和模態內的特性,使其獲得較好的感知能力。圖 17:多模態感知主動3)機器人傳感器的增長和發育發育的概念經常使用在

75、教育中,但其實這個詞是 1950 年圖靈在談到圖靈測試是提及的。當前,我們團隊也在結合觸覺研究技能的學習發育,包括視觸覺聯合發育問題。圖 18:圖靈提及的機器發育47四、面向感知的行為學習如果說傳感器需要長腿,那么究竟什么方法能夠引導傳感器長腿呢?即行為如何增強感知。圖 19:行為增強感知問題這個問題主要包括兩方面的工作:一是如何面向觀測不完備的情況?什么是觀測不完備,如示教過程有手把手教和專家示教兩種方式,前者可能出現模仿和觀測不完備的情況,后者可能出現示教信息完備的情況,這樣都會導致觀測信息不完備。針對模仿和觀測不完備的情況,我們在數學上嚴格證明了拖拽式技能模仿與觀測式技能模仿之間缺少一種

76、逆運動不一致的度量。有了這個之后就能夠實現技能的不斷增強,我們也通過一個迷宮的實驗驗證了這一理論,結果表明我們的方法介于拖拽式模仿與純觀測式模仿之間。圖 20:針對模仿和觀測不完備情況的數學證明48針對示教信息不完備的情況,我們把基于示教的技能模仿成一個帶約束的優化問題,通過帶約束的優化,在專家示教附近尋找最優的技能策略。即把專家不斷模仿的數據記錄下來,構成一個數據空間,那么最優解一定是在該數據空間中,然后再通過強化學習進行約束優化,就能夠得到比專家更好的工作。我們把這個工作應用在了彈鋼琴,也獲得了比較好的結果。圖 21:把基于示教的技能模仿建模成一個帶約束的優化問題五、未來展望機器人究竟需要

77、什么樣的感知?機器人是不斷與人和環境交往的,機器的學習一定是與行為、跟環境相結合的感知系統。所以我們需要能夠面向動態交互式的環境和任務,行為的本質特性就是要動態、交互和適應。圖 22:行為的本質特征未來機器人的感知有這樣幾個方面:感知一定要主動面向動態適應和交互;感知要發育;要與行為決策時刻關聯在一起,形成感知到大腦再到行為的閉環。49圖 23:類腦感知框架共融:談到目前機器人領域一個非常熱的話題,就是共融的概念,很多人對共融特別感興趣,包括很多戴假肢的人特別希望假肢能夠像真的人手一樣感受到疼痛,成為自己生活當中不可或缺的一部分,那么這就依賴于我們先進的感知,包括跟大腦的結合、跟行為的共融。協

78、作機器人:目前機器人還有一個重要特征是協作,將來要不斷地與人打交道,怎樣在這樣的環境當中與人和諧相處,也是未來機器人需要面對的重要問題。這要求感知系統能夠充分感知,這也是我們開始談到的通過Merkel 細胞與生物傳感,研究的新一代感知技術。多模態感知實現反欺騙:如何通過腦體協同實現這種反欺騙,是一個可以研究的方向。聯合感知:隨著云端技術、邊緣計算的技術應用,我們嘗試通過云端技術實現聯合感知,包括不同機器人之間的感知、外場跨域的感知。集群感知:目前大量機器人在一起如何實現感知?因為機器人系統可以組成一個合成恐懼雷達,通過機器人系統形成一個半徑,感知效果要比這些作為機械的加法要好,這也為未來人工智

79、能領域提出了更大的挑戰。50 北大教授張大慶:基于 WiFi 和 4G/5G 的非接觸無線感知-挑戰、理論和應用整理:智源社區蔣寶尚在第二屆北京智源大會“機器感知論壇”上,北京大學計算機系教授張大慶做了題為基于 WiFi 和 4G/5G 的非接觸式無線感知:挑戰、理論和應用的報告。張大慶,北京大學博雅講席教授,歐洲科學院院士,IEEEFellow,中國計算機學會(CCF)普適計算專委會主任。張大慶教授團隊在國際上率先將 FresnelZone模型引入到可無線感知領域,發現這是一個基于 WiFi 和4G/5G 無線感知的新理論基礎,其優點在于能夠刻畫收發設備位置、移動對象位置、速度與無線接收信號

80、之間的關系,并能揭示各種感知參數對無線信號時域特征與頻域特征的影響。以下智源社區編輯是對張大慶報告的文字整理。今天的演講主題是基于 WiFi 和 4G/5G 的非接觸式無線感知的挑戰、理論和應用,整個報告會分為六個部分進行。一、為什么選用 WiFi 和 4G/5G 信號做感知圖 1:WiFi 與 4G/5G 信號無處不在WiFi 和 4G、5G 信號已經遍布在各個城市的各個地方,無論是在家還是辦公室、酒店或者機場,人們都可以通過這些信號進行“連接”。其實,這里用的通訊介質主要是 4G、5G 信號或者 WiFi 信號的電磁波。WiFi 和 4G、5G 信號除了能夠完成通訊任務,還可以用它做感知的

81、工作,這種感知手段和其他感知手段相比具有的優勢是:1、無線信號無處不在;2、基于現存通訊設施,成本比非常低;3、無需穿戴感知裝置;4、較小的隱私擔憂。此外,相比攝像頭,利用 WiFi 和 4G、5G 信號可以做穿墻感知。51有了上述優勢之后,我們如何能夠利用這些 WiFi 信號對人的行為狀態進行非接觸的感知?那么我來介紹一下無線非接觸感知的基本原理和面對的挑戰。二、無線非接觸感知的基本原理和面對的挑戰WiFi、4G 和 5G 信號是利用無線電磁波來做感知,而無線電磁波在空間的傳播實際上是沿著多徑傳播,另外還需要明確的是環境中靜態物體反射、衍射帶來的靜態路徑信號基本是不變的,但當環境中有人或物體

82、活動時,會帶來傳播路徑的連續變化。因此,我們可以通過分析描述傳輸路徑變化的通道信息 CSI,來反推和感知環境與人的情境。換句話說,能夠用 WiFiCSI刻畫路徑信息。圖 2:基于 WiFiCSI 的人體行為感知應用自 2011 年以來,復用已廣泛部署的、廉價且易用的商用 WiFi 設備實現無接觸人體行為感知得到越來越多的關注,并取得了很多卓有成效的進展。國內各個院校也做了大量有意思的工作,比如南京大學的鍵盤輸入項目,香港科技大學的唇語識別項目,清華大學的跳舞步伐識別的項目,西安交大的人數清點項目等等。圖 4:眾多識別項目的基本假設52縱觀這些識別工作,大多都有一個共同的假設,就是當人做某一個特

83、定行為的時候對應的 CSI 信號模式是幾乎恒定的,也就是說,人的行為模式與信號模式存在一一映射關系。而在實際中,設備位置、人的位置、動作幅度、環境等因素變化了,映射關系并不固定。因此利用這個假設進行的模式識別和機器學習,到目前為止性能都不穩定。如上圖所示,書寫字母 d 的手勢對應的信號模式是不一樣的。圖 5:WiFi 感知領域的共性挑戰另外,在過去幾年的研究里,我們發現已有 WiFi 感知領域,大部分采用的方法都是基于模式識別、機器學習,因此會存在兩個重大的共性挑戰:第一,基于機器學習和模式識別的方法需要大量采樣,也需要標注,特別是環境、行為和人的位置發生變化時,信號的模式會發生變化,很難做到

84、穩定準確的識別率;第二,缺乏對背后感知機理的理解,WiFi 能感知什么不能感知什么?信號的變化模式與人、WiFi 設備和環境之間有無一個定量的映射關系?現在這些問題都沒有答案。其實,歸根結底是對兩個重大科學問題沒有答案:WiFi 感知的理論基礎究竟是什么?WiFi 感知的邊界在哪里?圖 6:3 個研究目標針對上述兩個重大科學問題,我們團隊過去五年,主要是針對三個問題進行研究:1、試圖提出一套通用的無線感知的模型理論和一系列相應的技術;2、通過模型理論試圖揭示無線感知的機理和感知極限;3、在上述理論的基礎上,希望在真實居家環境當中構建一套實時的、連續的檢測、識別系統。53三、FresnelZon

85、e模型:一個基于 WiFi 和 4G/5G 無線感知的新理論基礎具體而言,為了研究上述問題,我們將 FresnelZone模型引入到無線感知領域,發現這可以成為一個基于 WiFi和 4G/5G 無線感知的新理論基礎。下面詳細介紹一下 FresnelZone模型,以及基于此模型電磁波傳播的重要特性,從而探討一下 WiFi 感知的極限到底在哪里。圖 7:空間中的靜態物體如何影響信息接收(一)假定在空間當中有一對收發設備,把發送端和接收端作為橢圓焦點,通過這兩個橢圓焦點,如果讓反射路徑減去只是路徑的長度為半波長的整數倍,能夠畫出多個橢圓,我們把這一系列橢圓定義為 FresnelZone。那么空間中一

86、個靜態物體如何影響接收信號?如上圖所示,TX、RX 是 WiFi 的收發設備,以 TX、RX 為焦點,“輻射”出了多個 FresnelZone,假定環境里有一個靜態物體,處于 1stFresnelZone 位置,讓 TX(發送端)發送一個正弦信號,如此在接收端就會形成兩條路徑,其中,反射路徑比直射路徑(直徑)長 1/2 波長,因此就會有的相位偏轉,如果加上反射帶來的相位偏轉,就會形成一個相位相同的疊加類信號。如果物體位于 2ndFresnelZone,這時候形成的反射路徑比直徑長一個波長,由于一個波長對應 2 的相位偏轉,在加上反射本身帶來的 180 度相位偏轉,就會呈現出“反向”的相位,如此

87、反射路徑和直射路徑 LOS 就產生了彼此相消的效果。通過上述分析,我們可以得出靜態物體如何影響接收端信號的結論:當物體在序號為奇數的 FresnelZone 時會產生增強的信號,當物體在序號為偶數的 FresnelZone 時會出現信號削弱的情況。54圖 8:空間中的靜態物體如何影響信息接收(二)上面是靜態物體的情況,那么動態物體如何影響接收信號呢?首先把靜態路徑的信號定義為 Hs,把動態物體的反射路徑定義成 Hd。因此當物體在動的時候,接收信號相當于 Hs 和 Hd 兩個向量的疊加。另外,動態向量的相位是慢慢發生偏轉的。所以,動態向量每變化一個波長,那么它就會圍繞著 Hs 旋轉一周(360

88、度)。如此便能在接收端得到一個波峰、波谷交替出現的類似正弦波的信號,物體穿越 FresnelZone 的邊界線(例如 1st 和2nd 區域中間的那條線)正好對應波峰,或者波谷。圖 9:FresnelZone 與無線信號的時域與頻域特征介紹完 FresnelZone模型的原理、性質,我們來討論一下物體的活動與無線信號的時域與頻域特征的一些關系。如上圖所示,當物體沿著不同軌跡行走時,會穿過不同數量的 FresnelZone,振幅上產生相應數量的波峰/波谷;物體穿過 FresnelZone的速率(單位時間穿越的 FresnelZone數量)決定信號的周期與頻率。因此物體移動的很多參數都會影響到無線

89、信號的時域與頻域一些信號特征。55圖 10:WiFi 電磁波信號傳播的一些性質小結一下 WiFi 電磁波信號傳播的一些性質:1、FresnelZones 對應的是一組同心橢球體;2、幅值的波峰和波谷和 FresnelZones 邊界有關,具體而言,信號周期對應相位變化 2 的時間,信號頻率對應單位時間切割的FresnelZones 的數量;3、當路徑每變換一個波長,相位變化是 2,產生的信號呈現類似正弦的一個波形;4、當物體稍微有些移動時,路徑長度變化小于一個波長,相位變化小于 2,產生的信號是正弦波形的一個片段。圖 11:粗粒度動作對應信號波形與位置、朝向的關系介紹完性質,下面來看看當人在做

90、不同動作時候,信號的波形與位置、朝向有何關系。我們先讓一個人做同樣的動作,在不同的位置,會得到類似上圖左上角波型,換一個位置再做同樣的動作,會得到一個不同的波型;如果讓一個人在同一個位置進行速度不同的動作時,信號頻率也會不一樣。56圖 12:三個朝向的“上/下”手勢動作 vs 接收信號模式的變化上面是理論的估算,具體實驗結果如何呢?因此我們設計了一個實驗,讓人做幾個簡單的動作:揮動手臂上下或左右運動,在不同的方向、不同的位置,得出的結論如上圖所示:不同的位置,接收信號模式是不同的。當然,上面是大幅度動作的實驗,我們也進行了小幅度的動作實驗,得出的結論是:同樣的動作,FresnelZones 位

91、置、朝向不同,信號波形也不一樣。對 FresnelZones 模型性質推論進行小結一下:1、在不同位置、朝不同方向,同一行為會產生不一致的信號變化模式;2、在不同位置,做不同行為,可能產生類似的信號變化模式;3、僅基于少量采樣和機器學習,無法實現穩定的行為識別。圖 13:WiFi 信號感知的理論極限下面用 FresnelZones 的模型對 WiFi 信號感知的理論極限進行估算。對于 5GHz 頻段的 WiFi,其波長在5.7cm 左右。根據理論模型,當目標的位移導致的反射路徑長度變化 5.7cm 時,動態向量剛好旋轉一周,產生一個完整的正弦信號;因此,路徑長度變化與向量旋轉角度滿足公式如上圖

92、所示。57例如;5mm 左右的體動帶來的反射路徑長度變化 1cm 時,向量旋轉角度大約是 1.1 弧度(63 度)。而 1 毫米的人體位移對應相位旋轉在 12.6 度。那么,WiFi 是否具備毫米級的感知能力,關鍵在于是否足夠檢測到這不足 12.6度的信號片段。這即是 WiFi 感知極限評判的理論基礎。在實驗層面上,我們發現 WiFi 信號的感知極限是毫米,可以通過 WiFi 檢測到人的呼吸,而心跳比較難檢測到。四、基于 FresnelZones模型的感知應用舉例前面講到無線信號傳播的有關性質,給出了 WiFi 感知行為的極限,下面我們利用這些簡單的性質和模型實現一些具體的應用,包括呼吸監測和

93、手勢識別。圖 14:呼吸檢測-人體建模為了利用 WiFi 信號對人的呼吸進行監測,我們首先對人體進行簡單的建模:把人看成一個半圓柱體。呼吸的時候前胸大概會有 5 毫米的位移,側面大概有 1 毫米的位移。因此,用 WiFi 信號感知人的呼吸的問題,相當于要用 WiFi 信號感知到 1 毫米的人的體動。圖 15:人體呼吸引起的信號變化是 Sine 周期的一個片段58具體建模分析圖示如上。5 毫米位移,根據中學的幾何知識,紅線(反射路徑)大概會變化 1 厘米,而一個波長是 5.7 厘米,所以 1 厘米對應的大概是 60 度的相位變化,至于對應哪個 60 度的片斷完全取決于相對于收發設備的位置。圖 1

94、6:觀察一:最好/最壞位置-FresnelZone 中部/邊界考慮兩種情況:1.假定人的前胸剛好就在 FresnelZone 的邊界呼吸,一呼一吸剛好對應最上面 60 度的相位變化,那么振幅對應微小的波動,其頻率剛好等于人呼吸頻率的 2 倍,所以這種振幅的微小變化很容易被噪聲淹沒,人的呼吸比較難以監測。但是,要讓人稍微往前移動 12 厘米,處于兩個 FresnelZone 邊界線的中間,那么呼吸可能帶來比較大的振幅變化,由此可以看出,如果人在菲涅爾區中間的時候,信號本身振幅變化的波動很容易被監測得到。圖 17:觀察二:人體朝向-有效位移2.人的朝向。針對上圖三種情況能夠有三種朝向位置,得出的結

95、論是:正對時可以很好地監測到人的呼吸,背對時很難檢測。根據這個原理,我們能夠畫出呼吸能否被監測到的熱力圖,可以看到“被監測”和“不可被監測的區域之間是交替出現的,可能存在一些所謂的盲區。在盲區中,呼吸靠振幅是比較難監測的,因此,為了59解決呼吸的盲區監測和信號模式不穩定的問題,我們團隊提出利用振幅與相位信息構建正交感知信號,從而解決盲區和信號不穩定的問題。構建正交信號的觀察是:當相位不好時,振幅“表現”優秀,當振幅表現不好時,相位表現優秀。因此通過這種互補的關系,總是能夠通過合適的投影準確監測人的呼吸。圖 18:應用實例 2:手指動作識別在手指動作識別實例中,我們讓人用手指在空中簡單畫一個弧。

96、可以看出手指頭在動的起始位置不一樣,得到振幅的變化波形便不一樣。然而,如果我們讓一個手做一個單一類的動作,然后會發現得到的信號變化和上圖(b)反而是一樣的。因此,我們如果簡單地利用振幅信息進行識別的話,可能會發生識別錯誤。如何解決這個問題呢?我們可以通過信號變化技術實現,首先我們得到一對正交的振幅和相位信息,然后通過觀察不同手勢之間帶來的相位變化,可以發現兩個動作一樣(位置不一樣)的時候相位也是一樣的;當另外一個動作不一樣(位置一樣,動作不一樣)的時候相位變化也是不一樣的。因此,可以通過信號變換的技術做到對手勢活動的準確識別。五、其他無線感知應用于視頻演示圖 19:其他 WiFi 感知相關應用

97、前面介紹了兩個具體的實例,下面就給大家展示我們團隊最近幾年已經開發的一系列 WiFi 應用。包括跌倒監60測、室內行走方向的監測、軌跡的跟蹤、室內的定位以及呼吸和睡眠的監測等等。六、結論現在對整個報告做一個總結:1.基于 WiFi 等無線信號的非接觸感知是人體感知的一種理想方法;2.FresnelZone模型是無線感知的一個新的理論基礎。它刻畫了收發設備位置、移動對象位置、速度與無線接收信號之間的關系,揭示了各種感知參數對無線信號時域特征與頻域特征的影響。3.FresnelZone 模型告訴我們:在不同位置、朝不同方向做同一行為會產生不一致的信號變化模式;靠數據采集很難窮盡各種場景和可能,不了

98、解機理而簡單利用機器學習無法做到穩定的、100%的識別率。4.只有理解理論模型,通過信號變化并選定與目標位置、朝向、動作幅度無關的信號特征,才能構建出穩定可靠的無線行為識別系統。問答觀眾:通過 WiFi 的方式確實保護了隱私,是不是也有安全方面的挑戰?比如可以直接偵測 ATM 機取款密碼?張大慶:很明顯,任何一種“感知”都存在矛和盾的辯證,無線信號感知能夠完成識別任務,但在某種意義上也會泄露人的隱私。矛和盾的關系始終是存在的,但是無線信號還是有它的優勢,我們在和平環境當中用信號感知人的行為可以幫助人。但也需指出,如果感知過程中,有人有意地干擾信號,那么無線信號的行為識別工作就無法完成。觀眾:手

99、勢識別的精準度怎么樣?張大慶:根據我們的設計,識別率可以達到 96%-97%。觀眾:如果房間當中有多個人的話,呼吸的檢測會不會更復雜一些?張大慶:是復雜一些,今年我們正好做了這方面新的工作,在一張床上四個人都沒有問題。觀眾:最近 MIT 有一個報道跟你的應用類似,可以檢測新冠患者居家呼吸活動,是不是真的?距離市場化有多遠?張大慶:MIT 的工作我們很熟悉,他們團隊當中主要的幾個人都到我們北大訪問過,并且最主要的學生也是我們北大過去的,但他們用的是連續波雷達做的,不是普通的家用 WiFi,他們做的效果是相當不錯的。觀眾:能不能對人的身份進行識別?張大慶:有些團隊的同事已經做過一些工作,通過識別人

100、的步態可以對人的身份進行識別,但是究竟能夠識別到多少人可能還很難說。觀眾:WiFi 的多徑效應對識別有沒有什么影響和作用?61張大慶:這個多徑是客觀存在的現象,一般來說都會把 WiFi 多徑當成有害的東西,實際上我們發現多徑可以被很好地利用,利用這個現象可以做很多有意思的事情,包括對微小行為的識別也是利用了多徑現象。觀眾:無線信號天線相除的應用是什么?張大慶:普通的 100 多平米的家居當中有一對設備的話就可以把室內人的呼吸檢測出來。觀眾:無線感知受環境影響比較嚴重,請問解決環境依賴問題有沒有什么好的方案?無線感知要想真正大規模推廣還要做哪些努力?張大慶:我們提出的 FresnelZone 模

101、型揭示了無線感知依賴于環境、依賴于位置朝向等因素。通過此模型引入可以定量地刻畫信號變化與環境、人、位置和朝向的關系,有了這個指導以后再去做就比較有針對性,至于該如何做不依賴于環境的行為識別仍然是一個難題,最近我們團隊在這方面也有一些新的進展,今年的文章也有幾篇是關于這個問題。觀眾:您現在的工作是一收一發的情況,還是也包含一發多收或者多發多收?有沒有在物理的理論模型和機器學習互相結合的方面的工作?張大慶:實際上我們現在用的大部分都是一發多收,可以推廣到多發多收,一發多收是比較常用的,家里一般有一個 WiFi 的路由器,接收裝置可以很多、冰箱、彩電、空調,我們可以利用這些裝置對家里比較密集地進行感

102、知。目前我們做的很多行為識別工作都是把物理模型和機器學習深度結合,所以我們做到 96%-97%,通過物理模型把信號本身做了比較好的變換,利用變換然后再利用深度學習和機器學習來做,效果才能達到比較理想的情況。觀眾:是不是要用什么特殊的 WiFi?張大慶:正常的 WiFi 就行,商用 WiFi 的信號都能滿足,只是廠家有的時候沒有把這個信號讓大家用 API 的方式存取而已。嘉賓:WiFi 信號和雷達信號有沒有區別?這套理論能不能用于雷達?張大慶:我們知道 WiFi 信號和雷達信號肯定是不一樣的,設計的目標也是不一樣的,因此我們無線感知領域當中有人用雷達來做感知,有人用 WiFi、4G 和 5G 來

103、做感知,但是要做公平比較的話,我們發現雷達的能力會更強,因為雷達的帶寬更寬,也是專用設備,專門為感知設計的,WiFi 主要是為通訊設計的,因此感知的辨識度和精度都沒有雷達那么好。我們考慮因為 WiFi4G 和 5G 信號 Cost 很低,居家環境也可以做些比較普適的功能。至于原理上有些是可以被用在雷達里面,有些可能是比較適用于 WiFi 或者 4G 和 5G 信號。62 清華教授史元春:人機交互從精準走向模糊整理:智源社區沈磊賢在第二屆北京智源大會“機器感知”專題論壇中,清華大學計算機系史元春教授做了題為人機交互從精準走向模糊的報告。史元春,清華大學全球創新學院院長,“長江學者”特聘教授。其科

104、研成果近年連續獲得國際人機交互領域頂級會議最佳論文獎,并兩次獲得國家科技進步獎。她的主要研究方向為人機交互、普適計算、多媒體、網絡教育技術等。在報告中史元春闡釋了觸屏、VR 等自然用戶界面交互效率降低背后的科學問題,并介紹基于手指運動控制能力貝葉斯模型的智能文本輸入方法、基于交互行為時序模型的動作意圖準確判別方法等最新研究成果。一、從 GUI 到 NUI,接口失準1.1人機交互的基本概念人機交互,簡單定義就是“人機之間的信息交換”。首先讓機器理解人的視覺、聽覺、觸覺和行為,如果機器能夠通過這些渠道理解人的活動,那么它就可以為人類提供更為主動的服務。從狹義上理解,人機交互是操作系統的一個組成部分

105、。在下圖所示的操作系統中,有負責存儲、計算、網絡的資源管理部分,負責系統調用的部分;除此之外,操作系統中還有負責交互的部分,就是我們的 UI。其實 UI 才是用戶真正接觸到的,是人機之間進行信息交換的通道。UI 對計算機在社會當中的應用方式,對用戶的使用體驗有直接的、極大的影響。圖 1:人機交互是人機之間信息交換的技術1.2人機交互發展歷史63圖 2:人機交互發展歷史關于人機交互的發展歷史,如上圖所示。最初沒有所謂人機交互,只能用打孔這類機器的方式和機器交互。六十年代出現了新的人機交互方式命令行界面(Command-LineInterface,CLI),比較接近人的自然語言,實際上還是機器語言

106、。隨后,圖形用戶界面(GraphicUserInterface,GUI)在八十年代出現、九十年代普及。GUI 的出現真正引發了巨大的革命。從用戶的角度,人對圖形更容易理解,GUI 這種合適的、簡便的交互手段,直接促成 PC 的出現。從商業的角度來看,UI 的發展也推動了互聯網的發展。以 GUI 為例,大家比較熟悉的代表人物是 SteveJobs 和BillGates,很多書本、電影和紀錄片都講述了 GUI 的誕生,例如 Mac 和 Windows,它們都是操作系統中典型的關于 UI 的管理部分,并且具有特定的圖形用戶界面。以上是普通人看到的商業上的技術和成果。實際上 GUI 產生的背后是有計算

107、原理以及產業技術的革命作為支撐。史元春介紹了與 GUI 產生相關的 4 個圖靈獎得主:AllanNewell、AlanKay、DouglasEngelbart 和 IvanSutherland。這其中,AllanNewell 建立了關于認知和行為之間的行為之間的模型;IvanSutherland 在六十年代初提出了關于圖形用戶界面的圖形學;DouglasEngelbart 發明了鼠標;而 AlanKay,這次也來到了智源大會,PC 上很多交互模式的提出和技術的實現也秉持著他所提出的 OO(ObjectOriented)的理念。所以,雖然 GUI 今天稀松平常,但作為一個革命性的原理和技術,歷史

108、上有很多偉大的科學家參與其中。到了新世紀出現了自然用戶界面(Naturaluserinterface,NUI),最直接的例子是 2007 年的觸屏手機,然后是VR 眼鏡。NUI 讓我們可以不要傳統的輸入設備,用身體本身就能完成與機器的交互。NUI 的出現,使得人機交互接口由之前的不好用、不好記變得相對好用,但同時也帶來了接口不準確的問題。1.3交互方式的革新64圖 3:交互意圖表達再次回顧一下 UI 的發展歷史,從命令行界面到 GUI 再到 NUI,人與機器之間交互意圖的表達一直在發生改變。命令行界面通過人手指的表達傳遞給鍵盤,鍵盤的命令給了計算機,計算機再解讀、反饋給用戶。到了 GUI,鍵盤

109、還是在的,與命令行界面沒有太大區別,但是多了鼠標。雖然看著簡單,但鼠標背后的原理和技術的貢獻是十分偉大的。因為通過一個簡單的操作,可以把很深奧的字符命令表達變成圖形命令,一個點擊的動作就可以操作所有的命令和內容。以上都可以認為是人的手指作為人機交互的接口。到了 NUI 階段,鼠標這類實體的外界輸入接口都不存在了,觸屏手機、Kinect、HoloLens 等設備的出現帶來了新的人機交互接口,主要的有三個:虛擬鍵盤、動作感知和語音輸入。為了輸入文本,鍵盤還是有必要的,但是變虛擬了,比如在手機上變成了軟鍵盤,在眼鏡中變成了浮空的鍵盤。雖然已經不是硬鍵盤,但是鍵盤的功能還在。手的點擊作為空中虛擬對象仍

110、然在繼續。更多的接口變化來自我們自身,我們的動作姿態(Gesture)會變成直接命令,跟系統進行交互,伴隨而來的是各種各樣動作感知的接口。除此之外,NUI 不需要在固定的桌面環境工作,得益于 AI 的技術,語音在移動環境下成為了輸入的接口和工具。1.4接口不準確圖 4:信道傳輸率公式人機交互作為交叉學科,有一個基礎理論來自于信息論,上式為用以表征接口的帶寬。帶寬受很多因素影響,其中 S(T)/N(T)作為信噪比,是接口本身的特性。對于 GUI 及之前的接口,信噪比 S(T)/N(T)都是一個確定性的輸入,只有個體在使用狀態(UserState)上的差異會影響傳輸效率。但自然人機交互需要支持新的

111、、更大量的個人應用場景和終端,接口幾乎沒有準確的硬件,都是身體本身和講話聲音的發音。這樣的場景下接口不確定性和信號中的噪聲很大,有效信息利用很有限。在這樣的前提下,操65作系統中如何支持基本的交互功能顯得尤為重要。圖 5:硬件接口不準確的具體體現接口不準確的具體體現在哪里?有三個方面的問題:1)對虛擬鍵盤而言,雖然還是需要手指動作操作,但是鍵盤的設計不符合人體工學;2)對動作輸入而言,人的動作含義很多,并且是有意和無意耦合的,需要在連續活動當中把有意的交互識別出來,不需要所謂的喚醒詞、喚醒動作。Kinect 這類設備需要有意地設置一個開關,比如揮手,交互才能開始。但是在很多場景下我們是不能要這

112、個開關的,所以需要接口支持動作的判斷;3)在語音方面,我們今天利用 AI 技術建立物理模型進行內容識別,已經做得很好了,但現實生活中人在各種場景下講話的內容,模型對話意的理解還不夠,比如重音、情感、與姿態的關系、情境等等。以上種種問題都反映在接口產生的帶寬上,這些需要改變和不準確的地方,怎么才能準確?這就需要對人的自然行為能力進行建模了。二、建模人的自然行為能力人機交互最根本的是直接與人交互,如果人的行為能力不能建模、不能計算、不能優化,就不可能通過學習和訓練,得到一個新的接口。圖 6:人機交互是交叉學科上圖是 ACMSIGCHI 給人機交互的定義,可以看到人機交互是一個交叉學科,心理學、精神

113、科學、語言學、信66息理論、人體工學、社會科學等都對人機交互有貢獻。上圖中列出的一些研究問題,在 GUI 時代已經有比較多的研究,也給 NUI 提供了很好的借鑒和方法。AllenNewell 曾參與建立的 HumanInformationProcessorModel(HIPModel)有巨大影響。該模型把人的感知行為和認知的子系統建立成類似馮諾依曼結構的模型,如下圖所示,每一個子系統的處理器、存儲器的參數是通過大量的生理和心理實驗獲得的,同時該模型還總結了一些非常重要的運行原理。圖 7:建模人的自然行為能力具體以人手點選目標的 HIP模型為例。在 HIP 模型中,人腦處理手部行為的模塊是很大的

114、,這和手的實際體積不成正比,因為手有很強的表達能力。HIPModel 當中對人手點擊的速度、精度以及和認知位置的關系做了很深入的研究,公式如下所示。圖 8:速度、距離、精度、感知、認知和運動之間的關系67該公式關于速度、距離、精度、感知、認知和運動之間的關系描述得非常精準,并且成為 GUI 的一個優化的基礎,在一些真正有生產力和競爭力的接口上都很好地體現了這樣的關系。這種建模能力和方法對 NUI 也有很好的借鑒。三、虛擬鍵盤胖手指如何快準輸入虛擬鍵盤,即為軟鍵盤和浮空鍵盤,其尺寸不符合人體工學設計,也沒有觸覺反饋。由此帶來的結果是輸入速度慢、點不準等問題。點不準在人機交互領域叫做胖手指(Fat

115、Finger)問題。在胖手指問題中,放松的狀態讓人點擊觸屏上特定位置,正確率可能不到 50%。圖 9:人機交互領域的胖手指(FatFinger)問題史元春團隊參考 HIPModel,建立了速度精度雙極的手指運動控制能力模型,如下圖所示。68圖 10:手指運動控制能力模型這個模型考慮到了人在交互過程中的使用習慣,也即 MentalModel,因而比 HIPModel 更加復雜。該模型量化了放松輸入狀態下,輸入落點噪聲與接口尺寸、輸入速度、視覺注意之間的關系,從而實現了虛擬鍵盤上,手指運動控制能力的可計算、可優化輸入糾錯能力。此外,鍵盤本身其實也是文本輸入的貝葉斯解碼的過程,如下所示。圖 11:文

116、本輸入的貝葉斯解碼過程上式由兩個模型構成,一個是以語料庫為代表的語言模型,一個是手指運動控制模型。將二者結合,可以很好地優化點擊的準確率,從而在軟鍵盤上提供比較快和比較準的輸入法。史元春團隊所提模型的好處在于:(1)模型可解釋,真正在人的手指控制能力的基礎上計算和推理出來;(2)利用了先驗知識,使用小樣本的訓練數據就可以支撐該模型;(3)模型可以擴展到多種交互接口。為了驗證模型可行性,他們使用一個智能手表上的軟鍵盤作為交互接口,如下圖所示,按鍵只有幾個毫米,完全不可能按準,但是經過所提模型優化后的輸入速度和準度,基本可以達到大屏手機上的輸入速度。該輸入法模型實際應用在華為的智慧輸入法和搜狗的智

117、慧輸入法中,極大地提高了輸入速度和準確度。所提模型的另一個應用是在 AR/VR 眼鏡中。這是非常難用的一個場景,普通人每分鐘可以在硬鍵盤上打字 60 個左右,在手機上大概 30-40 個,在 AR 眼鏡上實測只有個位數。史元春團隊在原有模型基礎上建立BlindType 輸入模型,靠每個人已有的肌肉記憶和遠端視頻上的反饋進行交互輸入。在實驗中,人不需要看手69機,只是需要大致位置,和語音模型,最后可以實現每分鐘 20 個字的輸入。圖 12:Eyes-freeTyping 應用同樣的 Eyes-freeTyping 應用在 iPad 的 SplitKeyboard 上,在原有輸入速度基礎上提高了一

118、倍多,驗證了方法的有效性。史元春團隊還為盲人設計了一款鍵盤。下圖圖中左側是明眼人鍵盤,可以實現單詞級別的糾錯,右側為盲人鍵盤,配備有讀屏的軟件,但只能做初級的輸入。史元春團隊通過實驗,估計了手的相對位移,并對手指和字符位置之間的關系做了大量的統計,建立精確的模型。優化后的鍵盤會產生微小的變動,雖然輸入的位置錯了,但是模型預計到了想輸入的內容,可以把鍵盤移動到他的手指下面,使用者聽到的就是輸入正確的結果。圖 13:世界首款盲人鍵盤這也是 5 月 21 日清華和搜狗發布的世界上第一款盲人鍵盤,糾錯率提高了 60%以上。還和中國殘聯、盲協做了測試,原理性的論文獲得了去年 CHI 會議的最佳論文提名。

119、70四、連續動作如何準確識別動作意圖史元春認為,連續動作的輸入更具挑戰,因為動作有意和無意是連續的,模型需要準確識別用戶的動作意圖,避免誤觸發。難點在于動作之間的連續性、隨機性和動作傳感的不完整。針對此問題,他們提出了運動參數時序模型,如下圖所示。圖 14:運動參數時序模型該模型提取連續動作的自相關性,即有意動作與其前置和后置動作之間的時空關聯。因為人是有結構的、有基本運動單元的基本參數,在歸一化上可以建立自相關模型。同時復合動作是靠多個子動作的時序概率圖構建起來的。以手的協同運動特征為例,該模型在特定任務上的識別 F1 值可以達到 0.97。動參數時序模型在具體接口上具有良好的表現。AR/V

120、R 眼鏡需要依賴視覺輔助進行動作選取,即只有在眼鏡的可視范圍中看到了物體,才能進行下一步的選取動作。這種與空間對象的交互方式存在一定的問題,一方面視覺注意需要花費一定的時間,另一方面這也會增加疲勞度,甚至造成使用中的眩暈感。圖 15:解決 AR/VR 眼鏡目標選取動作的視覺依賴問題71針對上述問題,史元春團隊實現了空間的盲操作,即針對空中目標,在建立運動參數時序模型的基礎上,基于模型偏差規律對動作偏差進行補償,從而實現不需要用戶注意力的盲抓取。在進行的大量抓取目標實驗中,抓取速度明顯提高,準確率與視覺依賴條件下基本相同,都是 98%左右。該方法已經廣泛應用在 AR/VR 眼鏡中,效果十分出色。

121、為進一步解放雙手,史教授團隊還借助頭的運動設計了一系列的基本操作,如下圖所示。圖 16:借助頭的運動設計的一系列基本操作下圖給出了連續頭部運動過程中用于判斷的時序特征:圖 17:連續頭部運動過程中的點擊判斷72在手機上面也有意圖判斷問題,最突出的是曲面屏的誤觸問題。在曲面屏手機出現早期,無法在軟件上區分有意和無意觸碰動作,極大地影響了用戶的使用體驗。史元春團隊和華為合作,基于運動參數時序模型實現了高精度的握姿識別算法,降低了誤觸事件的發生概率。圖 18:高精度握姿識別算法此外,史元春團隊還基于該模型設計了針對盲人用于的耳勢交互模型。圖 19:耳勢交互模型最后,史元春教授還介紹了他們團隊在全手型

122、交互方面的進展。全手型交互,意味著手機可以看到用戶用于交互的手,空間中手指做出的即時動作都可以被直接識別。如此一來,可以將交互空間從二維平面擴展到三維空間上。史元春展示了一些目前的實驗結果,如通過手勢選菜單、通過手勢玩游戲、通過手勢拍照等。73圖 20:手機全手型交互綜上所述,人機交互考慮的是編碼,編碼過程需要符合以下要求:利用人的學習和記憶的資源越少越好,但是解碼的過程需要研究者從計算機的角度還原人的意圖,獲取準確的動作信息。圖 21:運動參數時序模型74 智源研究院院長黃鐵軍:脈沖視覺:重塑視覺信息處理技術體系整理:智源社區蔣寶尚在第二屆北京智源大會“機器感知論壇”上,智源研究院院長、北京

123、大學教授黃鐵軍做了脈沖視覺:重塑視覺信息處理技術體系的主題演講。在本次演講中,黃鐵軍從兩個角度介紹了當前計算視覺體系的誤區。其中,在“數碼相機的 Bug”部分提到,當前的相機“技術”簡單地、直接地繼承了膠片時代的視覺信息處理的模式(圖像和視頻),非常不適合當前的技術發展趨勢;在“計算機視覺的誤區”部分提到,傳統的“Video 攝像頭+計算機+算法=計算機視覺”的定義是錯誤的,無論是 Video 攝像頭層面還是算法層面,都需要進行變革,攝像頭需要突破傳統數碼相機的Bug,而算法需要借鑒生物神經元的性能。以下是智源社區編輯對黃鐵軍演講做的文字整理:今天的報告題目是脈沖視覺:重塑視覺信息處理技術體系

124、,主題內容是對當前計算機的基本概念、基本做法進行重新思考。整個報告的提綱有兩個部分,第一部分是數碼相機的 Bug,第二部分是計算機視覺的誤區。一、數碼相機的 Bug圖 1:照相機發展史75現在開始第一部分,數碼相機的 Bug。這里的 Bug 概念和計算機視覺研究員為了完善系統而進行尋找的 Bug同義。那么,為什么數碼相機有 Bug?其實,這主要來源于人類的慣性思維。數碼相機的前身就是模擬相機,實際上今天數碼相機的各種各樣的觀念是來源于模擬相機。下面從“人類的第一張照片”開始解釋這一“來源”。第一張照片拍于 1827 年,拍攝者是法國人約瑟夫 尼埃普斯,采用的技術是他發明的“日光蝕刻法”,具體操

125、作是用陽光照射一層薄瀝青,通過把瀝青曬軟就能得到薄厚不同的“影像”,其中曝光時間長達八小時。因此,可以看出當時的技術非常原始。到了 1839 年,在化學技術進行和工業革命逐漸發展的時代背景下,拍照技術也不斷發展,最直觀的表現是:我們拍照每一幅圖像的曝光時間不斷減少,從最開始的“秒級”到 1/2 秒再到 1/4 秒等等,現在甚至達到了1/1000 秒。其實,上述提到的概念,隨著模擬相機的使用便被固化下來,因此今天的數字相機也在用同類的概念。圖 2:人類第一個程序員舉一個更為生動的例子,如上圖所示,這位女士是人類的第一個程序員,ADA 編程語言的命名就來自于她。在 1845 年時,為這位“女士”拍

126、下這幅照片大概要花費要半個小時,換句話說,她需要安安靜靜地坐上半個小時。所以,任何一幅照片的形成,都是以時間為代價的,只不過在技術不成熟的早期,其時間比較長,當前相機需要的曝光時間比較短,但這也不意味著不需要時間。76圖 3:Video 視頻發展史另一方面,視頻也并沒有比圖像更加“高明”,因為視頻是圖像的“序列”,例如一秒鐘視頻包含 24 幀圖片。其實,從當年膠片電影“變成”電視之前,已經犯了一次“錯誤”,例如當時用的詞是 Video,這意味著所有的“東西”都是在電信號的層面進行處理,但實際上 Video 表示視覺信息的方式還是電影膠片,也即每秒鐘多少幀圖像。這背后帶來的思考是:當我們不再依賴

127、于化學膠片的時候,是不是還要用每秒鐘幾十幀的圖像表示視覺信息?而且,在一開始,這種視覺信息表達方式就有一個根本性的矛盾,矛盾點在于曝光成像中曝光時間 t 的如何選擇。圖 4:傳統相機的兩難問題77例如,在照相機中,如果想增強細節層次或者動態范圍,所采取的是加長 t 策略;如果想抓拍高速運動物體或者場景,所采取的是減小 t 的策略。因此,曝光時間帶來的矛盾正影響著我們視覺信息的獲得。另外還需要明確的是:在拍攝視頻的時候,提到的每秒鐘包含 30 幀圖片,并不意味著 2 幀之間的 33 毫秒的“時間”會成為一幅圖像,因為 33 毫秒的時間太長了,會導致圖像模糊。真正拍攝時通常只會用幾毫秒(例如 3毫

128、秒),剩余的幾十毫秒(30 毫秒)都“浪費”了。換句話說,在拍攝過程中,只有 1/10 的“時間”被記錄了下來,剩下 90%的“時間”并沒有記錄,所以攝像機作為一種記錄視覺信息的方式,每秒鐘 30 幀的圖像不是完備的,有 90%的信息被迫丟失。通過上述的分析,然后回過頭來思考當前視覺信息處理的方式,我們圖像視頻的概念可能是錯了,因為這是膠片時代遺留的做法,現在是電子時代和數碼時代,我們還那么愚蠢地每秒鐘拍幾十幀圖像,這種做法本身是錯誤的。那么應該怎么做呢?正確的做法是把光完整地記錄下來,也即一個理想的相機應該把每一個光子到達的時間和空間以及每個光子的頻率記錄下來。這樣才能達到物理上完備的信息采

129、集。雖然普通的 Sensor 電路處理無法跟上“光的腳步”,但是也不能退化到傳統膠片模式。因此我造了一個詞叫做視達(Vidar=VisualRadar),目的是為了和 Video 進行區分。視達(Vidar)的視覺信息當中每個單元叫做 Vit 視元,如果相機能夠達到極致,一個 Vit 就是一個光子的到達。當然,現實當中的相機肯定做不到這么精密,那么可以把一群光子到達的時間變成一組,用一個比特進行記錄。其中,每個感光器件視為一個光子捕捉器,當收集的光子能量達到約定閾值時,就產生一個脈沖,這個脈沖及形成這個脈沖所持續的時長稱為一個視元。圖 5:視元和視達的定義78因此視達(Vidar)的準確定義是

130、某種陣列,即每個感光器件產生的視元按照時間次序排成序列,所有感光器件產生的脈沖序列按照器件空間排布組成陣列?;谝曔_概念得出的相機,能通過微秒級的時間精度進行采樣,從而得到的一個高速的比特流。另外,這個比特流要比原來的視頻更接近物理的現實,因為這個比特的產生代表著前面一段時間的光子積累達到了一個閾值。圖 6:視達相機的特點這樣做出的相機有什么用呢?舉例而言,我們第一款相機每秒可以產生 4 萬個脈沖,可以抓拍快速運動的物體。例如在拍攝硬盤旋轉(轉速高達每秒鐘 7200 轉)的過程中,硬盤上面的文字都能夠清晰可見。另外,為什么相機拍攝的是比特序列,呈現的確是灰度圖像呢?原理很簡單:可以把比特想象成

131、光子,而從一組光子里面形成一組圖像簡直太輕松了,其中可以采用的算法是:考慮兩個比特之間的時間差,如果時間差越長,那么比特很密集,也就說明光很亮。如此便能把亮和暗的灰度區分開來。而更巧妙的地方在于:我們可以根據視達(Vidar)比特流產生任何圖像。其實這種“巧妙”對于視覺信息記錄非常關鍵,因為我可以得到連續的信息表示。因此,為了更加明確上述概念,我定義了兩個詞:全時成像(FulltimeImaging)和自由動態范圍成像(FreeDynamicRange,FDR)。其中,每個視元的持續時間和光強成反比,據此可以得到該像素位置任意時刻的光強,從視達中得出任意時刻圖像,實現全時成像;如果時間窗口擴大

132、到多個視元,則可以得到更高動態范圍的圖像,稱之為自由動態范圍成像。從上述定義描述的“場景”可以看到,一旦相機變成這種形式,其拍攝效果比傳統每秒幾十、幾百幀圖像的“攝像”要好的多。這也意味著任何人都可以拍出來高素質照片,或者對日常人眼都看不清楚的東西進行抓拍。79圖 7:相機的發展歷史同時,我也認為視達會導致相機的第三次革命。如上圖所示,相機的第一次革命發生在 2000 年左右,當時相機數碼化了,相機的數量從每年年產量 4000 萬臺左右提高了 3 倍,差不多達到了 1 億多臺。第二次革命發生在手機時代,相機數量變成 15 億部,從數量上來看,相對于數碼時代,手機帶來的革命是 10 倍的增長;從

133、今年開始,將會迎來相機的第三次革命,因為全時拍照,高速攝影意味著能夠重構任意時刻的圖像??偨Y一下,數碼相機的 Bug 具體指的是:當前的相機“技術”簡單地、直接地繼承了膠片時代的視覺信息處理的模式(圖像和視頻)。因此,數碼相機設計應該按照數碼的方式進行,讓光流變成比特流,從而成為將來的趨勢。二、計算機視覺的誤區計算機視覺的學科方向是上個世紀八十年代建立起來的,其中,基本概念在六十年代就提出來了,當時 MIT 人工智能實驗室也在籌建,籌建的前期有一個項目叫做計算機視覺,這個項目也被追認為計算機視覺的第一個項目。80圖 8:計算機視覺當時,也就是在 1966 年,對計算機視覺的想法和實踐都圍繞一個

134、問題,即:計算機連接攝像頭能夠看到什么?為了解決這個問題,人們下意識的可能會需要一個攝像頭,需要一臺計算機,然后寫程序寫算法,識別處理攝像機拍下來的每秒鐘幾十幅圖像,然最后進行檢測跟蹤識別等等。但是,這種做法無疑對計算機視覺、機器視覺做了范式上的定義,即將其等同于 Video 攝像頭+計算機+算法。然而這樣一套技術路線是不是正確的?這樣一套做法從頭到尾都是錯的,在前面一部分的講述中,就已經明確知道“攝像頭”是錯誤的(因為它根本沒有把光的信息全部采下來),這背后代表的是輸入錯誤。圖 9:人工神經元模型81另一方面是算法層面的錯誤,其根源不是某個人的問題,而是人類這一個群體犯的錯誤。當然,這個錯誤

135、并不是一開始就犯的,早期研究者認真地在研究生物視覺,比如今天用的深度網絡當中的神經元模型。當時 WarrenSturglsMcCulloch和WalterHarryPitts 兩位就研究過視覺系統,另外也研究過青蛙的視覺。其實,回顧五六十年代,甚至七十年代,研究者在生物視覺方面做了很多很精品、基礎性的工作。代表是 1971年,德國馬普學會生物控制論研究所創始所長賴夏特(W.Reichard)和托馬索 波焦(T.Poggio)發現了家蠅視覺飛行控制系統的秘密,并給出了精確的定量描述。圖 10:馬爾視覺計算理論到了八十年代,馬爾出版了視覺:人對視覺信息的表征和處理的計算研究這部經典著作之后,生物視

136、覺的研究風向全部變成計算機視覺作為主導思想。其實,馬爾本身是做生理學博士,但是博士后到了 MIT 一下子轉成了計算機,某種意義上是正確的選擇。但徹底拋棄生物視覺確實是犯了一個巨大的錯誤,因為其把學科方向引導錯了?,F在來看,馬爾從神經生理到計算的這個彎轉得過急了。關于馬爾的這次轉變,特倫斯 謝諾夫斯基在他最近在新書深度學習革命中回憶到:“他(馬爾)追求一種自下而上的策略從視網膜開始入手(在那里光被轉換成電信號),并探求視網膜中的信號如何編碼對象的特征,以及視覺皮層如何表示物體的表面和邊界具有諷刺意味的是,盡管馬爾在他的視覺研究中采取了自下而上的策略,即從視網膜開始并對視覺處理的每個后續階段進行建

137、模,他的著作卻以倡導自上而下的策略而聞名首先對要解決的問題進行計算分析,然后構建算法來解決問題,最后通過硬件來實現算法。然而,盡管這可能是在解決問題后對問題進行解釋的種有效途徑,但對于揭開大腦秘密卻算不上是個好方法。到了 2012 年,深度學習將 ImageNet 視覺對象分類任務的正確率提高十多個百分點,一夜沖垮了計算機視覺積累近半世紀的技術體系,2015 年更是將正確率提高到與人類相當,成了計算機視覺的主導思想。而在過去的五年,我們一直在追求對生物視覺精細生理過程的仿真,也即想知道光到達視網膜以后是怎樣對光進行加工的;想知道大腦是如何對電信號進行處理的。82圖 11:脈沖陣列式仿視網膜芯片

138、研制及驗證上述研究思路,其實從 2017 年到現在,在大概三年多的時間里已經有了一些進展,例如將生物原理做成芯片。但是對生物原理進行了大幅度進行了簡化,原因是生物過程比較復雜,不做簡化無法達成共識。有了芯片和相機之后,能否完成檢測識別等視覺任務呢?在過去一年多的時間內進行了實驗,值得一提的是,因為我們的相機拍攝的是脈沖流,所以使用的是脈沖神經網絡,而不是傳統的機器視覺的算法。圖 12:基于 SNN 的高速對象檢測與跟蹤具體模型如上所示,檢測跟蹤的模型純粹是人工模型;識別是用類似于深度學習的方法進行,現在也已經實現了實時高速的識別。83圖 13:“相機”識別實驗那么如何證明“相機”不僅能夠拍攝到

139、,還能進行識別。我們也進行了一個實驗:在扇葉上貼了三個字母,字母的邊上貼了光敏膠帶,筆記本上可以進行檢測跟蹤識別,識別難度相當于“采集”傳統每秒鐘 4 萬幀的信息。結果是:只用一臺筆記本運行脈沖網絡算法,就可以可以實時識別 PKU 三個字母。目前只能在筆記本上進行任務,將來要變成脈沖電路,因為變成電路之后就不受主頻速度的影響,因為光進入“相機”就變成了比特序列,比特流動的速度就是電流動的速度,前面是光,后面是電,如果打破那些都是人為制造的障礙,速度就不再是一個問題了。圖 14:機器視覺與超級視覺如此,便能夠超越原來基礎上圖像視頻的概念,從而開創一個速度不受限制(只受光速制約)的新技術體系。只有

140、這種打破常規的系統才是未來的機器人真正需要的,才是機器智能的未來。84 圓桌論壇:機器感知的新突破口在哪里?整理:智源社區賈偉在第二屆北京智源大會“機器感知”專題論壇中,北京大學教授黃鐵軍、清華大學計算機系教授史元春、北京大學計算機系教授張大慶、清華大學教授孫富春、北京大學教授吳璽宏、中國科學院自動化研究所研究員王亮、中科院計算所研究員山世光共同參與了題為“機器感知的新突破口在哪里?”的圓桌論壇。以下是要點整理。黃鐵軍:接下來我們討論“機器感知的突破口在哪里”這個問題?,F在做機器視覺的人太多了,很多人號稱“機器感知的問題已經解決了,是時候從感知時代進入認知時代了”。我們認為這種說法,純粹是對感

141、知的難度了解不足的人說出來的。事實上,感知的問題遠遠沒有解決,并不是機器的識別率有多高,就叫做視覺問題已經解決了。舉例來說,現在一個機器人到自然環境里走一走,相比一個低等動物都笨太多了,最主要的就是因為感知系統問題還遠遠沒有解決。所以機器感知可做的東西還很多。但是,盡管我們都知道機器感知還有巨大的研究空間,以及有許多問題要解決,但是要想說服市場往這個方向走,我們總得有些新的突破口,改變當前深度學習所帶來的刷榜潮流,進入一個新的階段。這是今天想請大家討論的。我們成立論壇的時候就有一個基本的理念,凡是用深度學習做視覺的,都不會支持,因為做的人太多了,很多都是沒有太大價值的研究。張大慶:我很同意你的

142、這個觀點。我覺得感知有感知的任務,認知有認知的任務,不能說感知做完了該認知了。至于感知未來的突破口,聽了你剛才講的,我很受啟發,感知肯定是像人一樣,屬于多模態的。今天我們辦這個論壇特別好,大家探索不同模態當中感知的極限是什么,這是我們需要真正探討的。就像剛才你說的一樣,傳統的相機、攝像頭的原理可能不是最好的,后面處理很費勁,識別率有一定的限制。我們做無線信號的,其實也是一樣。最近一個重要的目標就是,要研究各種無線信號的感知機理是什么,感知極限在哪里,將來究竟該用什么樣的無線信號,什么樣的形狀、什么樣的頻率、什么樣的帶寬等。只有從最基礎的角度理解每一種感知模態的極限和理論基礎,才能把這個事情做好

143、。孫富春:實際上感知應該就是這個過程,我覺得應該從三個方面來講:第一就是前瞻,也就是物理載體,我們叫做載荷,怎么獲取外界的東西;第二是后端的處理;第三是機理。至于如何從生物認知的角度重新認識視覺,實際上是機理層面的重新認識。山世光:剛才說感知的問題沒有解決,我非常同意?,F在大家并不完全是從感知做到認知,而是在做感知的時候把認知的一些東西引進來,但還是在做感知。當然,現在也有一些人確實是去做認知,我認為至少從我的角度還是想做感知,但會把一些認知的東西引過來作為工具來做感知。85為什么大家覺得感知的問題好像已經解決了?我覺得可能是因為大家覺得人臉識別已經解決了,所以感知的問題就解決了,這是錯誤的根

144、源。之所以這樣,可能是大家覺得人臉識別都能夠解決,其它的大千世界那么多物體識別的問題,應該都解決了,只需要有足夠多的錢,足夠多的人,可以去采數據,針對每個不同的物體來做算法,通過大量的機器去做訓練,沿著這個技術路線做,好像所有這些問題都可以解決。事實上,這不是一個可行的技術路線。因為大千世界這么多的東西,不可能有那么多的人、那么多的錢全部靠這種辦法去做。所以問題是,現在大家需要重新定義感知的問題到底是什么,我們需要做什么樣的感知的問題。因此,我不是很同意深入學習的感知都不應該做。重要的是,我們的問題到底是什么?要是機器學習能夠解決的話,還是應該去做。我們現在遇到的困難是,我們沒有把問題定義清楚

145、,所以導致大家好像覺得好像機器感知已經解決了。黃鐵軍:其實人臉識別并沒有解決,現在那么多造假就證明人臉識別沒有解決,而是能夠通過一些手段騙過去。山世光:這是另外一個問題。所以還是要看問題定義是什么。黃鐵軍:之所以能夠造假說明神經網絡還不夠復雜,不能識別那些變化。山世光:數據足夠多的話可以搞得很準。史元春:比如隱私保護情況下的人臉識別,很低的分辨率是不是也可以做?因為對人來說很不清楚,一定能夠知道那個就是誰,沒有更高的分辨率,不需要很大的數據。山世光:那是非常熟的人才可以,所以還是問題定義。史元春:所以空間還是很大,但是需要定義目標,不是給定方法。王亮:“新突破口”這個詞我不敢用,但我覺得有兩個

146、方向應該提。一個是多模態的融合,一個是多機制的融合。大家都是做語音、圖像或觸覺的,這些都屬于“感”的方面?,F在大家做得都比較獨立一點,但每個模態包含的信息源是不一樣的,就像人在感知外部世界的時候,有的時候是單一模態,但大多時候是多個模態。模態之間存在互補性,一個模態的信息有助于另一個模態信息的處理,所以多模態的融合肯定是一個趨勢。再就是多機制,大家都說“感知還沒有做好,怎么就開始去做認知了”,而事實上,感知和認知并不是獨立的過程,不是說只有做好感知才能去做認知,實際上有些認知的東西能夠反過來指導感知。我們做的很多工作,例如視覺問答或描述推理,這里面同時包含了認知和感知過程的,在其中加入推理機制

147、往往能大幅提升模型的性能。不過現在很多工作還是還是單一機制,例如只加入注意或只加入推理。而人在感知或思考的過程中,事實上是多機制并行工作的。86黃鐵軍:實際上我們最基本的感知,比如視覺,眼前能看到一幅清晰的圖像,這個感覺本身就是認知過程加工的結果,而不是純粹類似攝像頭拍攝的結果。王亮:按照感知的定義來講,視覺主要是采集形狀信息、顏色信息等,偏向于表面多一點;從圖片中去理解包含什么事件,這更多屬于認知的過程。黃鐵軍:所以視覺本身帶有一些猜測和想像的過程,我們做夢閉著眼睛都能夠想出栩栩如生的景象,就是認知在起作用。王亮:對。感知和認知不是一個階梯的關系,其實是一個循環。吳璽宏:今天做視覺、聽覺、語

148、音、語言和機器人的幾位老師講的都不錯,我也學習到很多。我們也想到多模態的整合,但怎么來整合?是淺顯的整合還是深度的整合?我的想法是首先不要著急做分類。我們現在的模式是,人費勁打標簽,然后去做分類。但我們千萬不要把感覺和知覺只看成分類,事實上重要的不是分類,而是如何表達表達還沒做好,就開始分類,是不對的,因為類別是人感知、認知之后來定的。剛才山老師提到,怎么定義感知的問題。我這里借用維納定義信息的話,他說“主體首先要有效地生存,之后才有信息”;我借過來說,“主體首先要有效地生存才有智能”。智能的特點,首先應該是“適應性”,例如什么場合說什么話,如果只是靠人來定義類別,限定類別數,那智能體不可能延伸去識別重來沒有出現的類別;只有去提高它的適應性,它才能在適應的過程中,具備自動生成新概念、新類別的能力,從而解決大千世界中的識別問題。

友情提示

1、下載報告失敗解決辦法
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站報告下載后的文檔和圖紙-無水印,預覽文檔經過壓縮,下載后原文更清晰。

本文(10機器感知.pdf)為本站 (會議專家) 主動上傳,三個皮匠報告文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。 若此文所含內容侵犯了您的版權或隱私,請立即通知三個皮匠報告文庫(點擊聯系客服),我們立即給予刪除!

溫馨提示:如果因為網速或其他原因下載失敗請重新下載,重復下載不扣分。
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站