《12智能信息檢索與挖掘.pdf》由會員分享,可在線閱讀,更多相關《12智能信息檢索與挖掘.pdf(50頁珍藏版)》請在三個皮匠報告上搜索。
1、 1 12智能信息檢索與挖掘 2 新加坡國立大學蔡達成教授:展望未來多模態會話搜索的機遇和挑戰整理:智源社區 陳佳在 2020 年 6 月 23 日上午的“2020 北京智源大會|智能信息檢索與挖掘專題論壇”中,來自新加坡國立大學的蔡達成教授做了關于多模態會話搜索相關研究的介紹。蔡達成,新加坡國立大學計算機學院創院院長、KITHCT 講席教授、清華大學新加坡國立大學下一代搜索技術研究中心主任。他是國際知名的計算機科學與技術專家,在多媒體與信息檢索領域享有盛譽,是國際計算機學會多媒體專委會(ACM SIGMM)杰出技術貢獻獎獲得者,也先后擔任包括 MM 和 SIGIR 在內的多個國際頂級學術會議
2、的大會主席,先后發表多篇國際頂級會議與期刊論文,獲得 MM,SIGIR,ICDM,MMM 等高水平國際會議的最佳論文獎。以下是智源社區編輯整理的蔡達成演講要點:關于信息檢索的研究開始于 20 世紀 50 年代,在大約 60 年代末 70 年代初的時期,最受歡迎的模型是向量空間模型以及 TF-IDF 模型等等,這其中有很多的模型直到今天仍然被廣泛使用。另一個比較有代表性的工作是在 1998 年提出的 PageRank 算法,不僅僅是在信息檢索領域,該算法在其他的領域也大放異彩。到了 2013年,大家開始把注意力集中到詞向量表示的評估上,誕生了像 Wordvec 這樣非常有影響力的工作。而現在,我
3、們開始展望未來,必須要探討一下經典的 IR 算法中的一些局限性。首先,是單方向查詢模式(即只有用戶可以向系統提交查詢),它假設用戶提交的查詢是精確的,且系統可以理解的用戶意圖等等,但是實際上并不一定是如此。如上所述,我們需要考慮多方的對話因素來幫助用戶提升搜索體驗并幫助系統能夠更好的理解用戶;其 3 次,是目前對查詢以及各種信息進行建模的局限性,絕大部分系統主要是利用文本信息(Text-based)去挖掘用戶的意圖。然而,近年來隨著智能手機的普及,很多人會開始在移動端輸入其他形式的查詢,例如圖片。因此,利用多模態查詢來作為檢索系統的輸入會在不久的將來成為一種常態;第三點是關于用戶查詢意圖的不確
4、定性和流動性。根據大量系統的反饋數據,用戶的意圖往往會隨著搜索過程產生一定的轉移。在這樣的情況下,一個搜索系統也必須期待著用戶隨時變化的意圖。圖 1:信息檢索的發展一、多模態會話搜索介紹信息檢索的發展趨勢,應該是和新興的技術息息相關的。首先是多模態處理技術(Multimodel Processing)。新的多模態模型可以處理更為豐富的信息,例如圖片、視頻和音頻數據等等。除此之外,用戶畫像、歷史信息也漸漸被融入到模型中,從而能夠使得模型更準確地理解用戶意圖。另一個領域是對話系統(Dialogue System),對話系統主要通過和用戶進行交互來達到它的目的。因此,現在的一個主要趨勢應該是如何從文
5、本過渡到多模態信息,例如,構建多模態對話系統(Multimodel Dialogue System)、多模態推薦系統(Multimodel Recommendation System)等等。另一個趨勢則是,如何從單向(Unidirectional)的查詢轉變為交互式(Interactive)的查詢,例如會話推薦(Conversational Recommendation)以及會話結構式知識庫搜索(Conversational Structured Knowledge Base Search)等等。這里要強調一下會話搜索(Conversational Search)和對話系統(Dialogue
6、System)的區別。二者之間的差別并不大,但是有一些關鍵的區別。例如對話系統有以下特點:1)目的是與用戶在寬泛的主題下談話,2)可能包含搜索式或者非搜索式的對話。而對于會話搜索來說,往往包含比較明確的目標,即用戶在會話中通過修改查詢來明確自己的搜索意圖。但是二者有一些需要共同關注的點,包括:怎樣去實時地理解用戶的意圖,如何去追蹤用戶的對話狀態并對歷史信息進行進模,如何學習好的策略去干預用戶并引導做用戶喜歡的事情以及如何進行人機協調,等等。舉一個關于多輪會話推薦系統的例子。會話開始,用戶對智能體說“我想要一個新的手機”,接著智能體問用戶 4“你想要什么樣的操作系統?”用戶回答“iOS”。這里智
7、能體會問用戶一些關于意圖的屬性,使得它們可以更好地預測用戶想要什么,盡可能讓用戶能留在當前對話系統,而不是覺得無聊就走了,因此推薦系統也會盡可能快地進行推薦。有的時候,系統的推薦可能會失敗,比如例子中的用戶認為 iPhone 11 的價格過于昂貴,因此拒絕了系統的推薦。但是這是沒關系的,因為大部分用戶都會繼續使用系統,那么接下來系統的回復需要權衡用戶是否知道足夠的信息并在適時的時候(比如用戶接受了某個屬性)進行推薦。圖 2:多輪會話推薦系統舉例二、多輪會話推薦系統實例所以系統實際上是由兩個關鍵組件構成的,首先用戶對系統提出包含意圖要求的查詢,隨之系統需要采取一系列的措施,去決策詢問一些屬性或者
8、推薦一些商品。決策的過程是多因素影響的,我們將會在下文進行闡述。給定系統推薦的屬性,用戶將需要作出回應,比如拒絕屬性或者表達對該屬性的喜愛度。如果用戶接受這個推薦,那么很大概率他將會結束本次對話,但實際上結束對話一般需要比較多輪的互動??偟膩碚f,會話一般有兩種結果,一個是用戶比較積極,接受了系統的推薦并結束本次會話,另一個則是用戶比較消極,可能就直接中止了會話。因此我們想要優化的是,如何詢問用戶正確的問題,去吸引用戶停留在我們的推薦系統上。主要的研究問題包括:推薦什么樣的商品,詢問用戶什么屬性,以及決定去詢問還是推薦的策略。那么我們的主要目標就是:在盡可能短的互動輪次中給用戶進行成功的推薦。5
9、 圖 3:多輪會話推薦工作流這里來介紹一個我們組發表在 WSDM 2020 上的一篇工作,其主要由一個推薦模塊和一個會話模塊構成。整個模型分為三個階段,分別是:估計階段(Estimation Stage)、動作階段(Action Stage)以及反饋階段(Refl ection Stage),接下來將逐一介紹各個階段。圖 4:EAC 模型 6 首先是一個學習的過程,命名為估計階段(Estimation Stage),我們需要對推薦的商品或者詢問的屬性進行預測,即滿足給定的屬性我們應該推薦哪些商品;以及給定用戶已經確認的屬性我們下一個應該詢問用戶什么屬性。這里我們設計了一個屬性相關的因式分解機,
10、去同時對商品和屬性的排序進行優化。圖 5:估計階段屬性相關的因式分解機接下來是動作階段(Action Stage),系統需要維護一個策略去決定當前應該是詢問用戶某個屬性還是給用戶進行推薦。這里我們利用強化學習 Policy Gradient 算法去進行建模,維護了一個 2 層的前饋神經網絡。其中回報函數由四部分組成,分別是:當推薦成功時獲得一個較大的正回報;當系統成功詢用戶一個屬性時獲得一個較小的正回報;當推薦失敗時獲得一個較大的負回報;當會話持續過長時獲得一個較小的負回報。圖 6:動作階段強化學習 7 最后一個階段就是反饋階段(Refl ection Stage),主要是利用用戶的在線反饋去
11、更新對用戶的建模。一個簡單而有效的方法就是將最近被用戶拒絕的商品作為負例加入到我們的推薦系統中,對用戶的估計進行更新。圖 7:反饋階段強化學習在實驗設置方面,我們使用了真實場景下用戶和商品的互動作為正例,構建了用戶模擬器。在會話開始的時候,模擬用戶會把目標商品“記住”,然后在接下來的對話中根據這個商品給智能體的詢問做出反饋。當智能體給用戶推薦一個商品時,用戶需要根據之前“記住”的商品目標去檢驗推薦的商品是否滿足他的需求;而當智能體向用戶詢問一個屬性是,用戶需要根據“記住”的商品是否包含這個屬性進行回應。圖 8:模擬用戶的交互過程 8 我們采取的評價指標包括 SRk(直到第 k 輪任務的成功率)
12、以及 AT(平均輪次)。根據實驗結果,我們發現EAR 模型在 Yelp 和 LastFM 兩個數據集上都取得了比強基線模型 CRM 更高的 SRk 值。圖 9:EAR 模型效果EAR 模型在會話推薦系統上比已有的模型具有更好的性能,但是它也有一些局限性,比如動作空間太大、忽略了用戶-商品屬性的一些結構化信息。為此,我們提出了一個基于圖上路徑推理的模型CPR,它可以利用圖上路徑的一些限制來更好地進行推理和學習。首先,當用戶提交一個查詢時,他會有一些特定的查詢需求(Requirements),這些需求很大程度上是基于一些屬性的。因此,我們可以將這些屬性中需求傳播到其他的商品(圖 10 中的黃色線段
13、),對于這個過程我們使用了和之前介紹的 EAR 模型中相同的因式分解機進行建模,經過該步驟我們可以更新和當前的用戶狀態最符合的商品信息。圖 10:CPR 模型中更新最相關商品 9 由于智能體接下來決定向用戶詢問的屬性是和剩余候選商品相關的,因此我們還需要將信息從商品向屬性進行傳遞。這里我們利用了剩余候選商品集合的屬性熵來表示和當前用戶狀態下各個屬性分數。本過程詳見圖 11,其中信息傳播為藍色線段。圖 11:CPR 模型中更新最相關屬性在已知最相關屬性和商品之后,系統需要決定何時進行推薦,何時去詢問用戶屬性。這里我們使用了策略網絡(Policy Network,見圖 12)進行建模,網絡結構和
14、EAR 中的較為相似,但是和之前不同的是,這里的的動作空間降低為 2。從實驗結果來看,CPR 模型在會話推薦任務上比其他模型取得了更好的效果,包括 EAR 模型,說明了該模型的有效性。圖 12:CPR 模型的策略網絡 10 四、會話搜索當下面臨的挑戰關于會話搜索和對話系統,我們還面臨一些挑戰。包括如何去對多模態上下文和歷史進行建模,如何融入領域知識以及用戶模型,制定系統的交互策略等等。關于多模態的上下文信息,我們可以更多地利用一些用戶信息例如地理信息、地域偏好以及畫像信息等等,也可以去使用一些搜索上下文包括搜索歷史、搜索結果質量等數據。推薦系統會對這些信息進行隱式的收集,但是有一個問題就是怎樣
15、去避免這些反饋信息的偏向性(Bias)。在多模式會話搜索中,除了對上下文進行建模外,更重要的問題是對會話歷史進行恰當的建模。我們在這里舉一個例子。為了找到正確的位置,我們需要一個從會話歷史到結構化需求的良好映射。我們可以借助對話狀態跟蹤器來處理會話歷史記錄,對話狀態跟蹤的研究可以從口語對話系統開始。我們在這里舉一個例子。給定一個對話歷史,對話狀態追蹤的目的是將它解析成結構化的槽-值對(Slot-value pair)?,F有的對話狀態跟蹤工作大多依賴于一個領域本體(Ontology),它定義了一組時隙和候選值。在這種情況下,對話狀態跟蹤被視為一個分類任務。不同的特征(例如手工提取的特征、語義特征
16、、神經特征等等)都被利用起來。我們可以看到基于規則的模型、生成模型和判別模型,它們通常表現得更好。近年來,隨著大型數據集的面世,研究人員開始在缺乏全面的領域本體的情況下執行對話狀態跟蹤(DST),并通過從對話歷史或知識源生成單詞來處理未知的時隙值。通常情況下,對話歷史被作為編碼器的輸入,然后系統為每個特定的插槽生成一個值。在這里,Seq2seq 模型被廣泛應用,復制機制也被證實是有效的。還有的工作將其視為一個機器閱讀任務,給定一個值槽,系統從對話框歷史中提取相應的值。圖 13:會話歷史建模就多模態而言,需要處理的問題更多。跟蹤多模式對話狀態可以與示例類似(見圖 15),即給定一個用戶的話語,系
17、統將其解析為結構化的表示并給出相應的響應(生成四幅圖像),接著用戶給出反饋。在這種情況下,為了生成準確的狀態,系統需要正確理解圖像的語義、這些圖像的引用并識別插槽,然后推斷出正確的槽值。系統除了要對用戶話語進行表示之外,還要考慮視覺和文本信息之間的異質性,以及細粒度的實體識別等等復雜問題。11 圖 14:多模態交互示例下一個挑戰是融入領域知識。多模態會話搜索系統智能化的另一個大問題在于知識。例如,在時尚會話搜索場景下,為了正確地回答用戶的問題(比如,用戶對系統的推薦的紅色裙子作出反饋“有沒有類似的藍色裙子”),我們需要了解人類對屬性和關系的感知以及關于匹配風格的知識。一般我們可以采用多模態知識
18、記憶網絡來整合知識,這里可以舉一個例子(見圖 15)。在本例中,當用戶查詢關于藍色溜冰服的匹配提示時,匹配的候選對象(如銀色細高跟鞋)可能不會在會話上下文甚至整個訓練語料庫中與之同時出現(Co-occur)。因此,我們使用知識三元組來豐富系統,構建了一個領域知識庫,其中包括由領域專家制定的 300K 以上個三元組,然后使用 EI 樹模型提取特征并存儲在內存網絡中。當接收查詢時,它根據輸入查詢檢索合適的知識并給其添加權重。圖 15:融入領域知識 12 第三個挑戰是學習更好的交互策略,系統需要學會何時進行推薦、何時詢問用戶,又被稱為問題生成 QG(Question Generation)??梢詮娜?/p>
19、個方面進行概念化,分別是輸入(Input)、焦點(Focus)以及感知層次(Cognitive Level)。首先是輸入的形式,不僅包括文本,還包括圖像、知識庫以及在會話搜索設置下對用戶目標的更新理解。在此基礎上,核心問題將是決定“何時問”、“問什么”和“如何問”。傳統的 QG 主要側重于文本輸入,可以由問答系統進行建模。而到了最近,關于 QG 的研究還擴大了來源范圍,包括知識庫和圖像。第二個部分是焦點,是系統去詢問用戶的策略,包括系統何時去詢問以及詢問的內容。在對話的初始階段,用戶可能不清楚自己的意圖,更偏向于瀏覽搜索結果,那么這個時候系統可能會更多地進行詢問。為了學習好的系統策略,我們需要
20、對于用戶的狀態進行追蹤,并做出一些決策或者干預。關于詢問內容,系統需要指出一些對于用戶來說重要的屬性和方面,并使用自然語言去進行表達。這里可以采取一些方法,例如:基于規則的方法(Rule-based Methods,包括 Transformation-based,Template-based)、基于神經網絡的方法(Neural-based Methods)等等。最后是感知層次,目前 QG 正逐漸從淺層次往深層過渡。其中淺層次的 QG 一般考慮單一句子、不需要推理以及先驗知識,使用語義轉換這樣的方法就可以取得比較好的效果。但是,在更加復雜的場景下,我們需要考慮深層次的 QG 問題,包括多跳推理(
21、Multi-hop Reasoning)以及人類提出的問題(Human-raised Question)。對于多跳推理,需要根據上下文的多個句子進行建模,并且使用多條信息進行推理,但是不需要先驗知識。最后是處理人類問題,需要使用所有的用戶輸入并進行多跳推理和常識推理,還需要已知先驗知識。未來可以考慮在一些深層次 QG 問題上進行更多的探究。圖 16:對話策略學習涉及的三個方面第四個挑戰是關于評估與數據集。目前來說,對于多跳對話系統研究來說,最大的瓶頸其實還是在數據集以及評估方式?,F階段最主要的評估方式有兩個,一個是構造用戶模擬器(User Simulator),另一個是使用多回合會話數據集。其
22、中,用戶模擬器需要滿足一定的標準,包括魯棒性:需要在各個場景下工作良好;多樣性:需要覆蓋各種用戶類型和需求;覆蓋度:需要盡可能包括各種可能的用戶例子;擬人化:需要生成自然語言。構造用戶模擬器,可以使用基于規則的方法和基于歷史的方法。關于多回合會話數據集,圖 17 列舉了一部分。我們可以觀察到三種趨勢:從純文本模態向交叉模態的轉變、從單個域擴展到同時處理多個域、著重于對任務型對話系統中搜索與推薦場景的研究。然而,現有的涉及多模態模型以及會話搜索的數據集缺乏真實的交 13 互場景,也無法處理不同的任務。目前仍然迫切需要一個會話式的搜索數據集,它可以利用多模式信息,處理跨域任務、建模用戶配置文件或偏
23、好,并提供知識庫或后端數據庫。綜上所述,我們需要一個相對全面的多模態會話研究環境,支持不同的對話任務。圖 17:目前可用的會話數據集第五個挑戰是將會話搜索擴展到其他的內容搜索,例如結構化知識庫搜索?,F有結構化知識庫搜索的最大缺點是數據庫搜索和自然語言查詢之間的不對稱性,這種不對稱性導致了不完全性(Incompletion)和模糊性(Ambiguity)兩個問題。不完全問題意味著用戶的初始查詢可能不完整。模糊性問題是指用戶的話語中可能存在一些不準確、模糊的描述。圖 18 說明了這兩個問題。給定目標 SQL 和數據庫方案,我們使用兩個用戶查詢來解釋這兩個問題。首先是不完全問題。在第一個查詢中,用戶
24、忽略了“保險”一詞,使得很難識別保險和相關內容。二是模糊性問題。在第二個查詢中,“name”可以識別為“full name”或“short name”。然而,將會話與結構化知識庫搜索相結合還存在一些挑戰,主要是會話策略的問題。首先,我們需要有效地找到最不確定的部分,要求用戶進行確認,不確定性估計的性能決定了我們交互的效率。其次,我們必須設計一個友好的對話協議來與用戶交互。這個問題必須是人類用戶可以理解和回答的,而不是只能由模擬智能體來回答。14 圖 18:結構化知識庫搜索舉例第六個挑戰是對模型中的偏差進行建模。搜索中常見的三種偏差,分別是位置偏差(Position Bias)、流行性偏差(Po
25、pularity Bias)和點擊誘餌偏差(Clickbait Bias)。一般來說,搜索或排序模型是從用戶的隱式反饋中學習的,比如用戶點擊數據,因為它們很容易被大量收集,而要收集用戶的明確反饋是非常昂貴和耗時的。雖然點擊數據很廉價,但它們通常受到許多因素的影響。一個主要原因是,只有部分商品被展現給用戶,并且商品之間并不是被公平地呈現。一個解決辦法是使用逆偏好加權(Inverse Propensity Weight,IPM),即對于那些相關但是不受歡迎的商品賦予較高的權重。五、總結信息檢索已經從單向查詢和基于文本的方式發展到交互式和多模態的形式。很多系統假設用戶已知如何去簡潔有效地進行搜索,但
26、大多數時候,用戶是不確定的并且他們的需求在不斷變化,因此我們需要通過會話搜索來彌補這種不對稱的差距。所以實現會話搜索的挑戰包括:讓用戶在沒有壓力的情況下初始地自由瀏覽、在用戶需要的時候提供幫助以縮短搜索過程。會話搜索可以認為是用戶瀏覽、搜索和對話的無縫連接綜合體,在這里我們提到了關于會話搜索的六大挑戰。目前搜索、對話和推薦之間的界限正在打破,因此為了解決復雜的搜索問題,我們需要綜合考慮更多的因素。15 圖 19:會話搜索的六大關鍵挑戰問答環節文繼榮:謝謝蔡老師,我知道時間給您留的有點短。尤其是最后一頁未來我們如果要做很好的方向有很多工作要做,這個領域還是有很大的空間去發揮的。我的聽的過程中間也
27、看見了很多非常有意思的點,第一個問題我先問一下蔡老師,您剛才提到你們做了一個多模態會話數據集?這個是公開嗎?蔡達成:快要結束了,還沒有真正做完,主要的重點就是用真正的用戶模擬去生成問的還有回答的,就找不一樣背景的用戶,而且給他不同的任務,它會用不同的方式來問問題,回答的人根據這個直接回答,我們希望通過這個能夠找出同樣的問題有很多不同的設置和問法。文繼榮:所以工作量很大。蔡達成:如果你們需要的話電子郵件給我,我們將來肯定會很樂意的分享給大家,因為這個領域需要一個好的引領,不然很難再走下去。文繼榮:我這個問題是幫聽眾問的,不光是做搜索,做推薦,做對話,有很多的數據,但是現在也沒辦法就是這種情況,一
28、個領域要往前快速穩定的發展還真的要有這樣的工作,今天最大的收獲就是您做的團隊開始做這個事情了,如果能分享給大家還是有極大的幫助。蔡達成:對,我覺得評估是很重要的問題,現在大型的評估一定要完成自動的。模擬用戶也很重要,很多人都在做,現在的做法是模擬器要對準 task,所以變成比較單元化。如果真正用的話其實用戶會改變他的注意力,還沒有人真正討論這個問題,第一個演講的裴老師講了,用戶可能喜歡意大利餐,看了之后改變主意喜歡中餐,怎么去處理這樣的問題?這個也是很重要的。文繼榮:對,因為這個問題其實是做搜索也好推薦也好,如果真正做這個領域就知道這可能是最重要的問題。16 今天上午的老師都講到這個問題,如果
29、沒有一個很好的評估方法的話,很多方法是比較難以評價的。劉兵老師的問題也是一樣。蔡達成:劉兵老師是更 open 的。文繼榮:像這種怎么去做。蔡達成:都很難做的。文繼榮:非常難做,您這個也很難。但是我覺得這些東西反正始終得有人做,做出來不是完美的,但是還是會往前推進一大步,跟整個 IR 的發展史上標注了很多數據,但是它至少使得大家有一個公認的東西往前進步。蔡達成:這個我覺得很重要,不然這些數據要發展要很難。很多時候很多好的概念都是在工業界提了很久了才開始接受,你們大團隊應該想一下這種方式,讓全世界能夠更開始的解決一些工業界想要的問題,主要還是數據集的問題。文繼榮:因為我以前也在微軟,工業界確實有很
30、多優勢,比如說它直接上線以后做 A/B Test,有間接的評價你這個方法的好壞。這個也是我們將來要跟它們更多合作的一個地方。蔡老師我最后問您一個問題,因為您今天講的兩個都非常難的問題,如果說它們倆碰撞在一起以后帶來的最大的挑戰是什么?因為它們各自單獨的發展都在往前走,但是這兩個在一起了。剛才說的數據集就是一個大的問題,還有在其它的方面也是一樣。蔡達成:如果我們分開做難題更大,因為每個領域多媒體內容理解,每個領域都要做,如果兩個配合起來其實有更好的可能,有一些歷史信息。把兩個方向綜合在一起,我覺得從領域的發展是很重要的想法,是一個好的方向。17 裴?。核阉鹘灾悄?,智能皆搜索轉載自:AI 科技評論
31、作者:陳大鑫6 月 23 日,加拿大西門菲莎大學教授裴健在第二屆北京智源大會智能信息檢索與挖掘專題論壇上做了智能搜索:從工具到思維方式和心智的報告。裴健,是加拿大皇家科學院和加拿大工程院的兩院院士。裴老師是國際著名的數據科學、數據挖掘和數據管理專家,專長于通過數據戰略制定、數據資產管理、數據資源整合和數據產品設計研發把數據和技術轉化為業務能力和效益。他同時是多家企業的顧問,提供高端戰略咨詢和技術咨詢服務。其論著被引用九萬七千多次。裴健在這次的演講中提出了三個核心觀點:第一,搜索皆智能,搜索以人為核心,以滿足人的信息需求為目的,所以它天然就包含了智能成分。第二,智能皆搜索,我們要做到智能必須要用
32、到搜索的方法,目前人工智能的很多應用都是搜索任務,智能和搜索同行。第三,智能搜索不僅是一個單純的技術問題,更是一個與人相關的問題,我們必須要一起努力,使得每個人都不會被落下,讓智能搜索服務全人類。在演講最后,中國人民大學教授、智源首席科學家文繼榮與裴健老師進行了精彩的問答互動:18 智能搜索和智能推薦可能比我們想象中更深刻地影響到我們每天的生活,比如有一個問題,你的第一反應是不是去搜一下?或者說你想獲取什么信息,你會第一時間打開如頭條、微博、知乎這樣的一些 APP,然后去看它給你推薦了一些什么?做搜索、推薦、數據分析的責任是非常重大的,如果這方面做得不好,在極端情況下就有可能改變我們下一代甚至
33、改變人類的思維方式,改變我們對世界的看法,因為一個人對整個世界的看法更多地是由他接收到的信息、他的經歷所塑造的。如果我們的信息推送和用戶檢索到的信息是有問題的,比如提到的信息是有偏見的,比如我看什么就給我推薦什么,那我就進入了信息減法的世界,我可能會失去了解這個世界的更多可能性。通過這次精彩的演講和問答互動,我們可以從智能推薦或者個性化推薦等技術中看到一些人文關懷和哲學反思。人文關懷:老人會不會因為不會用智能手機、不會用電腦而享受不了智能搜索帶來的紅利?比如說殘疾人和在偏遠地區、經濟不發達地區的人會不會因為達不到智能搜索的入門門檻而被慢慢拋棄?我們應該如何解決這些問題?哲學反思:隨著我們越來越
34、依靠智能搜索、個性化推薦,我們是否會失去了解這個世界的更多可能性?我們是否會失去一部分原有的“自由意志”?究竟是我們馴化了這個信息流世界還是被其馴化?以下是裴健演講正文:今天我報告的題目是智能搜索:從技術工具到思維心智。首先,讓我們來簡單回顧一下搜索的基本概念。在搜索當中,我們假定用戶有信息需求。用戶的信息需求往往不能直接被搜索系統直接理解,于是用戶把信息需求轉化為搜索系統的查詢。搜索系統得到用戶的查詢,找到相應的結果,可能是一些文檔、圖片、圖像或者是生 19 成的內容,返回給用戶。用戶可以根據這些是否是所需要的,產生相應的反饋,搜索系統根據用戶的反饋來決定是否需要去對搜索進行增強。這樣一個過
35、程不斷循環,直到用戶信息需求得到了滿足,整個搜索過程就結束了。這個過程聽起來非常得完美,很簡潔。但在實際當中,搜索并不是那么簡單,要比這個復雜得多。圖 1:檢索的需求分類一、搜索皆智能在實際生活當中,“用戶信息需求是固定的”這個假設命題其實是個偽命題。在很多情況下,用戶的信息需求不斷變化。更麻煩的是,用戶本身可能并不清楚自己的信息需求到底是什么。舉個例子來說,比如我聽說某個小區有新冠肺炎的新感染案例,發出一個“新冠肺炎感染病例”的查詢,那么這個查詢到底是想問什么呢?用戶自己可能并不清楚,在很多時候用戶可能是發出一個查詢先問一下,看搜索引擎給返回什么樣的信息。用戶和搜索引擎的交互過程就是一個探索
36、的過程,用戶的信息需求在不斷變化。在“新冠肺炎感染病例”的例子里,用戶可能想問的是這個感染病例是不是得到了治療?感染病例的具體情況是怎樣的?看到搜索引擎的回答后,用戶可能馬上想到這個感染案例對小區的生活,如出行、購物等,有什么影響?大家可以看到信息需求是不斷變化的,我們在搜索過程中不能假定用戶的信息需求是不變的。信息系統必須想辦法去理解用戶的真實信息需求,為用戶提供探索的工具。因此,搜索本身從一開始就是智能的,因為它把人擺在了整個過程的中心。圖 2:搜索皆智能 20 下面舉個例子來講一下搜索過程為什么是一個探索的過程。在 VLDB-2019 的會議上,我的研究小組發表了一篇社團搜索的文章。和很
37、多已有的社團搜索工作不太一樣,我們假定在每一個網絡節點上都有一個數據庫。如果這個網絡結點是一個人,那么這個數據庫就可以是這個人以往購買東西的整個歷史。如果這個網絡結點是一個論文作者,那這個數據庫就是他以前發表的所有論文的集合。我們關心在這樣一個網絡里面怎樣找到社團?圖 3:社團搜索我們希望社團內成員之間不但有很密切的網絡連接關系,還能在數據庫上有非常相似的模式。這樣社團有什么用呢?舉例來說,在論文作者的數據網絡上,用戶可能關心的是能不能找到那些用數據挖掘方法來研究人臉識別和圖象檢索的社團。我們的搜索首先形成了一個查詢模式 a1。圖 4:查詢模式 a1 示意圖同時,我們的搜索算法還能夠提供針對
38、a1 的各種細化,比如 b1、b2、直到 b8。在這些細化當中我們會專門看各個具體的分支,包括算法具體分支和問題具體分支。這些分支給用戶帶來探索方向和探索方便。這種探索可以進一步往下走。比如說 b8 可以進一步探索到 c1、c2 兩種具體的情況。整個過程是一個不斷深入、不斷嘗試、不斷修正的探索過程。21 二、智能皆搜索搜索皆智能,搜索要用到大量的人工智能技術,所以我們要通過人工智能技術去理解用戶的信息需求。同時,智能很復雜,智能的每一個任務都需要多多少少用到搜索技術。什么是智能?智能是關于連接的,我們需要把不同的數據、不同的知識點連接起來;智能是關于推理的,我們需要對數據、對知識進行相應的推理
39、;智能是關于泛化的,我們有具體的觀察,我們希望通過若干具體的觀察、具體的例子來泛化來概括成通用的規律;智能還需要去做具體化,我們有一些通用的原則,要把它用到具體的事例里面,提高具體事例處理的效率和效果。所有這些都需要搜索相應的數據,搜索相應的知識,搜索相應的連接。所以智能皆搜索,智能離不開搜索,智能必須通過搜索來實現。圖 5:智能皆搜索下面舉個一個我們 KDD 2016 論文中的例子來介紹我們怎么通過搜索來達到知識發現。我們可以在 WordNet的網絡上找到很有意思的一些社團,每一個社團內部非常相似,社團成員之間有很強的關聯,同時,社團之間非常對立,有非常大的差異。圖 6:從檢索到知識發現 2
40、2 當我們把這個問題用在形容詞網絡里面,我們就找到了大家在膠片上看到的 Group1 和 Group2 這樣對立的社團,所以我們把它叫做 gangs in war。大家仔細看,每一個社團內部是一組同義組,Group1 和 Group2 之間是反義詞關系。我們用智能搜索帶給我們新知識,我們可以在詞的網絡上自動發現同義詞和反義詞。圖 7:社團探索示意剛才我們講了搜索皆智能,智能皆搜索,所以智能和搜索是密不可分的,二者緊密結合,搜索和智能同行。這里包括兩個意思,第一,我們需要用搜索的技術來達到更好的人工智能。像我剛才舉的例子,我們可以通過很好的搜索來自動的發現知識,同時我們需要用很多的智能技術和計算
41、來使得搜索更加有效。這里的智能不單單只是人工智能,還包括了很多真正的人的智能,因為我們最終的搜索是為人服務的。圖 8:搜索與智能同行這里舉一個例子,這是我們最近剛剛完成的一個論文,我們研究的是基于 Web-scale 的多語言問答系統。問答系統有很多,在很多商用的搜索引擎里面都有相應的問答功能。當一個用戶給出一個問題,例如說想知道感 23 冒癥狀,搜索引擎可以總結出像下圖左邊的信息卡,這個信息卡上會列出相應的感冒的癥狀甚至是治療的方法。這給用戶帶來了很多的便利,在一定程度上這也是對知識的抽取和總結。圖 9:Web-scale Multi-lingual AQ System當搜索引擎給出這樣一個
42、答案時,這個答案是否滿足了用戶的信息需求?這個答案的知識是否正確?是否有用?我們希望能夠得到用戶的反饋,我們希望用戶用人的智能來幫助機器進行學習。這里有一個挑戰。很多情況下,用戶看過答案但并不一定給出一個顯式的反饋,理解人的反饋是一個非常復雜的過程。在這篇論文里面,我們系統地研究了如何觀察、推理用戶對搜索引擎所給出的問答信息的反饋,如何對用戶的行為進行挖掘,抽取相應的反饋信號,用這些信號來改進我們的 QA 系統。圖 10:Intelligent Search Serving People 24 上圖是在一個全球化商業搜索引擎數據集上面所做的實驗結果。當我們的系統考慮了用戶真正的已知反饋之后,整
43、個搜索效果比不用這個反饋的系統好得多。同時,我們可以看到一個非常有意思的現象:這種智能搜索所發現的知識可以在不同的領域進行遷移。圖 11:智能搜索所發現的知識可以在不同的領域進行遷移舉個例子來說,在整個模型建立的過程中,我們用的是英語數據,在英語數據里面,我們抽取了相應的問答和相應的用戶反饋。英語里發現的知識完全是可以往別的語言遷移,如德語和法語。遷移的效果很好,在法語的數據集上面我們用了很少的大概 5K 的數據就能夠達到如果沒有跨語言的遷移、沒有反饋的時候需要用 50K 的數據才能達到的效果。也就是說,通過應用用戶的反饋,我們能夠大大減少相應的數據需求,我們的確可以通過智能化的方法理解用戶,
44、并讓用戶把人類智能來幫助我們的機器。我們的技術已經在一個大型商用搜索引擎的多語言服務中上線應用。三、智能搜索,與人相關因為搜索的主體是人,所以搜索并不簡單是一個技術問題。最近在紐約時報有一篇很好的文章,題目就是Tech is global.right?(技術是全球化的,對嗎?)對,技術是全球化的。圖 12:搜索關乎人類的方方面面 25 這篇文章談到了很多先進的美國企業把相應的技術和平臺用到別的國家和地區效果不好。這里面涉及到很多因素,特別是很多與人有關的因素,例如說本地化、可理解性、文化、公平性、隱私保護、模型的復雜性、安全性等等。如果我們要把智能搜索做好,就必須密切考慮人的因素。其中,深度學
45、習模型的復雜性是一個重要的因素。我們最近剛剛完成了一篇 KDD2020 的論文在這方面做了一些探索。模型復雜性本身是一個很復雜的問題。在很多場合下,人們可能只是簡單地比較兩個模型之間的準確度或者別的一些性能指標,但哪怕兩個模型的性能在測試集上是完全一樣的,并不意味著這兩個模型的本質是一樣的,也不意味著它們捕捉了同樣的客觀現實。圖 13:Understanding Deep Model Complexity舉個具體例子,上圖這兩個模型在相應的數據點上是完全一致的,但是這兩個模型其實差得非常遠。因此我們需要有一個系統的方法來衡量模型的復雜度、來衡量模型到底有沒有對數據過擬合。我們的 KDD2020
46、 上的論文就在這方面給出了一些新的方法。與模型和搜索方法很相關的另外一個問題是可解釋性,一個模型要獲得大家的信任,它必須有良好的可解釋性。我們認為,模型的可解釋性一定要滿足兩個原則。第一是準確性:如果我用一個模型來解釋另外一個模型,那這兩個模型必須在數學上等價。如果不等價,解釋就可能會有問題。第二,模型的解釋必須是一致的。一致是什么意思呢?如果我有兩個非常相似的樣例,它們相應的解釋也應該非常相似,這才能夠符合人的直覺??山忉屝詥栴}的核心是把一個黑盒子轉化為一個白盒子。圖 14:Interpreting Deep Models 26 我們 KDD2018 的論文通過把一個深度網絡轉化為一個基于內
47、部神經元狀態的向量,給出基于多胞體(Polytope)的解釋。這樣所得到的解釋是精確的:從數學上解釋的模型和原來的深度網絡等價。同時,解釋也是是一致的:如果兩個點很相近,它們落在同一個多胞體里面,它們就會遵從相應的相同的線性分類器,所以它們的相應解釋也會是一樣的。圖 15:Interpretation on the Cloud在今年的 ICDE 論文中,我們把解釋模型推到了云端。以往的解釋工具往往需要知道整個模型的參數,甚至要知道相應的很多訓練數據。在今年的 ICDE 論文里,我們提出可以把整個模型作為一個黑盒,然后給出準確和一致的解釋,不需要知道模型的參數和訓練數據。這里核心的想法是:如果我
48、們有若干的樣例,這些樣例落在同一個多胞體里面,它們就應該遵循同一個線性分類器,于是我們可以建造一個線性方程式系統,用此來為我們提供相應的解釋。關于怎么樣把智能搜索做好,我們講了很多。但是我們應該要充分認識到一點,智能搜索也在不斷地改變我們的心智。圖 16:Intelligent Search is Changing Our Minds 27 在國外大家經常說這句話:如果你遇到一個不了解的事情怎么辦?用搜索引擎查一下(google it)。在國內也有俗語叫:內事問度娘,外事問谷歌。搜索的過程和結果很深刻地改變了人類的思維和學習方式。在某些方面搜索拓寬了我們獲取信息的渠道和速度,使得我們更聰明。但
49、在另一些方面,我們可能會過度依賴智能搜索,在很多地方會變得笨了。這里,信息的準確性和公平性變得非常重要。在這次的疫情當中,我們都知道虛假信息是非常嚴重的一個問題。很多小道消息、虛假消息通過社交媒體傳播產生了很壞的作用。最近推特干了一件很有意思的事情,他們用了一個簡單聰明的辦法來對付虛假消息。他們觀測到有很多人在社交媒體里面看到一個有意思的標題就轉發了,但并沒有看過那個文章。于是推特在你轉發一個沒有看過內容的推特時,提示用戶其實沒有看過這篇文章。這個提示對于降低虛假消息的傳播會有很大的幫助。但是這種幫助是有代價的,它需要我們犧牲一定的隱私。推特需要知道你看過什么才知道你有沒有看過自己轉發的東西。
50、這里有一個挑戰性的均衡:我們到底需要保留什么樣的隱私,怎么樣制止虛假消息的傳播。圖 17:The TikTok Generation我們知道抖音在國內外都非常成功,已經出現了一代新的人類叫作 Tik ToK Generation。它們通過智能的搜索和推薦技術把人與人連接起來,把內容和內容連接起來。在內容創造上 Tik ToK Generation 以及這類新媒體有一些重要的特點,其中之一就是媒體內容本身不是那么重要,反而對媒體的評論和媒體的跟進會更重要。大家經常跑到很多新媒體上并不是看它真正的內容,而是看后面跟著的評論。由于智能搜索和智能推薦技術的發展使得人與人之間的連接、內容與內容之間的連接
51、、人與內容之間的連接更加容易、更加廣泛。很多人原來并不需要互相認識,但是通過這個智能搜索和智能推薦他們會聯系在一起,形成長期的交互,這就導致了我們現在面臨著新一代所謂的熱情經濟。28 圖 18:智能搜索是熱情經濟的關鍵跟傳統的零工經濟經濟相比,熱情經濟有一系列新特點。舉例來說,熱情經濟從業者不斷地產生新內容,不斷地吸引更多的觀眾獲得相應的營收,這是以往很多經濟模式不具備的。同時由于智能搜索、智能推薦和平臺的連接作用使受眾面會大大提高,更多有創意的產品和服務可以以更低的成本推向服務市場,這些也給我們帶來很多新機會和新挑戰。熱情經濟完全是基于新的技術、新的軟件、新的媒體。智能搜索是熱情經濟的核心技
52、術,通過技術的進步使得平臺更加有效、內容開發更加方便、創業更加快捷、創業者和受眾的聯系更加緊密、交互更加方便。智能搜索徹底改變了我們的生活??梢哉f智能搜索已經變成了我們無時無刻、無處不在的需求和工具。智能搜索同時也會產生很多新的挑戰。其中一個核心的挑戰是我們怎么確保智能搜索服務于社會的每一個人,沒有人因為各種限制而被智能搜索遺棄。圖 19:Intelligent Search for All and Social Good舉個例子來說,老人們會不會因為不會用智能手機而享受不了智能搜索帶來的紅利?又比如說,殘疾人、偏遠地區和經濟不發達地區的人們會不會因為達不到智能搜索的基礎設施入門門檻而被拋棄?
53、這些都是我們需要考慮的問題。我們都知道現在醫院掛號經常需要用智能手機來預約,但是很多老人,特別是那些七八十歲、29 八九十歲的老人,并不會使用智能手機,用起來也很不方便。他們怎么才能獲得信息渠道并消費這些信息?這些都是我們做智能搜索的人需要認真考慮和抓緊行動的方向。我個人認為智能搜索遠遠不僅僅是一個技術問題,也遠遠不僅僅是一個人工智能的問題,它是一個非常復雜的全社會的系統工程。三、問答環節文繼榮:對智能搜索和智能推薦來說,所謂的智能就是越來越了解你,以人為中心來了解你,它給你的信息越來越趨近于你過去的興趣和經歷,但是這樣會不會使你失去了解這個世界多樣性的可能?在整個大的框架方面或者在整個研究方
54、向上面,有沒有更多的深刻思考?裴?。褐悄芩阉骰?、智能推薦已經成為下一代人類重要的信息入口,也是非常重要的信息出口。只能搜索把握了這一進一出,對未來的人類有很大的塑造能力。這也許是大家做技術的時候并沒有特別深思的一個問題。我們一點一滴的技術貢獻會怎樣改變未來人類學習的方式、思考的方式和所知所行。這里面涉及很多問題。例如說我們可以通過可適應性使得我們的教育效率提高,使得一個人更容易學習。但是可適應性在一定程度下又可能有缺陷。我們如果過分遷就人類的惰性,就可能會使一部分最聰明的人失去了挑戰更高高度的機會。再例如,到底讓智能搜索受眾學什么?怎么保證整個環境公平性?大家開始去思考,但是遠遠沒有答案。我在
55、演講的最后也強調了這不是簡單的技術問題,這是全社會的很復雜的問題。觀眾提問:感覺像谷歌、百度這些巨頭已經形成了壟斷,其它的搜索引擎或者其它的新的搜索工具經歷了多年都沒有成長起來。請問這些研究智能搜索方向的人除了到這些巨頭公司工作以外,還有沒有更好的出路?裴?。核阉魅栽诓粩嗟貏撔?,現在所有商用搜索引擎最頭疼的事情是越來越多的高質量信息不在公開的互聯網上,而在相對封閉的社交媒體上。例如說在朋友圈有很多質量高的信息源,但這種信息源是通用搜索引擎查不到的。怎樣把這些信息源整合起來形成一種更強大的搜索能力?這是一個有意思的研究方向?,F在很多的搜索跟廣告、商業模式結合起來,是商業驅動、利潤引導。最近原谷歌
56、的兩位高管創辦了一個新公司,這個公司做的搜索引擎 Neeva 號稱不會有廣告,而且要打通一些社交媒體,使得搜索的面更廣。這些新業務模式不管成功與否都是非常有意義的嘗試。智能搜索從就業、創業的角度來說有很廣闊的前景。同時智能搜索會涉及到我們生活中的方方面面,例如說在 IOT 環境下怎么做智能搜索?這些都是現有的面向通用 web 搜索所不能涵蓋的,也會是很有意思的方面。文繼榮:現在搜索引擎不管從主要的核心功能還是到形態上已經幾十年沒有變化了,實際上現在很多東西都在變,比如說裴老師講的熱情經濟,還有國內的一個網紅經濟,現在都是影響非常大的。我昨天看了一個新聞說的非常好玩,浙江余姚區網紅可以評為國家級
57、創新人才,不知道真的假的。實際上這個世界在飛速的變化,可能很多時候你認為沒有變化空間的時候就是會開始很大變化的時期。就搜索來說,我覺得就直觀感受而言還遠遠達不到我們真正想要了解的世界。這次新冠病毒期間,我覺得甚至可以開一個研討會來討論一下這中間的很多問題,人們在獲取信息時出現了很多問題,有虛假信息問題也有信息多樣性問題。這些信息對大家的影響是巨大的,你可以經常感覺到整個朋友圈都在轉發和討論一個信息。尤其大家在家里沒辦法面對面交談,你可以通過控制信息來控制大家的觀點和情緒,這個事情我覺得是非常重要的。我們人類將來會走向更加數字化的階段,從搜索和推薦的角度對信息進行獲取和處理,我覺得我們到了一個全
58、新的時期,我們需要去探索。30 北京大學教授劉兵:開放世界的人工智能和持續學習整理:智源社區 張文濤6 月 23 日,第二屆北京智源大會上,劉兵教授做了開放世界的人工智能和持續學習的報告。劉兵,北京大學講席教授,伊利諾伊州芝加哥分校教授,是數據挖掘,尤其是 Web 信息挖掘領域世界級的領軍人物,他的很多工作在領域內具有重要影響力。圖 1 報告主題開放世界里的人工智能學習和持續學習是很困難也很關鍵的工作,是通向通用人工智能的必經之路。在本次演講中,劉兵教授主要講述了怎么讓機器在開放域里面去學習,而不去專門地干涉機器,讓它和其他的 agent 交互地學習、持續地學習。跟隨讓機器在工作中學習這個主線
59、思路,劉兵教授也分享了近幾年自己相關的一些工作。最后,也對觀眾和文繼榮教授的一些問題給出了很多獨到的見解,相信會給大家帶來很多啟迪。以下是劉兵教授的演講正文:一、傳統機器學習 vs 持續機器學習傳統的機器學習是非常孤立的,有一個任務和一些數據,我們就可以用模型去解決。如圖 2 所示,傳統的機器學習有幾個問題,首先是它要求我們處在一個封閉的世界,我們現在學的東西就是我們所有將來會看見的東西,而機器在使用的時候不會看見任何新事物;另外,知識在不同的任務中沒有任何積累。但現實世界相當復雜,不可能所有事物都在隨時學習,同時世界也在時刻發生變化。想要解決這兩個問題,就需要在開放世界中去學習。31 圖 2
60、:傳統機器學習的局限與之相對的持續學習有兩個典型例子。一是自動駕駛,真實路況十分復雜,此外還有各種各樣的突發狀況,沒辦法把所有的情況都考慮進去。但我們人類很善于處理這些情況,即便一個從來沒有見過的場景,人也大概知道該去怎么處理,但機器在這種場景下就會比較麻煩,這就是開放場景的特征。另一個是對話機器人,因為語言高度的靈活性,它在設計的時候無法預測用戶的問題。即使是在一個很小的領域,如訂車票,用戶的表述也可以讓工程師無法想象。所以,有沒有一種辦法能讓機器自己去學習?這就是一個持續學習(Continual Learning)的問題。人類在持續學習方面并不存在問題,我們知道如何將不知道的東西慢慢學下來
61、。知識是積累的,人在對話的時候,能夠一邊對話一邊學習。持續學習,最早也有人叫終身學習,具體任務就是當我們已經在 1-N 這 N 項任務上都完成了學習,當我們碰到第 N+1 項任務怎么用之前 N 項任務中學到的知識來幫助這項任務的學習。圖 3:持續機器學習架構 32 我們要用過去的知識幫助學習下一個任務,一個任務學習之后會存到下面的知識庫(Knowledge base)里,知識庫同時也可以進行反饋,實現在工作中的繼續學習。持續學習是一個不斷學習的過程,我們不能在學習的過程中遺忘之前學到的知識,研究持續學習方向的很多人都在致力于解決這一問題。這涉及到知識積累與適應(Adaptation)的問題,適
62、應即是針對新的情況做出處理。最后,是圖 3 中上方橙色的線,表示我們需要在工作中、在實際應用中去學習。劉兵在列舉了一個關于自動駕駛的簡單例子,他們當時在上海實驗一臺自動駕駛車輛,當到達一個地方,車在車前檢測到一個小石子后停止了前行,只能讓駕駛員負責駕駛。這種情況其實很容易處理,如與駕駛員做一次交互,當被告知沒問題后就可以繼續行駛。圖 4:封閉世界的假設與開放世界還有一種情況,如遇到一個沒有見過的新的問題形成了一個新的任務,只要學習這個任務后,下次遇到同樣的任務就會有經驗,即不要有封閉世界假設,因為真正的世界很難假設。封閉世界假設的定義也很簡單,如圖 4,我們的測試數據的類是訓練數據的一個子集,
63、也就是說在測試集里不可以出現新的東西,但如果不知道新的東西就不可能自己去學。而開放世界假設這兩者不是互相依賴的,也會有新的事物出現。在實際情況下,需要自己去學習處理這種情況。圖 5:在工作中學習 33 而對于在工作中學習,社會科學研究顯示:大概 70%人的知識是通過工作獲得的,這也是很重要的一部分。如在自動駕駛的場景中遇到一個陌生的物體,機器不知道能不能通行,但如果前面有一輛車正常行駛,自己就也可以正常通過。對于 AI agent 也是如此,真實世界非常復雜并且在持續發生變化,我們很難把所有的現象人為地設置進去,因此在工作中學習非常重要。圖 6:在開放世界中學習的步驟總的來說,我們在開放世界中
64、學習的時候有以下幾個步驟:第一步就是需要能夠在一個開放的環境下發現新的任務,然后發現未見過的新類型,最后累積已經訓練過任務的知識來服務于之后的學習。同時我們的系統需要建立交互的自監督,當機器對一件事不確定的時候,可以通過與人和環境的交互,在工作中獲取一些信息。二、持續學習的挑戰圖 7:持續學習的兩個挑戰 34 持續學習有兩個主要的挑戰,一是如何能夠持續學習新的知識而不會將以往的經驗遺忘,這被稱為災難性遺忘。比如在現在廣泛使用的神經網絡模型中,知識被存儲在網絡的權重里,學新的東西就會把過去的權重改變,等于說把過去的東西遺忘了,這樣會產生很多問題。第二個挑戰是,機器之前可能學過很多東西,有些東西有
65、用,有些東西沒用,我們如何選擇有用的東西也是一個問題。三、現有的方案圖 8:DOC 結構圖我們來看一下現有的一些工作,如圖 8 所示,DOC 改進自一個傳統的 CNN,網絡的最后一層改成 Sigmoid 層,變成一個 One-Against-The-Rest 的分類器,接著設置一個閾值,來剔除掉不確定分類的樣本,從而檢測出不屬于訓練樣本類別中的樣例。圖 9:L2AC-meta-learning 結構圖 35 另一個工作 L2AC-Meta-Learning 是通過元學習來進行的,它的思想是去比對見到的東西和以前見過的哪些東西比較相似,對于一個樣本,我們通過元學習中訓練得到的距離來判斷是否屬于已
66、經見過的類別。我們通過以上的技術來使系統更好地發現新的類別,更好地服務于持續學習。圖 10:災難性遺忘的解決辦法對于災難性遺忘問題,也有相應的模型??梢詫⒛P偷膮捣殖蓛刹糠?,一部分對于不同的任務來說都是相同的,可以學到一些通用知識。另一部分則是對于新的任務和樣例動態生成的,因此新的任務不會影響舊的權重。上述方法能讓我們的模型不會遺忘已經學到的知識,但仍然幫助不了新的任務。而對于怎么使用過往的知識,這個可以用 KAN(Knowledge Accessibility Network)系統來解決。它和遷移學習比較相似但又不完全相同,遷移學習一般假設目標數據不夠,而我們這個場景目標對象也有數據,而且
67、遷移可以來來回回發生,并且能自動地從過去的任務中挑選有用的知識。圖 11:KAN 結構圖 36 如圖 11 所示,這個模型大致的思路是,訓練兩個模塊,第一個是訓練一個 Binary Mask,來屏蔽掉過往知識中對現在任務沒有幫助的部分,從而避免這些無用知識的影響。第二個部分是主要的持續學習模塊,它基于這個訓練好的 Mask 能更好地將屏蔽過后剩下的有用的知識遷移到新的任務上。四、在對話中的持續知識學習圖 12:對話中的持續學習在對話中做持續學習,要求我們不把形式定死,而是能夠意識到自己不知道的信息,并在對話中進行學習。這種情況在人的對話場景下是十分常見的。圖 13:對話中持續學習的舉例舉個簡單
68、的例子,可以看到圖 13 中的 USER2 在和 USER1 對話時不知道斯德哥爾摩的信息,在對話的過程中學習到了這個信息,并把這個信息運用在和 USER3 的對話中。37 在對話里有很多可以學習的方式,第一個就是直接抓對話里的知識,然后就是通過提問的方式去獲得正確的信息,最后如果不能回答用戶的提問我們也可以問一些和這個問題有關的其他問題,基于這些問題來做推理。所以,第三種形式基本把前兩種包含了,這也是我們主要關注的一種設定。圖 14:對話中持續學習的問題定義具體來說,我們可以類似知識圖譜將知識看作一個三元組,當我們面臨一個封閉世界的詢問,即三元組中的概念。我們在之前積累的知識庫中進行判斷,但
69、如果面臨一個開放世界的問題,即概念在知識庫中不存在,那么它就是一個開放世界查詢。我們需要通過和用戶的交互獲得一些可以幫助推理的事實,來解決這樣的提問。圖 15:CILK 原理圖 38 我們可以看到一些解決這樣問題的模型,比如 Continuous and Interactive Learning of Knowledge(CILK)。在這個 CILK 處理詢問的例子中,我們將自然語言的提問通過語義解析類似的過程處理成一個三元組的提問,如圖 15 所示,當系統不知道“處在哪個國家”含義的時候,系統向用戶提了一些提示性的問題獲得“處在哪個國家”的關系例子,那么我們通過這樣交互中得到的事實信息,通過
70、模型的推理模塊進行分類,就可以得到問題三元組的答案。五、總結圖 16:報告總結傳統機器學習是通過人把數據喂給機器去學,在封閉的世界里學習。將來的問題是怎么讓機器在開放域里面學習,不需要人專門地干涉機器,讓它跟人和環境自主地交互和學習,持續地去學習,這是非常難的問題。當前的許多研究仍舊比較簡單,很多事情我們可以現在開始著手研究。39 美國亞利桑州立大學教授劉歡:挖掘社交媒體虛假信息的挑戰整理:智源社區 王建勇6 月 23 日,美國亞利桑州立大學教授劉歡在第二屆北京智源大會上做了挖掘社交媒體虛假信息的挑戰的報告。圖 1:劉歡報告現場劉歡,是社交媒體數據挖掘領域的領先學者。劉歡的研究興趣集中在數據挖
71、掘、機器學習、社會計算等方面,并在社交媒體挖掘領域做出了卓越的成就,因此在 2014 年獲得了美國總統創新獎。同時,劉歡是社會計算、行為文化建模和預測國際系列會議的創始組織者,也是大數據前沿中的數據挖掘和管理一書的主編以及社會媒體挖掘:導論一書的合著者,目前是 AAAI、IEEE、ACM、AAAS 的會士。根據 Google Scholar 統計,其論文引用高達 50000 多次。每年的 315 晚會都會揭穿一批虛假的商品,引發社會的廣泛關注。然而在社交媒體上,也存在著大量的虛假信息,這些虛假信息給社會經濟帶來了極大的危害。相對于實體商品而言,社交媒體上的虛假信息沒有實體形態,表達的是一種觀點
72、或者感受,因而更加難以處理。虛假信息挖掘是社交媒體挖掘領域中一個非常重要的問題。在本次報告中,來自亞利桑那州立大學的劉歡主要介紹了虛假信息的特點危害性以及相應的挑戰,其主要的觀點有:1.社交媒體中的虛假信息是時刻存在的,社交媒體中的虛假信息危害十分巨大,能夠造成無法估量的經濟損失;2.社交媒體虛假信息的挖掘是一項挑戰性很強的工作,其挑戰性來自于虛假信息的數據的收集、檢測,解釋以及對于虛假信息的緩解和防范等方面;3.在社交媒體的虛假信息挖掘上,數據是十分重要的,但是大規模的標記數據是不可行的。對于虛假信息的防范可能需要多學科的聯合。40 劉歡在報告中用新冠疫情信息在社交媒體上的傳播作為例子闡述了
73、虛假信息在社交媒體上傳播的危害性。特別是在健康與生命領域,虛假信息的傳播不僅僅會導致經濟損失,更嚴重地還會危及人民生命。在這次新冠疫情中,虛假信息在社交媒體上傳播,也給疫情的防治帶來了巨大的困難。對于病毒的理解不夠深入以及感染人數的急速驟增,共同導致了網絡上虛假信息泛濫,加劇了社會恐慌。涉及藥物的虛假宣傳,導致公眾對于濫用藥物,進而威脅生命安全。因此,社交媒體虛假信息挖掘是社交媒體挖掘的重要任務,具有重大的經濟和社會價值。下面,是智源社區編輯整理的劉歡演講要點。一、社交媒體信息需要“打假”虛假信息檢測并不是一個新的問題,它一直貫穿于社交媒體的發展進程中,并對社交媒體的發展不利影響。首先,我們要
74、先對相關概念進行了解,錯誤信息和虛假信息是其中最為基礎的兩個概念,錯誤信息包含虛假信息、虛假新聞、謠言、都市傳說、垃圾郵件和釣魚網站。在對虛假信息有所了解之后,我們應該如何處理虛假信息呢?圖 2:虛假信息的概念在 SIGKDD-2019 的會議上,劉歡的研究小組發表了關于如何定義、操作以及檢測社交媒體中錯誤信息的文章。關于虛假新聞和虛假信息的研究,在社會科學領域已經開始很久了,這篇文章建立在早期的研究結果的基礎上,。此外,劉歡團隊已經發表一本關于虛假新聞檢測的書,并且還有一本將會在近期發表。這些書對已有工作進行了介紹,并且對現有的算法進行了改進,提升了算法的檢測能力。在社交媒體中,存在很多誤導
75、性信息:1.用健康、保健產品來替代藥物,例如社交媒體中發布的未經證實的“預防措施”和“治療手段”;2.各種陰謀論,例如在實驗室中設計流行性生物武器的論調;3.欺詐和詐騙信息,例如虛假的疫苗信息和虛假的捐款網站等。41 有時,甚至官方的新聞媒體也會出現發布錯誤健康信息的情況,人們往往對相關健康問題缺乏足夠的認知,容易受到錯誤信息的影響,在缺少治愈方法的情況下,人們通常會絕望地相信自己在社交媒體上檢索到的任何“治愈方法”,在疫情期間,這個問題曾在世界各地出現。由于陰謀論可以通過多種方式進行傳播,導致其難以被檢測和阻止,此外,人們心中的恐懼與恐慌也加速了陰謀論的傳播。近年來,社交媒體已經成為陰謀的主
76、要傳播途徑之一,在疫情期間,陰謀論也大量出現在社交媒體中,例如新冠病毒是人為投放的。社交媒體因其易于訪問和廣泛傳播的特點逐漸成為信息共享的流行方式之一。多年來,使用社交媒體平臺的人數正在快速增長,越來越多的人選擇在社交媒體上獲得新聞。但是,社交媒體是一把雙刃劍,它在傳播信息的同時,也會傳播虛假信息。從心理學的角度來看,我們作為人類非常容易受到假新聞的攻擊。社會科學中的“確認偏差理論”表明,人們傾向于相信符合其現有知識的信息,無論它是假的還是真的。此外,虛假新聞可能會對社會產生不利影響:它可能會使讀者困惑,誤導人們獲取虛假信息。圖 3:社交媒體使用情況在現實生活中,充斥在社交媒體中的錯誤信息導致
77、了非常嚴重的損失,例如由美國聯邦貿易委員會公布的數據顯示,在疫情期間,錯誤信息的傳播已經為美國帶來數千萬美元的直接損失,間接損失更是達到數億美元。如何處理這些錯誤信息,已經成為一個亟待解決的問題。42 圖 4:新冠病毒虛假信息造成的危害(數據來自于 FTC)二、信息打假,困難重重虛假信息充斥著社交媒體,但打擊虛假信息卻困難重重,原因到底出在哪里呢?劉歡老師以假新聞為例進行了闡述。首先,實際場景下的假新聞檢測并不像機器學習比賽那樣,能夠獲得一個已經有標簽的數據集,并對各類方法的效果進行準確的評估。其次,假新聞檢測的復雜性往往體現在多個維度上,只從一方面著手并不能完全解決問題。目前,我們所面臨的緊
78、迫挑戰主要在于數據,檢測,可解釋性和虛假信息的緩解與遏制等方面。之后也將著重闡述虛假信息的緩解與遏制相關內容。圖 5:虛假新聞檢測的難點對于虛假信息檢測,如果我們需要信息的真實標簽(Ground Truth),那么就必須進行事實核查(Fact-checking)。但事實核查不僅需要領域專家的參加(如下圖中對有關沃爾瑪的虛假信息辟謠的例子),還往往伴隨著密集的勞動和大量的時間消耗。那么面對這些問題,我們應該如何快速獲得信息的真實標簽呢?43 圖 6:事實核查面臨的挑戰與舉例答案就是必須依靠數據來快速獲得事實。以 COVID-19 為例,與 COVID-19 相關的數據集是橫跨多學科多領域的,包括
79、時空數據、社交媒體數據和學術文章等。雖然有很多相關的數據,但人們可能沒有途徑去獲得這些數據?,F在已經著手開始構建一個元數據倉庫(Meta-data Repository),旨在將這些分散的、異構的公開數據集中起來,并希望以此推進相關領域的合作。圖 7:COVID-19 數據倉庫對于假新聞檢測中的挑戰,主要體現在新聞內容和社交情境(Social Context)上。自媒體還沒有興起的時候,官方媒體在新聞發布前,都會對新聞的內容進行確認,這很大程度上遏制了假新聞的產生。但現在的很多新聞,會故意在內容上誤導讀者,以此博人眼球,新聞發布前也沒有進行內容核查。對于這些新聞,由于其主題、風格和媒體平臺的多
80、樣性,檢測難度急劇增大,以前一些有效的檢測方法也可能失效。此外,對于社交媒體,情況又有所不同。社交媒體中的互動,如“點贊”、“踩”、“評論”等,雖能用于幫助假新聞的檢測,但其數量巨 44 大,不完整,無組織,有噪聲。因此如何找到高效的方法來利用這些豐富的社交信號,也是我們亟需解決的一個問題。圖 8:虛假新聞檢測的挑戰可解釋的假新聞檢測,并不是對假新聞背后的因果關系進行闡述,而是在新聞內容或評論中找到支持判定結果的部分??山忉屝允侵匾?,因為我們不能完全依靠數據,我們還需要依靠專家的領域知識。如果我們能夠提供這些可解釋的特征,那么這將可以幫助并鼓勵專家與數據之間的協作。圖 9:可解釋的虛假新聞檢
81、測虛假信息風險緩解(Mitigation)面臨著諸多挑戰。首先,人們可能會產生疑問,虛假信息風險緩解是否要比虛假信息檢測更容易?但實際上,風險緩解和檢測是兩個不同的問題,不論檢測的準確率有多高,我們都不能保證成功地進行了風險緩解。作為計算機科學家,我們經常對數據驅動的方法非常自信,但事實上風險緩解卻要更加復雜。原因在于,風險緩解涉及用戶,而每個用戶都是信息(包括虛假信息)的傳播點,所以風險緩解的復雜度體現在新的維度上:1.用戶有自己的判斷和觀點。對于相同的信息,不同的用戶會有不同的反應;2.用戶 45 在社交媒體上不是孤立的。圖 10:虛假信息風險緩解面臨的主要挑戰緩解虛假信息的負面影響面臨的
82、困難恰好解釋了“愚蠢”這個詞的含義,即“知道了真相,看到了真相,但依舊相信謊言”。然而這種“愚蠢”比任何疾病都更有傳染性。用戶或多或少存在不理性的情況,雖然我們可能自我感覺良好。我們可以問任何一個人這樣一個問題:“我們易受到虛假信息的影響嗎?”人們通常會回答:“不,我對假消息免疫。別人可能會被假消息欺騙,但我不會?!比欢芈暿倚‥cho Chambers)讓我們更加固執己見。我們可以檢查一下我們的社交網絡,我們能從中找到不同的意見嗎?往往當強烈的反對意見在一個群組里出現時,很快就會有人退出群組。另外互聯網的“過濾氣泡”(Filter Bubbles)讓我們的信息來源無形中受到了限制,我們能
83、看到的都是我們想看到的,而其他的重要信息都被這無形的“過濾氣泡”過濾掉了。我們可以看到,自己每天的新聞來源基本來源都非常有限,而我們僅從這些有限的來源中獲取新聞顯然是不夠的。這告訴我們,我們不僅要做到開放包容,還要承認自己也會犯錯誤。圖 11:用戶本身存在缺陷 46 除上面所提到的外,還有一些挑戰不容忽視。通常我們都會急切地想要傳達自身的想法,但卻忽視了會話接受性(Conversational Receptiveness),即忽視了如何讓自己的觀點更容易被人接受。另一個問題在于,人們在日常生活中往往會犯比較低級的邏輯錯誤。比如誤認為“如果AB,那么 A B”。圖 12:信息打假的經驗與教訓總結
84、整個報告,我們了解到了以下幾點:1.假新聞檢測是困難的,因為目標和主題都是動態的。2.數據是關鍵,但想要快速地標注大量數據是不切實際的。3.在新聞產生的前期進行檢測是至關重要的,因為后期檢測中即使使用數據驅動方法效果也有限。4.風險緩解并不容易,因為每個人都有自己的偏好。圖 13:未來展望 47 為了應對這些挑戰,我們需要多學科的共同研究。整合不同學科的理論,將數據驅動的方法與其他學科的方法結合起來,例如在社會弱監督下進行學習。那么如何將信息檢索和挖掘的技術或算法用于幫助對抗虛假信息呢?劉歡認為這之中還有很多工作要做,需要更多的人投入進來?,F在中國在這方面做得很好,相關研究的資金充足,也有大量
85、人才的投入。劉歡的學生 Kai Shu(上圖)也將繼續進行這方面的研究。問答環節文繼榮:我先問劉老師一個問題,虛假信息的檢測重要性是無可置疑的,在將實驗室技術應用到產品里去這方面,你有沒有一些經驗跟大家分享?假如今日頭條要開始在我的內容推送里面加入虛假檢測,它應該怎么考慮這個問題?劉歡:虛假檢測很難,像今日頭條、Facebook、Twitter、Instagram,它們都有大量的用戶人群。如果只是簡單地將某些人或網站加入黑名單,由于檢測結果存在“假陽”和“假陰”,這樣可能會損害到公司的業務,但是不做又不行,引發謠言會招致處罰。更重要的是,這個工作光靠計算機科學家是不夠的,必須要和社會學家、記者
86、協同進行才可以。一個方面是人性,談到人性方面的時候,我有一次在另外一個地方作報告,下面有一個非常著名的計算機學家,他就說:“這很容易,直接告訴那個人這是假新聞就行了”。但你告訴他這是假的,他可能還會來跟你吵架,還有可能比以前更堅決地相信這件事情,這就是在美國大選的時候出現的事情,好多人利用這些東西來分化人群。那該怎么辦?裴健老師剛提到一個辦法,其實就是延緩一下,如一兩秒鐘,我們必須提醒用戶,無論是運用顯式還是隱式的延緩策略。文繼榮:在實際情況中,虛假信息的定義很難。比如在這次疫情發展期間,在疫情初期的很多觀點在當時是很難判斷的,當時很多東西還處于未知的狀態,大家可能提出不同的看法,如說到底傳不
87、傳人?是否應該采種隔離措施?在今天這些問題可能是有答案的,但是那個時候是沒有的,是一個發展的過程。如果我們給它們貼上了虛假信息的標簽,可能會阻礙這些觀點的傳播和碰撞,這些情況的存在就使得問題變得更加復雜。劉歡:我們需要意識到,科學發展的進程中,其實是一個不斷糾錯的過程。如果我獲得更多的數據,我就能得到更多的信息,就更加接近真實的答案;相反,如果我沒有太多的數據,我就無法做出準確的判斷??茖W是一個進程,是在不斷發展的。虛假信息的檢測,同樣需要數據的支撐。文繼榮:我覺得從這個思路來講的話,這種虛假信息的鑒別可能就像剛才劉老師說的,在很多時候并不是非黑即白的一個情況,甚至說它這里面可能有部分是真的,
88、有部分是存疑的,有部分是已經被證實的。但是在鑒別虛假信息過程中,我們怎么才能對明顯有害的部分進行控制?又同時不能阻礙真理越辨越明的過程。劉歡:這確實是這樣,特別是在國內,為什么?國內經常會出現一哄而起的情況,其實真理是越辨越明的,需要一定的時間。我小的時候經??吹絿鴥扔腥巳ゴ螂u血的情況,后來有一段時間流行吃生的茄子,在當時即使你去制止這種情況,也很少有人會相信。不過挑戰就是機遇,這也證明我們的方向還有很長時間可以去做。48 智源首席科學家文繼榮:下一代智能信息檢索技術的發展方向整理:智源社區 秦緒博在 2020 年 6 月 23 日上午的“智能信息檢索與挖掘專題論壇”中,本場論壇的主持人,智源
89、首席科學家,中國人民大學高翎人工智能學院執行院長文繼榮教授做了本場論壇的開幕致辭。致辭中,文繼榮教授對本場論壇所覆蓋的主題智能信息檢索與挖掘的發展歷史和未來的研究方向做了介紹。自上世紀末以來,搜索引擎技術已經成為了人類從大規模數據中獲取信息的最為主要的,也是最為成功的手段之一,先進的商業搜索引擎使得人們獲取信息的手段相比二十年、五十年前有了飛躍的進步。但是在經過此前的高速發展階段之后,在最近的十年,人們搜集和獲取信息的方法和技術出現了一個相對停滯的階段。文繼榮指出,現有的信息檢索技術需要一輪新的變革,而未來的下一代信息檢索技術的一種可能的解決方案,應當是基于智能交互的個人智能信息助手,它可以支
90、持自然語言交互,并具備知識增強和個性化滿足用戶信息需求的能力。最后,文繼榮指出,下一代智能信息檢索技術的發展,需要多個研究方向的學者們通力合作,并對智源研究院智能信息檢索與挖掘平臺的未來發展進行了展望。以下是智源社區編輯整理的文繼榮演講要點。一、信息檢索技術的歷史和現狀智能信息檢索與挖掘是智源人工智能研究院成立的第三個主要研究方向,它聚焦于智能信息檢索和數據挖掘,主要目標是如何利用現代的人工智能、數據挖掘等相關技術,來幫助人們更好的獲取信息。眾所周知,搜索引擎是目前人們獲取信息的主要手段,也是商業上比較成功的工具,在谷歌、百度等偉大的公司的努力下,目前我們的信息獲取能力,相對于二十到五十年前已
91、經有了飛躍式的進步。圖 1:搜索引擎的背景但是現在回過頭來看,我們可以發現,經過上世紀末、本世紀初的飛速發展以后,我們的信息獲取手段在最近十年進入到了一個相對停滯的階段,好像大家都已經對現有的信息檢索技術比較滿意了。然而另一方面,互聯網上的數據總量在過去十幾年內爆炸式地增長,但我們使用的信息獲取工具卻并沒有相應的隨著發展。我們開 49 設這個方向,是希望能從學術上,甚至從產業化上,為人類的下一代信息獲取工具的發展做出貢獻。在 2000年左右,谷歌曾經提出,要把世界上所有的信息都組織出來為人所用,從目前來看,這樣的目標還遠未實現。二、下一代的智能信息檢索工具我們認為從整個信息檢索技術的各個不同方
92、面來看,現有的技術都需要一次新的革命和飛躍。例如從用戶的角度來看,用戶現在需要更豐富的手段來獲取信息,除了傳統搜索需求(例如搜索網頁和圖片)之外,用戶還希望搜索引擎能完成更加復雜的信息分析,甚至直接輔助進行復雜決策;從信息獲取的場景來看,用戶希望能隨時隨地獲取信息,比如使用手機或者自動駕駛的時候,而不再像以前一樣只能通過桌面 PC 獲取信息;從數據的形式上也是如此,現在手機環境有很多不同的 App,對應很多不同形式的數據,使得傳統面向 HTML 型網頁的搜索引擎自然顯示出了很多局限性。另外,在搜索結果的評價方面也有很多挑戰目前新數據的獲取方式越來越豐富,那么我們要如何評價系統性能的好壞,如何判
93、斷一個搜索系統是否能滿足用戶的信息需求?圖 2:當前搜索引擎面臨的挑戰從去年開始,我們這個方向的智源學者們進行了一系列的討論。我們認為未來智能信息檢索工具的形態,應當是基于智能交互的個人智能信息助手。我們的各位學者們都來自于各個細分的領域,因此需要有一個共同的目標,可以把大家的工作呈現出來,讓大家都能圍繞這個目標去開展自己的研究進一步講,我們希望未來的智能信息檢索系統,能夠充分地利用目前人工智能領域各個相關方向的研究成果,從不同的方面盡可能地提升用戶實際體驗。因此,我們提出了個人智能信息助手我們希望它能支持自然語言交互,支持對話式的檢索;我們希望它能更加個性化,可以滿足你的信息需求;我們還希望
94、它是知識增強的,能夠給用戶帶來知識和答案,解決用戶的問題;最后,我們希望它可以整合不同類型的數據,在各種各樣的數據上進行智能的搜索,充分利用各種形態的數據來滿足用戶的需要。50 圖 3:打造基于自然交互的個人智能信息助手以上就是我們提出的研究路線,我們將從理論、算法和系統等多個方面來解決這個問題。我們也跟其它方向的學者們進行合作,例如數理基礎、認知基礎理論等。我們的目標是,從算法層面上實現基于自然語言的交互,基于深度語言的模型以及知識生成的信息展示,最終構建下一代的個人信息智能助手。三、智源研究院平臺未來的發展目前,我們的各位成員都是來自于北京地區各個高校和中科院的優秀學者,其中還有很多青年學者。我們希望大家在智源研究院這樣的新平臺下,能夠安心地做自己想做的研究,通力合作,為了一個共同的目標,把我們國家在信息檢索、數據挖掘這個方向的發展水平推進到一個新的高度。我們當時提了一個口號,希望經過我們的努力,最后能夠打造一個智能信息檢索與挖掘的北京學派,這個目標實際上也并非那么遙不可及。我們認為,經過我們的合作,一方面在今后吸收更多的優秀學者加入,另一方面跟國內和國際的學術界通力合作,最后應當能夠實現這樣的目標。