《01 孫琦 生成式AI和信息安全-20231123_脫敏.pdf》由會員分享,可在線閱讀,更多相關《01 孫琦 生成式AI和信息安全-20231123_脫敏.pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、生成式AI和信息安全企業的實踐嘗試孫琦我們的一些AI知識儲備0102我們的一些AI實踐和現狀人工智能(Artificial Intelligence)是一門計算機學科,是一門人類嘗試賦予機器模擬人類智能的一門學科。我們嘗試讓計算機系統能夠模擬人類去執行各類任務,比如語音、圖像的識別,處理自然語言以及做一些決策。人工智能發展的三個階段1980年 規則驅動的專家系統2000年 特征+統計學習2012年 大數據驅動的深度學習AI和機器學習的關系人工智能機器學習深度學習機器學習是人工智能學科領域的一個分支,通過數據和統計模型讓機器自動學習和改進的一種方法。機器學習的目標是設計和開發算法,讓計算機系統能
2、夠在沒有明確的編程的條件下從數據中學習,通過模型訓練,機器學習能夠做到識別模式、做出預測和決策等能力。(學科領域)(實現手段)(優化實現)監督學習:通過使用帶有標簽的訓練數據來訓練模型的學習方法 監督學習和無監督學習輸入數據:X訓練模型結果預測輸出數據:Z結果錯誤預期數據輸出結果:Y數據對比模型更新輸入數據:X訓練模型生成樣例無監督學習:在沒有標簽的情況下從未標記的數據中自動發現模式和結構的學習方法深度學習:是機器學習的一個特定領域,利用人工神經網絡模型進行學習和訓練,通過算法和模型讓計算機系統從數據中學習的方法。深度學習模型由多個層次(稱為神經網絡的層)組成,每一層都會對輸入數據進行變換和表
3、示。這些網絡層通過一系列的非線性轉換將輸入數據映射到輸出結果。深度學習模型的核心是深度神經網絡(Deep Neural Network,DNN),它可以通過大量的標記數據進行訓練,從而實現高度準確的預測和分類任務。深度學習人工智能機器學習深度學習深度神經網絡(Deep Neural Network,DNN)生成式AI和深度學習的關系人工智能機器學習深度學習生成式AI生成式AI是深度學習的分支判別模型生成模型是貓判別模型 和 生成模型判別模型(Discriminative Model)和生成模型(Generative Model)是機器學習中兩種不同類型的模型,它們的主要區別在于其對數據的建模方
4、式和應用領域。生成模型主要的優點是信息豐富、處理蛋類問題的靈活性比較強、增量學習以及對于缺失數據的合成;缺點也很明顯,學習過程復雜,成本高昂;判別模型的優點是類間差異清晰、靈活的分類邊界、學習簡單和性能好;缺點主要表現在不能反應數據的特性、需要全量數據的學習判別模型是一種直接對條件概率進行建模的模型。它主要關注的是給定輸入數據,預測輸出類別或標簽的概率分布。判別模型通過學習輸入和輸出之間的關系來建立決策邊界,從而對新的輸入數據進行分類。常見的判別模型包括邏輯回歸、支持向量機和深度神經網絡等。判別模型通常用于分類、回歸和標注等任務。生成模型是一種對聯合概率分布進行建模的模型。它不僅學習輸入和輸出
5、之間的關系,還學習了生成輸入數據的過程。生成模型可以通過學習數據的分布和特征之間的關系來生成新的樣本數據。常見的生成模型包括高斯混合模型(Gaussian Mixture Model,GMM)和生成對抗網絡(Generative Adversarial Network,GAN)等。生成模型通常用于生成新的圖像、語言模型和數據增強等任務。判別模型和生成模型的選擇取決于具體的問題和任務需求。判別模型更關注分類和預測的準確性,可以直接對輸入和輸出之間的關系進行建模。而生成模型更關注數據的生成過程,可以模擬數據的分布和生成新的樣本。生成模型可以用于生成新的數據,但在分類和預測任務上可能不如判別模型準確
6、。數據標簽判別模型標簽非結構化數據生成模型新內容數據和標簽之間的關系數據的分布和特征之間的關系判別模型 和 生成模型生成式AI的監督、半監督和無監督學習傳統的監督、無監督學習,將訓練數據和標注數據喂給模型,可以作出預測、分類和聚類。生成式 AI 的監督、半監督、無監督學習,將訓練數據、打標數據和未打標數據給基礎模型,然后生成新的內容,最終實現文本、代碼和圖片的生成。訓練編碼標簽構建模型判別分類聚類訓練編碼標簽數據基礎模型生成編碼生成文本生成圖像無標簽數據生成式AI和傳統編程、神經網絡的區別傳統的編程方式,需要硬編碼來描述貓的一些特征。神經網絡算法可以通過學習是不是貓的樣本,然后你給出一張圖片它
7、可以判斷是否為一個貓。定義 狗類型:動物腿:4耳朵:2毛皮:有請問這是一只貓嗎?是不是LaMDA、PaLM、GPT 等生成式模型在喂了大量內容后,可以直接問貓是什么,它講給出它所知道的答案生成式AI的定義生成式 AI 是什么?生成式 AI 是人工智能的一個分支,可以根據已經學習的內容生成新的內容。從現有的內容中學習的過程叫做訓練,訓練的結果是創建一個統計模型。當用戶給出提示詞,生成式 AI 將會使用統計模型去預測答案,生成新的文本來回答問題。生成式AI的工作流生成式AI的基本原理是使用概率模型或神經網絡模型,將已有數據的結構和規律學習到模型中,并基于這些結構和規律生成新的數據。模型訓練模型選擇
8、生成數據評估生成結果模型調整評估生成結果生成模型的數學原理生成式模型的分類生成式語言模型Generative language models生成式語言模型 是基于自然語言處理的技術,通過學習語言的規律和模式來生成新的文本。它可以根據之前的上下文和語義理解生成連貫的句子或段落。生成式語言模型的訓練基于大規模的文本數據,例如新聞文章、小說或網頁內容。通過學習文本中的單詞、短語和句子之間的關系,生成式語言模型可以自動生成新的、具有邏輯和語法正確性的文本,如文章、對話和詩歌等。生成式圖片模型Generative image models生成式圖片模型是基于計算機視覺的技術,通過學習圖像的特征和結構來生
9、成新的圖像。它可以從之前的訓練數據中學習到圖像的特征表示和統計規律,然后使用這些知識生成新的圖像。生成式圖片模型的訓練通?;诖笠幠5膱D像數據集,例如自然圖像或藝術作品。通過學習圖像的紋理、顏色、形狀和物體之間的關系,生成式圖片模型可以生成具有視覺真實感或藝術風格的新圖像,如自然風景、人像或抽象藝術作品等。生成式模型的分類生成式 AI 輸入圖片,輸出可以是文本(看圖說話、可視化問答、圖片搜索)、圖片(超分辨率,圖片修改)和視頻(動畫)。生成式 AI 輸入是文本,輸出可以是文本(翻譯、總結、問答、語法糾正)、圖片(圖片、視頻)、音頻(文本到發音)、決策(玩游戲)。輸入:圖片輸出:文本圖像描述圖像
10、問答圖像搜索輸出:圖片超高分辨率圖片修補輸出:視頻動畫輸入:文本輸出:文本翻譯總結問答輸出:圖片圖片視頻輸出:音頻文本轉發音語法糾錯輸出:決策游戲生成式AI的工作原理編碼組件解碼組件生成式預訓練Transformer模型輸入:我今天心情不太好Transformer輸出:巧了,我今天心情也不太好,要不我們一起去找老板聊聊天吧 預訓練:海量數據 數十億參數 無監督學習生成式語言模型學習訓練數據中的語言模式,然后給出一些文本,它們將會預測后面的內容是什么。將用戶的輸入進入 Transformer 模型的編碼器和解碼器進行處理,然后在生成式預訓練模型中進行處理,最終將結果輸出給用戶。Transform
11、erTransformer模型是由谷歌公司提出的一種基于自注意力機制的神經網絡模型,用于處理序列數據,在自然語言處理領域中得到了廣泛應用。作為一種基于自注意力機制的神經網絡模型,Transformer模型能夠對序列中的每個元素進行全局建模,并在各個元素之間建立聯系。Transformer模型中包含了多層encoder和decoder,每一層都由多個注意力機制模塊和前饋神經網絡模塊組成。encoder用于將輸入序列編碼成一個高維特征向量表示,decoder則用于將該向量表示解碼成目標序列。在Transformer模型中,還使用了殘差連接和層歸一化等技術來加速模型收斂和提高模型性能。Transfo
12、rmer模型的核心是自注意力機制(Self-Attention Mechanism),其作用是為每個輸入序列中的每個位置分配一個權重,然后將這些加權的位置向量作為輸出。自注意力機制的計算過程包括三個步驟:1.計算注意力權重:計算每個位置與其他位置之間的注意力權重,即每個位置對其他位置的重要性。2.計算加權和:將每個位置向量與注意力權重相乘,然后將它們相加,得到加權和向量。3.線性變換:對加權和向量進行線性變換,得到最終的輸出向量。通過不斷堆疊多個自注意力層和前饋神經網絡層,可以構建出Transformer模型。對于Transformer模型的訓練,通常采用無監督的方式進行預訓練,然后再進行有監
13、督的微調。在預訓練過程中,通常采用自編碼器或者掩碼語言模型等方式進行訓練,目標是學習輸入序列的表示。在微調過程中,通常采用有監督的方式進行訓練,例如在機器翻譯任務中,使用平行語料進行訓練,目標是學習將輸入序列映射到目標序列的映射關系。數據引用自google和baidu paddle幻覺模型通過學習大量的文本數據,嘗試預測下一個單詞或短語。然而,有時候模型會生成一些不符合語法規則或意義不明的詞語或短語,這被稱為幻覺(hallucinations)?;糜X可以視為模型在生成過程中的錯誤或缺陷,可能由于訓練的數據量不夠、模型的訓練數據質量差、沒有給模型足夠的上下文、沒有給模型足夠的約束導致的?;糜X&提
14、示詞提示詞提示詞是作為大語言模型輸入的一段文本,它可以以各種方式用來控制模型的輸出。提示詞設計是創建提示的過程,從而從大型語言模型中生成期望的輸出。正如我們之前提到的,生成 AI 在很大程度上取決于你輸入的訓練數據。它分析輸入數據的模式和結構,生成內容。因此輸入的質量決定了輸出的質量。生成式模型的分類文本到文本生成模型旨在接收一個文本輸入,并生成一個相關的文本輸出。這種模型可用于機器翻譯、文本摘要、對話生成、故事生成等任務。生成模型可以學。文本到圖像生成模型接收一個文本描述作為輸入,并生成對應的圖像輸出。這種模型可以將自然語言描述轉化為視覺內容,用于圖像生成、圖像標注、圖像編輯等任務。通過學習
15、文本描述和圖像之間的語義關聯,模型可以生成與文本描述相匹配的圖像。常見應用場景:圖像生成、圖像標注、圖像編輯修復。文本到視頻或三維生成模型接收一個文本輸入,并生成相應的視頻或三維模型輸出。這些模型可以用于視頻生成、場景合成、三維模型生成等任務。模型可以學習從文本描述到視頻序列或三維模型的轉換過程,生成與文本描述相符的動態視頻或立體模型。常見應用場景:視頻生成、場景合成、三維模型生成。文本到任務生成模型旨在根據文本輸入執行特定任務。這些模型可以接收自然語言指令或問題,并生成相應的任務執行結果。例如,問答生成模型可以接收問題,并生成相應的答案;代碼生成模型可以接收自然語言描述,并生成相應的代碼實現
16、。這種模型能夠將文本指令轉化為任務執行的具體操作。常見應用場景:問答生成:根據問題生成相應的答案或解決方案。代碼生成:將自然語言描述轉化為代碼實現。指令執行:根據自然語言指令執行特定的任務,如圖像處理、數據操作等。Model GardenModel Garden 是 Google 的一個開源項目,旨在為研究者和開發者提供預訓練的機器學習模型和相關的訓練和優化技術。這些模型覆蓋了許多不同的機器學習任務,例如圖像分類、物體檢測和自然語言處理等。Model Garden 中的模型分為兩大類:語言模型和視覺模型。語言模型:這類模型可以進行一些特定的語言處理任務,如:提?。‥xtraction):這類任
17、務包括語法分析(Syntax Analysis),它可以理解文本的語法結構。分類(Classification):這類任務包括實體分析(Entity Analysis,識別文本中的特定實體,如人名、地名等)、內容分類(Content Classification,根據內容的主題進行分類)、情感分析(Sentiment Analysis,評估文本的情感傾向,如積極、消極等)、實體情感分析(Entity Sentiment Analysis,評估特定實體在文本中的情感傾向)。視覺模型:這類模型可以進行一些特定的視覺任務,如:分類(Classification):這類任務包括對象檢測(Object
18、Detector,識別圖片中的特定對象)。檢測(Detection):這類任務包括人流量分析(Occupancy Analytics,分析特定區域內的人流量)、人/車輛檢測(Person/Vehicle Detector,識別圖片中的人或車輛)、個人防護設備檢測(PPE Detector,識別圖片中是否有人穿戴個人防護設備)、人物模糊(Person Blur,將圖片中的人物進行模糊處理)。這些模型都是為特定的任務進行訓練和優化的,可以用來解決一些具體的實際問題。生成式AI應用生成式 AI 在文本(生成寫作、AI 筆記、銷售文案、聊天機器人、郵件編寫等)、代碼(代碼生成、代碼文檔、文本轉SQL、
19、Web 應用構建等)、圖片、發音、視頻、3D 等領域都有大量的市場。生成式AI的商業應用內容引用:百度AI開放平臺局限性答案可能是錯誤的可能會產生有害的指引或有偏見的內容因為數據樣本僅限于2021年之前,所以對于世界的認知并不全面ChatGPTChatGPT(chat Generative Pre-trained Transformer)是由總部位于舊金山的初創公司 OpenAI 開發的人工智能聊天機器人。OpenAI 于 2015 年由 Elon Musk 和 Sam Altman 共同創立,并得到了知名投資者的支持最著名的是微軟。它是生成式人工智能的幾個例子之一。這些工具允許用戶輸入書面提
20、示并接收人工智能生成的新的類人文本或圖像和視頻。信息安全場景下的生成式AI應用探索實踐場景:日志分析痛點:日志太多,跨度太大,即使有siem也存在海量日志被忽略或者威脅遺漏等問題需求:通過ML對現有的日志進行處理,并通過生成式AI提供完整的關聯分析和統計現狀:數據的準確性是一個巨大的問題,可能是團隊的技術沉淀不夠也可能是數據的問題場景:智能安全小助手痛點:安全人員工作量太重需求:通過在app內集成小助手,實現交互式信息獲取及指令下達現狀:小助手太幼稚,指令下達有問題,企業內部AI的應用真的有較高的門檻信息安全場景下的生成式AI應用探索實踐UIE(Universal Information Extraction):Yaojie Lu等人在ACL-2022中提出了通用信息抽取統一框架UIE。該框架實現了實體抽取、關系抽取、事件抽取、情感分析等任務的統一建模,并使得不同任務間具備良好的遷移和泛化能力。數據引用:Unified Structure Generation for Universal Information Extraction https:/arxiv.org/pdf/2203.12277.pdf信息安全場景下的生成式AI應用探索實踐THANKSTHANKSTHANKS