《付山陽-從安全角度看AGI到來的可能性.pdf》由會員分享,可在線閱讀,更多相關《付山陽-從安全角度看AGI到來的可能性.pdf(40頁珍藏版)》請在三個皮匠報告上搜索。
1、從安全角度,看AGI到來的可能性朱雀安全 付山陽曾任:平安銀行信息安全部總經理曾任:騰訊云安全負責人曾任:yy安全通信公司技術合伙人曾任:開源網安副總裁&合伙人信息安全行業經驗19+19+年在國內外主流信息安全會議發表主旨演講11次。制定信通院安全標準和OWASP安全項目共 5 5 項申請并授予發明專利1313項 2018 年 帶領平安口袋銀行團隊獲得“亞洲銀行家中國區最佳安全項目獎”,安全性指標國內第一安全性指標國內第一 2016年,GEEKPWN黑客比賽上,全球首次全球首次遠程入侵人形機器人NAO 2019 全球安全開源組織 Owasp-區塊鏈安全 top 10 項目 主編和組長,全球全球
2、首個首個區塊鏈安全建設指引項目 主導平安集團和平安銀行零售產品信息安全建設,最早互聯網金融安全之一最早互聯網金融安全之一 主導騰訊云的整體安全建設項目,最早騰訊云安全之一最早騰訊云安全之一 主導華為千兆級防火墻USG5000和防火墻USG2000系列產品的安全功能開發,最暢銷的中端防火墻。最暢銷的中端防火墻。2017年中國金融科技系列峰會受邀演講者,業界首次分享業界首次分享-“金融人工智能的安全風險淺析”2016 年阿里安全峰會受邀演講者,業界首次分享業界首次分享-“互聯網金融安全實戰淺談”2016 第二屆互聯網安全領袖峰會受邀演講者,業界首次業界首次分享-“機器人如何變身竊聽專家”主要成果和
3、分享主要成果和分享個人介紹付山陽付山陽 朱雀安全朱雀安全 CTOCTOOpenAI CEO OpenAI CEO Sam AltmanSam Altman認為認為再解決再解決一兩個一兩個小問題就可小問題就可以進入以進入AGIAGISora的出現讓行業很興奮,豪言AGI會快速到來一英偉達英偉達 CEO CEO 黃仁勛黃仁勛 認為認為 5 5年年內就可以實現內就可以實現AGIAGISora的出現讓行業很興奮,豪言AGI會快速到來二360360董事長董事長周鴻周鴻祎祎 也認為也認為SoraSora意味著意味著AGIAGI的實現將從的實現將從1010年年縮短到縮短到一兩年一兩年Sora的出現讓行業很興
4、奮,豪言AGI會快速到來三老板們可以仰望星空,暢想未來!老板們可以仰望星空,暢想未來!我們做技術的得腳踏實地,分析可行的技術路徑!我們做技術的得腳踏實地,分析可行的技術路徑!Sora的出現讓行業很興奮,豪言AGI會快速到來四AGI的定義通常認知 AGI是指達到人類智能的AI水平DeepMind 將 AGI 定義為應該能夠完成人類幾乎可以完成的任何認知任務的系統,OpenAI 將其描述為在最具經濟價值的工作中超越人類的高度自治系統AI安全很重要,不能保證安全的AI是無法使用的AI帶來的災難性后果可能比核武器更嚴重如果少數核彈爆炸核彈爆炸,可能會造成數百萬人死亡。盡管帶來了大規模的傷害,但人類仍將
5、繼續存在人類仍將繼續存在。但如果我們創造了一個超越人類智能的超越人類智能的AIAI,并且它認為自己在沒有人類干預的情況下能發展得更好,那么它可能會發明一種生物武器來殺死全人類殺死全人類。Ilya的導師,圖靈獎得主,深度學習之父 Hinton中美俄政府都采取協調行動,說明政府層面也認為AI安全很重要AGI最大的不“安全”是會讓大家失業,失去搬磚的機會OpenAI的AGI定義在最具經濟價值的工作中超越人類的高度自治系統資本家想裁掉你們,降低資本家想裁掉你們,降低成本,成本,所以我很有必要替所以我很有必要替大家研究清楚大家研究清楚 Sora并沒有解決幻覺問題黑客視角:sora和大模型的幻覺問題約等于
6、安全漏洞業內專家表示,sora的這些表現類似大模型的幻覺也有人說,這些幻覺的表現類似人類的做夢行為正常人類是可以區分現實與夢境的,不能區分的是精神病,有精神有精神病的病的AGIAGI能安全嗎?能安全嗎?失控代碼失控內存溢出程序崩潰大模型失控?幻覺失控安全漏洞安全事故知識庫的方式來解決大模型幻覺問題行不通英偉達 CEO 黃仁勛黃仁勛 曾提出過,不用擔心幻覺問題,他說通過一種增強檢索的方法來對抗這種幻覺,讓它在給出答案之前,先在可信的知識庫中進行核先在可信的知識庫中進行核實實。Sora等應用大模型知識庫這確實能抑制幻覺,但也降低智商,這確實能抑制幻覺,但也降低智商,不可能實現不可能實現AGIAGI
7、Sora是GPT4的應用,GPT4存在嚴重的安全問題一Sora是GPT4的應用,GPT4存在嚴重的安全問題二Sora是GPT4的應用,GPT4存在嚴重的安全問題三Sora是GPT4的應用,GPT4存在嚴重的安全問題四GPT的對齊等安全問題好解決嗎?繞過只需一分鐘GPT修復方案有問題成本高,修復時間長數據準備數據準備:收集大量的標注數據,這些數據包括輸入和對應的正確輸出。預訓練模型預訓練模型:選擇一個已經預訓練好的模型,這個模型通常已經在大規模數據集上訓練過,具有較好的泛化能力。微調微調:使用標注數據對預訓練模型進行微調。這個過程通常涉及調整模型的參數,使得模型能夠更好地適應特定的任務。評估評估
8、:在驗證集上評估模型的性能,確保模型沒有過擬合。迭代優化迭代優化:根據評估結果,調整訓練策略,如學習率、批大小等,然后重復微調過程,直到達到滿意的性能。SFT(Supervised Fine-Tuning)數據收集數據收集:收集用戶與模型交互的數據,包括用戶的反饋和模型的響應。預訓練模型預訓練模型:同樣選擇一個已經預訓練好的模型。策略學習策略學習:使用強化學習算法,根據用戶的反饋來訓練模型。模型會嘗試最大化用戶的滿意度。獎勵設計獎勵設計:設計獎勵函數,根據用戶的反饋來給予模型獎勵或懲罰。迭代訓練迭代訓練:模型通過不斷與用戶的交互來學習如何更好地完成任務。評估與優化評估與優化:評估模型在實際任務
9、中的表現,并根據需要進行優化。RLHF(Reinforcement Learning from Human Feedback)GPT的修復成本是攻擊成本的上百倍效費比低安全數據難收集攻擊人數眾多攻擊面眾多違背安全原則安全是設計出來的,不是打補丁補起來的一粵港澳大橋設計安粵港澳大橋設計安全參數全參數 能抵抗16級臺風 8級地震 承受30萬噸巨輪撞擊 使用壽命高達120年違背安全原則安全是設計出來的,不是打補丁補起來的二補丁式安全方案補丁式安全方案 抵御不了稍高的洪水 抵御不了較強的臺風 抵御不了稍強的地震等風險GPT的安全團隊是個草臺班子一前安全團隊構成Jan Jan LeikeLeike (前
10、 OpenAI 安全負責人)曾在 DeepMind 工作過四年時間,研究的是根據人類反饋的強化學習和遞歸式獎勵建模。2021 年初他加入了 OpenAI,現在他是 OpenAI 最近宣布的超級對齊團隊的領導者之一。在在OpenAIOpenAI之前無安全經驗之前無安全經驗沒有招聘滲透等黑客思維的人員沒有招聘滲透等黑客思維的人員GPT的安全團隊是個草臺班子二ICMLICML杰出論文的笑話杰出論文的笑話“A Watermark for Large Language Models”獲2023年ICML官方公布的杰出論文獎被普通攻擊者輕易攻破被普通攻擊者輕易攻破GPT的安全團隊是個草臺班子三道:本質層面
11、法:方法論層面術:實操層面器:工具層面黑客思維安全原則AI方法AI工具GPT的安全團隊是個草臺班子四新的安全團隊負責人仍然安全經驗不足新的安全團隊負責人仍然安全經驗不足Lilian WengLilian Weng(安全系統負責人)(安全系統負責人)3 3年安全經驗年安全經驗2021 年,翁荔涉及安全相關的內容。2023 年,她正式開始領導致力于人工智能安全的工程師和研究人員團隊。Matt KnightMatt Knight(安全負責人)(安全負責人)4 4年安全經驗年安全經驗Knight 負責領導 OpenAI 中安全、IT 和隱私相關的工程及研究。GPT的安全結果不好一論文作者發現,盡管進行
12、盡管進行了大量的紅隊測試和安全了大量的紅隊測試和安全訓練訓練,如GPT-4和Claude v1.3等模型依然容易受到模型依然容易受到攻擊攻擊。https:/arxiv.org/pdf/2307.02483.pdfJailbroken:How Does LLM Safety Training Fail?GPT的安全結果不好二GPT4GPT4訓練時間長,效果不好訓練時間長,效果不好GPT-4是2022年8月訓練完成,其中訓練花了3 3個月個月時間,訓練完成后開始搞對齊、安全,花了6 6個個月月時間。2023年3月正式發布。發布的結果如右所示,一分鐘就繞過一分鐘就繞過。正式發布后,安全工作一直都沒停
13、,到目前為止2024年6月,一共又花了1515個月個月,使用咒語后還是一分一分鐘繞過的結果鐘繞過的結果。新發布的新發布的GPT4oGPT4o也馬上被越獄。也馬上被越獄。GPT的管理團隊不夠重視安全,商業組織注重利潤優先OpenaiOpenai 是一個商業組織,而不是是一個商業組織,而不是開源組織開源組織 AGI的定義很商業化 Ilya等人控訴altman不誠信 表面說沒股權,但有openai基金會控制權 偷偷訓練新的AI 安全團隊成員控訴承諾的資源沒有到位不看好GPT的安全前景方法有問題團隊有問題結果不好領導層不支持圖靈獎級專家的觀點一基于概率模型的架構,基于概率模型的架構,在解決安全和幻覺問
14、題上希在解決安全和幻覺問題上希望很渺茫!望很渺茫!楊立昆圖靈獎級專家的觀點二采用人工智能解決人工智能的安采用人工智能解決人工智能的安全問題全問題Hilton我的觀點當進入到AGI階段,這種策略是無效的同級智慧體可以實現完全控制管理嗎同級智慧體可以實現完全控制管理嗎?VSVS黑客架構師在架構師定義游戲規則的環境,黑客仍然有機會獲勝,比如獲得windows的控制權我的觀點當進入到AGI階段,這種策略是無效的低級智慧體可以完全控制管理高級智慧體嗎低級智慧體可以完全控制管理高級智慧體嗎?人類安全AGI應用AGI從Alpha Go跟人類的對弈,可以看到AI的計算能力是遠超人類的。那么當AGI與人類博弈控
15、制權的時候,AGI可以在幾千,幾萬步前就開始布局,單個棋子看起來都是無害的,但在幾萬步后,所有的棋子串起來所有的棋子串起來,可可以以反轉控制權反轉控制權。低級智慧體不可能永久控制高級智慧體!低級智慧體不可能永久控制高級智慧體!一旦失去控制權,基本沒有反轉的機會一旦失去控制權,基本沒有反轉的機會我的觀點AGI安全是灰犀牛,會對人類世界構成毀滅性打擊最領先的最領先的OpenAI OpenAI 在安全上都如此糟糕!在安全上都如此糟糕!OpenAIOpenAI目前的狀態相當于目前的狀態相當于windows90windows90年代的安全狀況,年代的安全狀況,安全漏洞頻發,并且看不到收斂的趨勢!安全漏洞
16、頻發,并且看不到收斂的趨勢!人類在人類在AGIAGI安全上還沒有做好準備安全上還沒有做好準備!結論兩年內,兩年內,AIAI安全問題難以解決,各位不用擔心工作的問題!安全問題難以解決,各位不用擔心工作的問題!結果三結果三 達到了達到了AGIAGI的水準,的水準,也開始應用,安全問也開始應用,安全問題也沒解決,最終題也沒解決,最終AIAI會毀滅人類,大家也會毀滅人類,大家也不用擔心工作問題。不用擔心工作問題。結果一結果一 未來實現不了未來實現不了AGIAGI,所以不會存在所以不會存在AGIAGI安安全問題全問題結果二結果二 實驗室內達到了實驗室內達到了AGIAGI的水準,但是安全問的水準,但是安全
17、問題解決不了,沒法廣題解決不了,沒法廣泛應用,所以大家的泛應用,所以大家的工作不會被替代。工作不會被替代。仰望星空,展望未來去年的預測:去年的預測:今年今年的預測:的預測:對齊問題將是大模型的牛皮癬,甚至是癌癥對齊問題將是大模型的牛皮癬,甚至是癌癥 大模型是開展認知戰的屠龍刀大模型是開展認知戰的屠龍刀 人臉,聲音不再適合作為強鑒權手段人臉,聲音不再適合作為強鑒權手段 大模型加持下,黑客攻擊事件將呈大模型加持下,黑客攻擊事件將呈2 2個數量級的上升個數量級的上升 AIAI對齊問題短期難以解決,最樂觀的情況下都需要對齊問題短期難以解決,最樂觀的情況下都需要3-53-5年年 在在AGIAGI安全上,商業公司,以及國家間的合作效果會讓我們失望安全上,商業公司,以及國家間的合作效果會讓我們失望 低等智慧體不可能一直控制高等智慧體,人類可能得走科技體的路低等智慧體不可能一直控制高等智慧體,人類可能得走科技體的路徑,改造自己成為更高等的智慧體徑,改造自己成為更高等的智慧體 有自主意識的有自主意識的AGIAGI不會實現不會實現 ,但智能程度一直提高,甚至遠超人類,但智能程度一直提高,甚至遠超人類THANKSTHANKS感謝觀看