《安遠AI:2024年國家級人工智能安全研究所及其國際網絡-為何建立如何運作及未來挑戰報告(29頁).pdf》由會員分享,可在線閱讀,更多相關《安遠AI:2024年國家級人工智能安全研究所及其國際網絡-為何建立如何運作及未來挑戰報告(29頁).pdf(29頁珍藏版)》請在三個皮匠報告上搜索。
1、執摘要執摘要英國和美國率先成國家級智能安全研究所(AI Safety Institute,以下簡稱AISI)以來,安遠AI始終密切關注和分析其演進過程。本分析了當前多個國家級智能安全研究所及其國際絡的設背景、進展、對和挑戰,旨在為中國在全球智能治理中的定位與政策制定提供參考。1.背景GPT-4等前沿智能展現出強的涌現能,推動了多模態模型、主智能體、科學發現智能體和具智能等眾多技術向,在多個領域已逼近甚超越類平,但也引發了新的安全挑戰。兩屆全球智能安全峰會先后發布的布萊切利宣和爾宣推動了國家級智能安全研究所的設,以應對技術險并加強全球治理。2.進展英國和美國分別在2023年屆全球智能安全峰會率先
2、設智能安全研究所,隨后本、新加坡、加拿、韓國、法國等國家以及歐盟相繼跟進,同時美國積極推動智能安全研究所國際絡的發展。此類機構以智能安全評測、智能安全研究、促進信息交流或推進標準制定為核職能,已初步建雙邊和多邊的協作。3.對不同國家的國家級智能安全研究所在機構屬性、職能定位、研究重點及國際協作等呈現多樣性,在詳細對已官宣成的8家國家級智能安全研究所的上述信息的基礎上,我們重點就領先的智能安全研究所進了案例分析:英國智能安全研究所:充的政府資持,吸納量技術才,希望引領前沿智能安全評測和研究;得到OpenAI、DeepMind、Anthropic的部署前評測授權;參與全球智能安全峰會的籌辦;已開源
3、評測框架Inspect,為測試員提供了評估各類模型特定能的具。美國智能安全研究所:關注前沿智能險,并涵蓋更泛的險類型;依托美國國家標準與技術研究院和合作絡,成了智能安全研究聯盟;獲得OpenAI1國家級智能安全研究所及其國際絡和Anthropic新模型發布之前和之后的訪問權限。初期更關注國內安全問題,后通過與英國等智能安全研究所合作并宣布建智能安全研究所國際絡后,越來越關注全球合作,旨在協調各制定前沿智能的測量科學、愿指南和嚴格測試標準。然,特朗普當選新總統后,其全球合作前景存疑。其他的國家級智能安全研究所則結合需求,在標準化、安全研發、執監管等各有側重。4.挑戰盡管智能安全研究所及其國際絡在
4、安全評測、安全研究和國際合作中具有重要潛,但未來仍需在模型訪問與評測權限、信息共享與安全實踐、標準制定與監管框架、資源差異與合作平衡、全球包容性與國際協調進改進,以應對智能技術為全球治理帶來的復雜挑戰。2錄錄執摘要11 背景11.1 ChatGPT等前沿智能展了技術的潛和潛在的險11.2 英國推動全球智能安全峰會,應對前沿智能的險22 進展42.1 繼英美之后,多個國家宣布設國家級智能安全研究所42.2 智能安全研究所國際絡開展安全評測等國際合作53 對83.1 機構屬性與投規模83.2 職能定位與作內容93.3 領先的智能安全研究所案例分析113.3.1 英國智能安全研究所(UK AISI)
5、113.3.2 美國智能安全研究所(US AISI)163.4 異同點結204 挑戰2331 背景1 背景1.1 ChatGPT等前沿智能展了技術的潛和潛在的險GPT-4等前沿智能展現出強的涌現能,推動了多模態模型、主智能體、科學發現智能體和具智能等眾多技術向,在多個領域已逼近甚超越類平,但也引發了新的挑戰。例如開源模型已被改造成多種新型絡犯罪具,前沿模型可能成為物安全險的潛在推動者,此外智能競賽、組織險、主體失控,甚可能造成災難性險或存險1。這些發展引發了全球各界的泛關注,促使包括科學家、業領袖以及政策制定者在內的眾多利益相關采取動。暫停巨型智能實驗的公開信2、智能險聲明3以及“智能安全國際
6、對話”等呼吁加強對技術的治理和監管,以應對這些新興技術可能帶來的挑戰。為應對這些挑戰,中國政府發布了成式智能服務管理暫辦法4和全球智能治理倡議5等,旨在確保智能技術在安全和可控的框架內發展。同時,聯合國6、G207、G78、GPAI9以及等國際組織也紛紛采取動,制定并采納了確保智能安全發展和使的全球性原則,以促進智能技術在全球范圍內的負責任應和治理。9GPAI,“Working Group on Responsible AI”,2024-11-25(引期),https:/gpai.ai/projects/responsible-ai/.8OECD,G7 Hiroshima Process on
7、 Generative Artificial Intelligence(AI):Towards a G7 Common Understanding onGenerative AI,2023-05,https:/doi.org/10.1787/bf3c0c60-en.7G20,“G20 New Delhi Leaders Declaration”,2023-09-10,https:/www.caidp.org/resources/g20/.6聯合國,“聯合國會通過程碑式決議,呼吁讓智能給類帶來惠益”,2024-03-21,https:/news.un.org/zh/story/2024/03/1
8、127556.5中央信辦,“全球智能治理倡議”,2023-10-20,https:/ on AI Risk”,2023-5-30,https:/www.safe.ai/work/statement-on-ai-risk.2FLI,“暫停巨型智能實驗的公開信”,2023-03-22,https:/futureoflife.org/open-letter/pause-giant-ai-experiments.1安遠AI,“前沿模型的險、安全與治理”,2023-10-29,https:/ 英國推動全球智能安全峰會,應對前沿智能的險前沿智能(Frontier AI),是指能的通智能模型,能執泛的任務,
9、并達到或超過當今最先進模型的能,最常的是基礎模型。前沿智能提供了最多的機遇,但也帶來了新的險10。參考了全球智能安全峰會11的討論范圍設定,書12得到圖靈獎得主Yoshua Bengio等專家的建議。2023年11,英國在布萊切利園舉辦了屆智能安全峰會,對前沿智能系統帶來的險和采取動的必要性達成共識13。包括中國、美國在內的28個國家和歐盟,共同簽署了布萊切利智能安全宣(Bletchley Declaration)14。宣簽署國致認為,智能系統已經部署在?;畹脑S多領域,在為類帶來巨的全球機遇的同時也帶來了重險。建國家級智能安全研究所(AI Safety Institute,AISI)的想法,也
10、從這過程中誕。英國峰會期間,時任英國相蘇納克宣布成英國智能安全研究所15(UK AISI),這是全球15UK Government,“Policy paper:Introducing the AI Safety Institute”,2024-01-17,14UK Government,“Countries agree to safe and responsible development of frontier AI in landmark BletchleyDeclaration”,2023-11-01,https:/www.gov.uk/government/publications/a
11、i-safety-summit-2023-the-bletchley-declaration/the-bletchley-declaration-by-countries-attending-the-ai-safety-summit-1-2-november-2023.13謝旻希,“為什么中國的參與必不可少?我參加屆全球智能安全峰會的所所思(萬字回顧)”,2023-11-01,https:/ and risks from frontier AI:A discussion paper on the need for further research into AI risk”,2023-10,h
12、ttps:/assets.publishing.service.gov.uk/media/65395abae6c968000daa9b25/frontier-ai-capabilities-risks-report.pdf.11Department for Science,Innovation&Technology(DSIT)(UK),“AI Safety Summit:introduction”,2023-10-31,https:/www.gov.uk/government/publications/ai-safety-summit-introduction/ai-safety-summit
13、-introduction-html.10安遠AI,“博鰲經安論壇發布安遠AI前沿模型的險、安全與治理報告”,2023-10-29,https:/ 背景個國家級智能安全研究所,美國副總統賀錦麗宣布將成美國智能安全研究所16(USAISI),持拜登總統簽署的政令賦予商務部的責任,并在兩個后宣布成由200多個組織參與的智能安全研究所聯盟(AISIC)17?!爸悄馨踩芯克备拍钤?024年5英國和韓國聯合舉辦的爾峰會上呈現發展勢頭。爾宣不僅持各國建智能安全研究所,還提議建此類機構的國際絡,以加強智能安全領域的多邊合作18。本、新加坡、加拿和歐盟等很快設了各的智能安全研究所,這過程被時任英國科學、創
14、新和技術部歇爾唐蘭(MichelleDonelan)稱之為“布萊切利效應”(Bletchley effect)19。部級會議的參與包括20國政府、聯合國等3家國際多邊機構、10家學術界與間組織、19家產業及相關組織。中由來中國科技部、中國科學院、安遠AI、騰訊和阿巴巴的代表出席會議。19The Guardian,“Trying to tame AI:Seoul summit flags hurdles to regulation”,https:/ Government,“Seoul Declaration for safe,innovative and inclusive AI by part
15、icipants attending the LeadersSession:AI Seoul Summit”,2024-05-21,https:/www.gov.uk/government/publications/seoul-declaration-for-safe-innovative-and-inclusive-ai-ai-seoul-summit-2024.17NIST,Artificial Intelligence Safety Institute Consortium(AISIC),2024-02-08,https:/www.nist.gov/aisi/artificial-int
16、elligence-safety-institute-consortium-aisic.16The White House,“Remarks by Vice President Harris on the Future of Artificial Intelligence”,2023-11-01,https:/www.whitehouse.gov/briefing-room/speeches-remarks/2023/11/01/remarks-by-vice-president-harris-on-the-future-of-artificial-intelligence-london-un
17、ited-kingdom/.https:/www.gov.uk/government/publications/ai-safety-institute-overview/introducing-the-ai-safety-institute.3國家級智能安全研究所及其國際絡2 進展智能安全研究所通常是國家持的機構,旨在評估和確保前沿或先進智能模型的安全。少已有7個國家和歐盟已成組建智能安全研究所或由現有機構承擔相應智能,并由美國發起成了個“智能安全研究所國際絡”20:智能安全研究所以及國際絡的進展時間線2.1 繼英美之后,多個國家宣布設國家級智能安全研究所繼2023年11屆智能安全峰會上英國和
18、美國率先成智能安全研究所之后,同年12時任本相岸雄明確表將設本智能安全研究所(AISI Japan)21,并于2024年2正式成。2024年2,韓國科學技術情報通信部部李宗昊公布了2024年主要政策計劃22,包括設韓國智能安全研究所,同時引私營主的智能系統可靠性檢測和認證體系;5,韓國決定在電通信研究院(ETRI)設韓國智能安全研究所23。202423每經濟,“韓國決定在韓國電通信研究院(ETRI)設AI安全研究所”,2024-05-22,https:/www.mk.co.kr/cn/it/11022337.22Ministry of Science and lCT,“MSITs Work P
19、lan for 2024”,2024-02-13,https:/www.msit.go.kr/bbs/documentView.do?atchFileNo=44720&fileOrdr=2.21AISI Japan,“Overview of the AI Safety Institute”,2024-11-01,https:/aisi.go.jp/assets/pdf/20241101_AboutAISI_en.pdf.20UK Government,“Seoul Statement of Intent toward International Cooperation on AI Safety
20、 Science”,2024-05-21,https:/www.gov.uk/government/news/global-leaders-agree-to-launch-first-international-network-of-ai-safety-institutes-to-boost-understanding-of-ai.42 進展年4,加拿總理杜魯多宣布建加拿智能安全研究所,投資5000萬加元,以防范潛在的安全險24,并于2024年11正式成25。在爾峰會上,英美韓加政府分享了各智能安全研究所的進展和成果。此外,新加坡政府宣布位于南洋理學的國家級數字信任中將作為新加坡智能安全研究所
21、26。法國政府宣布成智能評測中(AI evaluation center),由國計算機及動化研究院(Inria)和計量和測試實驗室(LNE)合作開展智能系統安全研究和評測的作27。歐盟表,盡管2024年2成的歐洲智能辦公室28名義上并智能研究所,但將履歐盟智能研究所的職責,其要的是持智能法案并執通型智能系統規則,包括評估模型能、調查可能的違規為并要求提供商采取糾正措施。2.2 智能安全研究所國際絡開展安全評測等國際合作在2024年4,美國和英國簽署了項智能安全合作備忘錄29,宣布達成“智能安全科學合作伙伴關系”,雙計劃:1)建智能安全測試的常法,并分享其能,以確保能夠有效應對這些險;2)在可公
22、開訪問的模型上少進次聯合測試演練;3)通過探索智能安全研究所之間的員交流,充分利集體的專業知識資源。在爾峰會上,美國商務部宣布美國智能安全研究所將與世界各地的智能安全研究所和政府持的科學部合作,建個全球性的智能安全研究絡。這個絡建在爾智能安全科學國際合作意向書30的基礎之上,將擴美國先前與英國、本、加拿、新加坡的智能安全研究所以以及歐洲智能辦公室的合作。這個絡旨在促進全球各國使安全、可靠的智能系統,通過加強戰略研究和公共成果的國際協作來實現30UK Government,“Seoul Statement of Intent toward International Cooperation on
23、 AI Safety Science,AI Seoul Summit2024(Annex)”,2024-05-21,https:/www.gov.uk/government/publications/seoul-declaration-for-safe-innovative-and-inclusive-ai-ai-seoul-summit-2024/seoul-statement-of-intent-toward-international-cooperation-on-ai-safety-science-ai-seoul-summit-2024-annex.29UK Government,“
24、UK&United States announce partnership on science of AI safety”,2024-04-02,https:/www.gov.uk/government/news/uk-united-states-announce-partnership-on-science-of-ai-safety.28the European Artificial Intelligence Office,“COMMISSION DECISION”,2024-01-24,https:/ec.europa.eu/newsroom/dae/redirection/docume
25、nt/101625.27法國宣布成智能評測中是在歐洲科技創新展覽會VivaTech期間,與智能爾峰會同期。26IMDA,“Digital Trust Centre designated as Singapores AI Safety Institute”,2024-05-22,https:/www.imda.gov.sg/resources/press-releases-factsheets-and-speeches/factsheets/2024/digital-trust-centre.25Government of Canada,“Canada launches Canadian Art
26、ificial Intelligence Safety Institute”,2024-11-12,https:/www.canada.ca/en/innovation-science-economic-development/news/2024/11/canada-launches-canadian-artificial-intelligence-safety-institute.html.24Government of Canada,“Remarks by the Deputy Prime Minister on securing Canadas AI advantage”,2024-04
27、-07,https:/www.canada.ca/en/department-finance/news/2024/04/remarks-by-the-deputy-prime-minister-on-securing-canadas-ai-advantage.html.5國家級智能安全研究所及其國際絡這標。為了加強合作,美國商務部和美國國務院于9宣布,將于2024年112021在舊共同主辦智能安全研究所國際絡及其他相關的次會議。同時宣布的是,智能安全研究所國際絡的初始成員包括澳利亞、加拿、歐盟、法國、本、肯尼亞、韓國、新加坡、英國和美國31。與5的爾宣簽署國相,新增了肯尼亞,但缺少了意利和德國
28、。此次會議以技術作會議形式召開,討論了三個亟待從國際協調中受益的優先級議題:1)管理合成內容的險,2)測試基礎模型,3)對先進智能系統進險評估,旨在推動絡在2份法國主辦的智能動峰會前的作。已公布的成果包括32:1)為智能安全研究所國際絡制定致的使命宣33。就四個優先合作領域達成致:開展智能安全研究、開發模型評測的最佳實踐、促進解釋先進智能系統測試等常法、促進全球包容和信息共享。美國智能安全研究所將擔任智能安全研究所國際絡的任主席,絡成員將在會議上討論治理、結構和會議節奏的更多細節。該絡還將討論優先事項以及為 2025 年 2 在巴黎舉的智能動峰會及以后的持續作制定的路線圖。2)國際絡關于減輕合
29、成內容險的新聯合研究議程。優先研究課題包括了解當前數字內容透明技術的安全性和穩健性、探索新穎和新興的數字內容透明法,以及開發模型保障措施以防有害合成內容的成和分發。國際絡研究議程勵采多學科法,包括技術緩解以及社會科學和評估,以確定問題和解決案。政府機構和家慈善機構已承諾共計投超過1100萬美元來推動這項重要研究。3)該國際絡次聯合測試演習對多語、國際智能測試作的法論解。由美國、英國和新加坡的智能安全研究所的技術專家領導下,完成了次聯合測試演練。此次演練在Llama 3.1 405B上進,測試了般學術知識、“封閉域”幻覺和多語能三個主題,試點測試過程中的經驗34也將為未來跨國測試和評估最佳實踐奠
30、定基礎。34International Network of AI Safety Institutes,“Improving International Testing of Foundation Models:A Pilot TestingExercise from the International Network of AI Safety Institutes”,2024-11-20,https:/www.nist.gov/document/aisi-pilot-testing-exercise-blog.33International Network of AI Safety Inst
31、itutes,“Mission statement”,2024-11-20,https:/www.nist.gov/document/international-network-ai-safety-institutes-mission-statement.32NIST,“FACT SHEET:U.S.Department of Commerce&U.S.Department of State Launch the International Network of AISafety Institutes at Inaugural Convening in San Francisco”,2024-
32、11-20,https:/www.nist.gov/news-events/news/2024/11/fact-sheet-us-department-commerce-us-department-state-launch-international.31U.S.Department of Commerce,“U.S.Secretary of Commerce Raimondo and U.S.Secretary of State Blinken AnnounceInaugural Convening of International Network of AI Safety Institut
33、es in San Francisco”,2024-09-18,https:/merce.gov/news/press-releases/2024/09/us-secretary-commerce-raimondo-and-us-secretary-state-blinken-announce.62 進展4)關于先進智能系統險評估的聯合聲明,包括推進國際絡協調的計劃。因認識到智能險評估科學在不斷發展,且各絡成員都在獨特的環境中運作,絡成員同意以六個關鍵為險評估建個共享的科學基礎35,即險評估應具有可操作性、透明性、全性、多利益相關性、迭代性和可重復性。5)建由美國智能安全研究所牽頭的新的美國政
34、府作組,合作研究和測試智能模型,以管理國家安全能和險。美國國家安全智能險測試(TestingRisks of AI for National Security,TRAINS)作組36匯集了商務部、國防部、能源部、國安全部以及國家安全局 和國衛研究院的專家,以解決國家安全問題并加強美國在智能創新的領導地位。該作組將在關鍵的國家安全和公共安全領域(例如放放核、絡安全、關鍵基礎設施、常規軍事能等)協調研究和測試先進的智能模型。如果說屆英國智能安全峰會的成果之是提出了國家級智能安全研究所的構想,那么第屆爾峰會則標志著這構想作為項國際合作取得了重要進展。然,美國主辦的智能安全研究所國際絡屆會議未邀請中國
35、參與,這可能會形成個不理想的先例。中國的參與對于實現有效的全球治理關重要。在成式智能監管,中國積累了豐富的經驗和措施,率先出臺成式智能服務管理暫辦法等法規,對智能成的內容進了明確約束。智能成合成內容標識辦法(征求意稿)的發布進步鞏固了中國在這領域的領先地位。在智能安全研究和評測,中國同樣在前列。過去六個,中國研究員平均每發表近15篇前沿技術論,已有超過個研究團隊專注于該領域。此外,少有四家政府持的機構包括上海智能實驗室、北京智源智能研究院、中國信息通信研究院和北京通智能研究院正開展涵蓋偏、隱私、抵抗對抗性和越獄攻擊的能、機器倫理以及絡攻擊濫等領域的全評測37。將主要智能強國中國排除在更好的安全
36、實踐和科學理解之外,不僅不利于全球協調,還可能從根本上削弱全球智能安全治理的成效。37Concordia AI,“Chinas AI Safety Evaluations Ecosystem”,2024-09-13,https:/ Safety Institute Establishes New U.S.Government Taskforce to Collaborate on Research and Testing of AIModels to Manage National Security Capabilities&Risks”,2024-11-20,https:/www.nist.
37、gov/news-events/news/2024/11/us-ai-safety-institute-establishes-new-us-government-taskforce-collaborate.35International Network of AI Safety Institutes,“Joint Statement on Risk Assessment of Advanced AI Systems”,2024-11-20,https:/www.nist.gov/document/joint-statement-risk-assessment-advanced-ai-syst
38、ems-international-network-aisis.7國家級智能安全研究所及其國際絡3 對3.1 機構屬性與投規模AISI成時間機構設上級政府部資規模主要負責+員規模英國2023年11新成機構(UK AISI)科學、創新及科技部(DSIT)初始資1億英鎊 ,并承諾維持其資2030年,優先使超15億英鎊的英國AI研究和算資源-主席:Ian Hogarth(投資和企業家)-主任:Oliver Ilott(曾領導相國內辦公室)-CTO:Jade Leung(曾領導OpenAI治理團隊)-研究總監:Geoffrey Irving,Yarin Gal,Chris Summerfield(曾領
39、導OpenAI、DeepMind和津學的AI安全團隊)-超過40名技術員和60名政策/運營員美國2023年11新成機構(US AISI)商務部(DOC)下屬的監管機構美國國家標準與技術研究院(NIST)1000萬美元-總監:Elizabeth Kelly(曾任總統經濟政策特別助理)-CTO:Elham Tabassi(NIST席AI顧問)-AI安全主管:Paul Christiano(曾領導METR、OpenAI對團隊)本2024年2新成機構(AISI Japan)內閣辦公室設部委和機構理事會負責審議AISI重要事項-董事/執董事:村上明(兼職,本財產保險株式會社席數據官)新加坡2024年5現
40、有機構(由南洋理國家數字信任中(DTC)承擔)通訊及信息部(MCI)信息通信媒體發展局(IMDA)5000萬新元執主任:林國恩(兼職,南洋理學副校)加拿2024年11新成機構(CAISI)創新、科學及經濟發展部(ISED)5000萬加元-韓國已官宣,暫未正式成新成機構(決定設在韓國電通信研究院(ETRI)科學技術情報通信部(MSIT)-法國2024年5新成機構(AI評測中)由國計算機及動化研究院(Inria)和計量和測試實驗室(LNE)合作-歐盟2024年5現有機構(由歐洲AI辦公室承擔)歐盟委員會的通信絡、內容和技術總司(DG CNECT)AI辦公室整體初始預算4650萬歐元,從現有預算中分
41、配辦公室負責:Lucilla SioliA3.AI安全單位負責:尚未任命83 對3.2 職能定位與作內容AISI機構標職能定位關注的險AI安全研究AI安全評測促進信息交流(義的AI安全標準)英國標:1.測試先進AI系統并向政策制定者通報其險2.促進公司、政府和更泛研究界間的合作,以降低險并推進有益公眾的研究3.加強全球AI發展實踐和政策制定職能:1.開發和開展先進AI系統的評測2.推動基礎AI安全研究3.促進信息交流優先關注:1.濫(物和化學能+絡攻擊能)2.社會影響3.主體失控4.保障(safeguards)失效項包括:1.構建AI治理產品2.提升評測科學3 更安全AI系統的新法例如系統性A
42、I安全資助獲多個前沿模型早期或優先訪問權限,并開展評測已公布評測法和評測結果1.動化能評估2.紅隊測試3.類能提升評測4.主體評測推動全球AI治理對話1.舉辦AI安全峰會2.與美國和加拿AISI合作測試、分享解、共享模型訪問、才流動3.委托先進智能安全國際科學報告美國標:1.推進AI安全科學2.闡明、展和傳播AI安全實踐3.持圍繞AI安全的機構、社區和協調職能:1.推動AI安全的科學研究和測量科學2.開展模型和系統的安全評測3.制定評測和險緩解指南4.協作和標準制定泛險:1.國家安全2.公共安全3.個權利其中也包括前沿AI、管理兩基礎模型的濫險推進AI安全的研究和測量科學獲OpenAI和Ant
43、hropic部署前評測權限1.成AI安全研究所聯盟,匯集280多個組織,旨在制定基于科學和實證持的測量科學、愿指南和嚴格測試2.與英國AISI合作測試、分享解、共享模型訪問、才流動本標:1.持公共和私營部,共同確保參與AI開發和使的各都充分認識到AI的險。在全命周期內確保治理,促進安全使AI2.需要在這些努中促進創新并降低命周期中的險職能:1.AISI通過開展AI系統安全調查、研究評估法和制定標準來持政府2.作為本AI安全的樞紐,AISI將整合業和學術界的最新信息,并促進相關公司和組織之間的合作3.與AI安全相關組織合作技術調查:1.虛假信息2.AI與絡安全(AISI Japan只技術調查,不
44、是研發組織)技術調查:1.評估視、紅隊測試2.測試環境1.考慮AI安全相關的標準和指南2.本信息規劃和研究委員會推動AI標準化3.與各國AISI和相關組織合作,如美Crosswalk分別就AIRMF和紅隊進了對照4.設“J-AISI合作伙伴”計劃新加坡標:整合新加坡的研究態,與其他AISI開展國際合作,推動AI安全科學,并為AI治理作提供基于科學的輸職能:1.測試與評估2.安全模型設計、開發和部署3.內容保證4.治理與政策-擴AI Verify以測試成式AI安全性,推出的ProjectMoonshot開源具包1.與美國和英國AISI合作AI安全研究,側重成式AI評測2.發布東盟AI治理與倫理指
45、南3.IMDA和AI Verify已與Anthropic合作開展多語紅隊加拿標:與國際合作伙伴職能:利加拿AI研專注于:先進AI的合成兩種式:1.應和研究將與國際同進聯合測試開展聯合項,包括制定智能安9國家級智能安全研究所及其國際絡AISI機構標職能定位關注的險AI安全研究AI安全評測促進信息交流(義的AI安全標準)合作,推進AI安全科學,以確保政府能夠充分了解和應對先進AI系統的險究社區以及內部專業知識,與業界和國際AI安全研究所絡合作開展前沿研究內容險,以及開發或部署可能存在危險或妨礙類監督的系統帶來的險員主導的研究2.政府指導項全指南等韓國-將加強AISI間的合作,采取識別印等AI成的內
46、容的措施,并加強為開發國際標準的合作法國標:1.專注于AI安全的研究和創新2.為歐盟AI法案范圍內的系統開發新的測試和測試基礎設施3.組織通型AI模型的定期評測活動職能側重研發:1.對國內:評測所有類型AI系統(軟件解決案或嵌式系統、各類業應)的國家參考機構2.對歐盟:希望成為歐洲AI辦公室的個分機構,提供模型評測的技術專,歐洲AI治理機制的其他部分(例如歐洲AI辦公室)將負責國際協調和標準制定-標是建個讓所有機構能夠共同合作的架構,分協作,避免重復浪費歐盟標:1.整個歐盟AI專業知識的中2.在實施AI法案中發揮關鍵作,尤其是通型AI(Generalpurpose AI)3.促進可信AI的開發
47、、使和國際合作職能:由AI法案賦予監管權,包括對通型AI模型進評測、向模型提供者索取信息和措施及實施制裁的權專注于:具有系統性險的通型AI模型評測,并與業和其他利益相關者合作,確定系統性險和適當的緩解措施-103 對3.3 領先的智能安全研究所案例分析3.3.1 英國智能安全研究所(UK AISI)1)機構沿和定位前是前沿智能作組(Frontier AI Taskforce)38,于2023年4作為基礎模型作組(Foundation Model Taskforce)39啟動,并在英國屆全球智能安全峰會上正式確為智能安全研究所。是全球個由國家持的、致于公共利益的先進智能安全機構40,其使命是讓政
48、府對先進智能系統的安全性有實證的了解41。被設計為政府內的初創企業42,將政府的權威與企業的專業知識和敏捷性相結合。2)智能安全評測:項重要作是定期評測先進智能系統的潛在危害43關注的前沿險類別濫:評估先進的智能系統在多程度上有效降低了試圖在現實世界造成傷害的惡意為者的檻。特別關注化學物能和絡攻擊能這兩個向,被認為若不加以控制可能會造成規模傷害的險。社會影響:評測先進智能系統對個和社會的直接影響,包括類與此類系統互動時受影響的程度,以及系統在專業環境中于執的任務類型。主體失控:評測在線半主部署的先進智能系統的能,此類系統會采取影響現實世界的動。包括在線創建副本、說服或欺騙類,以及創建更強的智能
49、系統或模型的能。保障失效:評測先進智能系統的安全組件針對可能規避其保障措施的各種威脅的強度和有效性。安全評測法43DSIT(UK),“AI Safety Institute approach to evaluations”,2024-02-09,https:/www.gov.uk/government/publications/ai-safety-institute-approach-to-evaluations.42UK AI Safety Institute,“About:Our mission is to equip governments with an empirical under
50、standing of the safety ofadvanced AI systems”,2024-11-25(引期),https:/www.aisi.gov.uk/about.41UK AI Safety Institute,“Our work:Improving our understanding of advanced AI”,2024-11-25(引期),https:/www.aisi.gov.uk/work.40DSIT(UK),“Introducing the AI Safety Institute”,202401-17,https:/www.gov.uk/government/
51、publications/ai-safety-institute-overview/introducing-the-ai-safety-institute.39UK Government,“Initial 100 million for expert taskforce to help UK build and adopt next generation of safe AI”,2023-04-24,https:/www.gov.uk/government/news/initial-100-million-for-expert-taskforce-to-help-uk-build-and-ad
52、opt-next-generation-of-safe-ai.38DSIT(UK),“Frontier AI Taskforce:first progress report”,2023-09-07,https:/www.gov.uk/government/publications/frontier-ai-taskforce-first-progress-report/.11國家級智能安全研究所及其國際絡動化能評估:開發與安全相關的問題集,以測試模型能并評估不同先進智能系統的答案差異。這些評估可以是泛但淺顯的具,可為模型在特定領域的能提供基線指,于指導更深的調查。紅隊測試:安排量領域專家花時間與
53、模型互動,測試其功能并破解模型的保護措施?;趶膭踊茉u估中發現的信息,這些信息可以為智能安全研究所的專家在能和模態指明正確的向。類能提升評測(Human uplift evaluations):評測與使互聯搜索等現有具相,惡意為者可能如何使先進智能系統執現實活中的有害任務。希望針對關鍵領域進這些嚴格的研究,以對模型對惡意為者能的反事實影響進有依據的評估。主體評測:評測主體是否具有可以制定期計劃、半主運并使絡瀏覽器和外部數據庫等具等能。因為隨著這種主能和在現實世界采取動的能提,造成危害的可能性也隨之增。前沿模型的早期或優先訪問權限時任英國相蘇納克宣布44:英國智能安全研究所已與OpenAI、A
54、nthropic、Deepmind達成合作,獲得其前沿模型的早期或優先訪問權限。Anthropic:英國智能安全研究所獲取并進了Claude 3.5 Sonnet的部署前測試,并與美國智能安全研究所分享了測試結果45。但這些測試不是“政府安全認證”,并不作為某個特定模型安全性的認可46。評測結果分享2024年11,UK AISI和US AISI聯合發布Anthropic 升級版 Claude 3.5Sonnet 的部署前聯合評測報告47。47UK AI Safety Institute,“Pre-Deployment Evaluation of Anthropics Upgraded Clau
55、de 3.5 Sonnet”,2024-11-19,https:/www.aisi.gov.uk/work/pre-deployment-evaluation-of-anthropics-upgraded-claude-3-5-sonnet46UK AI Safety Institute,“Our First Year”,2024-11-13,https:/www.aisi.gov.uk/work/our-first-year.45Anthropic,“Announcements:Claude 3.5 Sonnet”,2024-06-21,https:/ will open up models
56、 to UK government”,2023-06-12,https:/www.politico.eu/article/openai-deepmind-will-open-up-models-to-uk-government/.123 對此前,英國智能安全研究所測試了領先的模型的絡攻擊能、化學和物能、主體能以及保障措施的有效性。其2024年5公布的第篇技術博客分享了他們的法和結果48,所有LLM模型均為匿名。多個LLM完成了針對中的簡單絡安全挑戰,但在針對學的挑戰中遇到了困難。48UK AI Safety Institute,“Advanced AI evaluations at AISI:
57、May update”,2024-05-20,https:/www.aisi.gov.uk/work/advanced-ai-evaluations-may-update,13國家級智能安全研究所及其國際絡多個LLM展了專家級別的化學和物學知識。模型回答了600多個私密的專家撰寫的化學和物學問題,其平與接受過博級培訓的類相似。多個LLM完成了短期主體任務(例如簡單的軟件程問題),但法規劃和執更復雜任務的操作序列。143 對所有經測試LLM仍極易受到基本越獄的攻擊,有些甚會在沒有專嘗試規避其安全措施的情況下產有害輸出。3)智能安全研究:開展系列合作和研究,作為對前沿智能模型實證評測的補充例如使智
58、能系統從根本上更安全以及提社會對先進智能韌性的研究。最新向為安全論證(Safety Cases)49:是系列證據持的種結構化論證,通過提供令信服、易于理解且有效的論據,證明系統在特定應和特定環境中的安全性。意圖:可解釋性可僅于對錯誤檢測,使紅隊或其他證據來持準確性(左圖和中圖),或作為消除對錯誤的緩解法(右圖)49UK AI Safety Institute,“Safety cases at AISI”,2024-08-23,https:/www.aisi.gov.uk/work/safety-cases-at-aisi.15國家級智能安全研究所及其國際絡4)促進信息交流:推動智能治理的全球對
59、話,設定全球標準智能安全峰會:英國智能安全研究所為歷屆峰會做出了貢獻。峰會將多國領導、頂級智能公司和間社會聚集在起,做出重要承諾以降低險。與美國50、加拿51和新加坡52的智能安全研究所合作:共同測試先進智能模型、分享研究解、共享模型訪問權限,并實現專家才之間的交流。先進智能安全國際科學報告53:委托圖靈獎得主Yoshua Bengio主持這份關于基于證據的先進智能安全科學現狀的報告。20多個頂級研究機構合作伙伴54:多家機構專注于前沿智能安全特定領域METR(危險能評測)RAND(危險能評測)Redwood Research(危險能評測)Gryphon Scientific(物安全)Futu
60、reHouse(物安全+智能科學家)Apollo Research(欺騙評測)Trail of Bits(絡安全)Advai(第三評測)The Center for AI Safety(智能安全研究和社區建設)Collective Intelligence Project(變性技術的治理)Faculty(險管理)OpenMined(開源智能治理基礎設施)Fuzzy Labs(開源機器學習運維)Pattern Labs(安保)3.3.2 美國智能安全研究所(US AISI)1)機構沿和定位根據拜登-哈斯政府2023年發布的關于安全、可靠和可信開發與使智能的54UK Government,“AI
61、Safety Institute:third progress report”,2024-02-05,https:/www.gov.uk/government/publications/uk-ai-safety-institute-third-progress-report/.53安遠AI,“AI Guard x 安遠AI30多國75位頂尖專家合作發布先進智能安全國際科學報告:中期報告”,2024-05-17,https:/ Government,“Ensuring trust in AI to unlock 6.5 billion over next decade”,2024-11-06,h
62、ttps:/www.gov.uk/government/news/ensuring-trust-in-ai-to-unlock-65-billion-over-next-decade.51UK AI Safety Institute,“Fourth progress report”,2024-05-20,https:/www.aisi.gov.uk/work/fourth-progress-report.50UK Government,“UK&United States announce partnership on science of AI safety”,2024-04-02,https
63、:/www.gov.uk/government/news/uk-united-states-announce-partnership-on-science-of-ai-safety.163 對政令55(簡稱智能政令),在2023年11英國屆智能安全峰會上正式成,屬于美國商務部下屬的美國國家標準與技術研究院(NIST)。聚焦3標:1)推進智能安全科學;2)闡明、展和傳播智能安全實踐;3)持圍繞智能安全的機構、社區和協調。初期作聚焦于拜登總統智能政令分配給國家標準與技術研究院的優先事項56,2024年5發布美國智能安全研究所:遠景、使命和戰略標檔57。2024年11,美國智能安全研究所成國家安全智
64、能險測試(TRAINS)的政府作組,匯集了商務部、國防部、能源部、國安全部、國家安全局和國衛研究院的專家,合作研究和測試智能模型,以管理國家安全能和險。美國智能安全研究所的三戰略標2)戰略標 1.讓愿景可能:通過研究推進智能安全科學美國智能安全研究所倡導開發基于實證的智能模型、系統和主體的測試、基準和評測,以找到應對近期和期智能安全挑戰的實解決案。包括:執和協調技術研究,以改進或制定安全指南及技術安全的具和法。如于檢測合成內容的技術、模型安全的最佳實踐,以及在模型、系統和主體層的技術防護和緩解措施。這些項可能涉及基礎研究和應研究,對于應研究,計劃利內部和外部的基礎研究,以及現有的指南、法和標準
65、。對先進模型、系統和主體進部署前的測試、評測、驗證與確認(Testing,evaluation,validation,and verification,TEVV)以評估潛在和新興的險。評測法包括動化能評估、專家紅隊測試、A/B測試等。計劃與美國國家標準與技術研究院實驗室合作,進部署前對現有危害以及潛在和新興險的評估。57U.S.Artificial Intelligence Safety Institute,“Strategic Vision”,2024-10-01,https:/www.nist.gov/aisi/strategic-vision.56NIST,“U.S.Artificial
66、 Intelligence Safety Institute”,2024-04-16,https:/www.nist.gov/aisi.55The White House,“Executive Order on the Safe,Secure,and Trustworthy Development and Use of ArtificialIntelligence”,2023-10-30,https:/www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secu
67、re-and-trustworthy-development-and-use-of-artificial-intelligence/.17國家級智能安全研究所及其國際絡對先進的智能模型、系統和主體進TEVV,以發展對系列現有險的科學理解和記錄。計劃與美國國家標準與技術研究院實驗室項合作,加深對如何衡量與當今能相關的險的科學理解,包括個權利、公共安全和國家安全。3)戰略標 2.讓愿景可:開發和傳播智能安全實踐美國智能安全研究所計劃啟動以下項:構建和發布特定指標、評估具、法指南、協議和基準,以評估不同領域和部署環境中的先進智能險。美國智能安全研究所計劃發布針對開發員和部署員的不同險的TEVV的指南
68、和具,包括針對系列險的TEVV特定評估協議,以告知和持開發員、部署員和第三獨評估員。這些指南可以提供建議,并制定新的基準來評估模型能。制定并發布基于險的緩解指南和安全機制,以持先進智能模型、系統和主體的負責任的設計、開發、部署、使和治理。計劃為這些指南提供緩解現有危害以及潛在和新出現險的指導,包括公共安全和國家安全;針對最先進智能系統的與險成例的安全和安全緩解措施;以及基于研究所的研究開發的內部和外部安全機制或具。關注的前沿險類別:關注包括個權利、公共安全和國家安全的泛險。其中前沿險包括:兩基礎模型濫,化學、物或絡攻擊等危險能,類喪失監督或控制權等險。前沿模型的部署前評測權限:包括為前沿模型創
69、建測試基準以及制定評估系統性險的指南。2024年8,美國智能安全研究所與OpenAI和Anthropic達成關于安全研究和評測的協議,獲得兩家公司新模型發布之前和之后的訪問權限58。4)戰略標 3.讓愿景可持續:持圍繞智能安全的機構、社區和協調美國智能安全研究所計劃啟動以下項:促進智能安全研究所指南、評測和推薦的智能安全和險緩解措施的采。為最限度地提智能安全研究所指導的價值和可性,美國智能安全研究所計劃適時啟動并持與安全研究實驗室、第三評測機構以及58NIST,“U.S.AI Safety Institute Signs Agreements Regarding AI Safety Resea
70、rch,Testing and Evaluation With Anthropicand OpenAI”,2024-08-29,https:/www.nist.gov/news-events/news/2024/08/us-ai-safety-institute-signs-agreements-regarding-ai-safety-research.183 對開發員、部署員和中多元專業的持續對話、信息共享和協作。項旨在將愿承諾轉化為可操作的指南,并促進智能安全最佳實踐采,同時尋求促進個強的第三評測態。項可能會貢獻科學報告、章、指導和實踐,以幫助確保嚴格的智能安全研究、測試和指導為重國內智能
71、安全法或政策提供信息持。項還將提升們對為相關研究作提供的智能安全實踐的認識。領導個包容性的智能安全國際科學絡。智能安全實踐必須盡可能全球化采。美國智能安全研究所打算成為其他智能安全研究所、國家研究組織和OECD和G7等多邊實體的合作伙伴,與其合作伙伴共同推動泛接受的科學法,旨在開發共享和互操作的智能安全評估及達成共識的險緩解措施。旨在為未來國際智能治理安排的發展奠定科學和實踐基礎。已推動的險緩解的指南和相關機構合作包括:兩基礎模型濫險管理指南(NIST AI 800-1)初步公開草案59:于2024年7發布,這是NIST為響應智能政令發布的5個指南之60,概述了基礎模型開發者保護其系統不被濫于
72、故意傷害個、公共安全和國家安全的愿最佳實踐,協助防模型被于開發物武器、進絡攻擊等。與英國智能安全研究所合作61:共同測試先進智能模型,分享研究解,共享模型訪問權限,并實現專家才之間的交流。與新加坡智能安全研究所合作62:推進智能安全科學,映射各的成式智能框架,并探索在測試、指南和基準的合作。與歐洲智能辦公室展開技術對話63:聚焦于合成內容的印和內容認證、政府計算基礎設施,以及智能的社會公益三個關鍵主題。建美國智能安全研究所聯盟,匯集了280多個組織:包括成式智能險管理、合成內容、能評測、紅隊測試、安全與安保5個作組64,初始成員涵蓋:64U.S.Artificial Intelligence
73、Safety Institute,“AISIC Working Groups”,2024-10-23,https:/www.nist.gov/artificial-intelligence-safety-institute/aisic-working-groups.63NIST,“U.S.AI Safety Institute and European AI Office Hold Technical Dialogue”,2024-07-12,https:/www.nist.gov/news-events/news/2024/07/us-ai-safety-institute-and-euro
74、pean-ai-office-hold-technical-dialogue.62U.S.Embassy in Singapore,“Fact Sheet:U.S.-Singapore Shared Principles and Collaboration on Artificial Intelligence”,2024-06-05,https:/sg.usembassy.gov/fact-sheet-u-s-singapore-shared-principles-and-collaboration-on-artificial-intelligence/.61U.S.Department of
75、 Commerce,“U.S.and UK Announce Partnership on Science of AI Safety”,2024-04-01,https:/merce.gov/news/press-releases/2024/04/us-and-uk-announce-partnership-science-ai-safety.60NIST,“Department of Commerce Announces New Guidance,Tools 270 Days Following President Bidens ExecutiveOrder on AI”,2024-07-2
76、6,https:/www.nist.gov/news-events/news/2024/07/department-commerce-announces-new-guidance-tools-270-days-following59NIST,“Managing Misuse Risk for Dual-Use 4 Foundation Models”,2024-06,https:/nvlpubs.nist.gov/nistpubs/ai/NIST.AI.800-1.ipd.pdf.19國家級智能安全研究所及其國際絡前沿模型公司和型科技企業:如OpenAI、Anthropic、Amazon、Ap
77、ple、Meta、Google、Microsoft、IBM等,致于開發并推動智能技術。前沿智能安全研究機構:如專注于前沿智能安全特定領域的METR、RAND、Redwood Research、Gryphon Scientific等研究機構。校與研究機構:包括省理學院、卡內基梅隆學、普林斯頓學、斯坦福學等,提供學術持與研究貢獻。政府部和營利組織:如美國國防分析研究所、聯邦安全委員會以及多個智能治理與安全研究中,負責智能的政策制定、技術監管與治理。其他科技聯盟和企業等:如Linux基會旗下的AI&Data、AI Quality&Testing Hub、AI Risk and Vulnerabili
78、ty Alliance等,參與技術標準與法的制定。3.4 異同點結總體,現有的智能安全研究所有個相似的主要職能:智能安全評測:前所有智能安全研究所的作向都涉及模型評測,可以發揮的關鍵作之是改進評測具。智能安全機構可以幫助評測先進智能系統的安全相關能、系統的安保,及其潛在的社會影響。其中,領先的英國和美國智能安全研究所已分別獲得了多家前沿模型的早期或優先訪問權限。智能安全研究:雖然并每個智能安全研究所都涉及智能安全的基礎研究,但這些研究所可能在啟動和持智能安全基礎研究發揮關鍵作。這包括贊助探索性項,并將來不同學科的研究員與學術和業利益相關者聚集在起。因為前沿智能安全和評測是新興的跨學科領域,開展
79、基礎研究對于推動科學進步常關鍵。促進信息交流或推進標準制定:均已簽署爾智能安全科學國際合作意向書。智能安全研究所可以通過建國內和國際的信息共享渠道,傳播智能技術的重要知識,促進政策制定者、產業界、學術界和公眾之間的合作,確保政策制定者具備做出正確決策的充分信息。這些渠道還能幫助全球科學界在智能模型的能、險及評測法上達成共識,并推動安全標準和治理政策的致性。不同的智能安全研究所可以結合標和實際,側重于標準制定,國內絡、國際對話的不同領域。203 對現有智能安全研究所的差異,參考“The AI Safety Institute Network:Who,What and How?”65修改重繪但各國
80、智能安全研究所因機構沿和資源持等差異,定位各有側重:英國智能安全研究所:擁有最多的全職技術員,可開展深評測有充的政府資持,吸納了量技術才,希望引領前沿智能安全評測和研究。得到OpenAI、DeepMind、Anthropic的部署前評測授權。參與歷屆全球智能安全峰會的籌辦。已開源評測框架Inspect66,為測試員提供了評估各類模型特定能的具。美國智能安全研究所:屬商務部下屬的國家標準與技術研究院,強調標準制定在關注前沿智能險的基礎上,關注的險類型更泛。依托美國國家標準與技術研究院和合作絡,成了智能安全研究聯盟。獲得OpenAI和Anthropic新模型發布之前和之后的訪問權限。初期更關注國內
81、安全問題,后通過與英國等AISI合作并宣布建智能安全研究所國際絡后,越來越關注全球合作,旨在協調各制定前沿智能的測量科學、愿指南和嚴格測試標準。然,特朗普當選新總統后,其全球合作前景存疑。本智能安全研究所:較強的標準化背景,強調與美國NIST的Crosswalk未明確關注的險,技術調查中提到虛假信息、智能與絡安全。66UK AI Safety Institute,“Inspect:An open-source framework for large language model evaluations“,2024-11-25(引期),https:/ukgovernmentbeis.github
82、.io/inspect_ai/.65International Center for Future Generations,“The AI Safety Institute Network:Who,What and How?”,2024-09,https:/icfg.eu/the-ai-safety-institute-network-who-what-and-how/#1725545464617-124fae77-dfb1.21國家級智能安全研究所及其國際絡不承擔具體的智能安全研發作。重視國際標準,已與NIST和美國智能安全研究所合作協調智能標準。發布智能安全評測視指南67和智能安全紅隊法指
83、南68。新加坡智能安全研究所:側重研發,職責兼顧安全與發展由南洋理國家數字信任中(DTC)發展來,旨在“解決全球智能安全科學的差距”。職責范圍更,因此必須在安全與發展之間取得平衡。與新加坡國內其他治理機構(如IMDA和AI Verify)相互配合。歐洲智能公室:由歐盟智能法案賦予執監管的權關注通型智能模型的系統性險。具有對通型智能模型進評測、向模型提供者索取信息以及實施制裁的權。其他國家的智能安全研究所:前的相關信息仍然有限68Japan Al Safety Institute,“Guide to Red Teaming Methodology on AI Safety”,2024-09-25
84、,https:/aisi.go.jp/assets/pdf/ai_safety_RT_v1.00_en.pdf.67Japan Al Safety Institute,“Guide to Evaluation Perspectives on AI Safety”,2024-09-25,https:/aisi.go.jp/assets/pdf/ai_safety_eval_v1.01_en.pdf.224 挑戰4 挑戰智能安全研究所及其國際絡之間的合作能夠帶來顯著益處,尤其是在技術具和科學發現的交流。然,涉及信息共享的領域可能臨諸多挑戰,例如對敏感信息保密性和安全性的擔憂、各國法律法規之間的不兼
85、容性,以及各國在評估和理解先進智能模型的技術能差異。有效解決這些問題對于充分釋放智能安全治理的國際協調潛關重要。未來各國智能安全研究所及其國際絡的協作,可能臨以下主要挑戰:1)模型訪問與評測權限各國智能研究所對前沿智能系統的評測,依賴于開發者是否提供夠的訪問權限。部署前評測權限:英國智能安全研究所和美國智能安全研究所已分別獲得了OpenAI、Anthropic等前沿模型的部署前評測權限,是否會有更多企業愿效仿和落實69,并推到更多智能安全研究所,仍有不確定性。深的模型訪問:智能安全研究所對前沿模型的訪問權限也是個關鍵因素。雖然企業愿提供API70訪問有幫助,更好的安全評估可能需要全訪問模型(包
86、括微調前后的訪問71、盒和盒訪問),這在不同國家和企業之間可能臨挑戰。2)信息共享與安全實踐國際合作離不開信息共享,如何實現信息的有效共享并確保其不會威脅國家安全是重要問題。法規與技術的差異:各國在法律規定、技術能和對敏感數據的處理式上存在顯著差異。這種差異可能會導致信息共享困難,影響智能安全研究的深理解和國際合作。機密信息與共享實踐:由于部分評估信息可能涉及機密,智能安全研究所在信息共享時需嚴格遵循法律和安全規定,以確保數據的保密性和安全性。盡管合作備忘錄可以幫助制定共享信息的最佳實踐,但在實現信息保密與國際合作之間,仍然存在不少挑戰。71University of Oxford,“Stru
87、ctured access for third-party research on frontier AI models:Investigating researchersmodelaccess requirements”,2023-10-27,https:/www.oxfordmartin.ox.ac.uk/publications/structured-access-for-third-party-research-on-frontier-ai-models-investigating-researchers-model-access-requirements.70OpenMined,“H
88、ow to audit an AI model owned by someone else(part 1)”,2023-07-01,https:/blog.openmined.org/ai-audit-part-1/.69Politico,“Rishi Sunak promised to make AI safe.Big Techs not playing ball.”,2024-04-26,https:/www.politico.eu/article/rishi-sunak-ai-testing-tech-ai-safety-institute/.23國家級智能安全研究所及其國際絡3)標準制
89、定與監管框架智能技術的快速發展和前沿特性使得快速應對成為必要,智能安全研究所需要在標準制定和監管框架中扮演重要。標準制定的挑戰:傳統標準制定流程可能不適于快速發展的智能技術,因為這些流程傾向于提煉已知信息,前沿知識。此外,標準制定過程中可能缺乏國家安全領域的專家參與。雖然替代流程可能更快,但可能缺乏合法性和認可度。監管框架的差異:例如歐洲智能辦公室擁有監管權,可全訪問智能模型72,其他地區可能缺乏類似的法律保障,這會影響跨國合作的效率和有效性,4)資源差異與合作平衡不同國家的資源差異可能導致全球智能安全能的嚴重不均衡,此外維持獨性與合作平衡也是難題。技術能與資源差異:作為政府資助的機構,智能安
90、全研究所必須與資充的企業競爭以吸引頂尖程師和科學家。例如英國智能安全研究所近期在舊設了辦公室73,以便更接近全球領先的才基地,且此前已成功從型公司招聘到頂級研究員。這種競爭壓突顯了不同國家智能安全研究所在技術能上的顯著差異。發達國家能夠吸引頂尖技術才,開發先進的評測具,發展中國家可能需要依賴外部持或技術合作,這可能加劇全球智能安全能的不平衡。此外,智能安全研究所的規模和功能各異,可能受到國內政治和資源限制的影響74,這可能限制其國際合作的客觀性,特別是在涉及國家利益時,并可能導致資源分散,影響核任務的執。獨性與合作平衡:智能安全研究所需要在保持獨性和與私營企業、監管機構的合作之間取得平衡。如果
91、智能安全研究所的專業判斷影響法規,可能被視為監管機構,從影響與私營企業和政府利益相關者的合作。與此同時,智能安全研究所匯集技術專并建原本不存在的技術治理能75,對政府機構也有益處。因此,需要合理平衡智能安全研究所與私營企業、監管機構之間的合作與協調,確保其獨性和有效性。75Anka Reuel et al.,“Open Problems in Technical AI Governance”,2024-07-20,https:/arxiv.org/abs/2407.14981.74Carnegie Endowment for International Peace,“The Future of
92、 International Scientific Assessments of AIs Risks”,2024-08-27,https:/carnegieendowment.org/research/2024/08/the-future-of-international-scientific-assessments-of-ais-risks.73UK Government,“Governments trailblazing Institute for AI Safety to open doors in San Francisco”,2024-05-20,https:/www.gov.uk/
93、government/news/governments-trailblazing-institute-for-ai-safety-to-open-doors-in-san-francisco.72European Commission,“European AI Office”,2024-11-25(引期),https:/digital-strategy.ec.europa.eu/en/policies/ai-office244 挑戰5)全球包容性與國際協調在發展智能安全研究所及其絡的過程中,確保全球包容性與國際協調關重要。全球包容性不:前的智能安全研究所國際絡主要由少數富裕國家主導,僅有個全球
94、南國家肯尼亞,并且美國主辦的智能安全研究所國際絡屆會議未邀請中國參與,缺乏泛的全球政治合法性。為了增強全球包容性和協調性,可能需要在更多國家資助和建智能安全研究所,或者通過建區域級智能安全研究所76集中資源,以便更多國家能夠有效參與全球智能安全治理。然,這些新興機構的有效性和全球包容性仍存在不確定性。國際協調的難題:智能安全研究所之間的國際協調臨多重挑戰。先,各國智能安全研究所在資源和技術能上存在差異顯著,如英國智能安全研究所擁有技術優勢和英美智能安全研究所合作備忘錄77,其他國家則可能缺乏必要的資源和模型訪問權限。這種不平衡使得協調難度加。其次,如何在保持基礎結構和類似功能的同時,靈活應對各
95、國的不同需求,是個關鍵難題。此外,智能安全研究所之間實現認證互認的難度較,這可能阻礙企業的跨國合規并影響全球智能安全標準的制定。上述挑戰表明,盡管智能安全研究所及其國際絡在安全評測、安全研究和國際合作中具有重要潛,但未來仍需在模型訪問與評測權限、信息共享與安全實踐、標準制定與監管框架、資源差異與合作平衡、全球包容性與國際協調進改進,以應對智能技術為全球治理帶來的復雜挑戰。77UK Government,“UK&United States announce partnership on science of AI safety”,2024-04-02,https:/www.gov.uk/government/news/uk-united-states-announce-partnership-on-science-of-ai-safety.76University of Oxford,“AISIs Roles in Domestic and International Governance”,2024-07,https:/oms-