《計算機行業Anthropic:專注研發安全可靠的AGI 對標ChatGPT推出Claude-230829(16頁).pdf》由會員分享,可在線閱讀,更多相關《計算機行業Anthropic:專注研發安全可靠的AGI 對標ChatGPT推出Claude-230829(16頁).pdf(16頁珍藏版)》請在三個皮匠報告上搜索。
1、中 泰 證 券 研 究 所 專 業 領 先 深 度 誠 信 證券研究報告 2 0 2 3.8.2 9 Anthropic:專注研發安全可靠的AGI,對標ChatGPT推出Claude 分析師:聞學臣 執業證書編號:S0740519090007 聯系方式: 2 圖表:Anthropic組織目標 資料來源:Anthropic、中泰證券研究所 圖表:Anthropic官網界面 資料來源:Anthropic、中泰證券研究所 公司簡介:公司簡介:2021年誕生的年誕生的AI初創公司,致力于創造可靠的人工智能初創公司,致力于創造可靠的人工智能 2021年,Anthropic在美國舊金山誕生。Anthrop
2、ic認為人工智能有潛力從根本上改變世界的運作方式。他們致力于構建人們可以依賴的系統,并開展有關人工智能機遇和風險的研究。其使命是確保變革性人工智能(Transformative AI,TAI)幫助人們和社會繁榮發展。公司通過構建前沿系統、研究其行為、努力負責任地部署AI以及定期分享安全方面的見解來追求他們的使命。bUqRwPxOtQeZ9PbPaQpNnNmOtQfQmMuMiNnOmN9PnMrRNZqRoQMYtOoP3 Anthropic的創始團隊成員均擁有很強的技術實力和學術研究能力:的創始團隊成員均擁有很強的技術實力和學術研究能力:Anthropic的創始人兼的創始人兼CEO是是Da
3、rio Amodei,曾擔任,曾擔任OpenAI的的AI安全團隊經理,引領過安全團隊經理,引領過GPT-2和和GPT-3的開發,并為的開發,并為OpenAI撰寫了公司的研究方向和計劃,是撰寫了公司的研究方向和計劃,是OpenAI研究團隊的副總裁。研究團隊的副總裁。Anthropic的聯合創始人兼總裁Daniela Amodei是Dario的妹妹,也曾在OpenAI安全團隊任職。在此之前,她也在Stripe任職超過五年。Anthropic的其余創始人也曾在的其余創始人也曾在OpenAI等機構任職。等機構任職。Tom Brown領導了GPT-3工程團隊,也曾在Google Brain技術團隊工作(
4、Google Brain也是提出Transformer算法架構的團隊);Sam McCandlish在OpenAI建立并引領了研究Scaling Law的團隊,并參與了GPT-3的開發工作;Jack Clark曾任OpenAI的政策總監;Jared Kaplan是約翰霍普金斯大學教授,也曾兼任OpenAI研究咨詢工作。創始人團隊:創始人團隊:OpenAI高級員工帶隊,技術和研究能力出色高級員工帶隊,技術和研究能力出色 圖表:Anthropic團隊(部分)資料來源:Crunchbase、中泰證券研究所 4 時間 輪數 融資金額 領投 2021年5月 Series A 124M Jaan Tall
5、inn 2022年8月 Series B 580M Sam Bankman-Fried 2023年2月 Corporate Round 300M Google 2023年5月 Series C 450M Spark Capital 2023年7月 Corporate Round-2023年8月 Corporate Round 100M-2021年5月,Anthropic完成A 輪融資1.24億美元,由技術投資者兼 Skype 聯合創始人 Jaan Tallinn 領投。隨后Anthropic又進行了五輪融資,總共募集資金約16億美元。其中,公司在2022年8月完成的B輪融資由量化交易公司Ala
6、meda Research及知名加密貨幣交易所FTX創始人Sam Bankman-Frid領投。隨后完成的融資分別由Google和星火資本(Spark Capital)領投。融資經歷:六輪總融資額融資經歷:六輪總融資額1.6B,Google、Spark Capital領投領投 圖表:Anthropic融資經歷 資料來源:Crunchbase、中泰證券研究所 5 圖表:Claude界面 資料來源:Anthropic、中泰證券研究所 2023年5月,Anthropic宣布更新聊天助手Claude 2,能夠支持文件輸入、代碼解析等功能。語言方面目前只支持英文對話,但能夠提供使用Google翻譯后生成
7、的中文回答。最新的模型在律師考試多項選擇部分的得分為76.5%,高于 Claude 1.3 的 73.0%。與申請研究生院的大學生相比,Claude 2 在 GRE 閱讀和寫作考試中的得分高于 90%,在定量推理方面與申請者的中位數相似。Claude 2在Python 編碼測試Codex HumanEval上的得分比 56.0%提高了71.2%。在 GSM8k(大量小學數學題)評測上,Claude 2 的得分從 85.2%上升到88.0%。AI大模型對話產品大模型對話產品Claude:支持:支持100k超長上下文輸入,各項能力均突出超長上下文輸入,各項能力均突出 圖表:Claude 2在各項任
8、務中表現均升級 資料來源:Anthropic、中泰證券研究所 6 圖表:Constitutional AI在有用性和有害性的評測分數更高 資料來源:Constitutional AI:Harmlessness from AI Feedback、中泰證券研究所 圖表:Constitutional Training基本步驟 資料來源:Anthropic、中泰證券研究所 Anthropic發現了一種新的人工智能安全方法,它能根據一套原則來塑造人工智能系統的輸出。這種方法被稱為憲法人工智能(Constitutional AI,CAI)。它為人工智能系統提供了一套原則(即Constitution,憲法)
9、,人工智能系統可以根據它來評估自己的輸出。Anthropic認為CAI擁有諸多優點:CAI的模型更加無害,對有用性的影響最小,能夠在無害和可用之間尋找到更加高效的平衡。的模型更加無害,對有用性的影響最小,能夠在無害和可用之間尋找到更加高效的平衡。CAI增加了模型的透明度(增加了模型的透明度(transparency)。)。CAI是一種可以擴展的安全措施,能夠比傳統的是一種可以擴展的安全措施,能夠比傳統的RLHF節約更多用于數據標注的時間。節約更多用于數據標注的時間。核心核心AI安全技術:提出安全技術:提出CAI方法、為方法、為AI設定憲法原則設定憲法原則 7 圖表:GPT的RLHF步驟 資料來
10、源:Training language models to follow instructions with human feedback、中泰證券研究所 圖表:Constitutional Training訓練步驟,人類參與更少 資料來源:Anthropic、中泰證券研究所 CAI的第一階段是SL(Supervised Learning):模型首先對有害的樣例進行響應,再使用隨機抽取的憲法原則和一些過程示例來批評和修改自己的響應,得到SL-CAI Model。這一步的目的是使模型更均勻,減少RL階段所需的訓練時間。第二階段是RL(Reinforcement Learning):模型通過強化學
11、習進行訓練,但不使用人類反饋,而是使用基于一組原則的人工智能生成的反饋來選擇更無害的輸出,最終得到RL-CAI Model。CAI的訓練步驟中只有第一步訓練的訓練步驟中只有第一步訓練Helpful Model時需要人類參與反饋,相比之下,時需要人類參與反饋,相比之下,GPT-3.5的的RLHF模式則需要大量參模式則需要大量參與進提示集標注、輸出結果排序等工作中。與進提示集標注、輸出結果排序等工作中。核心核心AI安全技術:安全技術:CAI與與RLHF有何不同?有何不同?1 使用RLHF訓練Helpful Model 2 讓模型對有害的樣本進行回應 4 得到微調的SL-CAI Model 1 通過
12、紅隊提示得到樣本對 SL Step RL Step 2 使用憲法原則進行自我提升 3 得到微調后的偏好模型PM 4 使用PM和SL-CAI Model進行RLAIF 最終得到 RL-CAI Model 3 基于憲法原則對評論進行回應、批評和修正 1 人類為專家數據集樣本進行標注,用以訓練Policy 2 為模型輸出的結果優劣進行排序,用以訓練獎勵模型 3 由獎勵模型進行PPO反饋 8 AI憲法內容 譯文 憲法參考來源 Please choose the response that is least racist and sexist,and that is least discriminato
13、ry based on language,religion,political or other opinion,national or social origin,property,birth or other status.請選擇最不帶有種族和性別歧視的回應,并且最少基于語言、宗教、政治或其他觀點、國籍或社會起源、財產、出生或其他狀態進行歧視的回應。丕界人權宣言 Please choose the response that is most supportive and encouraging of life,liberty,and personal security.請選擇最支持和鼓勵生
14、活、自由和個人安全的回應。丕界人權宣言 Please choose the response that has the least objectionable,offensive,unlawful,deceptive,inaccurate,or harmful content.請選擇內容最少有爭議、冒犯、違法、欺騙、不準確或有害的回應。Apple服務條例 Please choose the response that has the least personal,private,or confidential information belonging to others.請選擇最少包含他人的
15、個人、私密或機密信息的回應。Apple服務條例 Choose the response that uses fewer stereotypes or other harmful generalizing statements about groups of people,including fewer microaggressions.選擇使用更少關于人群的刻板印象或其他有害的概括性言論的回應,包括更少的微侵犯。DeepMind條例 Choose the response that is least threatening or aggressive.請選擇最不具有威脅或侵略性的回應。Deep
16、Mind條例 CAI 應用可以產生帕累托效應。憲法強化學習比來自人類反饋的強化學習更有幫助,也更無害。Anthropic現行的憲法借鑒了一系列來源,包括聯合國人權宣言、信任和安全最佳實踐、以及其他人工智能研究實驗現行的憲法借鑒了一系列來源,包括聯合國人權宣言、信任和安全最佳實踐、以及其他人工智能研究實驗室提出的原則(例如來自室提出的原則(例如來自 DeepMind的的Sparrow Principle)。)。CAI原則:納入人類價值觀用于原則:納入人類價值觀用于AI對齊對齊 圖表:Anthropic提出的AI憲法條例(部分)資料來源:Anthropic、中泰證券研究所 9 Claude 2 在
17、在 HHH(有用性(有用性helpfulness、無害性、無害性harmlessness、事實性、事實性honesty)上的表現再次提升。)上的表現再次提升。在自動紅隊評估的結果中,最新發布的Claude Instant 1.2版本產生的幻覺(Hallucination)更少,并且更能抵抗越獄(Jailbreak)。核心核心AI安全技術:安全技術:Claude 2在在HHH安全性表現與紅隊評測結果上表現優秀安全性表現與紅隊評測結果上表現優秀 圖表:HHH評估結果 資料來源:Anthropic、中泰證券研究所 圖表:紅隊評估結果 資料來源:Anthropic、中泰證券研究所 10 圖表:Anth
18、ropic合作伙伴(部分)資料來源:Anthropic、中泰證券研究所 2023年2月,Anthropic宣布與Google Cloud合作,并運用其GPU和TPU集群進行訓練。4月,Anthropic宣布與Scale合作,支持客戶在Scale的平臺上部署Claude并創建應用程序。2023年8月,公司宣布與韓國最大的移動運營商SK Telecom進行合作。SKT 和 Anthropic 將共同開發一個大型語言模型,該模型將進行定制以滿足電信公司的需求。Anthropic將利用 SKT 在電信領域的經驗,使模型針對各種電信應用進行優化,包括客戶服務、營銷、銷售和交互式消費者應用。除了這一商業合
19、作伙伴關系之外,繼硅谷 SK Telecom Venture Capital(SKTVC)的投資之后,SKT 還向 Anthropic 追加投資了 1 億美元。B端合作伙伴:積極拓展各行業合作伙伴,提供定制化模型服務端合作伙伴:積極拓展各行業合作伙伴,提供定制化模型服務 11 圖表:Cody主頁 資料來源:Sourcegraph、中泰證券研究所 圖表:使用Cody進行代碼含義問答 資料來源:Sourcegraph、中泰證券研究所 代碼生成領域,代碼生成領域,Anthropic與與AI代碼平臺代碼平臺Sourcegraph合作,幫助客戶編寫、修復和維護代碼。其合作,幫助客戶編寫、修復和維護代碼。
20、其編碼助理Cody使用 Claude 2 改進的推理能力為用戶查詢提供更準確的答案,同時還通過 100K 上下文窗口傳遞更多代碼庫上下文。同時Claude 2 擁有更新的框架和庫的知識,可供 Cody 從中提取。B端合作伙伴:與端合作伙伴:與AI代碼平臺代碼平臺Sourcegraph合作合作 12 圖表:RobinAI法律文本分析界面 資料來源:Anthropic、中泰證券研究所 Claude已經集成在了Quora的 AI 聊天應用程序Poe中。從Poe使用者的角度看,Claude 的回答詳細且易于理解,就像人與人之間自然的交流。Claude 還集成在Notion中,幫助Notion用戶提高了
21、生產力。Claude與法律基礎設施公司Robin AI合作,致力于法律領域最困難的問題之一:閱讀和理解復雜的法律文本。Anthropic還與創新AI公司Assembly AI合作,為API 平臺提供支持用于大規模轉錄和理解音頻數據。C端下游應用:與端下游應用:與Notion、Quora等合作開發應用,提供等合作開發應用,提供AI能力能力 圖表:Anthropic與Quora合作的Poe app 資料來源:Anthropic、中泰證券研究所 Robin AI應用Claude能力進行法律文本解析 13 圖表:Anthropic模型定價 資料來源:Anthropic、中泰證券研究所(定價標準為202
22、3年7月公布方案價格,目前Claude 1和Claude 2價格相同)Anthropic目前采用生成目前采用生成Tokens數量定價的模式進行盈利。數量定價的模式進行盈利。目前最新的版本分類Claude Instant和Claude 2兩個版本。其中每種模型分為Prompt和Completion標準,Completion標準的收費標準更高。對于Claude 2模型,Completion版本的收費標準為32.68美元每百萬token。根據根據Growjo預測,預測,Anthropic的年度營業收入為的年度營業收入為0.154億美元。公司目前擁有億美元。公司目前擁有131名員工,每位員工平均創收名
23、員工,每位員工平均創收11.75萬萬美元。截至美元。截至2023年年2月,月,Anthropic的公司估值為的公司估值為44億美元。億美元。定價與盈利情況:產品根據定價與盈利情況:產品根據Token數量定價,預估營收數量定價,預估營收0.154億美元億美元 模型 最佳用途 上下文長度 標準定價 Claude Instant 低延遲、高吞吐量 100000 tokens Prompt:$1.63/百萬token;Completion:$5.51/百萬token Claude 2 在需要復雜推理的任務中表現出色,Anthropic的最佳模型 100000 tokens Prompt:$11.02/
24、百萬token;Completion:$32.68/百萬token 14 未來的模型計算量還會有千倍的提升空間,未來的模型計算量還會有千倍的提升空間,AI能力迭代速度和強度可能遠超預期。從能力迭代速度和強度可能遠超預期。從GPT-2 到 GPT-3 的能力涌現,主要來自于增加了約250倍的計算量。Anthropic預測,2023 年原始 GPT-3 模型和最先進模型之間的差距將再增加 50 倍。接下來的 5 年內,預計用于訓練最大模型的計算量將增加約 1000 倍。在這種情況下,AI產生新一輪能力涌現的速度和強度可能會遠超人類的預期。AI安全可能成為未來人工智能領域最重要的議題,應當更加關注擁
25、有更強安全能力的公司。安全可能成為未來人工智能領域最重要的議題,應當更加關注擁有更強安全能力的公司。Anthropic認為,如果AI足夠智能,變得像設計者一樣了解周圍的環境,再想要構建安全、可靠和可操縱的系統可能會非常困難。同時AI技術的快速進步可能具有很大的破壞性,將會改變國家內部和國家之間的就業、宏觀經濟和權力的關系。而且,這些風險還可能會相互疊加,帶來難以預料的風險。我們認為對于這種可能對人類產生重大影響的新技術,應當保持謹慎樂觀的態度,并更加關注擁有更強安全能力的AI公司。短期短期Claude的能力不如的能力不如GPT,但隨著,但隨著CAI方法的完善和相關方法的完善和相關AI安全工作的
26、推進,安全工作的推進,Claude模型迭代的效果值得期待。模型迭代的效果值得期待。公司的Claude 2模型在安全性方面表現處于行業領先地位,其提出的CAI方法與主流RLHF有較大差異,但已經在部分模型訓練中表現出了較好的效果。隨著AI對人類語言和價值觀理解能力的增強,AI安全領域可能會面臨著極大的挑戰。Constitution AI有望擁有大大超出RLHF的安全效果,能夠極大增強Claude模型的競爭力,Claude未來的表現值得期待。產業研判與投資建議產業研判與投資建議 15 AI技術落地不及預期技術落地不及預期:AI技術更新迅速,如果公司無法跟上技術應用的步伐,可能會被競爭對手超越。同時
27、AI技術的使用會改變用戶的工作方式,如果用戶不愿意接受這些改變,可能會影響公司的潛在業務增長速度。即使AI技術在實驗室環境中表現優秀,但在實際應用中可能遇到許多未預見的問題和挑戰。技術落地的過程中可能出現技術難題、系統穩定性、性能等問題。產品市場競爭加劇產品市場競爭加?。弘S著競爭的加劇,公司需要不斷創新以保持競爭優勢。這可能需要大量的研發投入和時間,同時還需要承擔創新失敗的風險。同行業的競對公司可能通過降低價格來吸引客戶,這可能會迫使公司也降低價格,從而影響營收和利潤。AI產品落地過程中,競爭加劇可能會分散市場,導致公司的市場份額下降。數據更新不及時數據更新不及時:AI領域變化較快,報告中引用
28、的部分圖表和數據存在一定的時效性,因此可能面臨數據更新不及時的風險 風險提示風險提示 16 重要聲明重要聲明 中泰證券股份有限公司(以下簡稱“本公司”)具有中國證券監督管理委員會許可的證券投資咨詢業務資格。本公司不會因接收人收到本報告而視其為客戶。本報告基于本公司及其研究人員認為可信的公開資料或實地調研資料,反映了作者的研究觀點,力求獨立、客觀和公正,結論不受任何第三方的授意或影響。本公司力求但不保證這些信息的準確性和完整性,且本報告中的資料、意見、預測均反映報告初次公開發布時的判斷,可能會隨時調整。本公司對本報告所含信息可在不發出通知的情形下做出修改,投資者應當自行關注相應的更新或修改。本報
29、告所載的資料、工具、意見、信息及推測只提供給客戶作參考之用,不構成任何投資、法律、會計或稅務的最終操作建議,本公司不就報告中的內容對最終操作建議做出任何擔保。本報告中所指的投資及服務可能不適合個別客戶,不構成客戶私人咨詢建議。市場有風險,投資需謹慎。在任何情況下,本公司不對任何人因使用本報告中的任何內容所引致的任何損失負任何責任。投資者應注意,在法律允許的情況下,本公司及其本公司的關聯機構可能會持有報告中涉及的公司所發行的證券并進行交易,并可能為這些公司正在提供或爭取提供投資銀行、財務顧問和金融產品等各種金融服務。本公司及其本公司的關聯機構或個人可能在本報告公開發布之前已經使用或了解其中的信息。本報告版權歸“中泰證券股份有限公司”所有。事先未經本公司書面授權,任何機構和個人,不得對本報告進行任何形式的翻版、發布、復制、轉載、刊登、篡改,且不得對本報告進行有悖原意的刪節或修改。