《2024龍蜥大會主論壇:構建成長式開源生態:挑戰和未來-周明輝.pdf》由會員分享,可在線閱讀,更多相關《2024龍蜥大會主論壇:構建成長式開源生態:挑戰和未來-周明輝.pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、構建成長式開源生態:挑戰和未來周明輝北京大學計算機學院教授、副院長中國計算機學會開源發展委員會副主任zhmhoss-lab.北京大學0101開源挑戰0 02 2研究路線0 03 3未來愿景開 源 挑 戰開源生態驅動全球科技創新一種全球化軟件創新與產業循環系統,匯聚了數千萬開發者和數以億計的開源代碼倉庫,是當前全球科技創新的重要引擎技術創新和產業發展持續深度融合 GitHub開發者100M+開源倉庫284M+貢獻者開源項目開源社區用戶企業科研院所開源組織產業聯盟集成商渠道商政府產業媒體學術媒體捐獻者生態系統持續發展 Gitee開發者12M+開源倉庫28M+開源生態成為國家戰略資源開源生態系統深度
2、融入國家科技和產業發展,開源生態成為國家資產參與國際競爭和博弈美國修改法案限制AI開源開源在包括超級計算機、云計算和人工智能等基礎和前沿技術領域都起著主導作用 突然限制訪問,沒有提前警告 根據用戶國際限制限制訪問GitHub Pages限制訪問私有倉庫限制創建新的私有倉庫限制刪除公有倉庫1993年V1.0(10萬行)發展為2019年V5.1(2500萬行)超過500個不同版本的LinuxTop-500超算100%運行Linux79%以上的公司應用Docker容器Openstack使硬件維護成降低59%82%以上的手機市場占有率2030年深度學習帶來15.7萬億的GDP增收;中國增幅預計為26.
3、1%主流深度學習框架全部開源計算機互聯網人工智能開源生態成為國家重要戰略國家“十四五”規劃和2035年遠景目標綱要、“七部門”實施意見將開源生態建設納入戰略任務支持數字技術開源社區創新聯合體發展,完善開源知識產權和法律體系,鼓勵企業開放軟件源代碼、硬件設計和應用服務做優信息服務產品。.推廣開源技術,建設開源社區,構建開源生態體系。探索以區塊鏈為核心技術、以數據為關鍵要素,構建下一代互聯網創新應用和數字化生態我國開源亟需有效方法和基礎設施支持生態培育和發展我國開源要素逐步成形,亟需行之有效的理論與關鍵技術,以及基礎設施給予支撐,才能形成生態直至引領全球產業創新發展典型開源生態構建模式面臨挑戰開源
4、發展40年形成了經典生態構建方法,面臨嚴峻挑戰關鍵技術挑戰經典方法主要挑戰自由式開源生態構建個體參與者為主體以優秀項目為核心自組織協作壟斷式開源生態構建大企業主導企業自身項目開源/主導已有開源強組織模式開源生態邊界開放且內部協作快速演化社區參與與主體多樣且行為高度不確定軟件制品間依賴復雜且持續動態變化開源生態的持續治理開源社群的持續激發開源制品的可信保障挑戰1挑戰2挑戰3研 究 路 線應對挑戰的研究路線圖國際開源生態系統1.生態建模2.技術突破3.設施構建4.公益示范我國開源生態系統生態要素量化成長演化模型開放式過程治理技術多元化社群激發技術高可信制品保障技術開源服務機構開源社區平臺開源生態工
5、具開源治理標準開源許可證成長式融合型開源生態基礎設成長式融合型開源生態基礎設施施研究方法:數據驅動的開源生態的度量和智能化支持開源大數據海量案例和實踐復雜系統原理和技術復雜系統/開源開發的機制機理、方法技術、和支撐工具開放式過程治理:多實體協作競爭問題 問題:商業實體與自由個體如何合作博弈塑造生態 研究:量化商業實體參與開源的一系列策略和行動,提煉商業參與模式,并揭示不同模式對志愿者留存影響,支持精準理解商業力量如何協作博弈并塑造開源生態開源生態成長式構建關鍵技術開放式過程治理成長式融合型開源生態基礎設施多樣化社群激發高可信制品保障挑戰性問題參與實體多樣競爭協作不可控影響不可控關鍵突破精準度量
6、商業參與模式及行為精準度量商業參與對社區貢獻者流失的影響發現協作度對開發效率有11.8倍的影響技術突破關鍵突破理論和模型方法技術公司參與度量社交網絡分析影響質量數據集研究成果引領開源商業參與研究方向公司參與模式TSE16&TSE19(CCF-A)公司協作模式ICSE20(CCF-A)公司主導模式FSE22(CCF-A)公司撤出模式TOSEM22(CCF-A)雇員與志愿者對比分析ICSE24(CCF-A)多元化社群激發:新手進階式融入 問題:新手加入開源社區難度大 研究:研發開發者進階式融入支撐技術:提煉出新手友好任務的多維度特征,并開發了GFI自動化推薦系統,引領了關于新手任務的一系列國際前沿
7、研究。開源生態成長式構建關鍵技術開放式過程治理成長式融合型開源生態基礎設施多樣化社群激發高可信制品保障挑戰性問題能力模糊認知差異任務復雜關鍵突破AUC最高可達0.85個性化推薦減少了新手約三分之一的失敗嘗試技術突破關鍵突破GFI自動化推薦實證分析數據收集新手友好任務標簽提取GitHub海量ISSUE數據新手友好任務(GFI)GFI解決情況分析GFI機制問題識別GFI特征提取GFI自動化推薦GFI個性化推薦從項目中任務提取特征從新手提取特征研究成果的開源社區互動GitHubfirst-timers社區對GFI推薦技術高度評價GFI標簽推薦工具被一組著名GitHub開源項目采納https:/gfi
8、bot.io可信軟件供應鏈:源碼倉溯源和供應鏈建模 問題:軟件依賴形成錯綜復雜軟件供應鏈,風險層出,防控復雜 研究:建立快速全網代碼溯源檢測的代碼庫更新方法,為復雜軟件供應鏈建立模型,建立軟件包源代碼倉庫溯源技開源生態成長式構建關鍵技術開放式過程治理成長式融合型開源生態基礎設施多樣化社群激發高可信制品保障挑戰性問題代碼倉庫數量分散在多個平臺溯源檢測效率低關鍵突破收集了近2億Git代碼倉庫首次構建深度學習軟件供應鏈軟件包級代碼溯源準確率可達90%技術突破關鍵突破代碼庫軟件供應鏈建模軟件包級溯源可信軟件供應鏈:開源軟件供應鏈風險檢測和消解挑戰性問題依賴圖結構復雜一個節點變動可引起依賴圖整體變動關鍵
9、突破首個合規性風險自動消解工具消解方案與 19 個真實案例相匹配,被 5 個流行 PyPI 軟件包的開發者采納技術突破關鍵突破合規性風險自動消解技術構建復雜軟件供應鏈合規性風險消解模型,提出使用SMT-Solver求解依賴圖的版本約束與許可證兼容約束的全局最優合規性風險消解方法https:/研究成果引領開源軟件供應鏈研究打開開源軟件供應鏈的“黑匣子”,兩次獲ACM SIGSOFT杰出論文獎2021年2022年2019年2023年軟件數字社會學中國科學:信息科學庫遷移推薦技術SANER(Core A)庫遷移推薦工具ICSE(CCF A)庫遷移模式分析FSE(CCF A)開源許可證選擇理論軟件學報
10、(CCF 中文A)深度學習供應鏈ICSE(CCF A)上下游供給優化ICPC(Core A)多生態庫遷移分析SANER(Core A)依賴自動更新實踐TSE(CCF A)軟件供應鏈研究綜述軟件學報(CCF 中文A)上下游供給實踐SANER(Core A)可持續性風險預測FSE(CCF A)PyPI特定領域供應鏈TOSEM(CCF A)自動機器學習供應鏈MSR(Core A)軟件許可證推薦ICSE(CCF A)依賴許可證沖突消解ASE(CCF A)首次構建深度學習軟件供應鏈提出軟件供應鏈及其面臨的挑戰,啟發一系列開源軟件供應鏈研究2024年軟件包溯源FSE(CCF A)深度學習供應鏈分析TOSE
11、M(CCF A)產學研融合推進開源生態基礎設施開源生態成長式構建關鍵技術開放式過程治理成長式融合型開源生態基礎設施多樣化社群激發高可信制品保障開源治理標準規范開源服務平臺開源社區組織公益服務示范以研究洞見和創新技術為基礎,形成融合型開源生態基礎設施,形成(例如開放原子開源基金會,CCF開源發展委員會)開源治理公益服務體系,以開源開放平臺為載體向全社會提供公益服務,支持公共開源、企業開源、科教開源公共開源應用體系企業開源應用體系科教開源應用體系成長式融合型開源生態基礎設施開源社區生態治理關鍵技術與運營服務體系開源許可證&標準開源治理過程體系開源生態成長式構建關鍵技術與工具體系CCF開源發展委員會
12、開源基金會&開源組織開源創新服務平臺e.g:開源社區服務平臺e.g:開源教育服務平臺e.g:Gitee,Gitatom,GitLink,.未 來 愿 景愿景:成長式生態構建范圍與特征自由式生態構建壟斷式生態構建成長式生態構建典型適用范圍 大眾發起的開源項目 成長不可預期,成功具偶然性大企業發起的開源項目成長較快,成功概率較大產業與行業亟需的開源項目漸進式成長,成功概率高過程治理特征 依賴開源項目創始人的天才和熱情參與者 缺乏明確的開源社區治理策略由主導企業控制,開源項目治理體系受制于企業的商業目標具有明確的商業化治理流程立足開源核心權益,支持政府、企業和大眾的良性合作博弈開放式過程治理,支持可
13、配置的治理策略群智激勵特征 以個人/團隊興趣愛好為導向,融入普世開源激勵方法 缺乏激勵體系設計以短期/長期企業利益為導向具有面向企業戰略目標的明確的機理體系以國家/行業/企業利益為導向多元化群智激勵,兼顧開發者進階式成長與協作制品保障特征依賴社區自發質量控制和審核機制缺乏質量控制標準由主導組織提供標準和流程,確保質量依賴組織的質量控制標準多樣化供應鏈風險識別、全局性供應鏈風險消解可信軟件供應鏈體系化風險防控生態設施特征由團隊自主搭建或選用公共代碼托管平臺聚焦團隊溝通和代碼托管開源組織自主搭建社區網站,并選用公共代碼托管平臺聚焦社區治理和代碼托管開源組織基于融合型基礎設施開展可調控的開源社區活動
14、聚焦社區成長和開源開發配套支持愿景:發展0-1的創新提出復雜開源生態系統形成、演化和可持續理論和技術,為新型互聯網創新技術群智開發提供理論、技術和工具支持融合社會科學和計算科學的新型科學范式,交叉創新 軟件+社會學+經濟學+法學 交叉融匯創新新型開源生態激勵和治理的理論方法,建設生態 支持科研成果開源發展,打破科研項目周期局限,加速成果轉化 加速開源技術走進課堂,推動開源創新人才培養開源大數據高質量資源化理論和技術,支撐協同 多粒度、多維度的數據資源化 數據質量評估理論與技術愿景:產學研融合建設全球化的開源創新生態產學研深度融合的開源生態支撐產學研深度融合的開源生態支撐構建全球開源生態度量體系建立國際影響力 建立國際度量體系標準 聯合關鍵開源社區 支持全球開源生態建設全網開源數據資源化支持協同創新研究 World of Code:開源數據資源化 HuggingData:數據利用社區化產學研開源科教基地服務創新人才培養 立足CCF開源發展委員會建立和發展開源基金會 推動01創新孵化(木蘭孵化委員會)和開源教育(頭歌平臺)推進1N的生態建設:基礎軟硬件,AI技術,人機物融合技術zhouminghuiosslab-pku.orgzhouminghuiosslab-pku.orgzhouminghuiosslab-pku.org