當前位置:首頁 > 報告詳情

Trustworthy Policy Learning under the Counterfactual No-Harm Criterion.pdf

上傳人: 2*** 編號:144895 2023-10-28 34頁 1.70MB

word格式文檔無特別注明外均可編輯修改,預覽文件經過壓縮,下載原文更清晰!
三個皮匠報告文庫所有資源均是客戶上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作商用。

相關圖表

全文主要研究了在機器學習中如何確保政策學習滿足“無害”準則。文章首先定義了“無害”準則,即政策在實施時不會對特定群體造成負面影響。作者提出了一種新的“無害”準則上界估計方法,并證明了其一致性和漸近正態性。文章還提出了一種基于此估計器的政策學習方法,并證明了在特定條件下,該方法學習到的政策與最優政策具有相同的風險。在模擬實驗中,作者展示了所提方法在滿足“無害”準則的同時,能夠提高政策獎勵。主要關鍵點包括:1)定義并分析了“無害”準則;2)提出了一種新的“無害”準則上界估計方法,并證明了其統計性質;3)提出了一種基于此估計器的政策學習方法,并證明了其與最優政策的風險相同;4)在模擬實驗中驗證了所提方法的有效性。
"如何實現因果推斷的公平性評價?" "基于因果的推薦系統有哪些最新研究進展?" "因果推斷在生物醫學領域有哪些實際應用案例?"
客服
商務合作
小程序
服務號
折疊
午夜网日韩中文字幕,日韩Av中文字幕久久,亚洲中文字幕在线一区二区,最新中文字幕在线视频网站