《斗魚直播實時風控引擎快速對抗探索實踐-李瑞.pdf》由會員分享,可在線閱讀,更多相關《斗魚直播實時風控引擎快速對抗探索實踐-李瑞.pdf(26頁珍藏版)》請在三個皮匠報告上搜索。
1、DataFunSummit#2023斗魚直播實時風控引擎快速對抗探索實踐演講人-李瑞-斗魚直播-風控負責人01直播行業的黑產問題02全棧式風控引擎的建設03文本識別對抗實踐04思考與展望目錄CONTENTDataFunSummit#202301直播行業的黑產問題直播行業常見的黑灰產問題渠道作弊活動欺詐廣告引流低俗辱罵欺詐充值電信詐騙主播刷榜虛假開播業務安全的痛點木桶效應如果不掌握所有的用戶行為入口和數據,總會出現防范的短板,無法識別出黑產賬號,也無法有效支撐業務安全。業務對接成本高不同類型的業務需要獨立的風控名單/接口服務,相應的風控策略也不同,每個業務的策略服務如果單獨開發效率低,并且配置凌
2、亂難以管理。性能要求高 對接業務眾多,吞吐量巨大,RT不能影響業務 實時計算時效性要求高用戶體驗差 用戶被風控后缺少反饋途徑的引導。投訴反饋排查效率低、耗費風控人員精力防御時效性差 風險感知能力不全面,風控迭代慢 實時性策略較少,依賴離線挖掘周期長。DataFunSummit#202302全棧式風控引擎的建設全棧式風控引擎架構單流計算Storm/Flink自研規則引擎ARES營銷活動賬號安全直播彈幕行為特征實時計算渠道激活充值打賞主播榜單業務接入多流計算Flink動態編譯策略編排異常報警Kafka業務注冊特征裝載自定義函數風險權重配套工具業務健康羅盤規則灰度測試可視化規則管理基礎數據預處理風險
3、特征庫懲罰中心規則生命周期用戶自助反饋通用策略窗口頻率黑白名單IP設備聚集行為交叉一致歸屬地異常實時調用廣告點擊風控網關RPC/HTTP熔斷兜底數據預裝載上報RedisCluster模型畫像文本匹配設備農場評分卡策略用戶畫像手機畫像IP畫像文本模型風險評分團伙發現行為序列設備異常風控引擎RPC全棧式風控引擎降低對接成本業務收攏強運營強宣發,推動業務對接,解決木桶效應。低成本一站式接入業務注冊調用后,就可以獲得全面的風險管控、監控告警、反饋排查等配套服務支持。業務方注冊監控、調優全棧式風控引擎降低對接成本可視化引擎可視化編輯決策流定制類策略通用型策略規則編譯動態加載規則文件管理器元信息JavaF
4、ileObject源碼編譯器字節碼JavaFileObjectClass對象注入rpc服務執行計劃編排RuleRule1Rule2RuleN返回開始微服務裝載懲罰中心風險標簽用戶信息/地址解析三方服務團伙屬性風險評分超時兜底流量控制風險權重對外話術日志收集勾選編輯上手門檻低常用策略模型高度復用策略發布流程規范支持高度定制類規則高可用高性能實時訂閱智能風控:風控引擎與機器學習平臺打通算法層風險評分GBDT+LRDeepFM團伙發現圖算法自研無監督垃圾文本TextCNNWide&Deep風險設備IForest自研指紋行為序列Transformer自研團伙序列策略融合風險評分融合評分團伙評分單場景評
5、分白評分團伙發現可解釋性團伙標簽垃圾文本變體內容行為屬性風險設備設備標簽唯一性檢測機器學習平臺算法框架TensorflowPytorchSparkML任務調度公有云打通Docker特征工程特征構造特征計算版本管理升級回退在線預測模型部署準召率評估一鍵上線風控引擎與算法平臺打通實時引擎調用模型微服務實時團伙服務實時評分服務設備異常服務文本實時預測行為序列標簽模型解釋話術自動分析異常根因分析自動規則生成配套工具后臺團伙管理設備查詢評分管理行為序列查詢智能風控增強欺詐識別能力提升風險感知能力策略評估更準確提升對抗效率智能風控:提升對抗效率監控到波動用戶信息特征行為特征風控畫像特征注冊地、用戶等級、手
6、機歸屬地、區號、手機參數行為IP/設備、行為類型個數(行為路徑)、沉默天數、最近登陸地uid/ip/設備風控記錄、團伙分數、用戶評分提取特征規則提取效果校驗挖掘算法決策樹(GBDT)、KS、方差分析、分位數提取策略是什么:哪個IP、哪個手機區號粒度:地點:國/省/市,時間:月/日/時閾值:連續:=,離散:in=策略:注冊月份=202212&沉默天數110&沉默天數120&今日行為類型數=3評估指標高質量白名單誤殺占比(準確率)識別量(召回率)提升效率:減少了 監控排查策略上線 人力與時間 減少監控噪音,提升監控準確性高吞吐設計-行為指標實時計算詐騙:user.level=1000 group
7、by HOP(訂單.dateline,INTERVAL 1 MINUTE,INTERVAL N MINUTE)訂單掃碼HDFSRocksDBHeapjoin state滑動觸發count distinctredis高吞吐設計-規則引擎選型引擎選型預研執行策略groovygroovy(CompileStatic)aviatorDrools7javadubbo(10000次)12519/126381321411670dubbo(100000次)111390/113666114066105755dubbo(1000000次)1086102/110176211888821052743邏輯運算(1000
8、0000次)73934528952270321邏輯運算(100000000次)6771323823377226952469遞歸(O(2n))(n=40)187187061/72986626 源代碼性能最好 規則檢錯機制友好 遷移成本低高吞吐設計-預裝載緩存優化業務A業務B舊版業務CGuava緩存Guava緩存Guava緩存Mysql業務A業務B新版業務CCaffeine緩存MysqlRedis二級緩存Cacheable(value=u_i,depict=用戶信息緩存,enableFirstCache=true,firstCache=FirstCache(expireTime=7200,time
9、Unit=TimeUnit.SECONDS,initialCapacity=60000,maximumSize=60000),secondaryCache=SecondaryCache(expireTime=18000,timeUnit=TimeUnit.SECONDS,isAllowNullValue=true)public UserInfo getUserInfo(long uid)請求量:日均2.5E平均耗時:5ms-1.5ms緩存命中率:32%-87%Caffeine緩存Caffeine緩存高吞吐設計-風險標簽存儲優化批量注冊非法彈幕古早活動抽獎HbaseRedisSetRedis一個
10、用戶占位256bit平均耗時:20ms-6ms內存使用:250G-30G批量注冊非法彈幕舊版活動抽獎RedisRedisBitmapRedis標簽1標簽2新版標簽NRedisBitmap古早時期,每種異常行為一個set,也有使用Hbase、Mysql等DB,空間浪費、管理混亂、慢查詢較多統一使用Redis管理,每種異常標簽一個bitmap,縮短查詢耗時、減少存儲空間,但讀取多種標簽,就會產生多次IO 一個用戶開辟一個bitmap,一把讀出所有風險標簽 所有用戶存放在多段bitmap中,分桶存儲,進一步節省key開銷提升用戶體驗友好的風控引導提示 明確用戶行為受限原因 提示違規行為的影響 提供申
11、訴入口用戶自助申訴 用戶自主申訴替代人工客服,節約人力提升效率系統自動解決客訴根據命中策略風險程度、團伙規模等自動判定是否解除限制客訴量監控實時監控客訴量,將客訴量維持在較低的水平策略優化閉環持續優化風控策略模型,推導策略實際準確率,分析命中規則誤殺情況DataFunSummit#202303文本識別對抗實踐文本識別挑戰主播簧薇 ET28六八加 薇 信 OOO7本人私房【大chi 度】激晴自拍視頻!想看加徽亻言 baby13787020180點我頭像 讓你爽站 j 6,篁沚 J 1.廣告變體 諧音變體、象形變體、拆字變體 聯系方式字母數字變體字符 聯系方式符號間隔 拼音混合 表情符號代替文字2
12、.低俗辱罵變體 諧音變體、象形變體、拆字變體 拼音縮寫 拼音同與同音詞混合 表情符號代指p研拉鏈夾到疍zao屎zao,超生一拳大事你司馬沒母你頂的我好爽文本識別服務架構標點符號拼音特征表情符號特殊符號映射正則匹配字母數字占比異形字占比硬詞匹配模糊匹配諧音匹配自動提煉關鍵詞規則識別敏感詞匹配預處理數據層彈幕昵稱帖子頻道聊天私信標題簽名模型管理語料標注模型自動訓練準召率評估樣本管理模型版本管理算法策略文本相似度ML/DL模型char2vec+textcnnword2vec+textcnnWide&DeepBayes服務層事前攔截事中/事后人審錯檢/漏檢監控誤殺降級兜底內容回溯平臺自研敏感詞匹配算法
13、技術選型字符串Contains普通正則引擎Hyperscan多模正則AC算法時間復雜度O(mn)O(mn)O(m+n)O(n)空間復雜度O(m)O(m)O(m)O(m)初始化耗時低高高低增量添加刪除通配支持其中n為待檢測文本長度,m為模式串(敏感詞)集合的總長度維度算法挑戰敏感詞通配符?*通配邏輯實現通配長度 誤殺率 風險,通配長度 誤殺率 風險,最大通配長度需在各個場景、時期、用戶上分別配置數十萬敏感詞,調用量大,直接影響C端用戶體驗,耗時敏感自研敏感詞算法敏感詞:自制槍支自制?槍自制*槍待檢測文本(最大通配長度m=3):售賣自制散彈槍聯系微信zzsq47988基于NFA的通配敏感詞匹配算法
14、2級非白用戶風險評分80敏感詞:群*懂*的20級白用戶風險評分5m=2粉絲群說啥了,懂的人解釋一下m=15加群79648729都懂的不命中命中槍?m-1=2root自制支槍end*槍endend聯end動態調整最大匹配長度:時間復雜度:O(n),其中n為待檢測文本長度敏感詞自動發現FROMFROMTOTOaaa aeajjc12.a2jccjcc都俛的6210382變體字符字典(約3k)a2jcc都俛的,a2jcc 2jcc都俛的,jcc都俛的,cc都俛的6210382,2103822 j,都俛的a2,都俛的鐄a2j,a2 cc都俛的Q群六210丶382直接來來球群621082看刺激的Q群21
15、零3 2周姐的視頻a2jcc都俛的a2jcc都俛的鐄a2jcca2jcc都俛的q62103826210382q6210382后綴樹輸入“abc”,“abd”得到公共子串:a、b、ab長度大于5、重復3次及以上rootan=2bn=2cn=1$dn=1$bn=2dn=1$cn=1$cn=1dn=1$異形字公共子串聯系方式公共子串DataFunSummit#202304思考與展望思考與展望1.自動分析目前還處于半自動挖掘雖然自動化分析可以給出初步的風險策略建議,但還不夠成熟,存在特征重復、閾值不合理、召回率較低等問題,需要持續迭代優化2.擁抱向量檢索 文本相似檢索 違規行為匹配3.大模型應用 大模型識別文本變體的能力顯著 當前特征標簽本身還是人工維護創建的,受限于人員的思路寬度,存在無法召回的情況,是否可以借用大模型自動化構建特征標簽和策略?感謝觀看