《A2--王曉坤--云音樂AIGC生成音樂內容質量保障實踐.pdf》由會員分享,可在線閱讀,更多相關《A2--王曉坤--云音樂AIGC生成音樂內容質量保障實踐.pdf(36頁珍藏版)》請在三個皮匠報告上搜索。
1、數生智慧2023/9/22-23中國上海高質量發醫新等第九屆焦QECOn全球軟件質量&效能大會云音樂AIGC生成音樂內容質量保障實踐王曉坤網易云音樂內容質量負責人#page#95c王曉坤網易云音樂內容質量負責人先后負責云音樂營收、內容等業務質量管理與質量技術建設;數生智慧全球軟件質量&效能大會富國量發園新家#page#9598001背景02方案設計目錄03保障實踐04落地效果CONTENTS05未來規劃數生智慧全球軟件質量&效能大會富國量發園新家#page#95c01背景數生智慧全球軟件質量&效能大會商醫量發園新#page#16:20進球背景介紹(2020網易GAIGC音樂在音樂內容生成上,得
2、到了廣泛的應用,如創作、演唱及合成等;未來之歌云音樂天音一站式AIGC音樂內容生成平臺,提供智能編曲、作詞和成曲等功能;BAI輔助創作可觸達大部分音樂人,輔助歌詞、曲譜、演唱及混音等音樂創作,內容的質量至關重要;全球軟件質量&效能大會#page#背景介紹QEC90AIGC音樂特點創作效率標準化創作門檻館低高作詞、作曲、編曲、演唱及合成等環節內容質量?除生器量全球軟件質量&雙能大會發新21#page#QECon前期保障流程音頻算法工程開發需求分析線上走查需求評審開發聯調線上題控需求階段開發階段上錢階段天音早期上線流程設計階段測試階段交互設計平臺功能測試技術方案生成內容效果測試(眾包)測試方案存在
3、問題標準不統一驗證效率低問題發現難除生器品,全球軟件質量&雙能大會發新21#page#存在問題QEC90驗收依賴主觀聽感,導致不同人之間驗收標準不一致;標準不統一測試人員長時間驗收大量音頻后,聽覺上的倦感影響判斷;算法模型更新影響范圍難以評估,需要投入大量人力測試;投入成本高問題修復對于已有模版需要回歸,相關回歸驗證投入人力大傳統的web測試手段,難以發現內容本身問題;問題發現難問題從發現到修復鏈路長,難以評估整體影響;全球軟件質量&雙能大會)#page#解決方向QEC90針對上述標準不統一、驗證效率低、問題發現難等挑戰,核心需要解決以下問題:自動化標準化客觀評價標準標準驗證自動化監控召回問題
4、感知主觀評價標準自動化流程集成問題召回建立客觀和主觀評估指標,并設置合理的準出標準,采用指標規則及算法模型對AIGC音樂內容進行大規模自動化驗證,以保障其質量,通過業務鏈路分層監控,及時召回線上問題,提升用戶的功能和使用體驗。除生器量全球軟件質量&雙能大會發新21#page#95c02方案設計數生智慧全球軟件質量&效能大會商醫量發園新#page#QEC90解決思路制定統一的內容保底檢測標準,讓測試人員可以更專注于選代功能本身的驗證,無需關系其他影響;F測試標準化從測試和回歸過程中降低人工測試規模,從而減少驗收自動化測試人力的投入;線上監控覆蓋規范整體內容質量保障體系,打通整體測試-回歸-線上監
5、控的完整質量保障鏈路;除生器量全球軟件質量&雙能大會設各3#page#QEC90內容質量標準化文件大小文件頭音質吉他缺失基本屬性彈性不在調上響度雜音不在調時長跑調鼓缺失音色少BPM不在終有天音內容質量測試太吉他缺失聲音太大是否存在樂器缺失音色檢測太糊鋼琴聲音太小是否存在雜音沒有聲音是否跑調音準檢測派生屬性和弦是否一致演唱歌詞是否一致演唱識別演唱歌手是否一致A除生器品,全球軟件質量&雙能大會發新21#page#客觀質量標準QEC90判斷是否為有效音頻的音頻文件基本特征,包括文件大小,文件頭,響度等方法檢測項默認范圍文件大小10kb 500mb讀取生成文件大小文件頭mp3,wav解析文件字節碼格式
6、音質320k讀取音頻文件屬性響度音頻文件的累積響度-15 -5 lufs時長解析音頻長度500ms 15minBPM40198解析音頻BPM除生器量全球軟件質量&雙能大會設各3#page#QEC90主觀質量標準音色檢查音準識別演唱識別是否存在樂器缺失是否跑掉演唱歌詞是否一致是否存在雜音和弦是否一致等演唱歌手是否一致問題反饋來源,眾包效果測試的反饋線上客訴問題反饋除生器品,全球軟件質量&雙能大會發新21#page#內容質量流程QEC90內容客觀質量測試內容自動化測試內容自動化回歸算法提測平臺功能測試較低置信度內容樣本內容主觀質量測試內容眾包效果測試整體流程:,效果測試前進行內容自動化測試,前置過
7、濾內容客觀質量問題;基于算法模型過濾掉置信度低的樣本數據,抽樣檢查模型是否誤判,進行眾包效果測試;全部一輪測試完成后,進行內容自動化回歸測試,攔截可能新增引入問題,避免測試遺漏;全球軟件質量&效能大會#page#QEC90內容質量流程線上走查音頻算法線上監控工程開發需求分析需求評審開發聯調AIGC內容線上監控閉環需求階段上線階段開發階段天音當前上線流程設計階段測試階段交互設計平臺功能測試技術方案AIGC內容客觀質量測試(自動化)測試方案AIGC內容主觀質量測試(眾包)AIGC內容用例評審除生器量全球軟件質量&雙能大會發新21#page#95c03保障實踐數生智慧全球軟件質量&效能大會商醫量發園
8、新#page#QEC90音頻基本屬性對于音頻基本屬性的識別,主要依賴于一些音頻解析常用的庫,目前接入的基本屬性測試的依賴以及檢測默認范圍包括:依賴庫檢測項默認范圍文件大小無,直接讀取加載字節碼長度10kb 500mb文件頭filetypemp3,wav音質pydub,FFmpeg320k響度pyloudnorm-15-5lufs時長pydub500ms15minBPMlibrosa40198購生碼鞋全球軟件質量&效能大會發新21#page#音頻派生屬性QEC90派生屬性偏主觀效果測試,歷史問題多出現在器樂缺失、雜音等音效問題;評測方法:導出音頻模版demo音頻;導出的樣本音頻試聽,與demo音
9、頻進行比較;是否存在樂器缺失音色檢測是否存在雜音是否跑調派生屬性音準檢測特征提取特征識別輸入音頻輸出結果和弦是否一致演唱歌詞是否一致演唱識別演唱歌手是否一致除生器量全球軟件質量&雙能大會設各3#page#音頻相似度檢測QECo0音效相似度檢測區別于同歌識別翻唱識別這類檢索任務,其核心在于對比兩段音頻在效果的相似程度,即不同和弦在相同模版下漳染的用戶聽感效果是否一致.其大致流程圖如下圖所示:目標音頻開始結束輸入音頻音頻相似度對比輸出相似度結果音效相似度檢測適用于有可靠目標效果音頻做參考的檢測任務,在天音項目中適用于:1)編曲導出-樂器缺失:輸入音頻與目標音頻樂器種類不同2)編曲導出-主觀聽感問題
10、:輸入音頻與目標音頻聽感效果不同全球軟件質量&雙能大會#page#音色識別OECO0音色識別目標是為了從音色的角度出發,判斷聲音的來源路徑,抽象為一類分類任務,判斷音色的來源是否與實際預期一致。目標音色樣本開始分類模型模型訓練其他音色樣本開始輸出類別結果輸入音頻類型識別結束音色識別適用于有限類別且存在大量樣本的檢測任務,在天音項目中適用于:1)編曲試聽-是否為鋼琴音:輸入音頻是否為編曲兜底音頻2)人聲合成-虛擬歌手判斷:判斷是否為指定虛擬歌手全球軟件質量&雙能大會#page#QEC90音頻特征工程常用領域簡述排行諧特征直觀的基本特征去干挑頻進解卷積utianfor色度特征,反膚音樂調性和弦檢測
11、ehro除生器量全球軟件質量&雙能大會發新21#page#OECO0音頻特征工程對于音頻相似度比較,核心邏輯在于如何提取出滿足測試需求的有效特征,在音頻領域的特征提取方式可以分為兩類人工定制特征:如選取常用的頻譜特征,梅爾倒譜系數等特征進行對比;機器學習模型特征:選擇音頻通用的表征提取的預訓練模型,利用模型對音頻進行通用特征提取,來進行相似度對比任務;Benchmarks利PTrendTaskPaperCodcDatasetVariantBest ModelCGMAVILAudioSetAudoClassification3CAudioSetCAV-MAE3u3elopny3CAudioSet
12、ST-SED-SEPAudio Source SeparationCGAudioSetCAV-MAEMulti-modalClassification除生器量全球軟件質量&雙能大會發新21#page#QEC90音頻相似度方案測試數據:目前在線的模版,每個模版利用隨機和弦信息導出1份試聽通過的音頻;對于音頻效果相似度的對比,我們首先直接利用PANNs模型進行音頻特征提取,進行相似度比較;3xxN3x3xN2x2FCFC輸出Audio輸入音頻音頻處理PANNs預訓練模型2048527Tag特征抽取音頻處理導出音頻導出音頻特征基于遷移學習的FC余效相似度輸出相似度2048音頻相似度比較BlochBl
13、ock樓版音頻音頻處理模版音頻特征除生器量全球軟件質量&效能大會發新21#page#QEC90原始模型效果每個類別的模版和自己的導出音頻相似度比較,以85%相似度為識別閥值,識別精確率為84.6%,正樣本識別精確率為78.3%;正負樣本間的相似度特征GAP不夠明顯,存在數據耦合;紅線:模版自身比較的相似度;箱型圖:模版demo音頻與其他導出音頻比較的相似度除生器量全球軟件質量&雙能大會發新21#page#QEC90音頻相似度方案優化特征提?。夯赑ANNs模型相似度識別:余弦相似度遷移學習:原始模型提取器特征不足以滿足實際需求,模型參數微調(fine-tune),進行分類任務訓練,利用遷移學習
14、在小樣本上的優勢,無需大量數據訓練模型;)=lPANNs預訓練模型9參數微調輸入音須音頻處理個音額處理導出音頻特征鮮縣用合余花相制度輸出相付度硬取音限音頻處理質音嘴除生器品,全球軟件質量&雙能大會發新21#page#QECo0優化數據集效果改進后的模型,以75%相似度為閥值,整體識別精確率為97.28%,正樣本識別精確率為93.33%,整體結果符合預期測試標準;M.紅線:模版自身比較的相似度;箱型圖:模版demo音頻與其他導出音頻比較的相似度除生器量全球軟件質量&雙能大會發新21#page#QEC90模型調優數據結論數據結論:抽取了2800份真實數據進行實驗,以相似度以75%為間值,抽樣數據,
15、準確率95%左右;問題發現:相似度閥值以下的音頻都存在一定問題,包括鼓等樂器分軌缺失,響度過低等問題,識別精確率為95%;除生器量全球軟件質量&雙能大會發新21#page#QEC90線上監控-指標監控。同步功能:作品生成,輔助推薦等功能異步功能:作品導出等功能重點關注調用量,成功率,異常率,導出時長等指標SYSTEM_CHARLCISYSTEM_CHAR00LAMA123-09-1114:40:002023-09-111528:001114:40:002023-09-111:56:002023-09-1115:12:001/35對線上指標異常,實現了分鐘級監控召回;購生碼場全球軟件質量&雙能大
16、會發新21#page#OECO0線上監控-閉環流程文件大?。?0K-600m心文件頭:mpa生威次數=10姐內同步原因狀態根因音質:320內容質量測試數據監控平臺T+投取數據湖信告營電標+000完成處理分析解決問題響度:-15-5is時長:500m15min成功率=90BPM:40-198音效相似度:91%斷言值,可配置模型達代調優音效測試模型BedCase除生器量全球軟件質量&雙能大會設各3#page#95c04落地效果數生智慧全球軟件質量&效能大會商醫量發園新#page#page#QEC90落地總結流程提效應用場景模型效果針對音頻的內容質量內容客觀質量自動化當前訓練數據集有限,保障體系,一
17、定程度測試前置,算法側進繼續提升訓練數據量,也可以遷移至圖片,行左移,進一步提升模型準確率可以進一文字,視頻等AIGC功研發測試流程效率;步提升,另外可以拓能的保障模型中去;展到音準檢測;除生器量全球軟件質量&雙能大會發新21#page#95c05未來規劃數生智慧全球軟件質量&效能大會商醫量發園新#page#未來規劃QEC90模型優化模型識別效果仍有優化空間,比如對于搖滾抒情風格的模版效果區分并不明顯后續可以尋找更契合的模型進行特征提取,來優化整體識別效果音準問題跑調等音準問題也是當前在效果測試中反饋比較多的問題,需要調研通過和弦識別的方式對應和弦異常值識別的方式來進行判斷模型拓展對于平臺來說,當前模版數量趨于穩定,但是在未來模版數量一定會進行擴展食能否找到一類更通用模型fine-tune方案,或者能否自動對模型進行效果擴展也是未來值得探索的課題全球軟件質量&雙能大會#page#OECOn全球軟件質量&效能大會感謝聆聽關注QECon公眾號歡#page#