1、文本分析應用指南 從入門到精通前言文本反饋是企業與客戶進行一對一真實對話的窗口。在開放式作答的文本題中,客戶可以不受問題的束縛,隨心所欲地回答,向企業反饋他們真正在意的事情,以及每一個好評、差評背后的具體原因。文本分析作為體驗管理中非常重要的一環,能夠幫助企業從海量客戶反饋中獲取有價值的洞察。然而,分析10000條文本反饋,相當于閱讀一整本小說,再逐字逐句地分析書中的每一句話,是一項非常耗時、費力且難以操作的“大”工程。為了更好地將其應用在體驗管理中,本報告將聚焦文本分析,從文本分析的定義與應用、主題建模、準確率、多語言文本分析等幾個方面展開詳細解讀,帶你從入門到精通,深度了解文本分析。1目錄
2、入門篇:文本分析的定義與運用1基礎篇:主題建模2進階篇:準確率3高級篇:多語言文本分析4實戰篇:賦能體驗管理5入門篇:定義與運用【1】非結構化文本:以文本(如字符、數字、標點、各種可打印的符號等)作為數據形式的非結構化數據。非結構化數據是指數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據,包括辦公文檔、文本、圖片、HTML、各類報表、圖像和音頻/視頻信息等?!?】MIS:管理信息系統(Management Information System,簡稱MIS),利用計算機硬件、軟件、網絡通信設備以及其他辦公設備,進行信息收集、傳輸、加工、儲存、更新、拓展和維護的系
3、統。第一節 文本分析的定義文本分析是指從大量的文本數據中,自動提取和分類信息的過程。在體驗管理中,文本數據主要來自于問卷調查、電子郵件、客服工單、通話記錄、產品評論、社媒帖子或其他自由文本格式的反饋。第二節 文本挖掘VS.文本分析說起文本分析,我們常常會碰到兩個關鍵性術語:文本挖掘和文本分析。一些人會把這二者混淆,把文本挖掘說成文本分析,或把文本分析說成文本挖掘。其實,如果了解了它們在文本分析過程中的實際應用,就會明白二者之間存在的差異。2.1 文本挖掘文本挖掘是一個技術概念,它是運用統計技術從非結構化文本【1】中提取出可量化的數據,再將這些數據應用于下一步行動,例如MIS【2】報告、違規監管
4、、欺詐檢測或工作申請篩選等。文本挖掘是從數據挖掘發展而來,其弱勢是無法從客戶反饋中提煉情緒。2.2 文本分析文本分析則是一個以業務為中心的概念,它使用的技術是與文本挖掘類似的加強版,用于確定客戶或員工體驗計劃中的模式、洞察、情緒和趨勢。文本分析側重于洞察發現,能夠幫助企業從非結構化數據中分析出大量有價值的內容,如文本提供者的特定立場、觀點、價值和利益等。2.2.1 自然語言處理第三節 文本分析解決的兩大核心問題在文本分析技術出現之前,大多數企業仍然需要依靠定量數據【3】來找到需要提升的方面。但是,盡管定量數據必不可少,也有其局限性提供給客戶的選擇是預先確定好的?!?】定量數據:指能夠用數值尺度
5、來記錄和測量的數據,比如銷售額、工資、身高、體重等。舉個例子,一家電信公司在客戶每次撥打完客服電話后,都會通過短信的方式向客戶發送典型的CSAT(客戶滿意度)調查:“您對剛剛的服務是否滿意?”后續還會補充問題,來了解客戶滿意度得分背后的原因,問題常見的選項包括但不限于:等待時間解決問題的速度客服態度自然語言處理(Natural Language Processing,NLP)是文本分析的核心工具,其目的是讓機器能夠理解、處理和分析人類語言,主要用于文本情感分析。它的優勢在于,哪怕文本復雜難懂,也能通過機器學習深入地理解數據的上下文,在保證文本分析的一致性的同時,還減少了誤差。實際上,問卷所列出
6、的選項十分有限,并不一定能完全覆蓋到客戶的所有想法,這就會限制客戶的回答和反饋,最終導致分析結果不夠準確。如果客戶的想法沒有被包含在選項中,企業就無法獲取到有價值的見解。但是,在問卷中列舉所有可能的答案是一件幾乎不可能完成的事情。一個更好的方法是,企業在問卷中加入文本題,直接向客戶提問:“您為什么會給出這個分數?”這樣一來,文本分析就可以解決兩個核心的問題:調查企業的表現:如客戶等待時間、服務可靠性、成本控制等;這也體現出了文本分析對于獲取未知信息的重要性信息很有可能引起了客戶不滿,但卻被企業忽略掉;以及幫助企業深入了解客戶遭遇不良體驗的方面及其相關意見。最后,還可以通過分析結構化數據和非結構
7、化數據之間的相關性,為企業的下一步行動提供有價值的參考。比如,某家門店的客戶滿意度低分,與員工服務不夠及時存在著極高的相關性,意味著員工的服務水平有待提升;而另一家門店的客戶滿意度高分,是與門店環境舒適、干凈有關,則需要繼續保持環境的清潔.找到企業尚未發現的潛在問題:如產品中未修復的bug,過于復雜的安裝流程,或其他產品的不足等。通過讓客戶用自己的話說出他滿意或不滿意的原因,企業可以更深入地挖掘影響客戶體驗背后的因素,幫助企業直觀具體地了解需要采取哪些行動來改善客戶體驗。第四節 文本分析中最常使用的兩種技術4.1 情緒分析情緒分析技術可以識別客戶反饋文本中的潛在情緒,比如積極、中立或消極的情緒
8、。4.2 主題分類主題分類技術可以對反饋文本中與業務或行業相關的關鍵詞進行歸納分類,如食品質量、員工效率或產品可得性等。這兩種技術一般同時使用,不僅可以幫助企業了解客戶所關注的話題,還可以了解他們在談論此類話題時的整體情緒是積極的還是消極的。圖1:文本評論詳情表同時,企業還可以對這些文本內容進行實時的情緒分析,識別出那些被定量數據所忽略的內容,這有助于發現極端負面的言論,便于企業及時開展補救措施。將文本數據和定量數據一起納入到體驗管理計劃中,企業就能更全面地了解目前的客戶體驗狀態,制定客戶體驗優化策略。第五節 為什么要在CEM中使用文本分析?通過在客戶體驗管理(CEM)計劃中使用文本分析,可以
9、更好地制定和推動CEM方案:總的來說,文本分析使用復雜的機器學習模型,不僅能讓企業發現一些未知的主題,還可以發現隱藏在文本評論中的盲點,引導企業發現從未意識到的客戶痛點。除此之外,開放式的文本題也為客戶提供了一個解釋說明的窗口,說明為什么他們會留下消極的NPS分數或低分的客戶滿意度分數,從而為企業的客服團隊提供必要的背景信息,建立反饋閉環。輸出文本數據可視化圖表,以確定客戶體驗的基線、趨勢和關鍵驅動因素等深入分析文本數據(如主題和情感標簽)及統計分析中的定量數據,定位目標客戶群體,發現客戶行為本質觀察體驗指標在一段時間的趨勢變化,確保企業可以在關注的領域內,盡早地采取對應的行動自動提供人員/角
10、色定制化的數據看板,包括相關文本的見解根據主題和情感標簽觸發對應的行動,對有消極情緒和流失風險的客戶進行閉環管理根據文本主題類別和情感評級,設定客戶體驗計劃未來的目標基礎篇:主題建模主題建模,是對文本數據進行結構化處理的一種常用技術,主要用來探尋文本背后所隱藏的主題。下面,讓我們來深入地介紹一下主題建模的基本原理與實踐應用。1.1 分類法分類法(Taxonomy)是一個常見的主題劃分方法。在進行文本分析時,會有來自多方面的文本數據交錯在一起,雜亂無章,無法直接得出分析結果。分類就是將收集的文本數據按來源、性質等主題加以分類,將性質相同、在同條件下的文本數據歸類在一起,從而將文本數據分為若干類別
11、,再加以研究和分析。第一節 什么是主題模型?主題指的是在文本數據中某個具有相似概念或主旨的組合。例如,一家稅收公司收到一位客戶評論“雙重關稅很貴”,而另一位客戶反饋“雙重定價套餐很貴”,雖然兩位客戶在表達時使用了不同的詞組(“關稅”與“定價套餐”),但是他們指的都是同一件事,諸如此類的評論都可以歸在“關稅類型”這個主題之下。主題建模是將不同主題合并為一個單一結構的過程。一般情況下,主題建模會包含多個層級,但偶爾也會有單層主題模型的出現,既無分組,也無層級結構。圖2:父子分類法示例分類法在體驗管理中起著至關重要的作用,因為它既可以用于向企業利益相關者報告,也可以將獲得的反饋和數據發送給相關部門,
12、指導他們制定相應的行動策略。例如,在酒店行業中,從培訓的角度來看,“員工體驗”類別可能與酒店經理相關,而“入住體驗”則與客房部經理相關。為了給各個部門提供準確的數據洞察,分類是必不可少的過程。其中,“父子分類”是使用較為普遍的一種類型,例如在“員工”的父主題下,包含“員工態度”、“員工效率”、“員工熱情度”和“員工信息儲備”等多個子主題。第二節 主題建模的關鍵要素2.1 多層級一個主題模型可以擁有多個層級。但在體驗管理領域,將模型限制在兩層是最佳選擇。因為對于使用者來說,不論是什么主題建模,只要超過了兩層都會變得極其復雜難懂。而且更重要的是,隨著時間的推移,模型的構建和維護也會越來越繁瑣。2.
13、2 多主題主題建模的另一個基本概念是,同一個句子可能屬于多個主題。這意味著主題之間需要互不排斥。例如,“我的行李丟了,因此我感到傷心”這句話可以同時被劃分在“行李丟了”和“感到傷心”這兩個主題之下。2.3 多語言在一些場景下,主題模型需要具備多語言處理功能。這意味著,模型能夠捕獲各個主題下的不同語言反饋。例如,一位來自國內的客戶評論“在銀行排隊取錢,花了很長時間”,而另一位來自英國的客戶反饋道“long queue at the bank for withdrawingcash”,兩條反饋雖然分別用的是中文和英文,但都是表達相同的意思,都需要被記錄在“銀行體驗-排隊時間“的主題模型下面。從報告
14、的角度看,多語言文本反饋在單一主題模型下都應該保持一致性。第四章,我們將繼續詳解“多語言文本分析”。第三節 主題建模的兩大類型在體驗管理中,有兩種方法可以進行主題建模,它們分別是自下而上和自上而下。3.1 自下而上的主題建模自下而上的主題建模是以底層數據【4】為指導的主題模型構建?;谝延袛祿?,我們主要介紹三種主題構建方法:【4】底層數據,行業里最底層的基礎數據內容,一般是格式化的數據。機器學習算法機器學習算法是文本分析軟件中常見的功能,它利用參考數據集提煉出主題。這些參考數據集一般來自公開的文本數據,如研究文獻、媒體內容或博客等。站在學術研究的角度來說,這是個不錯的方法,但如果企業想把它用
15、在客戶之聲(VOC)或員工體驗計劃上面,恐怕難以達到預期效果。因為參考數據集是無法替代真實的客戶體驗數據的。因此,盡管機器學習算法是一種有效的方法,企業也應該謹慎地使用,盡量不要單獨地使用它來構建主題模型。統計技術一些高級統計分析技術,如聚類分析【5】可以根據出現的次數或頻率,找出文本中的關鍵詞或關鍵短語?!?】聚類分析:根據某種特征,將具有相似特征的數據歸為一類的過程。原理雖然簡單,但是對于分析體驗數據卻是非常有意義的,特別是在分析某個體驗觸點,面對龐大的數據量時,它的優勢就凸顯出來了。手動查詢手動查詢是三種方法中最簡單的一種,但也同樣有效。它是根據數據集中不同詞組的出現次數來確定主題的。雖
16、然手動查詢會被認為是一種人力投入巨大、效率低下且過時的方法,但是目前已經有許多簡易的工具可以加快這一操作進程,準確率也得到了一定程度的提升。3.2 自上而下的主題建模自上而下的主題建模是獨立于數據集來構建的,并且更具規范性,主要包括兩種方法:行業模型你可以應用預先構建好的分類模型,許多文本分析軟件會為客戶提供相關的行業和水平模型,這是開始自上而下主題建模的好方法。但是,決不能只依賴于預先構建好的模型。因為哪怕是同一行業的企業,也會有多種不同的經營方式,而他們的客戶可能會使用完全不同的稱呼來指代其產品、服務或活動,每一個案例都各不相同。因此,企業需要注意檢查模型的召回率,根據實際情況,及時地調整
17、模型,使之更貼合企業現狀?;谶^往經驗的手動查詢這與自下而上主題建模中的手動查詢方法非常相似,只是這個方法本質上更具規范性,是基于客戶體驗及偏好來構建模型的。比如,可以從過往的分類模型中復制主題,或者通過請教一些經驗豐富的業務員,獲取客戶偏好來確定主題。第四節 主題建模的最佳實踐上面我們已經分析了各類方法的優缺點。而到了實操階段,為了使主題建模更高效,我們建議你將各類方法融合在一起使用,具體操作可以參照以下步驟:4.1 步驟1:使用自上而下的預構建模型假設你的團隊從某個客戶觸點上收集到了10萬條文本數據,需要對數據中的所有主題進行分析。最快的方法是使用預先構建好的主題模型,有以下兩種實現方式:
18、行業模型從文本分析軟件提供的預先構建好的水平/垂直模型中,根據自己的項目領域進行選擇。1.2.3.4.預構建模型加上自動生成的主題,接下來,你需要的是一次精確的調整。瀏覽每一個主題,檢查它是否捕捉/標記到了正確的文本回復。第一次瀏覽,為了獲得較高的精確率(Precision),我們建議每個主題至少檢查15-20條文本數據。值得一提的是,無論你選取了哪一個文本分析軟件,它都需要具備以下功能:輕松選擇主題并檢查每一個主題的召回率;檢查每個主題的規則;檢查每個主題下的文本數據的詞性;修改主題規則,并支持查看修改記錄。預配置模型如果企業之前搭建過類似的主題模型,也可以繼續使用。不過,前提是文本分析軟件
19、必須要具備導入其他項目模型的功能。那么,企業就可以直接將預先配置好的模型導出,再導入至新項目中即可。在這個階段,不用太在意主題的準確率。4.2 步驟2:使用自下而上的自動主題檢測大多數文本分析軟件都能夠檢測數據集的主題,或者利用學習算法、聚類分析自動從數據集中提取主題。雖然不應該完全依賴自動生成的主題推薦,但當你實施了步驟1之后,步驟2將會發揮很大的作用。一旦獲得了推薦主題,你需要仔細地篩查一遍,然后將那些看起來有用的主題添加到現有的模型中。4.3 步驟3:提高精確率4.4 步驟4:提高召回率最后一步,也可以說是最重要的一步提高模型的召回率(Recall),即通過手動調整,提升從文本庫中檢出的
20、相關文本量占總量的比例。這里提供兩種方法:改進現有主題模型中的現有主題需要涵蓋更多近義詞或同義詞,來增加該主題下文本出現的頻率或數量。要做到這一點,企業就需要在現有的主題規則中補充更多的詞組,而這個過程會用到大量的人力,非常耗時。機器學習可以彌補這一缺陷,通過檢測語義相似度,找到與主題中意思相近的詞語,如果你所選擇的文本分析軟件具有這個功能的話,就能夠大大地加快這一操作過程。創建更多主題真正的自下而上主題建模會從文本數據開始,并利用這些數據來進行建模。但又有誰愿意閱讀10000條文本反饋呢?這時候,企業可以使用詞云技術。它能夠清晰地展示數據集中最常出現的詞,幫助企業輕易地看出模型中遺漏了哪些關
21、鍵詞,從而確定被遺漏的關鍵詞應該分配給哪些不同的主題,或者是否需要新創建一個主題。圖3:詞云圖進階篇:準確率第一節 如何衡量準確率文本分析的準確率一般是通過兩個概念來衡量精確率和召回率。這兩個概念我們在上面的章節中已經簡單提過,下面我們就來詳細地介紹下。精確率精確率=檢索出來且符合條件的文本數/所有檢索出來的文本數用于衡量被檢索出來的文本數的精確度。比如,在所有文本中,模型檢索出來的文本數有50條,然而真正符合條件的只有40條,那么精確率=40/50=80%,意味著有20%的文本數據被錯誤地包含在模型中。為了實現以數據驅動決策和行動,許多企業會特別關注文本分析的準確率。它確實值得關注,但在很多
22、情況下,特別是在客戶之聲(VOC)和體驗管理計劃當中,與文本所傳達的信息相比,準確率就沒那么緊要了。而且,過度地關注文本分析的準確率也可能會讓效果適得其反。1.1 影響準確率的因素文本分析的準確率會受到多種因素的影響,主要包括以下幾個方面:文本數據的來源(如社媒平臺、產品評論、聊天記錄等)所在行業語言的復雜性區域和文化影響(如反諷的語言表達)受訪者使用句子的長度和復雜性1.2 衡量準確率的兩大概念召回率召回率=檢索出來且符合條件的文本數/所有符合條件的文本數用于衡量有多少符合條件的文本數被檢索出來了。比如,符合條件的文本數共有50條,而模型只檢索出來40條,那么召回率=40/50=80%,意味
23、著有20%符合條件的文本數據沒有被分析捕獲,也沒有被標記在模型的任何類別或主題當中。1.3 準確率的計算在這個例子中,我們要提取的是與“關稅計劃”相關的文本數據,因此,“關稅計劃”相關的文本數據(以下簡稱“關稅計劃數據”)是正樣本,無關數據則是負樣本。根據預測結果和得出的實際結果是否一致,會出現以下4種結果類型:真陽性(True Positives,簡稱TP):預測為正,實際也為正。預測是關稅計劃數據,實際也是關稅計劃數據的樣本數目,有45條;假陽性(False Positives,簡稱FP):預測為正,實際為負。預測是關稅計劃數據,但實際上不是關稅計劃數據的樣本數目,有5條;假陰性(Fals
24、e Negatives,簡稱FN):預測為負,實際為正。文本分析模型判斷并檢索出了50條與“關稅計劃”相關的文本數據(注意這里只是模型的判斷,并非實際),剩下的50條數據被判斷為無關數據。但實際上,在剩下的50條數據中,有25條是關稅計劃數據。這25條文本數據就是假陰性的樣本數目。要得出文本分析模型的準確率,首先要計算出模型的精確率和召回率。為了能通俗易懂地理解這兩個概念的計算,我們通過一個例子來給大家解釋說明:在一家稅收公司的100條客戶反饋中,有70條是與“關稅計劃”主題有關的數據,另外30條是無關數據。在文本分析模型中,檢索出了50條與“關稅計劃”相關的文本數據。而在這50條文本數據中,
25、只有45條是正確提及了“關稅計劃”,另外5條則是無關數據。代入公式,就可以算出這個模型的精確率和召回率分別為:精確率=TP/(TP+FP)=45/50=90%召回率=TP/(TP+FN)=45/70=64%圖4:結果類型示意圖真陰性(True Negatives,簡稱TN):預測為負,實際也為負。文本分析模型判斷并檢索出了50條與“關稅計劃”相關的文本數據,剩下的被判斷為無關的50條文本數據是預測的負樣本。在這50條負樣本中,有25條是關稅計劃數據即正樣本,另外的25條無關數據才是實際的負樣本。所以真陰性的樣本數目是25條。評估與計算精確率和召回率,是驗證文本分析模型準確率的重要方法。如果模型
26、過于追求精確率,即使精確率達到了100%,也會漏掉大量符合條件的文本數據,即“過度保守”;而如果模型一昧追求召回率,即使召回率達到了100%,符合條件的文本數據已被全數召回,但也會因為召回了大量錯誤的文本數據,導致精確率很低。因此,為了能同時考慮精確率和召回率的平衡,統計學家還使用了F1值進行計算:F1=2*精確率*召回率/精確率+召回率F1值是精確率和召回率的調和平均值。根據公式,當召回率不變時,精確率越高,F1值越大;同理,當精確率不變時,召回率越高,F1值越大。所以,在F1值的計算公式中,精確率越高越好,召回率也是越高越好。就同一個文本分析模型而言,精確率與召回率有“相互制衡”的關系,你
27、可以通過犧牲精確率來提高召回率,也可以通過降低召回率來提升精確率。F1 值則是對精確率與召回率的調和平均,能賦予精確率和召回率相同的權重以進行二者的平衡。第二節 文本分析需要多準確?結合上文,我們可以了解到,對文本分析的準確率過于“吹毛求疵”是非常危險的,除此之外,準確率的計算還面臨著三個主要挑戰:2.1 龐大的數據集準確率是一個統計概念,特別是在一個龐大的數據集中,它的計算會更加艱難。例如,將文本分析技術應用于數百萬條客戶反饋記錄時,準確率是很難確定的。2.2 耗費大量精力準確率的理解需要依賴于復雜的計算方法,甚至要用到概率計算。為了使用真陽性和假陰性來了解文本分析模型的準確率,企業還得及時
28、更新哪些是符合條件的文本信息,哪些是不符合的文本信息。然而,這一過程又只能通過手動標記數據來完成。因此,即使分析本身是通過機器學習完成的,也是一個非常耗時耗力的過程。2.3 不適用于多個主題為了理解準確率,大多數企業都會查看已有分類或主題模型的召回率。例如,如果一個企業有10000條文本反饋,并且企業的多層級主題模型已經覆蓋了其中8500條反饋(每個主題下都有至少一條反饋),那么我們就會認為這個模型的召回率為85%。但是,從上面稅收公司的案例中我們可以了解到,其召回率的計算實際上只針對了“關稅計劃”這一個主題。那如果稅收公司的模型有30個主題呢?真正的召回率模型是要查看模型中每個主題的召回率這
29、恰恰就是計算中最困難的地方。假設,一條文本反饋寫著“現收現付計劃很好,但對員工沒有任何幫助”,這條反饋被記錄在模型中的“員工幫助”主題下,而沒有記錄在“關稅計劃”主題內。這樣一來,通過計算整個模型的召回率,召回率將為100%,但如果單在“關稅計劃”主題下進行同樣的計算,其召回率將為0。第三節 情感分析的準確率我們已經介紹過了計算準確率在主題分析中存在的一些困難,同樣地,其在情感分析中也存在著一些挑戰:3.1 諷刺與挖苦的情感當人們用積極的語言來表達消極情緒時,就給情緒模型帶來了一定的挑戰。當然,我們也可以使用不同的方法來識別這些情緒,例如基于規則的方法【6】和基于學習的方法。然而,基于規則的方
30、法有局限性,只能捕捉到那些“有規律可循”的情緒。而基于學習的方法由于使用了大量參考數據集,更有可能得到更高的準確率?!?】基于規則的方法:一種分析或生成自然語言的語句的方法。根據語言學理論建立語言分析或生成的規則,描述語言的各種成分以及成分之間的結構關系和意義關系,并用這些規則來分析或生成自然語言的語句。好消息是,在多渠道客戶體驗管理計劃中,帶有諷刺或挖苦情感的文本反饋數量較少,遠低于客戶之聲數據的0.5%。3.2 否定的情感這里是指使用否定詞,如“不是”或“從不”等這類詞匯的文本。像“員工不禮貌”這類明確的否定情感,很容易就被基于規則或基于詞匯的系統識別到。而像“我真的會謝”這樣隱晦的表達,
31、則需要自定義規則或利用基于學習的情感模型才能準確捕捉到。第四節 準確率在文本分析中的重要性準確率對于文本分析的重要性,肯定是毋庸置疑的。企業要想根據客戶的反饋采取正確的行動,本身就需要對數據充滿信心。在一些情況下,高召回率至關重要,因為只需要少數反饋,企業就可以對此采取行動。比如,在信用卡公司,只要識別到“欺詐”這個詞幾次,就足以驅使企業采取行動;在企業的技術團隊,只要出現“鏈接斷開”或“頁面錯誤”等反饋,企業就應該馬上行動起來,及時改善客戶體驗。然而有些時候,精確率也無關緊要。例如,在品牌分析中,只要涉及到競品,無論情緒如何,都應該進行分析;或者,如果客戶反饋標記了與傷害、訴訟或法律等相關的
32、主題,這些也不需要準確的情緒分析,而應該直接進行更深入的調查。高級篇:多語言文本分析第一節 多語言文本分析的兩大方法想實現多語言文本分析,一般有兩種方法:提升客戶、員工體驗的其中一個很重要的部分,就是要傾聽和分析大量來自于表單或問卷調查、客服中心、電子郵件、社交媒體等各個渠道的非結構化反饋數據。而大型跨國企業還面臨著額外的挑戰,那就是需要系統地傾聽、分析和報告多語言反饋。事實上,像一些日常處理數百萬條文本數據的大型企業,需要支持20種甚至更多種語言。將所有文本反饋先翻譯成同一種“基礎語言”,再用該語言分析所有內容(以下簡稱“翻譯分析”)對每種語言進行母語分析(以下簡稱“母語分析”)兩種方法都有
33、利有弊,但重要的是要讓準確率及成本保持平衡。第二節 如何平衡準確率和成本2.1 準確率人們普遍認為,母語分析往往能提供更高的準確率。這的確是事實,考慮到翻譯分析可能無法捕捉語言中的細微差別,從而檢索出錯誤的結果。但是,有兩點需要記?。弘S著新技術的不斷發展,各種翻譯工具變得越來越智能。例如,近年來,隨著機器學習能力的不斷提升,谷歌、百度等翻譯平臺越來越能捕捉到語言上的細微差別,翻譯結果越來越準確。機器對名詞、形容詞和副詞的翻譯較為準確這幾類詞在主題構建中被使用到的頻率也是最高的。雖然從句子整體上來看,會丟失一些準確度,但大部分詞匯或短語的翻譯都是比較準確的。機器翻譯,也是經常被使用在多語言文本分
34、析的主題構建和詞匯情感分析當中。但如果該項技術不是基于詞匯,而是使用學習機制,那么翻譯文本的情感分析結果在準確度上就難以保證了。2.2 成本雖然母語分析能提供更高的準確率,但它的成本十分高昂。在大多數文本分析軟件中,母語分析所需的多層級主題模型大多是預先構建好的。因此,為了保證準確率,所有資源都必須優先投入到主題模型的構建過程當中,加上定期維護,成本呈指數級增長。舉個簡單的例子,當用英語為汽車行業的售后服務或客戶服務觸點構建主體模型時,可能需要花費兩周時間,而如果用德語,則可能需要花上四周時間。這還是假設企業能夠在每個市場區域成功找到本地客戶,培訓他們使用技術和軟件,然后讓他們協助構建本地語言
35、模型的前提下。成本投入也不會在構建階段就結束當需要添加更多觸點或調查時,所有語言的文本模型都需要被刷新一遍。以及為了保證準確率,每隔3個月,企業就需要重新審核、添加或編輯主題,而且所有語言種類都需要操作一遍。因此,雖然母語分析能夠提高準確率,但企業仍需要評估它所帶來的價值,是否值得花費額外的資源成本。2.3 其他注意事項除了成本高昂,是否具備語言分析能力,也是在使用母語分析時需要注意的地方。英語、德語、法語、西班牙語等這類語言的分析能力很容易掌握,但北歐或其他一些地區的語言分析能力就很難掌握了。出于這個原因,哪怕是世界上最大的文本分析引擎,也只支持有限種類的語言分析。關于多語言文本分析,還有以
36、下幾點需要注意:使用本土語言進行報告文本分析有三個不同的階段:構建、分析和報告。你可以使用任何語言進行模型構建,但在向不同國家或地區發送定制化報告時,報告應始終以本土語言呈現,以便本土用戶的正常閱讀和使用。一致性是衡量的關鍵無論一項技術是否支持多種語言,在建模和報告方面保持一致,始終是最終目標;無論是通過母語分析,或是翻譯分析的方法,構建和維護多層級主題模型的效率也應該保持一致。翻譯對情感分析的影響更大翻譯在情感分析上面有更大的影響。因為情感分析不僅要求文本信息的翻譯要正確,還要捕捉明確的積極或消極的情緒,甚至是中立或隱晦的情緒。但翻譯可能難以準確捕捉語言間的差異,如果翻譯上出現了一點小錯誤,
37、也會導致最后表達的結果天差地別。因此,在進行情感分析時,最好不要使用翻譯分析,而是使用母語分析。第三節 多語言文本分析的最佳實踐母語分析的準確率更高,但同時成本也十分高昂;而翻譯分析較難準確理解語言中的細微差別,分析結果難免“失真”。因此,理想情況下,構建模型應使用不超過2種基礎語言,同時還要考慮團隊規模、地理分布、客戶體驗部門的語言能力以及構建和維護多種語言模型的成本和工作量。多語言文本分析的最佳實踐包括以下四個關鍵步驟:選擇一種能夠將多語言文本反饋自動且無縫翻譯成一種或兩種基礎語言的技術結合自下而上和自上而下的主題建模方法,以翻譯語言構建主題模型12使用母語分析方法進行情感分析,使分析更加
38、準確出于報告目的,基礎模型包含的文本模型或分類標簽,在報告中要能被輕松翻譯成本土語言,方便本土用戶用自己的母語查看報告34實戰篇:賦能體驗管理第一節 體驗管理的應用類型文本分析以多種不同的方式應用在體驗管理當中,我們將其分為以下四種類型:將文本分析應用在客戶體驗管理時,有三方面的優勢:提升客戶忠誠度幫助企業了解推薦者在重要問題上的意見和想法,同時便于企業采取行動,防止推薦者變為貶損者。1.1 客戶體驗防止客戶流失智能識別不滿意客戶,對那些具有負面情緒的客戶或潛在流失風險的客戶及時實行閉環管理。預測復購率結合客戶的運營數據(如客戶花費或客戶生命周期價值等)和接下來的續訂日期,分析客戶在忠誠度、推
39、薦、獎勵等方面的評論和反饋。也可以結合AI和文本分析技術,預測客戶復購的潛在可能性。NPS(凈推薦值)以“你有多大可能把產品(服務/品牌等)推薦給朋友或同事?”作為題目,根據打分情況將答題者劃為三類:1、推薦者(9-10分)2、中立者(7-8分)3、貶損者(0-6分)將文本分析應用在產品體驗管理時,在以下兩個階段發揮著重要作用:新品發布在新品發布時通過文本分析獲得有價值的客戶反饋,從而發現在下一個版本迭代中需要改進或增加的功能。產品使用分析產品的保修數據和反饋數據,提煉關鍵見解,幫助企業了解哪些功能需要改進,從而提高產品使用率、降低服務成本等。1.2 產品體驗將文本分析應用在品牌體驗管理時,也
40、有兩個主要作用:活動效果通過分析活動滿意度的主要驅動因素以及活動支出、觸達率等運營數據,確定投資回報率。品牌追蹤除了了解自家品牌的相關話題,還可以了解競品出現的熱門話題內容。1.3 品牌體驗文本分析也可以同樣應用在企業內部的員工體驗管理上,幫助企業實現:了解員工流失率將員工的結構化數據(如員工敬業度)與會引發低落情緒的主題(如經理支持)結合起來,了解員工的流失傾向。1.4 員工體驗干預員工的不良狀態通過文本分析,及時對“抑郁”、“焦慮”等相關關鍵詞開啟實時預警,在員工有需要時及時進行干預。工作與生活的平衡圍繞“工作-生活平衡”等相關主題,通過文本分析來了解和確定哪些員工群體受到的影響最大,并依
41、次采取相應的行動。第二節 文本分析軟件上面,我們已經分析了文本分析背后的邏輯、主題建模、準確率計算以及多語言文本分析的復雜性??上攵?,企業想要獨立開展文本分析,是一項非常艱巨的任務,只有極少數企業會選擇這種做法。相較之下,借助文本分析軟件,來幫助我們從開放性的文本反饋中獲得有價值的客戶洞察,是一種使用更加廣泛且省心高效的方法。下面,我們介紹一些在使用文本分析軟件過程中需要注意的事項:2.1 多渠道收集數據多渠道收集數據無論是主動征集的文本數據,還是被動收集的文本數據,對于企業的客戶體驗計劃都至關重要。如果企業只是單一地收集問卷和表單數據,那么就會錯過許多來自社交媒體、客服中心、在線聊天等渠道
42、中可利用的數據。2.2 數據分析文本分析必須能夠對文本的主題和情緒進行統計分析(比如相關分析【7】和回歸分析【8】),以確定其對客戶體驗關鍵績效指標的實際影響。究竟是員工態度還是產品質量對企業的NPS分數影響更大?如果想要了解到這一點,計算出NPS分數與文本信息之間的相關性和回歸性,是不可或缺的一步?!?】相關分析:是指研究兩個或多個隨機變量之間的相關關系的統計分析方法?!?】回歸分析:是指研究兩個或兩個以上變量間相互依賴的定量關系的一種統計分析方法,是一種預測性的建模技術。2.3 采取行動除了將文本分析用于定位問題的根本原因,從企業內部推動改進計劃之外,還可以通過實時地收集與分析不滿意客戶的
43、意見評價,增強客戶體驗的閉環管理。而且,閉環管理不能只局限于客戶給出的低分,更應該能根據評論中的主題或情緒,采取行動,完成閉環。2.4 數據可視化文本分析不只是制作詞云圖或主題氣泡圖那么簡單。結合結構化數據(如細分市場、地區、NPS分數、費力度分數等)和運營數據(如通話數量、處理時長、客戶生命周期價值等),可視化文本分析提供了非常高的靈活性,能夠輕松、快速地洞察新的發現,以及確定改進行動的優先級。其中,最有效的包括正負向評論聲量走勢圖、主題聲量柱狀圖、主題聲量餅狀圖及情感分布環形圖等等。一個好的文本分析軟件,不僅僅只局限于單一的渠道,而是可以收集和分析來自多個渠道的數據。這有助于企業全面了解客
44、戶的想法。無論客戶通過哪個渠道反饋和表達,企業都可以了解到,從而采取正確的改進行動。圖5:正負向評論聲量走勢圖圖6:主題聲量柱狀圖圖7:主題聲量餅狀圖圖8:情感分布環形圖2.5 數據整合一個平臺對于任何體驗管理計劃,最好都在同一個平臺上收集、分析定量數據和文本數據。這樣一來,在整理和獲取完整報告時,就不需要再重新整合數據集,從而節省數小時的人工操作成本。整合X+O數據尋找一個平臺,將文本數據等體驗數據(X-data)與銷售數據等運營數據(O-data)融合在一起,這有助于企業在客戶評論和客戶行為之間建立聯系例如,愿意跟店里員工溝通的客戶,是否比不溝通的客戶花費更多。由此,基于文本分析的洞察所采
45、取的行動,將有助于企業實現投資回報率和業務增長。系統集成如果你正在運行一個閉環的客戶體驗計劃,首先要確保你使用的文本分析軟件已經集成到現有的系統中,如營銷系統和客服系統。這意味著,基于文本的情感和主題分析,相關的客戶評論可以自動觸發正在使用的系統,以便于直接采取后續行動,從而確保企業擁有正確的客戶信息能有效地與客戶建立聯系,并加快跟進的速度。易于理解確保企業內部的每個人都能輕松理解可視化的文本數據。正常情況下,你應該能夠一目了然地看到熱門主題、情感細分及它們隨時間的變化趨勢。深入客戶評論了解文本的主題和情緒只是開始,企業還需要繼續深入客戶評論,真正了解每一位客戶真實的想法。當然,你不可能完整地
46、看完每一條評論,但深入挖掘評論內容,了解當NPS分數呈下降趨勢時或在NPS分數較低的細分場景中,客戶實際上討論了些什么內容,還是非常有用的。同時,還有助于查驗企業的主題模型是否在正常運行。體驗家XMPlus是國內首款全旅程客戶體驗管理SaaS系統,致力于用多源數據,幫助企業提升客戶體驗。通過提供“以客戶旅程為核心、以多源數據為支撐、以關鍵指標為導向、以智能預警為后盾”的全鏈路CEM平臺和一流咨詢服務,助力企業打造客戶體驗管理閉環,實現降本增效和業績增長。1以客戶旅程為核心關于我們支持客戶旅程的在線編輯和可視化,包含場景、情緒曲線等多個組件,以及NPS、客戶滿意度等動態體驗指標,幫助企業實時地監
47、測各個場景、觸點下的體驗得分,跟蹤客戶體驗的變化趨勢,還可以邀請同事進行跨部門協作,構建更完整的客戶旅程,助力企業實現全旅程客戶體驗管理的有效落地,提升客戶體驗。2以多源數據為支撐支持頁面嵌入、短信、APP等多渠道的體驗數據(X-data)收集,提供API接口,可對接CRM、POS機等系統,導入客戶的行為數據(O-data),還可以利用爬蟲抓取網絡上的輿情數據,運用NLP、詞頻分析、情緒分析等文本分析技術,幫助處理海量輿情數據與客戶反饋,實現體驗、行為和輿情數據的高效收集、融合與分析,幫助企業從多源數據中獲得更有價值的客戶洞察,推動產品和服務質量的提升。3以關鍵指標為導向提供崗位定制化的數據B
48、I看板,無論是高層人員還是一線員工,都可以實時地查看與自己工作相關的關鍵指標,如NPS、客戶滿意度等,了解客戶的需求和期望,獲得客戶洞察并將其運用到工作當中,發現工作中的問題,有針對性地優化自身的工作效率和質量,提升客戶體驗。4以智能預警為后盾提供智能預警,幫助企業監測客戶在各個場景下的滿意度情況,一旦收集到負面的文本反饋或低分,會自動通知到相關的工作人員,提醒他們及時地安撫客戶,幫助客戶解決問題,從而有效防止客戶流失,增強客戶粘性和復購率,提升客戶滿意度和品牌口碑。5一流的咨詢服務體驗家擁有一支專業的咨詢團隊,包括曾在尼爾森、益普索等市場研究公司供職多年的咨詢顧問,為各行各業的企業提供咨詢服
49、務,包括但不限于了解企業售前、售中、售后的業務目標和流程,找出影響客戶體驗的關鍵環節和觸點,設計并搭建覆蓋客戶全生命周期的問卷矩陣等等,幫助企業建立好完善的數據回收流程和測量指標體系,為企業實現全流程的客戶體驗管理奠定基礎?!?】The definitive guide to text analysisQualtrics【2】非結構化數據采集和檢索技術的研究和應用中國知網2013【3】管理信息系統論文CSDN【4】測繪學名詞(第四版)2020【5】分類性能評價指標精確率,召回率,F1值詳細解釋CSDN2022【6】語言學名詞商務印書館2011【7】管理科學技術名詞科學出版社2016【8】回歸分析科普中國參考資料用多源的數據,幫助企業提升客戶體驗13352937437瀚一數據科技(深圳)有限公司Madewith