《InfoQ:2023年第一季度中國卓越技術團隊訪談錄(118頁).pdf》由會員分享,可在線閱讀,更多相關《InfoQ:2023年第一季度中國卓越技術團隊訪談錄(118頁).pdf(118頁珍藏版)》請在三個皮匠報告上搜索。
1、 目錄 封面故事封面故事 涉及數萬人、歷時三年,國內最大規模的云原生實踐是如何打造出來的?.i 重磅訪談重磅訪談 從“幕后”走到“臺前”,我們在阿里如何建設可觀測體系?.1 大模型如何實際在行業落地:生成式大模型結合知識庫,打造出 7*24 小時永遠在線的超級員工.13 中國的“貝爾實驗室”:我們的數據庫從自己的第一行代碼寫起.31 我們不是野心家,走出大廠創業是時代使然.46 技術管理技術管理漫談漫談 可悲的現實,大部分技術領導者可能并不稱職.60 如何為那些在裁員中幸存的人重建技術文化.74 架構師角色的演變:從發號施令到與團隊合作.83 封 面 故 事 i 中國中國卓越技術卓越技術團隊訪
2、談錄團隊訪談錄2023 第第一一季季 涉及數萬人、歷時三年,國內最大規模的云原生實踐是如何打造出來的?編輯:Tina 采訪嘉賓:鄒輝、于廣游、王濤 云計算的競爭曠日持久,表面看來格局初定,內里卻在醞釀巨變。具有先發優勢的玩家,好不容易取得了看似不可撼動的地位,不曾想到有朝一日會中途被拉到同一起跑線,更換新的“CloudOS”重新出發。這個局面恐怕連Kubernetes 早期創始人都會覺得不可思議。他當初只是想改變現狀,在亞馬遜的主導地位下,讓谷歌取得一戰之力。2014 年,谷歌開源了 Kubernetes,紅帽、騰訊、阿里、華為等國內外一眾廠商開始力出一處,共同推進 Kubernetes 的采
3、用。2017 年底,就連亞馬遜也推出了Kubernetes 產品,這也是 Kubernetes 成為標準化技術的最大信號之一。這最終改變了整個云計算。大家都開始基于 Kubernetes 技術生態去構建公有云產品,基于統一的標準以避免“深度綁定”,但這也讓云原生行業嚴重同質化,因為各個云廠商所提供的功能和服務并沒有太大的不同。對一些廠商來說,那些當年引以為豪的自研技術突破,那些樹立在公司門口的紀念碑,那些專有性產品優勢,都被抹平,這是一件非常殘酷的事情。ii 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 同時這又是一些公有云廠商重塑格局的機會。錨定 Kubernetes
4、進行云原生改造,相當于給公有云更換“技術底座”,并由此構建出一些新的競爭力,從而贏取更多用戶。這場技術改造,難點在哪里?對于騰訊來說,這不僅僅是一次技術“改造”,還兼帶著騰訊全體系“自研業務上云”的戰略任務。在谷歌 GKE 之后,騰訊云于 2017 年推出了 TKE。但騰訊云對外服務時,還是會面臨客戶的質疑:“為什么騰訊自己的業務沒有使用騰訊公有云,是不是不敢用?”騰訊這次“云原生改造+上云”的價值就藏在客戶的拷問中。騰訊在這二十年里,發展出了包括社交、音視頻、游戲在內的多種業務,每種業務又都擁有海量的用戶。全面上云騰訊不是第一家,但騰訊是擁有最復雜的業務場景的一家,在這個過程中,需要結合業務
5、制定各種各樣的技術方案,來滿足不同的業務訴求??梢岳斫鉃?,每個每個業務的痛點都有局部最優解,而全面上云,則是在云上尋求通用最優解。業務的痛點都有局部最優解,而全面上云,則是在云上尋求通用最優解。如果這些痛點都能解決,那這樣的云服務是足夠讓大家敬畏的。要運行這么多業務,云原生底座也不能有短板,必須承載得了微信、QQ、音視頻、游戲等自研業務所有需求和核心能力,并最終將這些業務的技術積累和技術優勢反向復制到到公有云上,展現給外部用戶。除此之外,云原生改造還對組織能力提出了考驗。在移動互聯網時代,騰訊發展出了自己的技術哲學:每個業務都有自己的技術團隊,iii 中國中國卓越技術卓越技術團隊訪談錄團隊訪談
6、錄2023 第第一一季季 每個團隊都要打勝仗,這就要求“小、快、靈”,要有閉環。在自研業務上云之前,騰訊的每一個業務都有自己完整的技術棧,內部業務在一定程度上形成了“部門墻”效應。并且因為技術棧不同,員工從一個業務轉崗到另一個業務,需要重新學習一遍技術,這跟換公司沒什么區別。根據財報數據,騰訊員工已超十萬人,其中超過 7 成是技術人員,這是一次集體向云的遷移,就像一次“搬家”,但又不僅僅是將行李打包那么簡單,它是將具有一二十年歷史的不同特色的多個“大建筑”,制定“平移”方案遷移到新環境中繼續安然運行,難度可謂前所未有的高??紤]到花費的時間、涉及到的人員規模、技術深度,這個項目可能是在世界范圍內
7、也很難找到的超級“軟件工程”實踐。這樣的改造,過程中既有高層的推進、動員,也有執行層的博弈、妥協,最終實現了用一個點調動全局,讓全公司的技術團隊得到了一次很好的穿透對齊,讓分散的技術能力得以統一。有人說,評估騰訊云水平如何,應該參看自研業務上云后的整體水平和運轉情況。去年,騰訊自研業務初步完成了全部的云原生技術改造,騰訊云將所有的底層資源合并到一起進行統一管理和調度,自研業務上云規模突破 5000 萬核,TKE 的在離線業務混部能力使服務器資源利用率從 30%提升至 65%,遠遠高于改造之前。2020 年,線上會議需求爆發,騰訊云組織了幾十號人,花了 8 天緊急擴容 100 萬核,創下了中國云
8、計算史上的一個記錄。而全部上云之后,放到現在這個階段,利用一鍵擴縮容,騰訊會議再要去擴容 100 萬核,那就是十分鐘的事情。所以,這次云原生改造的好處顯而易見:對外,在垂直場景沉淀下來的技術能力,讓騰訊云原生獲得了差異化的產品能力,能真正解決用戶在各種場景下的業務痛點;對內,讓騰訊在云端整體的資源利用率有了一個大幅提升,這本身就是巨大的降本增效。iv 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 然而,這個過程卻是經過了千辛萬苦?!跋裣乱槐P棋”2018 年,云原生行業發展趨勢初定。隨著云原生技術的興起,騰訊內部幾萬研發人員的技術焦慮逐漸加深。早期騰訊積累了大量的技術架構理
9、念,技術人員有非常強烈的自豪感,但是越是成功的組織慣性就越大,騰訊內部很多技術理念和流程還停留在上一個時代。據稱,那時候騰訊內部討論平臺“樂問”上充滿了技術人員的吐槽和爭議。除了“部門墻”的存在,每個業務部門為了應對突發的流量,在升級服務器資源時會留出資源緩沖區,當所有的緩沖區疊加在一起,就形成了大量的閑置資源浪費。所以,無論是從技術還是資源的角度來看,上云并進行統一的調度在當時已經是不得不做的事情。2018 年底騰訊開了一次高層決策會議,決定將公司內部所有平臺合到一起推行 K8s,開始進行徹底的技術更新換代。這個事情一開始由鄒輝領導的 TKE 團隊牽頭。TKE 團隊主要由一批資深技術人員構成
10、,成員基本都在 30 歲以上,資歷以 10 級、11 級為主,團隊對成員的技術能力和業務理解能力要求很高。決策已定,但是在執行過程中,尤其是 TKE 團隊,前半年時間并不是真正的去做技術工作,而是跟騰訊內部幾個事業群的平臺技術團隊去聊需求聊具體的改造方案,他 v 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 們發現還是存在很大的技術阻力。騰訊云事業部門在 2016 年下半年的時候就啟動基于 K8s 的 TKE 項目,但騰訊內部不同 BG 存在不同的路線,有的基于 Docker,有的基于 Mesos?,F在要將所有東西都統一到標準的公有云 TKE 上去,其實內部技術團隊難免會
11、心生疑惑:你們是不是要過來搶我們的活?為了減輕這些問題帶來的阻力,當時騰訊沒有采取調整團隊人員和效仿建立技術中臺的方式,而是制定了開源協同技術戰略,把公司內部所有做相似事情的團隊整合在一起,采取類似于外部開源運作的方式協同工作。這樣既解決了技術浪費的問題,又可以去中心化,保持快速響應,還能更好地滿足業務需求。騰訊內部把這種模式稱為OTeam。OTeam 掛在公司技術委員會下面。由這七八個平臺組成的 K8s OTeam 就是一個典型的例子,它是騰訊首批三個開源協同項目之一。vi 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 在解決了技術團隊的顧慮之后,騰訊從高層開始推進,說
12、服自研業務團隊上云,同時打通職級晉升體系,通過設置公司級的專項大獎、普及云原生知識、改造進度榜單晾曬等,從多個方面入手提高大家積極性,依照三年規劃,有步驟地進行云原生改造和上云。如何用好開源技術?其實在上云決策制定之前,騰訊云已經花了兩三年時間做了一個 TKE“原型”,也踩過了不少坑。K8s 本身只是一個主要做容器編排調度的開源項目,TKE 底層是基于標準的 K8s,再在上面進行產品化,將 K8s 和網絡能力、存儲能力、日志監控等能力對應的網絡產品、計算產品、日志產品、監控產品對接整合,給用戶提供一個開箱即用的 K8s 產品,所以 TKE 對接了騰訊底層的各種 IaaS 產品能力。2016 年
13、騰訊開始做 TKE 的時候,國內都還沒上 K8s 服務,業界比較好的產品設計也就是谷歌的 GKE,一切都是摸索著來。最開始,TKE 團隊試圖在云上提供一站式的K8s 服務,將 K8s 的概念進行了一些簡化,希望通過幫用戶降低使用 K8s 的成本、讓用戶愿意直接接入 K8s,但最終發現這條路線是錯的。他們發現 K8s 不是直接面向終端用戶的,而是面向一個企業內的 Infra 平臺團隊的。應該由 Infra 團隊基于 K8s 構建自己的 PaaS 平臺,提供給公司使用?!八莻€ Kernel,是云的操作系統的內核、不是 PaaS?!庇?2016 年加入 TKE 團隊,一直負責 K8s 產品化相關工
14、作的于廣游表示?!拔覀儧]有意識到這樣一個核心設計的本質。最開始,我們對它的理解有偏差,所以我們犯了一個錯誤,走了一些彎路。早期的時候為了面 vii 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 向業務有一些改動,意識到錯誤后,在 17 年底、18 年初的時候就糾正了。后來才變成了我們現在 TKE 的形態,我們也因此做了一次產品改名,從 CCS 改名為 TKE(Tencent Kubernetes Engine)?!钡搅?2018 年,騰訊啟動開源協同之后,因為這七八個不同的容器平臺團隊,各自都有各自的優勢,如果要融成一個標準K8s技術,該怎么做?TKE要么選擇都不接收、全
15、部“作廢”重來,要么選擇將所有的歷史包袱都背起來。K8s OTeam 在一起討論之后,選擇了后者。這也是為了上云而做出的妥協。整個公司“像下一盤棋”,下棋是核心矛盾,往 K8s里貢獻不好維護的代碼是當時的次要矛盾。據鄒輝和于廣游回憶,當時很快每一個團隊都用上了 K8s,大家也都更加深刻地理解 K8s 了,理解到往 K8s 里面去改太多的邏輯,不是最優的方式。有了這個共識之后,K8s OTeam 團隊在不更改 K8s 主線代碼情況下,差不多用了一年時間,真的就把七八個平臺所有的功能、核心技術特長全部融入到了 TKE 容器平臺上。大家在 K8s 基礎上去添加功能,且無需向用戶暴露 K8s 的基本概
16、念,那么“零 K8s基礎”的用戶也能快速部署應用并管理其監控、日志、服務注冊在內的整個生命周期。后來騰訊創建了一套應用模型 Tencent Application Definition(簡稱 TAD),直接使用應用管理平臺,用戶不需要去感知K8s細節,極大地降低了容器使用門檻。同時也引入了插件機制,復用了 K8s 的框架,可以像寫 K8s 插件一樣寫 TKE 插件,方便第三方開發。viii 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 騰訊云原生底座的“養成”計劃 相比公有云外部客戶的業務,騰訊自研業務的體量更大,技術積累更深厚,測試標準也更全面和嚴苛,業務也千差萬別。一
17、開始,K8s 很多能力不支持,業務很難平滑切換。在 2019 年之前,大部分業務還是基于虛擬機的方式去上云,因為自己的IDC物理機切到云上的虛擬機之后,這個過程業務基本上沒有感知,整個架構和代碼不需要任何的改造。但是業務上虛擬機違背了上云本質訴求,即希望利用云原生的快速彈性伸縮能力,和統一資源池的其他一些能力去提升各個業務團隊的研發效能,所以最終 TKE 團隊還是需要幫助業務從虛擬機切到容器化,并提供相應的產品能力。TKE平臺在初期選擇的更多還是一些無狀態無狀態的業務,先讓這些無狀態的業務能夠快速搬到云上完成改造。團隊選擇了一些平臺的核心能力去解決業務痛點,比如說“發布”的問題。在公有云場景下
18、大家使用的是K8s基本的發布能力,比如基于滾動的發布。滾動發布過程可控性很差,遇到了問題后回滾,整個發布就會中斷。騰訊自研業務需要滿足灰灰度發布度發布的要求,灰度發布對業務來說也是非常關鍵的一項能力。為了保證服務的質量,業務團隊要求能夠非常精準地控制發布頻率、節奏和容錯,做到發布過程一切盡在掌控之中。針對這樣的需求,TKE在自定義工作負載基礎之上發布了一套灰度發布策略,業務可以指定要發布的 Pod,可以按照一定的百分比進行發布,也可以設置升級失敗的比例來實現暫?;蚧貪L。同時 TKE 也給業務提供了一些虛擬機提供不了的能力,比如動態路由動態路由能力,在容器 ix 中國中國卓越技術卓越技術團隊訪談
19、錄團隊訪談錄2023 第第一一季季 銷毀時,平臺會將對應路由去掉,在容器起來后,平臺會自動將容器加到路由中。使用虛擬機,業務需要自己去配置,使用容器之后,就不需要去管理業務的路由了,通過 K8s Operater 的機制已經實現自動化。如此一來,大家開始初步感知到容器帶來的效率價值。另外一個好處則是彈性伸縮彈性伸縮和健康感知健康感知。之前使用虛擬機部署業務時,需要用戶先購買虛擬機,再在虛擬機里去部署業務的包,再確認業務進程健康拉起運行,最后對路由進行管理.這個流程在接入容器之后可以大幅簡化,通過配置自動擴縮容的能力,或者手動觸發,修改副本數后,后面所有的流程都是自動化的,可以做到秒級創建一批
20、Pod、自動感知實例健康狀態并添加到服務路由里去,業務擴容非常絲滑。還有就是成本成本上的優勢,尤其是這幾年,所有業務成本壓力都比較大。容器在的優勢是按量計費,Pod 銷毀了就不收費了,計費粒度是秒級的,但虛擬機不一樣,它的生命周期更重一些,唐性能力也比容器差,計費粒度也更粗。此外,騰訊垂直業務場景也會給容器平臺提出不一樣的需求,為了滿足這些需求,TKE反之也給自己帶來了差異化能力,這些最終都轉變為了騰訊云原生產品的競爭力。從垂直場景走出來的通用產品競爭力 從 2020 年下半年開始,騰訊游戲共有十多款產品陸續推動云原生改造,轉向微服務架構。游戲是騰訊所有業務里軟件結構比較特殊的一個,游戲服務的
21、鏡像一般比較大,有的甚至達到十幾 GB。而我們每啟動或更新一個容器,就需要將對應的應用程序從遠端拉到本地的機器上啟動,這么大的鏡像,在部署的時候,并發對網絡要求很高,源端就成了一個瓶頸。x 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 為了解決這個問題,Oteam 團隊在會議上討論了很多次,商量出了一套“鏡像分發系統”的解決方法,類似 P2P 下載網狀結構,避免源端成為瓶頸點。據騰訊游戲介紹:“云原生架構里基于容器的快速擴縮容,是以分鐘級、秒級來實現的,以前我們只能以十分鐘為單位?!碧岣哏R像分發的效率提高鏡像分發的效率,不僅僅是有益于游戲場景。在一些 AI 訓練場景中,鏡
22、像甚至更大,幾十 GB 也不少見,如果是需要發布成千上萬個 Pod,那就需要幾十分鐘,甚至更長時間,所以現在這種解決方案同樣也可以適用于大規模訓練場景。而在騰訊會議以及其他社交場景中,也有一些特殊要求,這種服務往往含有大量的會話信息,很多是長連接,有些業務還會大量使用共享內存,這些都屬于有狀態的服務。無狀態的容器擴縮容相對簡單,但有狀態的服務要去享受容器化的灰度發布、彈性伸縮能力,難度很大,需要對業務架構進行大量改造。因為業務不可能在短時間內做存算分離,把存儲層下沉、上層邏輯層做成一個無狀態的服務。所以容器就必須扛起這個責任,基于業務的這些特殊需求,在容器層適配有狀態服務。在有狀態的服務有狀態
23、的服務中,如果在升級過程中對應容器的中斷時間達到秒級,用戶通話就會出現延遲和卡頓,所以在升級過程中就要保證Pod容器的中斷時間控制在一秒以內。TKE 團隊實現了一種自定義工作負載,將新版本業務鏡像提前下載到 Pod 里,通過文件鎖和容器狀態探測機制來控制老版本和新版本之間的快速切換,將升級的中斷時間控制在毫秒級別。另一個不得不提的是原地升級升級的能力,比如說容器擴容的時候,不是通過銷毀重建的方法擴容,而是通過原地無感知的提升擴容。比如一般公有云對 8G 的容器進行擴容,xi 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 會將其銷毀重新創一個 8 核 16G 的,這種對業務
24、是有感知的。TKE 實現了更快速的原地升配,可以將 8G 的容器變成 8 核 16G,但業務對此是無感的,除此之外,還支持分批原地更新 Probe、Image 等能力。另外,這幾年騰訊會議經常遇到用戶人數突然暴增的情況,比如每年 9 月 1 號秋季開學的時候,騰訊會議的用戶量就會漲好幾倍。騰訊會議應用程序內部有大大小小幾百個模塊,一個應用下面可能就包含幾十個模塊,運維人員需要做大量的緊急擴充容,手動完成一次對應用的擴縮容,針對這幾十個模塊進行操作,可能要投入很多的人力,需要很長的時間。為了減輕運維負擔,TKE 團隊實現了基于 PCU,即同時最大在線人數,這么一個指標去做一鍵擴縮容一鍵擴縮容的功
25、能。比如說現在騰訊會議在第一天的同時最大在線人數 PCU是一千萬人,以此預測,第二天可能就是兩千萬人,那意味著騰訊會議的上下游整個鏈路基本上要擴容一倍。之前運維要去做這個事情,得去找整個騰訊會議幾萬個Workload,然后對每個 Workload 將副本數擴一倍。為了提升這里的效率,騰訊自研了云原生全局一鍵擴縮容的產品能力,將整個騰訊會議關聯的這些 Workload 構建成一個或者若干個業務拓撲,同一個業務拓撲內的Workloads支持等比例的一鍵擴縮容?!拔矣浀迷谠缙诘臅r候,騰訊會議這幾百個模塊,擴容幾十萬核可能要花個近半天時間,但我們把這個能力實現后,當大家再面對這種擴縮容場景時,20 分
26、鐘左右就能完成這幾百個模塊的共計幾十萬核的擴縮容?!边@種基于業務拓撲的全局擴縮容能力其實是一種普適性的大規模業務訴求,很多業務做活動都會基于一個北極星指標來進行容量評估。針對這個通用的需求,TKE團隊將之提煉成一個通用的產品能力,在 TKE 平臺上形成了一個全局的(跨地域、跨集群)、xii 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 基于業務拓撲的一鍵擴縮容的產品功能。通過上面這些一個個的貼近真實業務的“小細節”,我們可以看出騰訊做云原生的思路是希望讓用戶的付出和痛苦最小、收益最大,盡量減少業務架構的改造,減少運維的壓力。而且這些動態路由、無感升級等功能,王濤表示不僅僅
27、是內部自研業務需要,“我發現很多外部客戶平時都有類似的這種需求,他們也急需要這樣的一些產品能力,這也推動著我們將這些能力從內部推到公有云上去,提供給外部客戶。所以,我們在騰訊自研業務上打磨的這些能力也變成了騰訊云產品的一個優勢?!鄙钏畢^的那些痛 騰訊花了一年半的時間,將無狀態業務搬到了云原生平臺,幾乎把能踩的坑都踩了一遍,為后續其他業務上云鋪平了道路。這也證明了上云是可行的,給了業務團隊更大的信心,后面就有更多業務滾雪球式地自發接入了。到了 2020 年底,上云的自研業務已經達到了三四百萬核心的規模,平臺也運行得非常穩定,所以 TKE 團隊開始通過提升資源利用率、降低成本,來證明云原生確實能夠
28、給業務和公司帶來很多實實在在的好處。經過 2021 年整整一年時間,通過一系列的技術手段,團隊把一些混部集群的利用率提升到了 65%。xiii 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 同時在一些業務層面,一些有狀態的業務有狀態的業務,比如說像 Redis 數據庫、中間件、一些大數據的套件,也做了原生改造,逐步搬到了整個云原生平臺上來,騰訊內部數據庫團隊進一步開發了“云巢”云原生有狀態服務平臺。這個階段差不多也用了一年時間,最終到 2022 年,也就是到去年為止,整個騰訊內部的資源業務基本上完成了上云,整體資源達到了 5000 萬核,3 年累計節省 30 億。騰訊云包
29、含了混部解決方案的開源項目 Crane 也經過認證,成為 FinOps 全球首個認證降本增效開源方案。在這個過程中,TKE 團隊在調度層面調度層面做了大量的工作。在統一資源池中,資源分散在不同的 K8s 集群里,不同 K8s 集群的資源利用率參差不齊;資源需要在不同K8s集群之間流轉,將閑置機器騰挪到繁忙的集群中,讓每個集群的資源率都非常高,這個工作是特別困難的。最開始,TKE團隊嘗試優化每一個集群的資源利用率,同時通過在離線混部,把每一個集群中的額外的資源抽離到另外的算力平臺中,進行統一的調度。這雖然緩解了很多問題,但隨著利用率越來越高,干擾的問題還是會存在。為了解決這個問題,TKE xiv
30、 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 團隊引入了新的統一調度方案,讓 K8s 不再負責調度,只負責 Pod 的管理,真正去分配資源的時候,是將請求給到了 Serverless 調度器進行統一調度,解決資源使用不均的問題。同時,因為 K8s 自帶的原生 HPA 控制器,在這種大規模場景下,擴縮容會有非常大的性能問題,比如在業務流量的洪峰來臨時來不及擴容,或流量出現抖動。所以騰訊將原來的控制器從K8s里剝離出來,單獨部署,這樣就可以進行單獨的一些管理,如高可用、容災等,同時對控制器里的內部實現邏輯做一些性能優化,來滿足這種大規模場景下業務需要的秒級的彈性擴縮容的能力
31、。沉淀多集群管理能力 前兩三年云原生行業都在“卷”單集群規模,通過優化 ETCD、API Server、Controller 調度器的性能,將單集群的節點規模做大,達到上萬節點。但最后瓶頸還是很明顯,做到 5K 個節點集群跟一萬節點的集群,本質上沒有帶來很大的業務價值,反而一旦單集群出現故障,爆炸半徑會很大。所以,在騰訊看來,一味地去突破單集群性能不是一個正確的技術路線。最近整個社區,包括騰訊主要投入做多集群的管理。單集群做得更小,比如說兩千個節點,甚至幾百個節點就行;但是讓更多的集群組合在一起,通過多集群的調度管理,讓它看起來像一個集群,通過這種方式去擴展整個底層資源池的規模。TKE沉淀了各
32、種多集群管理的能力,讓上層的這種多集群管理能夠去統一調度管理跨分區、跨地域的多集群資源。在此基礎上,再重點解決了從面向集群到面向應用的調 xv 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 度編排問題。這在部署全球化的業務時非常有幫助。原生K8s是面向集群的一套編排調度系統,用戶感知的是集群里面的K8s對象,沒有提供基于可用區容量感知調度、副本分配策略決策這些調度能力。比如一個業務全網有一萬個工作負載、五萬個 Pod,分布在全球十七個地域,共八十多個集群。如果要對這個業務做一次全網變更,按照以前面向集群的方式效率非常低。所以騰訊云原生團隊抽象出了面向應用的能力,對跨集群應
33、用的統一變更,提供了一個應用管理平臺,用統一的看板跟蹤發布是否正常。業務部署后還要能從視圖看到部署的容災是不是合理的,所以要有多地域的容災檢測。平臺也可以根據用戶定義好容災部署策略進行巡檢,出了異??梢宰詣痈婢?。在面向全球化上,用戶還可以利用全局一鍵擴縮容能力,對海外和國內的多集群進行等比例擴縮容。所有這些多集群編排能力都是基于騰訊云的 Clusternet 開源項目來建設。進一步提升資源利用率,難度也不斷加大 在過去三年多,騰訊統一了資源池,能夠在一個大的資源池中調度虛擬機、容器和函數,最大化地利用物理機的資源。業界很少有這么大規模的資源池,當規模足夠大,底層的環境足夠復雜時,總會遇到一些別
34、人遇不到的真實問題。在不斷提升資源利用率時,你會發現,這其中大部分的時間都必須跟內核打交道。當利用率提升了之后,整個節點里面的內核資源搶占的問題會越來越嚴重。同一個節點上面部署了不同的業務,甚至上十個業務,這些業務都在一個節點上,利用率高的 xvi 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 時候會出現網絡帶寬、內核鎖網絡帶寬、內核鎖等各種各樣的問題。每次遇到問題的時候,TKE 團隊都需要和內核團隊一起去分析,經常需要內核團隊經常提供熱升級補丁,或者在下一個升級版本中去做優化;然后為了減少“搶占”,也需要通過內核優化資源隔離能力;還需要完善內核資源的監控力度。比如說內存
35、的分配時間,CPU 在隊列里面的等待時間,這些很詳細的內核穩定性指標,會由內核暴露出來,給到容器。容器結合這些內核的穩定性指標再去做調度決策,以提升整個節點的穩定性。在大規模資源池里追求極高利用率的場景下,還需要考慮幾十萬個節點的內核版本的管理,也就是說一定要把這么多節點的內核版本給收斂起來,不然太過零散,這些內核問題永遠都處理不完,一定要有一套自動化收斂節點內核版本的機制。所以 TKE團隊做了一個基于業務無感知調度騰挪能力,去自動化升級節點內核的系統,可以在業務低峰期的時候,比如每天凌晨的時候,自動化地分批次挑選最合適的節點,升級這個節點的內核版本,逐步地、自動地將整個平臺的節點內核版本收斂
36、起來。另外,因為騰訊是一家一二十年的老企業了,當將所有資源都合并到一起后,就會存在有機型代次差異的不同服務器硬件,而不同代次的機型,算力是不一樣的,如果同一個工作負載的不同 Pod 位于不同代次的機器上,這就可能導致不同 Pod 的負載極其不均衡。為此,TKE 研發了基于機型的性能動態修改每一個 Pod 對應的路由權重的能力。當一個 Pod 底層用的是一些很老的機型的時候,會自動調低對應的路由權重;當Pod底層的機型比較新的時候,對應的權重會更大。通過這種方式,打平了不同 Pod 之間的負載,用戶看到的每一個 Pod 的負載都是均衡的,最終達到對業務屏蔽機型差異的目的。另外,不同可用區域的資源
37、余量也不一樣。為了解決資源問題,業務往往需要在不同可用區域之間來回騰挪。為了讓業務更加充分地利用不同可用區域的資源,能夠靈活 xvii 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 地在不同可用區之間調度,甚至做到業務不感知可用區域的屬性。TKE應用管理平臺提供模糊可用區的能力,徹底屏蔽K8s節點、集群、可用區的概念,讓大部分業務完全不感知這些資源的屬性,充分利用不同可用區的資源,同時讓業務具備跨區域容災能力。云原生路線圖 如果要總結騰訊云原生的特色,那可能主要有三點。第一點是超大規模,這種體量規模至少在國內沒有第二家。第二點是業務場景極其豐富,包括社交、音視頻、游戲、支
38、付、騰訊地圖等等業務場景。第三點,這些騰訊自研業務對穩定性、容災要求非常高。王濤總結說,“我們做這個事情最大的壓力是要保證容器化之后業務的穩定性,如果不小心把一個集群搞掛了,或者出現大面積的節點宕機,影響業務運行,這個后果就非常嚴重。也就是說我們從一開始就理解到業務對穩定性要求極高,大家都是如履薄冰,做事情在細節上會考慮非常完善,因此 TKE 服務騰訊自研業務這么長時間,平臺沒有遇到過大的故障?!比缃?TKE 平臺在騰訊內部已經成功承載了數以億計的容器,支撐眾多海量業務平穩運行,這個持續三年的改造項目,用鄒輝的話來講,它不是一錘子買賣,而是一個持續迭代、持續更新的過程。騰訊根據自研業務以及目前
39、一些外部企業使用 TKE 進行云原生改造的經驗,設計了 xviii 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 一個五階段的路線圖,希望能夠給其他企業帶來參考。采訪嘉賓簡介采訪嘉賓簡介 鄒輝鄒輝,騰訊云原生產品中心總經理?,F任騰訊云原生產品中心總經理,全面負責騰訊云容器、Service Mesh、函數計算等產品相關業務和團隊管理工作。自 2010 年加入騰訊以來,先后帶領技術團隊負責騰訊內部多個高性能通信框架及緩存系統,服務于騰訊內部多個海量業務;2017 年開始從無到有搭建騰訊云容器產品,推動容器產品規模連續多年保持三位數以上速度增長,并取得行業領先地位。于廣游于廣游
40、,騰訊云專家工程師,騰訊云云原生產品中心副總經理,主導了騰訊云容器產品從 0 開始的設計、研發和運營工作,并在騰訊云海量 Kubernetes 集群的治理和落 xix 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 地過程中積累了大量的經驗。騰訊自研業務全面云原生上云的主要參與者之一,在云原生領域有豐富的實踐和思考。目前致力于 Kubernetes 在成本節省、Serverless、混合云等場景的探索。王濤王濤,騰訊云專家工程師,騰訊云容器平臺負責人,9 年 K8s 生產經驗,從 0 到 1 建設服務自研業務的 TKE 平臺,全程支持了騰訊海量自研業務容器化上云,熟悉各種業
41、務場景的容器化挑戰和技術方案。重 磅 訪 談 1 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 從“幕后”走到“臺前”,我們在阿里如何建設可觀測體系?作者:凌敏 采訪嘉賓:阿里云云原生可觀測團隊 IT 系統的運維監控最早出現在上世紀 90 年代。彼時,分布式架構正向傳統的單體架構發出挑戰,其帶來顯著優勢的同時,也為系統開發和運維帶來了新的難題。在這一背景下,IT 人員開始引入監控技術,觀測主機上的應用運行情況,及時定位問題。隨著分布式系統、微服務、云計算技術興起,IT系統發生多輪演進,復雜的運維環境對監控提出了更高的要求。2018 年,CNCF 將可觀測性引入 IT 領域
42、,取代監控??捎^測性也一躍成為云原生技術領域最熱門的話題之一。5 年后的今天,可觀測性技術早已從早期的運維排查問題工具,逐漸進化成業務生產過程中的生產力工具。Gartner 更是將應用可觀測性列為“2023 年十大戰略技術趨勢”,并表示“如果能夠在戰略中予以規劃并成功執行,可觀測性應用將成為數據驅動型決策的最強大來源”。作為阿里巴巴集團最早的監控&可觀測團隊,云原生可觀測團隊早年打造了EagleEye(鷹眼)作為分布式調用跟蹤系統應用于阿里內部各業務線,隨后將該工具進行產品化,結合云上客戶的廣泛需求,打造出了阿里云應用實時監控服務 ARMS。那么,阿里云云原生可觀測體系的建設背景與歷程是什么樣
43、的?可觀測體系建設的重 2 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 難點是什么?如何從內部自研走向產品化?2023 年,企業和開發者應該如何理解可觀測性?在本期訪談中,InfoQ 有幸采訪到了阿里云云原生可觀測團隊的多位核心成員,以期找到上述問題的答案。阿里云云原生可觀測體系建設歷程 2010 年 4 月,Benjamin H.Sigelman 等人在 Google Technical Report 上發表了一篇名為Dapper,a Large-Scale Distributed Systems Tracing Infrastructure的論文,介紹了 Googl
44、e 生產環境中大規模分布式系統下的跟蹤系統 Dapper 的構建和部署經驗。這篇論文正式揭開了分布式鏈路追蹤的技術大幕,也為后來涌現出的包括EagleEye 在內的分布式調用系統提供了靈感源泉。分布式鏈路追蹤 EagleEye 的設計與實現 2012 年,阿里的淘寶電商業務正處于高速增長期,為滿足業務快速迭代的需求,支撐不斷提高的交易量,阿里采用微服務架構對整個業務邏輯做了一次重構。微服務架構在性能、可維護性和可用性上帶來優勢的同時,也帶來了四大難題:故障定位難:一個簡單的下單購買操作背后是由十幾個甚至數十個微服務共同完成的,這些微服務又由不同的團隊負責,微服務的過度協同帶來的結果就是,一旦出
45、現問題,需要十幾個團隊一起來解決;容量預估難:在大促場景下,過去只需按照預估的流量與當前系統的單機壓測容量做對比,再將所有的系統按比例去擴容即可,但在微服務架構下,每個系統在 3 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 核心鏈路中的參與度、重要性都不同,無法進行等比例的擴容;資源浪費多:這也是容量預估不準造成的后果,同時,資源浪費多也會引發性能優化難的問題;鏈路梳理難:復雜的微服務體系,讓各個微服務系統的負責人很難梳理清楚每種業務的上下游細節邏輯對自身系統的影響?!拔矣∠蟊容^深刻的是,當時淘寶已經迭代出了上百個應用,但卻沒有一個業務架構師能夠講清楚整個業務的系統架構
46、是什么樣子的。正是在這個時候,我們遇到了Google 的Dapper,a Large-Scale Distributed Systems Tracing Infrastructure這篇論文,我們參考了Google的主要思想,在阿里內部做了落地實踐?!卑⒗镌瓶捎^測技術負責人司徒放回憶道。正是在這一背景下,EagleEye 應運而生。EagleEye 是一個以鏈路追蹤技術為核心的監控系統,通過收集、存儲、分析分布式系統中的調用事件數據,協助開發和運維人員進行故障診斷、容量預估、性能瓶頸定位以及調用鏈路梳理。2012 年,EagleEye第一次發版,EagleEye 1.0 能夠構建鏈路跟蹤核心體
47、系,提供調用鏈與離線報表服務。當時雖未出現可觀測性一詞,但業界已將其分解為三個更具體的方向展開研究:Metrics(指標)、Tracing(鏈路追蹤)以及 Logging(日志)。這三大方向也是此后OpenTelemetry 協議定義的可觀測性三大支柱。最開始,EagleEye 主要關注 Tracing 領域,這也是業界比較早期的大規模 Tracing 實踐?!癊agleEye 解決了阿里當時微服務架構下的分析和診斷挑戰,有很多阿里內部研發人員在應用它?!彼就椒耪f道。4 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 2013 年上半年,EagleEye 打通了淘系所有常見
48、中間件的調用數據,應用負責人能看到自己的系統在整個鏈路上的執行情況,為大促和單元化的容量規劃、依賴分析提供了數據支撐,并具備了快速定位分布式系統故障的能力。EagleEye的第一個重要發展契機是淘寶的雙十一大促,這是EagleEye的首次大規模應用。也是在這時,EagleEye 上線了實時鏈路大盤,為全鏈路壓測提供壓測透傳和鏈路來源流量分析。當時,為了提前做好系統容量的準備,阿里對線上系統進行了全鏈路壓測,而全鏈路壓測的底層其實是與 EagleEye 的 Tracing 能力緊密相關的。于是,EagleEye 從Tracing 領域切入到 Metrics 和 Logging 領域,通過 Tra
49、ces 去做流量級別的、精準的Metrics 數據統計,用來分析上下游應用的依賴關系,提供一個全局流量拓撲。同時抽象了一個通用的實時日志處理系統,用來做通用的日志采集、計算、存儲方案,進一步提升問題排查效率。EagleEye 1.0 之后,團隊陸續發布了 2.0、3.0、4.0 版本,圍繞鏈路跟蹤的核心能力,EagleEye 逐步構建了集監控、診斷、優化于一體的綜合性服務平臺:提供多維查詢與實時報表以及數據分析能力;基于內存統計,提供精準實時報表與系統監控服務;基于鏈路追蹤,提供單機診斷與業務定制化服務。脫胎于 EagleEye,2017 年,云原生可觀測團隊打造出了應用實時監控服務 ARMS
50、,并于 2022 年 6 月推出阿里云云原生可觀測套件(Alibaba Cloud Observability Suite),打造云原生時代完整可觀測數據生態與產品套件。5 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 從內部自研工具到產品化 EagleEye 從最初的內部自研工具走向產品化,是一個自然而然的過程。在自研體系下,EagleEye 的出現為阿里內部降低了成本和風險,提高協作效率。同時,在云原生變革的大趨勢下,云原生可觀測團隊也越來越深刻地意識到,PaaS 類產品一定得是開放的,是基于標準和開源的。結合云上客戶的廣泛需求,云原生可觀測團隊將 EagleEye
51、進行產品化,打造出了阿里云應用實時監控服務 ARMS?!鞍⒗飪炔康募夹g棧是比較統一的,在內部業務場景中,我們采用完全自研的形態去支撐業務沒有任何問題。但外部客戶的技術棧百花齊放,要求所有人學習和使用我們的技術體系并不現實。于是,我們的整個可觀測體系從自研轉向了開源的Prometheus?!彼就椒盘岬?。Prometheus最初是由前Google工程師在SoundCloud上構建的開源系統監視和警報工具包,自 2012 年創建以來,許多公司和組織都采用其作為監控告警工具。2016 年,Prometheus 加入 CNCF,成為繼 Kubernetes 之后的第二個 CNCF 托管項目。如今,Pro
52、metheus 已經成為云原生時代的可觀測事實標準。根據 CNCFCloud Native Observability MicroSurvey調查,84%受訪者在可觀測技術棧中使用Prometheus。司徒放表示,轉向 Prometheus 架構后,再去審視移動端、應用、中間件、云服務的基礎設施監控等子領域,我們發現采用開放的體系可以讓整個數據模型得到統一,整個實體關聯也更加簡單?!斑@和當時秦始皇統一六國后實行的書同文、車同軌、度同制道理是一樣的。我們的整個可觀測體系統一后,打通了很多數據孤島?!? 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 在轉變的過程中,云原生可觀
53、測團隊也面臨著來自技術與思維的雙重壓力。技術上,過去團隊支撐內部業務應用,可觀測工具能夠保證運行穩定、快速響應業務需求即可。但可觀測云產品的市場需求多元,對易用性、可擴展性,以及應用集成的能力要求較高,并需要滿足數據安全標準。思維上,過去團隊著重關注技術,但現在也需要考慮如何做好商業化產品,需要設計產品的差異化能力,以及盈利模式、用戶增長?!斑@些對于我們團隊來說,都是過去沒有經歷過的問題,我認為這個過程也是一個很好的機會。能夠把自己擅長的技術打造成一個可能會被全球各個企業廣泛使用的產品,并與其他世界一流的產品展開競爭,對于程序員來說,這應該是最大的榮耀和夢想?!彼就椒耪f道。在 Gartner
54、發布的2022 Gartner 應用性能監控與可觀測魔力象限中,Gartner 將阿里云定義為此魔力象限中的細分領域者,并給予了高度評價。當前,阿里云可觀測產品由核心產品應用實時監控服務 ARMS、Prometheus 監控,聯合云監控 CMS、日志服務 SLS 共同組成,以公共云 SaaS 服務、混合云不同產品形態為不同規模、不同業務需求的企業提供開箱即用的可觀測服務。其中,阿里核心容器調度(千萬核規模)以及超過 50 款云產品,全面基于 Prometheus 構建可觀測體系。7 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 在提到與同類型產品的差異化時,阿里云可觀測高
55、級技術專家徐彤表示,阿里云可觀測產品及解決方案的顯著優勢是上下游產品生態的支持,結合阿里云整個原生生態,用戶可以在一個統一的平臺上實現對云計算應用的全方位可觀測,效率與便捷性大幅提升。過去,EagleEye 在阿里內部積累了大量運維場景經驗,脫胎于 EagleEye,ARMS 也積累了豐富的行業應用與運維經驗。此外,阿里云可觀測產品形態豐富,阿里云 Prometheus 監控托作為完全兼容開源Prometheus 的全托管監控服務,提供開箱即用的 Grafana、智能告警等組件,并預置常見場景模板。用戶無需關注系統搭建與日常維護,有效提升運維監控效率。在開源開放方面,阿里云可觀測產品兼容業界通
56、用的OpenTelemetry標準,支持多語言協議及 SkyWalking、Jaeger 平滑遷移?!伴_放與集成是我們很重要的能力,我們堅持將開源標準和產品集成到平臺,方便用戶在現有產品的基礎上進行拓展和優化。同時我們也在積極貢獻開源社區,與業界共同推動云原生可觀測生態發展?!毙焱榻B道。8 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 下一階段,阿里可觀測產品體系的重點是數據的集中管理和關聯,整個系統端到端的分析將更加全面、完整、統一,同時結合可觀測下游服務與人工智能技術,從監管控一體化走向智能化運維。云原生可觀測團隊:從“幕后”走到“臺前”從打造 EagleEye 應
57、用于阿里內部各業務線,到打造阿里云應用實時監控服務 ARMS服務更多企業,云原生可觀測團隊基于可觀測行業趨勢,將開源項目與商業產品相結合,幫助越來越多的企業獲得完整的可觀測能力,節省運維成本。徐彤表示,隨著當前千行百業以及云產品對可觀測的重視度與日俱增,可觀測在云原生體系中所扮演的角色也發生了變化,很多團隊會主動找過來,一起建設自己的可觀測能力?!霸谶^去,我經常說我們團隊是幕后無名配角,但現在,我們也會開玩笑說,自己已經慢慢地走到了臺前男二號的角色。大家更重視我們,我們也會提供更多、更重要的能力,二者結合,越走越遠?!倍?EagleEye 既是阿里云云原生可觀測團隊打造的第一個產品,也是云原生
58、可觀測團隊最初的名字,其誕生背后的邏輯其實是客戶需求和行業趨勢決定的。據司徒放介紹,企業做云原生數字化轉型會先選擇做容器化、微服務架構的改造,這也導致整個開發、運維體系以及協作模式發生翻天覆地的變化。在這一背景下,云原生團隊開始進一步孵化出可觀測團隊。目前,云原生可觀測團隊主要由包括應用監控、鏈路跟蹤、Prometheus 以及告警前端監控在內的技術團隊,以及運營、解決方案等 9 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 團隊構成?!霸谡麄€云原生大團隊中,可觀測團隊的定位就是為我們的客戶提供一套統一、高效、易用的原生可觀測解決方案。在日常工作中,云原生可觀測團隊與容器
59、、存儲和網絡、安全、解決方案等多個團隊密切協作?!弊鳛榭捎^測產研團隊的重要組成部分,運營團隊也在其中扮演著重要作用?!霸粕袭a品和服務越來越走向 PLG(Product Lead Growth)模式,運營也變得更加重要,作為足球比賽中中場的角色,即銜接用戶需求與產品服務?!卑⒗镌瓶捎^測高級運營專家王希正認為,在市場側,從應用性能監控領域到可觀測,市場發生了很大變化,運營團隊需要構建全新的技術內容,協助開發者快速找到解決自身問題所匹配的技術方案,并配套開發者體驗場景及優秀的文檔能力,讓開發者能夠自體驗自生產自服務。在服務側,可觀測產品作為數據匯聚地,如何呈現數據從而輔助決策至關重要。運營團隊需要提
60、供豐富的模板,幫助開發者自助享受云上可觀測能力,真正用起來、用得好。作為“中場”,運營團隊還需要擁有出色的數據洞察能力,發現不同業務場景下的主流用戶需求及體驗問題,驅動產品研發為用戶提供更好的服務?!拔磥?,B 端產品尤其是以 SaaS 交付方式提供的產品,產品驅動增長的 PLG 模式將成為主流。運營同學除了做好增長外,更多需要深入到自身產品的使用體驗中,基于市場的洞察推動產品改進到一個領先的位置。這也會是整個團隊的一大助力?!蓖跸U偨Y道??捎^測力即生產力 2018 年,CNCF 將可觀測性引入 IT 領域。5 年后的今天,可觀測再次獲得了廣泛關 10 中國中國卓越技術卓越技術團隊訪談錄團隊訪
61、談錄2023 第第一一季季 注,并被 Gartner 認定為“2023 年十大戰略技術趨勢”。Gartner 表示,可觀測性使企業、機構能夠利用數據來獲得更加明顯的競爭優勢,在最恰當的場景挖掘出數據背后的戰略價值,以便規劃與決策戰略方向而不是盲目的快速行動。因此,可觀測性應用作為一種強大的工具,如果能夠在戰略規劃過程中充分使用,這將成為數據驅動型決策最強大的支持。阿里云可觀測高級產品專家曹劍認為,與 5 年前相比,當前可觀測市場正邁入一個全新的階段數據為王。隨著千行百業進行云原生架構轉型升級,可觀測數據量得到了指數級增長,數據之間的關聯分析以及傳輸也帶來了可觀測數據模型的標準化,標準化也會反過
62、來促進數據的上下游協作,并進一步催生出多個細分市場。比如,有些廠商專門做可觀測數據的采集,有些廠商專門做可觀測數據的編排,等等。而在安全、軟件質量等場景下,新的可觀測產品也瞄向了新的客群?!艾F在不單是運維同學在應用可觀測產品,運營、市場以及管理者,都開始使用可觀測工具。在這樣一個數據為王的時代,誰能夠把可觀測的數據價值挖掘出來,誰就能夠給用戶提供更好的可觀測服務?!迸c此同時,隨著國內云服務越來越成熟,開發者用云深度增加,可觀測作為具有代表性的云服務,已經從早期的運維排查問題工具逐漸變成了業務生產過程中的生產力工具。王希正表示,從近些年國內外可觀測的發展來看,有一個很明顯的趨勢是,企業的可觀測力
63、即生產力:從云產品視角看,當前云計算不再只提供資源服務,越來越多的云產品能夠幫助企業 11 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 更高效、更易用、更安全的創建云原生應用,使業務研發模式發生深刻的變革,各個云的組件本身都需要提供開箱即用的可觀測力。以 MQ 為例,它其實代表了企業業務數據的流向,云上的 MQ 通過 Prometheus+Grafana 提供的可觀測能力可以快速對線上消息消費問題進行排查和定位,還能通過分析消息流量變化趨勢、流量分布特點或消息體量,幫助客戶更好的進行業務規劃,這也驅動了可觀測的發展。從開發者及企業視角看,構建可觀測力不止是運維或者 SR
64、E 部門的事情,越來越成為企業業務決策的一個方向。對于產品業務部門來說,可觀測能夠將業務數據與 IT性能與指標關聯,是 PLG 產品的必備條件;對企業管理者來說,可觀測產品有助于構建高效的 Issue to resolve 流程,為 IT 和業務提效?!罢w來說,驅動可觀測增長的重要動因實際是當前越來越激烈的市場競爭以及高效的研發模式,從過去的月度發版到很多業務的周迭代,勢必要引入可觀測能力去主動發現流程與過程問題,而不是在問題出現后才去解決?!蓖跸U偨Y道。寫在最后 2023 年,可觀測性技術還將持續地發展與演進。未來,AI驅動的可觀測將得到更多應用,并對數據進行了更加高效的整合,故障預測、
65、異常檢測、自動化業務都會逐步變得智能化,可以更好地降低成本。同時,隨著低代碼的應用更加廣泛,企業運維門檻降低,可觀測性技術也需做好迎接這一趨勢的準備。此外,用戶對安全隱私保護重視度與日俱增,未來的可觀測產品設計中,也需要更加注重合規性與安全性,充分保護數據。而在實時性方面,隨著應用程序以及基礎設施 12 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 建設完善,可觀測系統本質上等同于大型數據處理系統,如何更快、更穩定地處理數據也是從業者需要思考的課題。徐彤表示,下一步,云原生可觀測團隊會重點關注幾個方向:可觀測性技術演進:持續關注可觀測領域的技術動態,并與開源項目以及行業標
66、準相結合,優化現有產品。同時探索 AI 技術在可觀測領域的應用,幫助用戶實現更加智能的自動化運維??捎^測性體系化建設:當前的可觀測產品主要聚焦在運維監控階段,在整個軟件生命周期的管理中位置偏后,需要結合其他技術繼續往前走。解決方案:每個行業在不同階段都有自己的可觀測解決方案訴求,需要深入了解各個行業的痛點以及訴求,為用戶提供一站式的可觀測能力。持續運營:加強運營動作,幫助用戶更好地理解和應用可觀測性技術。全球化:關注全球化的可觀測性訴求。嘉賓介紹嘉賓介紹 司徒放,阿里云可觀測技術負責人,資深技術專家。徐彤,阿里云可觀測高級技術專家。曹劍,阿里云可觀測高級產品專家。王希正,阿里云可觀測高級運營專
67、家。13 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 大模型如何實際在行業落地:生成式大模型結合知識庫,打造出7*24 小時永遠在線的超級員工 作者:劉燕 采訪嘉賓:中關村科金AI 平臺能力中心 對話式 AI 產品擁抱大模型 一個大膽的決定 自 2014 年成立以來,中關村科金就選擇專注于企業服務賽道提供對話場景服務,聚焦生成式 AI 技術,包括領域大模型、大數據分析、多模態交互三大核心技術。如今基于這三大類核心技術,已形成了一套完備的技術體系,并構建了一個基礎的技術底座即生成式的得助對話引擎。這些底座式的能力都由 AI 平臺能力中心來提供支持的。這是一個在內部被定義為
68、偏底層、匯聚“原子能力”的地方。這個能力中心,既要構建前沿的技術能力,又要快速響應前端業務系統的變化,構建標準化的產品組件用以快速落地。從得助對話引擎上“長”出了三大類產品,包括數字化洞察與營銷、數字化服務與運營、數“智”底座,基于這三大類產品陸續推出云呼叫中心、全媒體智能客服、智能 14 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 外呼機器人、智能質檢、智能陪練、智能音視頻等一系列服務,覆蓋了用戶服務的全生命周期,包括售前、售中、售后等環節,被廣泛應用于金融、政務、零售、大健康、制造等行業?!拔覀円恢痹谔剿鲗υ捠?AI 技術在企業服務賽道的創新應用,同時積累數據,比如
69、對話場景的 KnowHow。此外我們一直緊密跟蹤大模型的發展趨勢,進行相關的技術更新和迭代,比如預訓練模型如何在領域里做優化,為企業提供貼合實際應用場景的模型等?!敝嘘P村技術副總裁張杰博士表示。自 2018 年開始,預訓練模型逐漸興起,起初用的比較多的是判別式模型,例如BERT 模型。近幾年,預訓練模型幾乎是以爆發式的速度增長,參數規模逐年上漲。尤其是去年 11 月底,ChatGPT 火爆出圈成為革命式的事件,基于 GPT 出色的生成效果,很多傳統的 NLP 任務都規劃到了生成模型中。從 BERT 到后來的 T5,再到GPT4,張杰團隊觀察到,整個技術發展的趨勢,在向一個統一范式的方向發展整個
70、技術發展的趨勢,在向一個統一范式的方向發展?!按竽P?領域知識”這一路線,核心是為了利用大模型的理解能力,將散落在企業內外部各類數據源中的事實知識和流程知識提取出來,然后再利用大模型的生成能力輸出長文本或多輪對話。但是這個方向上一直沒有一個創新力強的產品出來。ChatGPT 發布后,讓張杰和他的團隊眼前一亮。中關村科金算法團隊負責人于皓告訴 InfoQ,他們在多個業務場景進行實際測試,驗證了在一些特定的場景,經過精心設計的領域 prompt,大模型的效果會顯著提升,特別是在新領域的模型泛化性能力方面表現優異。例如,以前用判別式的模型解決意圖識別問題需要做大量的人工標注工作,對新領域的業務解決能
71、力非常弱,有了這類大模型以后,通過微調領域 prompt,利用大模型的上下文學習能力,就能很快地適 15 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 配到新領域的業務問題,其顯著降低對數據標注的依賴和模型定制化成本?!耙郧拔覀冎饕?BERT 技術體系解決實際業務問題,ChatGPT 出來后,我們重新研究了 GPT 整個發展路線,梳理好整個大模型的技術發展脈絡后,從從 AI 技術發展角技術發展角度研判,生成式大模型可能是未來通向通用性度研判,生成式大模型可能是未來通向通用性 AI 的一條可行性路線,于是大膽地做的一條可行性路線,于是大膽地做了一個決定了一個決定在產品中,
72、積極探索應用生成式大模型解決實際業務問題。在產品中,積極探索應用生成式大模型解決實際業務問題?!?022 年,在中關村科金 AI 平臺能力中心的主導下,公司的智能外呼、智能客服、智能質檢、智能陪練等產品通過自研的對話引擎全面擁抱大模型,充分挖掘企業各類對話場景數據價值,幫助企業實現更加智能的溝通、成本更低的運營維護。從傳統對話引擎轉向大模型對話引擎“通過新一代的得助對話引擎,我們正在從傳統的對話引擎邁向大模型的對話引擎我們正在從傳統的對話引擎邁向大模型的對話引擎,用一套對話引擎支持多種業務系統,業務系統會基于行業線進行拆分,在不同的行業線還推出了私有化和 SaaS 化的版本?!敝嘘P村科金資深
73、AI 產品總監曹陽介紹,通過一套技術體系對產品進行能力賦能具有很多優勢,以前產品矩陣的底層有幾百個定制化模型,運維起來非常麻煩,現在可以統一用一套大模型就搞定了。于皓介紹,新一代得助對話引擎的核心能力是:領域新一代得助對話引擎的核心能力是:領域CoT+領域大模型領域大模型+領域知識領域知識庫庫+領域能力套件。領域能力套件。通過將領域的 konw-how 轉化為領域 CoT,使大模型具有更復雜的業務問題解決能力;通過外掛知識庫的形式,把事實性知識的流程性知識都放在領域知識中臺內,大模型用來做抽取、調度和生成,然后下游業務系統通過 API 獲取結果,以保證業務知識的實時性、可靠性;通過領域能力套件
74、,打通大模型和企業已有系統的融合,建立模型和企業已有業務系統的無縫鏈接,將大模型的能力充分釋放 16 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 到各個業務系統中。得助對話引擎主要特點是以大模型為中心,傳統對話引擎相關的意圖識別、對話狀態跟蹤和話術生成等任務全部由大模型進行判別和自主執行,為了保證整個對話過程的可用、可信、無害和可靠,中關村科金自主研發了領域 prompt 工程組件,可以有效將對話能力約束到領域邊界內,使大模型可以在業務規范下,安全、可靠地完成對話任務。在新一代得助對話引擎的設計中,充分考慮到實際業務情況,輕量化部署本地化大模輕量化部署本地化大模型是未來
75、企業的強烈需求,團隊研發了本地化大模型的快速優化套件型是未來企業的強烈需求,團隊研發了本地化大模型的快速優化套件,主要包括領域知識的注入能力、領域 prompt 生成能力、領域指令自主生成能力、領域指令微調能力和領域規范行為對齊能力,可以幫助企業快速構建適合于自身業務場景的大模型,降低大模型在企業的落地門檻。于皓介紹,在得助對話引擎架構的設計過程中,也充分考慮了 ToB 場景的特性。在ToB 場景中,企業有很多領域知識,但這種領域知識基本都固化在各個知識庫里,如何結合大模型的隱性領域知識和推理能力,與企業已有的固化好的顯性知識融合起來,這是目前需要解決的一個大問題。因此在設計引擎架構時,于皓的
76、算法團隊把知識庫和大模型的基礎推理能力相融合,結合企業固有的知識滿足實際業務場景需求。針對解耦合的模式設計了交互式的推理能力,例如針對問答場景,首先要理解問題語義,抽取出問題中涉及到的實體關系,如果問題屬于隱形知識范疇,就由大模型直接回答。如果涉及到業務中的顯性知識,其可能存在于結構化數據庫或者文檔庫等形式的知識庫中,大模型需要利用領域CoT和領域能力套件自主性生成查詢語句,根據查詢語句到知識庫里查出相關知識,把知 17 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 識提煉出來之后,再根據上下文生成對話的形式,將一個復雜的問題做思維鏈推理,提煉成簡單的問題,借助于領域能力
77、組件可以從知識庫、業務系統或者互聯網等資源檢索信息,再借助于大模型的上下文學習能力歸納總結出答案,在這一模式下,重點在于大模型解決問題時的推理合理性、過程可控性和結果的可靠性。大模型如何在領域落地,打造超級員工 隨著基礎大模型的不斷成熟,中關村科金 AI 能力平臺中心不斷拓展得助對話引擎的應用場景,推出虛擬員工助手,幫助企業打造“超級員工”,在營銷文案生成、客服問答、坐席助手等場景,助力企業營銷服價值提升。這些超級員工就像是企業里的“超人”?!俺墕T工”形成的技術路徑 在基礎大模型能力加持下,得助對話引擎幫助企業構建“超級員工”,需要經歷“學、教、用”三步形成路徑。第一步:學,大模型在領域數據
78、上的無監督學習。第一步:學,大模型在領域數據上的無監督學習。大模型就像是一個智商較高、理解能力很強、過目不忘的“文科生”。中關村科金 AI平臺能力中心在這個底子很好的“文科生”基礎之上,注入企業的領域知識,如各種培訓材料、行業通用知識等,讓大模型能夠理解領域知識,成為一個具備領域知識的“普通員工”。18 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 這一步的重點是讓大模型從散落在各處的數據源中萃取出領域事實性知識。這一步的重點是讓大模型從散落在各處的數據源中萃取出領域事實性知識。中關村科金高級算法工程師羅華剛介紹,做到這一步的關鍵是要“及時動手自制”。ChatGPT 用的
79、數據都是開源的,沒有規范的具體領域數據。而如果要應用到領域里,則首先要用自己的領域數據。比如中關村科金積累了多個行業大量的對話數據,把這些高質量對話數據灌到大模型里訓練,就可以讓模型更符合領域分布,那么,它生成答案就會帶有領域的知識,這種是隱性的知識。對于事實性的動態知識,模型是難以把控的。比如針對具體某個金融產品,客戶會詢問利率,正確答案是 5%,但是大模型生成的結果可能是 6%。大模型善于理解用戶的意圖,使生成的回答符合邏輯,但并不能保證事實性。另外,隨著時間的推移,這款產品的利率可能會降低,變為 4%,大模型很難及時跟進此變化。事實性的動態知識盡管也可以通過訓練融入大模型,但無法保證輸出
80、的正確性。如果要保證正確性,就會讓這個模型過度擬合,這不符合訓練模型的目的。因此對于事實性的動態知識,非固有的領域性知識,羅華剛團隊參考了 GPT-4 提供的插件功能,來保證大模型實時輸出的正確性?!拔覀儗⑺鳛椴寮?,領域知識庫/中臺作為它的事實性或動態知識的存儲地,大模型負責對給出的問題做語義理解,同時發揮中樞調度的功能,最終生成答案?!暗诙剑航?,從人類反饋中以小規模有監督學習的方式做微調。第二步:教,從人類反饋中以小規模有監督學習的方式做微調?!捌胀▎T工”依托專業的產品設計,不斷和人類專家進行閉環反饋?;谌祟悓<业姆答?,它能夠不斷地獲得提升,逐步成為“超級員工”。這一步的技術難點是,如
81、何讓大模型學到流程性知識。這一步的技術難點是,如何讓大模型學到流程性知識。因為與事實性知識相比,流 19 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 程性知識更強調連續性和邏輯性。為了讓大模型具備流程性知識,羅華剛介紹,可以采用兩種方式。一是無指導學習的方式,讓模型自己去體會對話中存在的知識,將對話數據以及對話數據產生的目標(比如,營銷場景下坐席與客戶的對話數據,最終是否完成了銷售任務)設為標簽,作為一個監督性的任務進行微調。第二種是有指導學習的方式,告訴模型怎么做,這具體有兩種方法,一是采用思維鏈的技術,加入邏輯引導,比如針對一小段對話,加入邏輯分析,告訴模型如何分析
82、這通對話,分析顧客的特點、顧客表現出的意愿等,輸出一個更優質的對話告訴模型,這樣的例子是比較好的,讓模型再去學習這樣的案例,大模型通過學習一個評判模型來評判一個對話邏輯。另一種方法可以考慮采用強化學習或 GAN 的形式,比如,機器人與機器人之間產生了對話,再去評判這通對話做的怎么樣,通過這樣不斷地來回學習,使模型的能力越來越強。第三步:用,在特定場景下以機器人或助手的方式應用。第三步:用,在特定場景下以機器人或助手的方式應用。成為具備領域知識的“超級員工”后,企業可以給它分配特定的任務,在具體的場景下進行應用。比如撰寫營銷文案,自動解答用戶的問題,或輔助坐席去回答一些問題等。這一步的關鍵點是產
83、品設計,如何合理的為人類員工和數字員工分配任務,實現能這一步的關鍵點是產品設計,如何合理的為人類員工和數字員工分配任務,實現能力互補,并且讓數字員工從業績反饋中持續學習。力互補,并且讓數字員工從業績反饋中持續學習。曹陽介紹,為“超級員工”分配任務,目前是機器+人工結合的方式?;跇I務屬性,會按照一套通用的框架和流程進行分工,到具體環節會采用單元模式的動態人工介入 20 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 的方式。這種方式的核心是單元化產品邏輯,所有的業務單元都會抽象到一個整體的單元,系統會按照固定流程執行,流程中涉及到人工審核或驗證環節。人工參與的程度可以根據業
84、務問題的復雜度進行動態調整,簡單的業務問題系統會進行自動化處理,復雜的問題交由模型處理后,人工再進行審核。針對不同的業務,也會動態化的控制人工參與度,比如,售前營銷溝通場景中業務類型比較重要,且用戶畫像相對豐富,這個環節會有較強的人工介入,其他場景比較簡單,動態控制的要求也會相應地降低。應用案例解析:AI 落地商業空間更大了“超級員工”的目標是幫助企業降本增效。目前,中關村科金打造的“超級員工”已在各個場景展開試點。羅華剛向 InfoQ 介紹了兩個代表性的應用案例。外呼機器人,讓話術師告別“刀耕火種”時代外呼機器人,讓話術師告別“刀耕火種”時代。一組應用數據顯示,以前在一個新場景構建外呼機器人
85、,大概需要 22-23 周時間,且需要非常熟練的話術師才行。但現在,借助一個構造好的領域大模型,只需大約 1-2天時間就可以成功交付,能明顯降低交付成本,加快交付效率。與傳統的智能客服相比,大模型進一步降低了開發和運維成本。以前,各種場景都需要算法工程師標注數據以訓練特定任務的模型,因此開發成本較高?,F在,大模型本身的通用性好,不再需要很多算法工程師標數據,可以直接拿過來用,有時稍微標幾條數據就夠了。企業部署外呼機器人、客服系統的成本會大大降低。原有 30 個話術師的工作量,現在 2 人即可完成,而且語義理解準確度從 85%提升至 94%。21 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄20
86、23 第第一一季季 營銷文案助手,賦能理財師撰寫營銷文案,原先營銷文案助手,賦能理財師撰寫營銷文案,原先 10 分鐘一條營銷文案,現在分鐘一條營銷文案,現在 10 秒秒即可完成。即可完成。當下的財富管理行業面臨業務增速較快,但理財師規模和人才增速不足的挑戰。理財師的專業要求高,其中,文案生成就是一項剛需工作,如果技能不夠,就容易流失很多高凈值客戶。因此,理財師亟需借助智能助手工具,將一些繁瑣的工作,如編寫營銷話術工作等交給機器完成,這樣就能釋放出更多精力放在拓展新客戶等工作上。針對理財場景,中關村科金研發了營銷文案助手。它發揮大模型的語言理解能力,將產品的介紹文檔、行研報告、權威媒體的財經新聞
87、、專家觀點等“灌進”大模型,大模型從這些非結構化文檔中,抽取出核心觀點及關鍵信息,如新基金產品的發布日期、期限費率、收費政策、風險等級、利好政策、行業趨勢等。這些抽取出來的要素,形成了新的領域知識庫。當理財師選擇某一客戶時,客戶的屬性就能從 CRM(客戶關系管理系統)中關聯出來。根據這些客戶特有的屬性,理財師就能了解其投資偏好。接下來進入營銷環節,根據所處的階段,大模型可以生成相應的營銷話術,為保證生成的內容是準確、可控的,理財師最后對生成的內容進行審核和再編輯。透過實際的落地實踐,中關村科金 AI 平臺能力中心發現,擁抱大模型也明顯加速了擁抱大模型也明顯加速了AI 商業化的進程商業化的進程。
88、“在探索大模型實踐的過程中,我們嘗試了多個對話應用場景,也和客戶共創了一些有場景代表性的試點項目?!睆埥芴寡?,“使用大模型以后,已有的對話產品中定制化使用大模型以后,已有的對話產品中定制化建模的成本降低了,而且之前技術達不到要求的對話場景現在也可以做數智化嘗試,建模的成本降低了,而且之前技術達不到要求的對話場景現在也可以做數智化嘗試,22 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 AI 落地的商業空間更大了落地的商業空間更大了?!痹瓉淼闹悄芊治霰容^簡單,基本是機器根據錄音做轉出分析,或者機器按照已設定好的流程一步步往下執行,但不考慮用戶的反饋,對用戶的意圖理解并不到位
89、,客戶體驗不好,很難實現成單;客服質檢也只能做一些簡單的操作,比如關鍵詞匹配等,且匹配度也有一定的提升空間;原來針對各項對話場景分析的粒度不夠細,準確度也不夠高。用上大模型升級后,對話的理解能力和智能分析效果有顯著提升,成單率也取得了極大地提升。大模型重塑生產關系 未來“超級員工”在企業里所承擔的角色,一方面可以完成一些機械、重復的工作,另一方面,可以輔助人工,承擔一些創造性的工作,減少員工的工作量。大模型強大的意圖理解能力以及泛化性使其完成一些創造性的任務成為可能,這將對企業的生產關系帶來重要的變革?!爸嘘P村科金的愿景是希望通過對話式 AI 技術,重塑企業的生產關系?,F在盡管大模型十分火爆,
90、但在企業服務賽道,很少有人意識到大模型未來會對企業的生產關但在企業服務賽道,很少有人意識到大模型未來會對企業的生產關系帶來很大影響系帶來很大影響?!睆埥鼙硎尽,F在的企業生產關系是一個樹狀的架構,從上往下分別是董事會、職能部門、業務部門,一層一層往下是金字塔式的?,F階段在數字化轉型中,企業開始將一些簡單的體力勞動、能總結出規律的活動,寫成具體的程序,通過自動化校對的方式來實現。也有些企業會訓練模型,這些模型會以助手的方式輔助一線員工,員工下面一層也就變成了助手機器人。但整體來看,整個組織結構仍然是樹狀的,是人-人-機的架構。23 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季
91、 未來,情況可能會發生變化。張杰表示,“未來大模型帶來的啟示是,它不但能夠替代一些簡單的體力勞動,還能替代一些簡單的腦力勞動,甚至包括那些能夠從日志里總結出經驗的腦力勞動?!痹趶埥芸磥?,未來企業的組織結構將呈現紡錘形,上層是人類經營者,中間層真正負責干活的是機器人,少數的業務專家會指導機器或與機器協同互補,是人機人的架構?!皺C器人在其中的角色并不完全是助手。最開始由于技術所限,它以助手的形態呈現;未來在具備自主學習能力后,它能夠真正成為獨立承擔工作的數字員工,而且是成本非常低的員工?!蔽磥?,隨著大模型重構企業組織架構、重塑企業生產關系,可以釋放出更多的人力,開展更具創造性的工作。但不可避免地,
92、重塑生產關系意味著必然有一些人會被替代掉。張杰認為,從短期來看,大模型帶來的影響是,一些不產生價值的、中間的職張杰認為,從短期來看,大模型帶來的影響是,一些不產生價值的、中間的職能崗位,可能會很快將被機器取代掉。長期來看,關于價值判斷、規則制定、以及能崗位,可能會很快將被機器取代掉。長期來看,關于價值判斷、規則制定、以及關乎人性和心理的工作,是大模型不能取代的關乎人性和心理的工作,是大模型不能取代的。巔覆對話場景:下一階段企業數字化轉型的重點 對于企業來說,數字化是一項“必修課”。最近幾年,可以明顯感受到,數字化轉型逐漸往“縱深化”發展。而大模型技術的爆發,有望給企業的數字化轉型進程帶來“加速
93、度”。24 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 一個顯著的變化是,前幾年,企業數字化主要針對企業內部的交易數據和核心業務系統,對這些數據通過數據挖掘的方法進行建模,實現降本增效。隨著近些年大模型的高速發展,對話數據成為企業愈發重視的數據資源。無論在現階段還是未來,無論是企業與外部客戶溝通還是企業內部員工的培訓和協作,對話都一直是最主要、最自然的交互形式。在這期間,會產生很多對話數據,包括線下營銷和線上營銷、文字溝通和電話溝通等場景。企業希望充分利用對話數據、挖掘對話數據的價值,從而更好地服務于數字化的需求。這也是對話式 AI 技術解決方案提供商當下正在思考的問題
94、。采訪中,張杰談到了他的一個判斷:“對話數據,將是企業數字化轉型下一階段的重對話數據,將是企業數字化轉型下一階段的重點點。過去,企業的數據只是存了下來,并沒有進行結構化的表示和挖掘,更遑論提取出智能服務。隨著大模型的到來,可以理解這些非結構化數據中蘊含的語義,進而挖掘出其中的智能服務?!睆埥鼙硎?,大模型能解決對話場景下數字化轉型中存在的“最后一公里”的問題。張杰表示,大模型能解決對話場景下數字化轉型中存在的“最后一公里”的問題。以銷售話術復盤場景為例,很多企業都在針對其做數字化轉型,此前大都通過規整和挖掘訂單、客戶標簽等數據的方式進行。但往往在“最后一公里”的時候,無法實現特別好的轉化效果?!?/p>
95、最后一公里”是指,業務人員與客戶在門店、連鎖店、呼叫中心等線下和線上銷售的場景交互時,通過對話的方式進行,這一環節沒法做數字化轉型;“最后一公里”的分析和挖掘也很難做到位,比如傳統的客戶呼叫中心在進行電話營銷時,原先只能做簡單的關鍵詞質檢,無法做更細粒度的分析。25 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 大模型具備的超強語言理解能力,讓“最后一公里”的銷售過程實現數字化轉型成為可能。具體的做法可以是,通過電子工牌或呼叫中心將銷售過程錄下來,采用 ASR語音轉寫技術將錄音轉成文本;再通過對話文本挖掘出用戶的意圖;隨著對話過程不斷進行,大模型可以實時生成流程圖譜,給銷
96、售提供對話建議,分析潛在的話題引導方向,提升銷售人員的營銷技能,提高成單概率和用戶的留存率。由此,既能幫助企業通過智能對話服務實現降本增效,也能有效提升用戶體驗以及拓展服務外延。在此前很長一段時間里,對話業務在對話式 AI 廠商的語境中基本指“客服”。曹陽表示,造成這一局面的原因主要有兩個,一是客服在售中、售后等環節的業務較規范、標準,可在固定框架內讓機器人回答相對固定的問題,實現對效率的追求和用戶體驗的平衡;另一個原因是技術的局限性。受到技術所限,客服基本圍繞售中、售后環節服務,如果要實現從售中、售后向售前擴展則面臨技術挑戰。得益于大模型帶來的技術變革,對話可做的業務范圍會得到極大地擴展得益
97、于大模型帶來的技術變革,對話可做的業務范圍會得到極大地擴展,如從售中、售后向售前擴展。與此同時,售中、售后環節能否帶來新的營收增長點等探索也會增加。此外,與以往集中在客服場景做數字化轉型不同,現在很多企業希望在整個生產流程中所有涉及到對話的場景都進行數字化轉型,包括人和人之間工作的協作、員工培訓、私人社交等領域,未來將在企業和個人層面誕生更多的應用。26 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 對話式 AI 及大模型發展技術趨勢展望 對話式 AI 下一步重點是流程性問題 張杰認為,對話式 AI 下一步要攻克的一個技術難題是流程性的問題。對話有流程步驟,如何讓大模型,
98、基于一個特定的目的,探索出最佳的實踐流程,這很關鍵。目前,中關村科金 AI 平臺能力中心正在對這一問題進行攻堅。讓大模型不斷從歷史對話中總結話術流程,通過不斷地總結完善,使其生成的話術流程更有針對性,可以應對不同客戶的訴求。這樣模型準確度更高,自動化程度更高,智能化程度也會更高。程序員的歸宿不是提示工程 大模型與之前的預訓練模型的不同之處之一就是提示學習(Prompt Learning)。預訓預訓練模型需要微調,大模型往往需要提示。練模型需要微調,大模型往往需要提示。提示學習是 2020 年出現的新概念,主要是為了解決預訓練語言模型訓練過程的任務和實際業務的任務之間不一致的問題。通過提示語,可
99、以讓預訓練語言模型理解當前任務的類型,從而可以更好地完成任務。隨著 NLP 技術的飛速發展,現在的提示工程已變得更為復雜,提示語通常包含任務指令、任務目標、行為約束、輸出規范、資源清單、樣例展示和思維能力提示等要素。于皓的團隊將提示學習作為大模型工程化方向上的研究重點,并在多個場景測試效果。團隊根據不同的場景設計了自動化封裝的 Prompt 工程的方法,一條思路是離散的提 27 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 示工程,另一種是連續的提示工程,比如用一個模型把對話自動生成向量,隱含提示工程,然后將提示向量融合到大模型向量中解決問題?,F在,給每個任務找到合適的提
100、示語還是一個很大的挑戰。測試中,于皓團隊發現,不同的任務需要差異化的 Prompt 模版,從指令設計、樣例選擇、樣例的順序以及推理過程等細節進行prompt的優化微調,每一個環節都可能影響到Prompt在實際應用的場景效果。測試結果顯示,在意圖識別上,不同的 Prompt 的準確率能達到 2%80%的巨大差距。關于提示學習的另一焦點話題在于,未來的提示學習工程師可能會比軟件工程師多。對此,于皓認為,“Prompt 工程的確在現階段非常重要,但至于說未來是不是程序員都成為提示工程師,我的觀點是,Prompt 工程可能是暫時的一個中間過程。只是說,現在大模型的能力還沒有達到基于人工設定的復雜任務目
101、標去自主性進行任務分解,然后根據這些任務轉化成一種它可以直接解決的細粒度的自然語言任務?,F在大模型需要中間的提示工程師幫助它理解任務,然后轉化成它可以直接執行的自然語言任務,這中間是一個適配的過程”。未來隨著大模型的能力向更高層級提升,會覆蓋掉現有的 Prompt 工程。因此,于皓認為,程序員的歸宿不是提示工程,提示工程一定會被大模型的能力覆蓋。未來大程序員的歸宿不是提示工程,提示工程一定會被大模型的能力覆蓋。未來大模型一定具備很強的交互能力,甚至實現人人都是“陪練師”。模型一定具備很強的交互能力,甚至實現人人都是“陪練師”。每個人在日常工作中可能都會有大模型與之交互,在交互的過程中,大模型會
102、不斷提升其對領域的認知能力,增強大模型專業能力,逐漸成為 7*24 小時的“超級員工”。28 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 算力難題下,如何選擇適合自己的模型 大模型迎來爆發后,很多企業都在爭相上車,但一個現實的問題是,大模型背后所需的算力成本極為昂貴。以 ChatGPT 為例,其訓練約需要萬卡時的計算量。對于大多數的企業來說,做到這一點不太現實,全球可能達到這一量級的企業都極少。此外,還面臨很多需要處理的技術難題,例如,數據質量差,訓練過程中模型縮小導致最終訓練結果不及預期等問題。因此,羅華剛認為,當大多數企業很難付出像當大多數企業很難付出像 ChatG
103、PT 這樣的大模型所需的成本時,這樣的大模型所需的成本時,就需要考慮如何將模型調小以滿足需求。就需要考慮如何將模型調小以滿足需求。模型的規模會隨著應用場景的復雜程度及數量發生改變,模型越大,提供的能力會越強;而領域越小,它需要的模型規模越小。因此,在企業自有資源允許的條件下,建議選擇盡可能大的模型,使得模型的能力更強。在這種情況下,企業可以考慮用一些方法來降低訓練成本,進一步細分到具體的任務場景下,采用比如 Self-Instruction 或 LLM+LoRA 技術。Self-Instruction 是通過大模型的輸入、輸出來微調模型,比如,有人訓練斯坦福的羊駝模型大概只用了 500 美元的
104、成本,通過調用 ChatGPT 的接口生成一系列的instruction,微調指令和輸入、輸出,最后自己的模型只有 70 億參數,相對而言成本降低了 20 倍,用這樣一個模型去擬合,最終它的效果可以接近 ChatGPT 的效果。LoRA 是指在大模型插入一些小模型,微調時,大模型不動,只微調小模型的部分,也可以達到同樣的效果。這種方案犧牲了模型的整體能力,提高了在特定任務上的能力,但這樣做能夠降低訓練成本。29 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 如果企業沒有自己的大模型,也沒有自己的領域大模型,可以考慮部署開源模型,這樣也可以節省算力消耗的資源。未來:領域模型
105、成王者?大模型混戰之際,業界也在討論和預測大模型的終局。張杰的判斷是,未來會呈現出基礎大模型多家并存、領域模型百花齊放基礎大模型多家并存、領域模型百花齊放的狀態?!盎A大模型,特別是多模態基礎大模型,未來應該只有幾家公司做,因為做基礎大模型需要大量的數據、算力和人才,這些組合資源極少部分企業能夠承擔得起。因此,未來一定是有數據、有算力、有人才的公司,更可能去構建出基礎大模型?;A大模型未來會聚焦在提升多模態能力、挖掘復雜推理能力,以及構建應用生態圈?!被A大模型如果想用在實際業務中,還有很多方向需要適配,例如在法律、醫療、金融、政務等領域,很多工作流程邏輯復雜,且對數據敏感性、業務可解釋性要求
106、高,基礎大模型在這些場景無法直接商用。這就給未來其他企業留下了空間。如何根據實際的業務,將大模型轉化成一種具有高效的計算方式的小模型,小模型再根據專業知識做注入、指令微調、思維鏈提升、對齊等,使其更適配某一領域的規范約束。作為對話式 AI 技術解決方案提供商,中關村科金需要思考的是,如何發揮自身優勢,如何發揮自身優勢,在領域內如何積累數據,如何沉淀領域知識,如何將領域知識注入到大模型上,以在領域內如何積累數據,如何沉淀領域知識,如何將領域知識注入到大模型上,以此構建自己的技術護城河。此構建自己的技術護城河。此外,在具體應用場景下,思考圍繞對話和推理兩種能力顛覆已有的產品體驗,挖掘新的應用場景。
107、30 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季“可以暢想,未來大模型領域會是一個百花齊放的局面。個別頭部企業會去做大模型,其他企業根據大模型的能力提升每個領域的中小模型,中小模型再結合領域的知識,變得更專業化,這是一個大趨勢?!睆埥苋缡钦雇?。采訪嘉賓介紹采訪嘉賓介紹 張杰張杰,中關村科金技術副總裁,天津大學計算機專業博士。先后就職于華為諾亞方舟實驗室、陽光保險、明略科技。在知識工程、自然語言處理等技術領域擁有豐富的理論和實踐經驗,出版技術專著兩部,發表學術論文十余篇,發明專利一百余項,主持或參與國家級課題八項,獲第十屆吳文俊人工智能技術發明一等獎。主持開發了推薦引擎、
108、知識問答系統、客服機器人、大數據風控系統、行業知識圖譜等多項商業系統,累計銷售額數億元。于皓于皓,中科金算法專家,同濟大學計算應用技術博士,先后參與機器學習、知識圖譜和大模型領域相關項目數十項,具有豐富的項目實戰經驗;申請國內外技術發明專利20 多項,獲得第十屆吳文俊人工智能技術發明一等獎、2019 年上海市科技發明一等獎、第四屆中國保險業年度最佳突破獎等數十項獎項。羅華剛羅華剛,中關村科金高級算法工程師,北京大學計算數學專業碩士,研究方向為運籌優化、知識圖譜、自然語言處理等。曾參與建設 HAO 圖譜、知識即服務、圖譜 CBB等多項系統,撰寫發明專利三十余篇,協助撰寫專著知識中臺,獲2020年
109、吳文俊人工智能技術發明一等獎、世界人工智能大會卓越人工智能引領者獎 Top30。曹陽曹陽,中關村科金資深 AI 產品總監,擁有超過 10 年的 ToB 產品經驗,曾任職于阿里、京東、字節跳動、shopee 等公司,主導多個智能客服產品,對 NLP、智能客服、CRM 相關的技術、產品應用、商業化有著豐富經驗。31 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 中國的“貝爾實驗室”:我們的數據庫從自己的第一行代碼寫起 作者:褚杏娟 說起做數據庫,沒人會覺得這是一件能夠隨便成功的事情。1985,此前忙于推廣 Ingres 商業化的 Michael Stonebraker 重返學
110、術界,想要解決當時數據庫存在的問題。到了 1988 年,Michael 所在的項目組才實現并運行了第一個Demo 版本,次年才發布了 1.0 版本。不過,這個項目優化到 4.0 版本后就被停掉了。1994 年,加利福尼亞大學伯克利分校研究生 Andrew Yu 和 Jolly Chen 用增加的一個 SQL 語言解釋器替代了早先基于Ingres 的 QUEL 系統,并創建了 Postgres95。1996 年,Postgres95 被重命名為PostgreSQL。簡單的文字背后是兩代人努力了近十年才有了雛形,此后又是二十多年的不斷優化和改進。在國產數據庫熱潮下,很多進入這個賽道的企業會選擇基于
111、開源做數據庫,這是可以理解的:創業者從零開始研發不僅要經歷不斷試錯、改進帶來的更長產品周期,而且未來能否被市場接納并盈利更是未知,期間的風險不言而喻。不過,也有一些做數據庫研發的人選擇從第一行代碼開始去親手構建完整的數據庫,深圳計算機科學研究院(以下簡稱深算院)的YashanDB便是其中之一。他們從零開 32 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 始,選擇將多年的學術研究成果轉化為工程產品,然后再投入到市場中檢驗和優化,讓企業可以用另一套方式運行數據庫。本期中國卓越技術團隊訪談錄,我們有幸邀請了 YashanDB 的研發團隊來講講他們從無到有打造自研數據庫的故事。
112、緣起 2018 年 11 月,深圳市人民政府批準建設“十大基礎研究機構”,深算院便是其中之一。2019 年 4 月,深算院正式揭牌運營。當時,市面上缺乏一款從代碼層面完全掌握主導權,并能與國際產品同臺競爭的商業數據庫。能不能做、可以做成什么樣,成為深算院需要考慮清楚的問題。經過調研和企業溝通后,深算院發現了一個問題:當時市面上的數據庫普遍缺乏在關鍵業務場景下完全一比一平替甲骨文的能力,這成為深算院切入市場的好角度。然后,盤點了自身在數據庫領域的積累后,深算院認為自己有能力做出這樣的架構,甚至未來在某些場景可以超過Oracle。如此,深算院便成立了專門的團隊來做,這也是后來的 YashanDB
113、研發團隊。YashanDB 研發團隊最開始不到十個人,但都是經驗豐富的“老手”。像 YashanDB研發總監歐偉杰有十年以上數據庫內核設計與開發經驗,YashanDB 解決方案架構師王義寅有著二十年行業從業經驗。當時,研究院的工作場地還沒有落定,這些人就先在類似眾創空間的場地里辦公,兩間辦公室,一間也就容納四五個人?!按蠹叶际窍氚褦祿飚斪鳟吷聵I去經營的人。盡管辦公室非常狹小,但絲毫不影響大家的奮斗熱情,因為重要的是我們有一方天地 33 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 可以做自己感興趣的事情?!睔W偉杰回憶道。YashanDB 研發團隊初始成員,來源:Yas
114、hanDB 現在,YashanDB 研發團隊已經發展成為三百多人的大團隊了。對數據庫的情懷也延伸到了招人選擇上,他們會更青睞看好數據庫行業、又認為這值得長期投入的應聘者。YashanDB 研發團隊,或者說整個深算院,沿襲了貝爾實驗室的模式:基礎研究技術開發新產品生產市場營銷信息反饋產品改進。這與企業主導的研究團隊和高校的研究團隊存在本質上的不同。34 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 企業主導的研究有一個很明顯的特征,就是目標性很強。一個產品做出來后能否在短期內盈利決定了這個產品壽命的長短。這樣的結果就是,企業沒有足夠的耐心做各種細節上的打磨。但是研究工作,特
115、別是基礎軟件領域的研究,非常需要持續的技術積累,比如 Oracle 比較成功的 7.0 版本也是經過了十年時間的打磨才做出來的。研發基礎軟件路阻且長,深算院做好了潛心研究以及更多耐心和時間打磨的準備。同時,深算院又設立了專門的基礎研究團隊,可以直接解決工業界工程實施過程中遇到的問題,并從中抽象出研究課題。與高校研究相比,深算院擁有經驗豐富的工程團隊,可以把研究成果直接轉化為工業級系統,這在大學很難實現。那么,YashanDB 研發團隊是如何將學術研究轉化為商業產品呢?具體來說有三個階段:學術論證、工程實現和市場驗證。研發團隊首先要論證學術課題的可行性,至少要做原型驗證,然后再進行工程實現,之后
116、再到市場中做具體場景的驗證,否則產品能否支撐業務永遠都會是一個未知數。從學術理論到產品落地 縱觀數據庫五十年發展歷程,從 E.F.Codd 提出數據關系模型、到 J.Gray 提出共享數據庫的一致性和鎖的粒度,再到 L.Lamport 提出 Lamport 邏輯時鐘,數據庫的發展一直是由原創理論方法驅動產業技術革新。但數據庫內核上的理論創新進展緩慢。YashanDB 解決方案架構師王義寅用了十年的 35 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 時間,從最初的實用數據庫慢慢接近到數據庫內核。但到了內核層面后,他突然覺得找不到方向了,因為很多理論還是三十年前的理論?!艾F
117、在數據庫行業需要的并不是應用創新,而是理論的革新?!蓖趿x寅說道。深算院的基礎研究部承擔了理論創新的責任。一方面,基礎研究部展開大數據領域的原始創新探索,專注在理論研究和突破上;另一方面,他們將原創創新成果帶到實戰場,希望用新技術實現彎道超車。YashanDB 研發團隊成立時,樊文飛院士的有界計算理論(bounded evaluation)和數據驅動的近似計算(data-driven approximation)理論已橫掃計算機理論和系統大獎,這成為后來 YashanDB 研發團隊的技術突破口。樊文飛院士是國際上囊括了數據庫理論與系統頂級會議最佳論文或時間檢驗獎的兩位學者之一。有界計算理論是把大
118、數據計算規約成小數據上的處理,近似計算則可在硬件規模投入有限的情況下,實現大數據精確高效查詢。樊文飛院士曾分享道,在數十億條數據的實時查詢場景下,91%的查詢可以用有界計算來解決,并且 70%以上的查詢效率可以提升 25 倍到 14 萬倍,剩余 9%不具備有界計算條件的查詢,可以通過數據驅動的近似計算理論來解決。2019 年 4 月,YashanDB 研發團隊的七八位工程師聽了樊文飛院士的理論闡述,經過一番討論后,鎖定了有界理論工程落地的關鍵技術點。當時,YashanDB 研發團隊考慮關系型數據庫里的很多計算是低效的,即使增加硬件設備也達不到理想的提升效果。這與有界計算和近似計算的研究方向十分
119、匹配。因此,在樊文飛院士的帶領下,一批青年科學家與工程專家聚集在YashanDB研發團 36 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 隊,開啟了自己新的一段數據庫生涯。原型驗證 很多研究沒辦法落地的原因就是理論和產品之間存在鴻溝,沒有辦法落實到產品里。理論研究要進入生產環境必須要經過原型驗證的考驗。原型驗證針對性更強,會選擇優先驗證某一方面的特性。2019 年年中,YashanDB 研發團隊在第一時間對有界計算理論做了原型驗證。傳統關系理論本身已經相當成熟,現有關系型數據庫系統大都基于傳統關系理論打造,而有界計算理論突破了傳統關系。如何在現有理論框架之下,把有界計算
120、理論融入到關系計算的模型中存在非常大的挑戰。具體來說,一是如何與現有系統兼容,在不改變現有用戶體驗情況下,使用標準的SQL 能力充分發揮有界理論的先進性;二是數據的實時變更,保證加速數據與源數據的一致性;三是如何讓有界查詢加速更好地服務于實際的業務場景。為此,團隊成員決定基于開源PostgreSQL從單機加速引擎開始驗證。2019年9月,BEAS(有界計算引擎)1.0 性能測試完成,結果讓團隊感到振奮:基于有界計算理論,實現在 AIRCA 數據集上將查詢的響應時間平均縮短了 100 倍。2020 年 6 月,團隊又將有界計算擴展至分布式系統中,到了 2.0 階段,AC discovery 已經
121、可以通過算法的方式實現數據語義的自動發現,代替用戶操作,大大提高了效率。在剛剛發布的 22.2 版本中,YashanDB 提供了有界計算能力,將大數據變小,實現在大數據分析時不需要訪問全部數據,只需要取其中的小數據集就能得到想要的答案。37 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 經實測,數據量從 10GB 增長到 1TB,YashanDB 響應時延維持亞秒級,性能提升千倍以上且未衰減,極大地節約了計算資源?!?019 年時,基礎研究團隊和產品研發團隊前前后后討論了將近兩個多月,不斷地發現問題、討論解決問題,經過很多嘗試后最終實現了它的驗證?!睔W偉杰說道?,F在,研發
122、團隊和基礎研究團隊之間彼此支持,會定期交流,互通有無。比如研發團隊在事務調度方面遇到性能瓶頸時,就會將問題提交給基礎研究團隊研究;基礎研究團隊也會將最新的研究成果同步研發團隊,研發團隊再做驗證,如果結果得到學術界和研發團隊認可,再繼而轉化成研發需求,成為產品能力的一部分。因此,基礎研究部做理論研究的方式大概有兩種:一是該領域普遍面臨的科學性課題,38 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 二是將 YashanDB 運行后遇到的問題和挑戰抽象成研究課題。隨著某一理論的成熟,基礎理論團隊的研發重點也會相應調整。比如把有界計算應用于圖計算,去拓展它的應用范圍?,F在,團隊
123、開始主攻跨模計算方向,優化對多模數據的查詢。數據庫要應對的場景非常多,一種理論方法不能只在某個場景有效。對于做學術研究的人來說,從數學層面去證明方案在各場景的有效性非常重要。從一定程度來說,數據庫理論創新就是要用最嚴謹科學的方式,證明自身解決方案的適用范圍。工程實現 科研理論更多是在單點上實現最大化突破,而要做一個產品就得考慮方方面面的事情,包括易用性、可維護性等,維度更多、更復雜。如果說原型驗證是一個點,那么工程實現就是一個面。在花費了數月的時間做完原型驗證后,團隊在 2019 年下半年啟動了全自研的系統開發,2022 年中正式發布 YashanDB 首個版本。研發初期,YashanDB 研
124、發團隊首先就是做環境搭建,這是后來規?;瘏f作平臺的基礎。得益于核心成員豐富的經驗,研發團隊用了不到一個月的時間就搭建完成了。之后,研發團隊將內核代碼做了模塊化劃分,每個工程師會被分配到特定的模塊后就專注于該模塊的功能研發。做模塊研發時,工程師先要梳理接口,搞清楚模塊之間的交互方式,否則后面整個系統鏈條都會遇到問題。39 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季“系統的實現節點有點像洋蔥,它是一層一層的。我們肯定是從最核心、最內部、最基礎的能力開始做,在這個基礎上再不斷地基于這些內核能力做特性增強?!睔W偉杰表示。研發團隊最開始的理念就是先用最小粒度的內核能力讓系統跑起來
125、?!案鶕F隊成員們的經驗,在大多數場景下,一個數據庫 80%以上的功能都不會被用到,反而可能只有 20%的功能是真正需要。因此,我們就優先解決關鍵矛盾,即先解決那 20%的功能,不常用功能的優先級相對較低,后續根據外部客戶的需求再添加?!睔W偉杰表示。YashanDB 研發團隊最先做了 SQL 引擎和存儲引擎,SQL 引擎方面首要考慮其執行能力,存儲引擎則更多考慮存儲組織等。這些能力打通后,研發團隊開始考慮做能力優化,比如在 SQL 引擎上增加有界計算支持來提高查詢性能,存儲引擎上考慮數據復制、事務處理等能力。常規的開發模式是積累到一定規模后要先設計再驗證,但YashanDB研發團隊早期選擇了開
126、發迭代速度更快的方式,即在保持競爭力的前提下小步快跑,不斷增強和調優?!按騻€不恰當的比方,有點像在一路狂奔。團隊給要增加的功能定下上線時間后,各模塊的同學就完全沉侵在工作中了?!睔W偉杰說道。這也促使早期 YashanDB 基本以周為單位進行迭代。不一樣的底層 YashanDB 與 Oracle 的表現形態接近,但底層基礎完全不一樣。用歐偉杰的話說就 40 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 是:車子的外形可能看起來差不多,但里邊的發動機卻有很大的差別。在優化器方面,Oracle的優化器經歷了很長時間的打磨和不同場景的調優,毫無疑問是業內領先的水平,而剛剛起步的數
127、據庫很難找到所有場景,甚至很多場景都還沒見過。YashanDB 研發團隊的應對思路也是先從簡單的著手,再逐漸衍生到復雜場景。根據團隊里從業多年 DBA 總結的經驗,研發團隊先把最常見、最基礎的優化規則放到了自己的優化器里,這可以被認為是 RBO(Rule-Based Optimization,基于規則的優化器)。在此基礎上,團隊做了完全自研的 CBO(Cost-Based Optimization,基于代價的優化方式),完成了第二階段的工作。下一步,也是現在研發團隊正在做的,就是基于機器學習能力積累各種場景應對能力,研發團隊也希望可以借此實現彎道超車。鑒于一旦使用開源產品,存儲引擎的能力就會受
128、制于開源,YashanDB 研發團隊選擇了全自研的方式。存儲引擎本身是一個非常精巧、需要細致打磨的組件。在此方面,研發團隊優先關注數據持久化和事務處理。數據持久化與硬件資源緊密相關,如何最大化 IO 資源的使用、保證數據可以在最短時間內寫到硬盤上是個挑戰。事務則要保證無論怎么對數據增刪查改,都要保證它的ACID 特性(原子性、一致性、隔離性、持久性)不受影響。對于事務處理,團隊會更看重性價比。事務處理的粒度越小,并發性就越好,并發訪問同一個事務單元的幾率也越小。但是,如果事務處理的粒度非常細就會帶來大量的管理成本。所以業界大部分的實現都在找事務并發粒度和管理成本的平衡點。研發團隊則利用了樊文飛
129、院士提出的并發事務調度方式。當前,業界主要的事務處理 41 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 方式有 MVCC(多版本并發控制)、OCC(又名樂觀鎖)和 PCC(又名悲觀鎖)。實踐中,大家更偏向 MVCC,但學術界多年來都在研究 OCC 并發控制思路。樊文飛院士則結合了 MVCC 和 OCC 的優勢,使得在高并發場景下,系統不受核數改變的影響,而且整體成本可控。面對大壓力場景,數據庫保持穩定的常用方法是讓內存資源開銷保持相對穩定,避免因資源大幅波動導致系統行為不可控。YashanDB 則結合了存儲、事務處理等能力,最大限度保證在線高通量場景下數據庫的性能穩定。
130、在分析場景上,YashanDB 研發團隊則采用了可更新的列式存儲方式,對存儲模型做了創新。傳統數據庫里,冷熱數據管理可能是兩個命題,挑戰與解決方案等都不一樣。YashanDB 改變了傳統列式存儲不支持更新和刪除的特性,實現了同一個數據庫中管理冷熱數據,并且既支持實時數據分析,又支持海量冷數據的分析。42 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 商業化摸索 對于 YashanDB 的定位,研發團隊最開始瞄準的是新興場景,主要聚焦在 OLAP 領域,商業目標與 Snowflake 類似。到了 2019 年下半年,YashanDB 研發團隊認為,基于開源改良/二次開發的產
131、品并不是解決我國安全可控的可行技術路線,于是同步進入 OLTP 領域,目標是打造一個全自研的國產數據庫,具備全面替代 Oracle 的能力,真正從核心應用層面進行國產替代?!敖鹑趯祿僮髡_性要求非常嚴格,這種場景是我們比較擅長的?!蓖趿x寅說道,“很多軟件是在假設硬件非??煽康那闆r下設計的,而我們設計的前提是硬件沒有那么可靠?!苯鹑谛袠I對高可用的要求非常高,而基礎設施如存儲、網絡、服務器等本身存在故障失效和性能擾動。國產替代后,硬件擾動出現的概率有所增加,如果與軟件適配性差,產生的業務影響很可能是致命的。YashanDB 研發團隊給出的解決方案是增加一個主動監測機制,間隔特定時間自動檢測一次
132、并主動報錯、修復等,包括硬件故障的主動修復。對于企業來說,遷移面臨最重要的問題是這個過程中是否存在顯式和隱式的轉換。如果存在大量的顯式和隱式轉換,則意味著需要做大量的適配,風險也會更高。為使企業從 Oracle 遷移更加無縫,YashanDB 研發團隊將存儲的數據類型,比如字符串、日期、浮點類型等細節上都做了與 Oracle 精度完全一致,消除隱式轉換風險。顯式轉換上,則在 SQL 函數、語法格式等方面與 Oracle 兼容。團隊還提供了一系列 43 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 遷移工具,比如數據和應用校驗工具等。針對重點行業的核心系統國產化遷移,Yas
133、hanDB 建立了一套完整的適配替代保障機制,完善故障預案、保障措施齊備,來確保操作充分驗證且可回退,從而達到無感切換的目標。具體來說,在業務上線前,YashanDB 通過充分調研數據庫使用情況,對原有配套軟硬件提前適配,并對關鍵 SQL 的執行計劃進行性能評估,確保關鍵 SQL 的執行性能不低于替代系統。同時會進行關鍵負載場景下的業務長穩測試,保證系統環境的高可用。業務上線過程中,通過多種工具手段,YashanDB 會反復驗證存在轉換的操作,通過雙平面長周期并跑,確保滿足平滑切換條件。上線運行后,除了提供服務熱線和提供駐場服務外,YashanDB 還提供”Bug 直通車”,憑借對數據庫代碼的
134、完全掌握能力,即使觸發軟件錯誤也可以快速及時修復?!拔覀儠鲃痈鷪F隊的人強調要從客戶視角去思考問題?!蓖趿x寅說道,“技術團隊容易說我的代碼多好、技術多牛,但客戶要的只是能否以最小成本獲得最優的產品體驗,這才是關鍵?!薄凹夹g的本質體現在人上”“沒有技術積累做不出好產品,而技術的本質體現在人上?!睔W偉杰說道。YashanDB 研發團隊能夠快速發展的原因,除了 2019 年趕上了國產數據庫發展的快車道外,還有就是現在進入數據庫行業的人相比之前越來越多了。但事實上,國內數 44 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 據庫開發人才的缺口還是很大,真正能去做數據庫內核的人沒幾
135、個?!盀槭裁磾祿爝@么少的人在做?因為大家都覺得這件事很難,都覺得這不是一件很容易成功的事情?!睔W偉杰說道,“但是當你明明知道它很難,還愿意義無反顧去做的時候,必然是有某種激情或者是熱愛來驅動自己?!痹跉W偉杰看來,興趣難以持久,能讓人長期堅持下去的是熱愛?!昂芏喙こ處?,特別是一些專家不經過一定時間的積累是很難真正在這個領域有所建樹的。國內外的很多大牛,年齡不要說 35,很多都是五字開頭的,他們在隨著數據庫一起成長?!睔W偉杰分享道。但歐偉杰也坦誠,在招人方面,深算院的優勢并不明顯。當前,YashanDB 雖然已經商業化,但還需要繼續深入。但歐偉杰表示,相對于很多企業要有經驗的人,YashanDB
136、 研發團隊對零基礎的同學會有更多耐心,通過進行相關培訓來幫助新人度過陡峭的學習曲線。面對越來越龐大的團隊,YashanDB 研發團隊的管理理念跟他們做數據庫的思路很類似:化整為零,即把復雜的事情變成更小的粒度。團隊以小組為基本單位,每組 5-7人?!拔覀儽M可能想讓信息能在內部傳遞流暢,過深的層級可能導致大家只能看到自己眼前的一畝三分地。我們希望大家,尤其是校招的應屆同學能夠看到一個完整的體系,端到端地去思考一些問題,這對大家成長更有利?!睔W偉杰說道。45 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 結束語 在歐偉杰看來,一個行業要出現好的產品,至少需要兩方面的因素:一是
137、有一定程度的技術積累,二是被市場接納。數據庫是 To B 的生意,新產品就需要時間逐層突破。未來國產數據庫要做的就是真正將企業核心業務承載起來,這場競賽中只有過硬的產品才能勝出。對于這個部分成員甚至已經有幾十年數據庫經驗的團隊,當前的重點是多活共享集群的打造,他們要直接對標 Oracle RAC,支持可擴展的、多活共享集群的能力,真正實現在核心業務上的高性能、可信賴?!斑@對 YashanDB 來說也是一個里程碑,我們一定要打出漂亮的一仗!”歐偉杰說道。嘉賓介紹嘉賓介紹 歐偉杰歐偉杰,武漢大學博士,深圳計算科學研究院 YashanDB 研發總監,10 年以上數據庫內核設計與開發經驗,曾負責分布式
138、 NewSQL 數據庫研發,多篇頂級會議論文及技術專利,熟悉 OLTP,HTAP 業務場景及前沿技術趨勢,研發的產品服務全球數億用戶。王義寅王義寅,YashanDB 解決方案架構師,畢業于南京郵電學院通信工程系。曾就職三大運營商、四大行、ICT 巨頭,近二十年行業從業經驗,主導產品有營賬系統、分布式數據庫、移動設備自研數據管理方案等,多項中美技術專利。46 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 我們不是野心家,走出大廠創業是時代使然 作者:李冬梅 采訪嘉賓:SelectDB 創始團隊 Apache Doris 是一個面向實時分析的 MPP 分析型數據庫,可提供亞秒
139、級查詢和高效的實時數據分析。2022 年 6 月 16 日,Apache Doris 從 Apache 軟件基金會順利畢業,正式成為頂級項目(TLP)。2022 年年初,Apache Doris 的核心團隊離開了大廠,共同成立了 SelectDB 公司,正式開啟了Apache Doris的商業化之路。在商業產品上,SelectDB推出了基于Doris開發的商業化產品,包括全托管的云上數倉服務和私有化部署的企業版軟件兩個版本。那么,幾位創始成員為什么決定離開大廠出來創業?Apache Doris發展路徑發生了怎樣的變化?SelectDB產品的定位和技術側重點與Doris社區版本有什么不同?近日,
140、InfoQ有幸采訪到了SelectDB創始團隊的多位核心成員,了解他們創業背后的故事、他們在Doris和SelectDB項目的技術實踐與經驗,以及這些工作背后的沉淀和思考。離開大廠創業,是時代趨勢使然 開源發展至今已經有 40 年歷史,前 20 年是開源軟件“野蠻”生長的粗獷式發展階段,后 20 年進入到互聯網時代后,不少新興企業基于開源模式發展起來,開源軟件 47 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 的商業化和生態趨于完善,開源軟件逐步被廣泛應用于生產中。開源項目大多發端于大型互聯網公司,這些互聯網公司在快速的業務發展驅動下,研發了滿足業務需求的技術并將這些技
141、術開源出去。在這一階段,項目的首要目的是滿足自身公司業務的訴求。云計算崛起后,在開源和云計算雙重趨勢的推動下,這些當初僅滿足公司自身業務發展的開源項目邁入了產品化和普世化的進程中,甚至有許多項目走出大廠,獨自成立了公司以商業化的形式繼續運行下去。以 Presto 項目為例,2022 年,從 Facebook 開源出來的 Presto 項目衍生出了PrestoSQL,PrestoSQL變為Trino后最終走向了商業化的道路,Starburst就是Trino的商業化主體公司。放眼全世界,近些年來全世界其他源自大廠的頂級開源項目都在走向獨立創業的道路,比如 Kafka、ClickHouse 等等,這
142、些趨勢背后的核心推動力就是技術普惠時代的到來?;诖?,SelectDB 團隊離開大廠創業顯得不那么讓人意外。SelectDB 團隊在接受采訪時也表示,“這幾年出來做 ToB 創業的企業越來越多,這不是單獨某個人某個團隊自己的選擇問題,是一個新的時代在召喚大家?!?000-2010 年是 PC 互聯網時代,誕生了百度、阿里和騰訊等大企業。這個時代又鮮明地分成了兩個階段:即互聯網基礎設施的完善,和后面 WWW 的興盛?;ヂ摼W基礎設施與 WWW 應用,互相促進。2010-2020 年,智能手機的出現推動了移動互聯網時代的到來。移動互聯網時代也分為兩個階段:即智能手機的普及和手機上大量 48 中國中國
143、卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 APP 的誕生。智能手機平臺與智能手機應用,互相推動。時至今日,我們已經走入了產業互聯網時代。隨著公有云產業基礎設施的逐步完善,未來的十年,也將是云上各類軟件服務的鼎盛時代,企業服務將會迎來巨大的發展空間,所以企業服務成為了很多企業花重金也要打下來的“戰場”?!耙?TP 領域為例,源自大廠的項目可能更重視大規模擴展,所以系統實現更為復雜,但如若作為產品推向大眾,會發現大多數企業可能僅需要單機就能滿足,并且對部署和運維要求盡可能簡化,那么面向大規模擴展這一特性就喪失了原有的優勢。所以,自身定位一定需要轉變。我們基于 Apache Dor
144、is 創業,是希望將 Doris 以及我們的商業化產品 SelectDB 朝著更加產品化、更加通用化的方向努力,例如易用性的改進、與上下游產品有更好的貫通、與云平臺的結合、開箱即用的跨集群復制和備份恢復能力等,這些都是除核心特性以外需要重點優化的方向。我們不想錯過這樣一個充滿機遇的時代?!盨electDB 團隊如是說。創業中遇到了哪些問題 創業第一道坎:組建一支強有力的團隊 創業維艱,這條路并不好走。解決產品定位、招聘優秀人才都是創業初期較為棘手的問題。SelectDB 團隊面臨的第一個挑戰就是如何組建高效執行的團隊。相較于大廠自帶光環,創業公司在人才招聘方面會顯得尤為艱難。49 中國中國卓越
145、技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 幸運的是,得益于在開源社區過去的投入和對開源技術的堅持,SelectDB 團隊很快就跨過了招聘這道坎?!伴_放、包容、合作的文化氛圍對于吸引優秀人才具有重要的意義,因此很多熱愛開源的技術工程師在獲知我們招聘的第一時間就主動聯系到我們希望加入”。據 SelectDB 團隊介紹,“在團隊內部,習慣了開源協作模式的我們堅信順暢的信息流通可以幫助團隊獲得更高的執行力,因此所有研發工作都采取了以 GitHub 為基礎的協同開發模式。另外也設置了一系列溝通機制,進一步清晰團隊職責、幫助每個人更清楚各自的分工、在目標執行時有更明確的方向,降低溝通成本的同
146、時也保證了更高的協作效率,也有助于團隊新人的融入”。目前,SelectDB 團隊已發展至 130 多人,其中 80%為技術人員,包括研發、運維、質量、解決方案/技術支持,在開源和商業產品上的人力基本上是各占一半。創業第二道坎:產品定位 人有了,接下來就是做產品。對于團隊來說,他們要面對的挑戰就是視角和思維方式的轉變從工程技術視角轉向產品視角,研發產品時要多地要去了解用戶和客戶想法,從場景驅動產品、產品驅動研發。推動開源技術創新、繁榮開源生態、打造云原生時代實時數據分析領域的標桿產品,推動開源技術創新、繁榮開源生態、打造云原生時代實時數據分析領域的標桿產品,是團隊的首要定位。是團隊的首要定位。其
147、實在成立初期,SelectDB 創始團隊已經將這一定位想得非常清楚了,接下來要做的就是如何推行和落實下去。50 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 創業第三道坎:社區認同 此外,像所有從大廠走出來的開源項目一樣,SelectDB 團隊也面臨著開源社區身份認同的問題。Apache Doris 作為最早從百度孵化出來的項目,如今由 SelectDB 團隊進行商業化。無論是內部或者外部都會被問到為何投入如此大的人力物力來建設Apache Doris 社區,而不是研發自己的閉源產品或開出新的分支。面對這樣的聲音,SelectDB 團隊解釋稱,正是因為當前時代具備無限可能
148、性,使Apache Doris可能成為一個偉大的開源項目,使我們有機會打造出偉大的產品,因此也賦予了我們成立這家公司的意義。因此我們更應該把握時機,團結齊心,將這種可能性變成確定性,所以也更應該不遺余力地建設 Apache Doris 社區。而在問到如何與市面上其他同類產品如何共存時,SelectDB 團隊提到,“正是因為Apache 項目的中立性、只會從屬于 Apache 基金會,所有任何人都可以投身到社區的貢獻中來。我們不是社區的擁有者,而是社區的推動者和貢獻力量之一。同時市場上也有幾家云廠商推出了基于 Apache Doris 的企業級數倉產品,他們與我們并非競爭關系、而是共贏關系,這種
149、多樣性也保證社區得以更加健康的態勢發展下去”。開源商業模式是偽命題嗎?在基礎軟件蓬勃發展的今天,開源正在吞噬著一切。但一直以來,圍繞著開源展開的話題永遠逃不掉開源商業化。開源商業模式到底是不是一個偽命題?開源項目想要獲得商業價值,要具備哪些條件?51 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 在 SelectDB 團隊看來,開源商業模式并不是一個偽命題。開源本質是一種軟件研發模式、通過源代碼共享協作實現技術迭代,商業模式則是企業滿足市場需求、實現收入或盈利的商業邏輯,如果只強調開源、不去思考如何獲得商業收入,這樣的企業最終可能深陷泥潭,開源與商業化的平衡與共存是每個以
150、開源技術為基礎的公司都必須要考慮的。因此,SelectDB 團隊更傾向于將開源商業模式定義為企業以開源軟件為基礎來構建產品或服務、以實現收入或盈利的商業行為。在這一定義之下,過去我們常提到的 Open Core、SaaS/云托管、訂閱服務、License 授權等一系列開源商業模式都說得通了,無論是 MongoDB、Suse、Elastic、HashiCorp,所銷售的產品或服務都是基于開源軟件構建、都是為最終實現商業轉化和收入目標而服務。開源與商業化需要找到一個良性并存的方式,才能將開源推向另一個高度。在經歷過長時間深入探索后,現在我們篤定這一良性共存的最佳方式就是將開源和云相結合,這也將是未
151、來數據庫演進的主要趨勢。一個開源項目想要獲得良好的商業收益,一定要具備以下三個關鍵點:被廣泛認可的產品價值被廣泛認可的產品價值 繁榮、自治、良性發展的社區生態繁榮、自治、良性發展的社區生態 開源與商業化的平衡與共存開源與商業化的平衡與共存 就目前而言,Apache Doris在前兩關鍵點上的表現還是可圈可點的,而要想達到開源與商業化的平衡與共存,則需要更長的時間才能得到證明。52 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 打造新一代實時數倉 在整個社會數字化轉型加速的背景下,各行各業對大數據實時處理和應用的需求正快速增長,對分析時效性的要求也越來越高。如果用一句話來概
152、括目前數據處理的痛點,那就是數字化時代不斷涌現的數據分析訴求與降本增效的行業趨勢之間的矛盾。過去,當用戶有查詢報表需求時,一個 MySQL 或者 Oracle 就能輕松解決。但是隨著時代與技術的發展,數據量呈指數增長、數據類型更多樣化、數據場景更加細分,就需要引入 Hadoop、Spark、Elasticsearch、Presto、Clickhouse、Druid、HBase 等多個大數據技術棧來解決特定業務面臨的問題,包括 Ad-hoc、聯邦查詢、固定報表、標簽畫像以及日志分析等。多個技術系統的復雜性帶來了繁重的開發維護成本,技術棧的簡化與統一成為人們所追求的方向,而云計算技術的發展,為實現
153、更高性價比和極簡使用體驗帶來可能。正由此,SelectDB 團隊希望貢獻自己的技術經驗和工程力量解決行業痛點、構建云原生時代具行業普適能力的實時數據倉庫。通過數據分析技術革新與云計算技術的結合也就成為 SelectDB 產品的突破口。在產品設計上,SelectDB 提供兩個版本,一個是全托管的云服務版本(SelectDB Cloud),一個是可以私有化部署的企業版(SelectDB Enterprise)。那么,這兩個版本之間有何區別?據 SelectDB 團隊介紹,SelectDB Cloud 面向的是有上云需求的企業。SelectDB Cloud 可以運行在國內和國外主流的公有云上,并且在
154、多個云上有一致的使用體驗。53 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 多云一致并且體驗一致是其區別云廠商數倉服務的一大特色多云一致并且體驗一致是其區別云廠商數倉服務的一大特色。SelectDB Cloud 對 Doris 進行了大量重構以便利用云的強大能力,提供更大彈性。存儲與計算的分離,可以讓存儲與計算獨立擴縮容;多計算集群的支持,可以在共享一份數據的基礎上,可以提供物理隔離的多個計算集群;并且每一個計算集群都可以進行自動擴縮容,當前 SelectDB Cloud 支持手動和按時間設定的平滑擴縮容能力。SelectDB Cloud 也針對數據庫管理員運維提供了可
155、視化的管理控制臺,簡化運維工作。SelectDB Enterprise 版本則可以服務于希望私有化部署 SelectDB 的企業。SelectDB Enterprise 版主要提供一個長周期支持的、穩定的 Doris 內核。開源的Apache Doris內核迭代比較快,新功能不斷合入,企業客戶在不斷體驗新功能的同時,也會擔憂投入生產后的穩定性問題。所以,SelectDB基于開源Doris提供了一個企業級的穩定內核,會在廣大開源用戶使用的問題反饋基礎上、經過 SelectDB 專職測試團隊測試和調優,并且 SelectDB 為每個穩定內核提供長達 12-36 個月的長周期持續維護,免除企業升級帶
156、來風險的擔憂。這個內核完全可以與開源 Doris 內核互相兼容,企業隨時可以從兩個內核互相切換,不用擔心被鎖定到 SelectDB 的企業內核上。同時,SelectDB Enterprise 版也會提供可視化的 Manager 功能。數據庫管理員可以利用 Manager 管理多個集群,完成部署、升級、重啟和配置等功能,同時可以診斷、監控和報警等。SelectDB Enterprise版,也會提供跨集群復制和備份恢復等企業級功能。無論是 SelectDB Cloud 還是 SelectDB Enterprise,在最初產品設計時 SelectDB 團 54 中國中國卓越技術卓越技術團隊訪談錄團隊
157、訪談錄2023 第第一一季季 隊都希望將這些產品打造成具有普適能力的數據庫產品,至少要能夠覆蓋 80%的用戶需求。SelectDB 團隊希望僅通過一個系統解決絕大部分問題,降低復雜技術棧帶來的開發、運維和使用成本,最大化提升生產力。新一代數據倉庫的一些挑戰 One Size Fits All,行得通嗎?但據墨天輪數據社區發布的2022 年中國數據庫行業年度分析報告顯示,截至目前國內共有 249 款數據庫產品,單 2022 年就新增了 55 款產品,占比總數量的五分之一。數據庫市場百花齊放,各細分領域垂直產品經過不斷打磨,已經可以在金融、制造等場景下獨當一面了,想要通過一款通用的、普適化的產品鏈
158、接到各種應用場景里,并不是件容易事。在軟件行業,追求 One size fits all 的產品似乎都最終失敗了。對此 SelectDB 團隊表示:做 One size fits all 的產品,一定要加上一個大前提符合高內聚低耦合的原則。也就是說,但凡是應該要高內聚的能力,我們需要做到 One size fits all;而那些低耦合的、不應該內聚的,即使有技術有能力做到一起,也不應該去做。很多 One size fits all 失敗的原因都是違背了這個原則。比如 HTAP,大家覺得應該把 TP 和 55 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 AP 做到一個系
159、統,也可能通過努力實現這一目標,但是 TP 和 AP 在很多企業沒有實現一體化,有很多不是技術的原因。所以在現階段 HTAP 我們更認可作為一個一體化的方案去推動更好,而不是試著去做一個單一的 HTAP 軟件。比如,可以使用MySQL 來做 TP,那么可以用 Doris 來做 AP,通過 Doris 自帶的可以從 MySQL 秒級實時同步數據的能力,可以打造一個基于 MySQL+Doris 更好的 HTAP 一體化解決方案,這也是最近 AWS 在 Aurora 和 Redshift 推行 Zero-ETL 的原因。此外,SelectDB 團隊也強調,在考慮實現產品普適化能力的同時,一般而言不會
160、以犧牲性能為代價,原因有三:一,良好的實現方案在設計之初就會最大程度去避免系統性能受影響,同時配合流水線上的性能測試保證不會有新功能的合入帶來的性能回退;二,即使會對某些性能造成影響,也會對普適能力的提升和所影響的范疇之間進行權衡,看成本和收益比是否合理;三,數據庫性能的優化是一個無止境的工作,影響性能的每個環節都有可能有持續的提升空間。也就說,在所有產品能力中,普適性能力并非是更高優先級,而是與系統的性能、穩定性以及易用性等多方面處于并列的位置,生產級別的數據庫不能只考慮某一方面而忽視另一方面,用戶的抉擇也從來都是一個全面的思考過程。從互聯網走向傳統企業,如何克服兼容性問題 自項目誕生之日,
161、初創團隊對于 Doris 的定位就是新式數倉。但多年之后,隨著數據處理方式的演進,Doris 有了新目標成為一個極具兼容性、全面擁抱云原生的實時數據倉庫。最初,Doris 來自互聯網公司,在推廣到傳統數倉領域時,在 SQL 兼容性上遇到了一 56 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 些問題。離開大廠后,SelectDB 團隊也針對這一問題進行了優化,目前已經有大量傳統企業開始使用 Apache Doris 來替換以 PG 協議為主的傳統數倉。由于 Doris 采用了 MySQL 兼容協議,從實際使用來看,很多企業也愿意向 Doris 的 SQL 來轉移,畢竟 M
162、ySQL 的協議大家更為熟悉。在改寫過程中,實際需要改動的也并不多。但并不是說 Doris 與所有的傳統數倉都能完全兼容。對于一些已經有大量的業務在傳統數倉中、且復雜 SQL 遷移難度大的企業,建議采用逐步替換的思路:先遷移部分業務上來,另外再盡量提供一些工具幫忙自動改寫,并針對其中難以改寫的 SQL 在語法層做一些兼容。走向云原生主要做了哪些工作 作為一款分布式的 MPP 數據庫,Apache Doris 最初設計是部署在 IDC 物理機上。當將這個原生分布式的數據庫遷移到云上并實現云原生,勢必需要進行一次大的重構,以便深度利用云的能力。首先,要完成存儲與計算的分離。存儲要全部放到對象存儲上
163、,而對象存儲的性能又不滿足實時數倉計算需要的性能,就需要采用計算節點的本地存儲作為熱數據緩存,如何設計緩存策略對系統性能有著重要影響。其次,存儲與計算分離后,用戶可以針對一份數據同時啟動多個計算集群,并且多個計算集群可以用來做多活,可以用來做負載隔離。SelectDB Cloud 提供了多計算集群可以共享同一份數據的能力,并且多計算集群都可以做到多寫,而不僅僅是一個寫多個讀的模式。57 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 SelectDB 團隊稱,“作為一個全托管的云數倉服務,如何保證客戶的數據安全,并且方便的與客戶在云上的 VPC 進行網絡貫通,這些都需要重點
164、去研發”。未來規劃和新方向展望 解決完兼容性和上云問題后,Doris的下一步規劃是怎樣的?后續SelectDB團隊在開源社區和公司層面的首要工作分別是什么?SelectDB 團隊表示,后續在 Doris 的工作重點就是核心功能 Feature 的研發,主要集中在高性能、混合工作負載、半結構化數據分析、數據湖分析、實時性與穩定性提升等方向上。從具體功能上來看,包括支持更復雜 SQL 并具備全查詢場景自適應優化的查詢優化器、單節點數萬 QPS 超高并發承載量的點查詢優化、更靈活執行調度的 Pipeline 執行引擎、基于倒排索引的全文檢索能力以及更高效的文本分析算法、根據寫入數據自適應 Schem
165、a 的動態表等重要 Feature 都有 SelectDB 團隊的工程師參與貢獻。除功能以外,對社區用戶的技術支持和社區運營推廣也是 SelectDB 團隊投入的另一大方向。目前,SelectDB 團隊成立了一支專門的技術支持團隊,在過去一年多的時間里為大量的開源用戶提供免費的技術支持,沉淀了上百萬字的內容知識庫,后續這些內容也將逐步將開放在 SelectDB 開源論壇中。而在公司向,SelectDB 團隊的工作主要分三塊:增強數據庫的實時性、完善數據湖 58 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 分析、更多企業級特性的開發。在增強實時性上,主要是優化實時數據導入
166、、繼續加強主鍵存儲模型的實時 CRUD能力,以便能夠承載更高頻的數據導入能力,提升數據可見性。在完善數據湖分析上,雖然當前 SelectDB 已經可以直接查詢 Hudi、Iceberg 和 Hive等數據湖,但一些性能仍有待優化和提升。針對很多企業需求比較大的企業級特性,尤其是跨集群復制(CCR)和更加完善的備份恢復,也是 SelectDB 團隊下一步的重點工作。59 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 技術管理漫談 60 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 可悲的現實,大部分技術領導者可能并不稱職 作者:許曉斌 編輯:孫瑞瑞 本
167、文由 InfoQ 整理自阿里巴巴資深工程師 許曉斌 在 QCon 全球軟件開發大會(北京站)2022 上的演講技術領導力實戰。大家好,我是許曉斌,目前就職于阿里巴巴技術風險與效能部,負責運維與構建基礎設施平臺。在軟件行業從業15年,包括微服務架構、DevOps、云原生等領域,軟件管理工作 5 年。出過一本書Maven 實戰,做 Java 的同學應該有不少人讀過。目前我在阿里巴巴帶了多年團隊,在實際工作中也有一些管理上的經驗,但在準備QCon 全球軟件開發大會北京站的這個演講主題時,在官網信息及材料中刻意隱去了自己的 title,我認為如果大家只是被 title 吸引而來,那其實并沒有什么意義。
168、個人認為,這個話題在國內也很少能有非常專業的分享。因為管理和領導是一種“專業”,它跟技術專業不一樣,但它也是一種專業。眾所周知,當下國內整體上是一個“業務為王”的時代,只要業務增長,管理、領導,甚至技術,做得好與不好都不重要。很多時候業務好和人的技術無關,和管理也無關,只是因為你恰好在風口,所以大家得意識到這一點。假設業務不增長了,該如何去量化一個管理者?如何去評估一個管理者做的好與不好?這是一件挺有意思的事情。那這次演講為什么講管理?因為我見過太多糟糕的管理者了,包括我自己。61 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 技術領導反模式 回顧一下我剛剛開始帶團隊的時
169、候,可以用“稀爛”來形容。技術領導力其實非常重要,因為好的管理,它決定了公司的戰略是否能夠得到執行和落地;其次,它也決定了大量工程師的成長和發展。舉個例子,如果你犯個技術錯誤,無非是一個故障;但是如果你犯管理錯誤,你對一個人的一年、兩年甚至更長時間,會產生一個巨大的影響。所以這是一個非常關鍵的事情,需要重視。但可悲的現實是,大部分技術領導者是不稱職的。以下列舉的幾種錯誤模式在技術領域隨處可見,基本都可以對號入座:悶頭干模式悶頭干模式 延續獨立貢獻者的工作方法,所有方案自己做,所有代碼自己寫。路由器模式路由器模式 上級任務往下轉發,任務結果收集匯報。高壓模式高壓模式 對上過度匯報,對下持續增加,
170、輔以不科學的價值宣導。不決策模式不決策模式 不對任何需求 say no,或者決策全部下放,并讓下屬承擔決策后果。有業務無工程模式有業務無工程模式 高度關注短期業務交付,不管工程質量。作為管理者,你可以通過參考以上反模式來反思一下自己是否稱職。如果你是一個 62 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季“大頭兵”,你可能感覺到自己老板不靠譜,時常被 PUA 到懷疑自己能力問題,但這些問題的根源并不是因為大家不想做好這件事情或者缺乏專業的理論,而是因為行業發展得太快了。以蓬勃發展的互聯網為例,像阿里、騰訊等公司在短短十幾年時間內從 100 人增長為 10W 人規模,這個時
171、期產生了大量的技術管理者。然而,由于社會面缺乏既懂業務又懂技術、同時又懂管理的人才,只能通過內部提拔。但這些被提拔上去的人是因為管理做得好嗎?大部分不是。他們成長晉升得很快,大部分是因為業務好或者技術好,但管理能力卻不一定好。因此,這會導致這些人產生了一個錯誤的認知偏差,認為自己的成長和晉升速度很快,但其實本身的工程能力不足,實際的管理能力與其“總監”、“總裁”的 title 并不匹配。事實上,很多時候業務的成功和他們的管理能力沒有必然關系,換一個人也是同樣的結果。業務的飛速增長是因為業務本身處于商業風口,或是因為商業戰略、業務戰略、運營戰略的判斷。那么,如何進行管理呢?我自己也閱讀了一些管理
172、方面的書籍,并有一些實際管理工作中的經驗和心得體會,可能不是最準確的,但應該還算靠譜。在本文中,我將刪繁就簡,探討一些重要的事情。也希望能夠通過本文得到一些反饋,幫助我更好地整理和思考。人才 我自己帶團隊的時間大概有五年多,總結下來,如果說技術領導者只能做好一件事的話,就是做招聘,挖掘人才。63 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 那為什么是招人最重要?這個觀點也出自于我現任的一位 Leader,大約三四年前,我們一起在杭州的 EFC 地下食堂吃飯聊到了相關的話題。當時,他問我,你覺得做管理什么事情最重要?我當時沒有想好,沉默了一分鐘沒有說話,然后他看我笑了笑說
173、,你傻,就是招人。如果你正在帶領一個團隊或正處于一個團隊中,發現團隊里有一些非常棘手的或是痛苦的問題得不到解決,通常都能夠最終溯源到某個人身上。比如我反思自己在團隊中做得最成功的事情,我能夠溯源到我招了一位正確的人,或者是我培養了一位正確的人;反思我做得比較失敗的事情,或者是讓我頭疼的事情,都是因為這個人不是我招聘的,或者是不得不塞到我團隊里的。64 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 往往常見的情況是,老板給了業務后團隊立馬招人擴大規模,你想了想明年可能又可以晉升了。但實際上,一定要給團隊招一個正向的人,即與團隊目標一致、文化一致,能力一致。如果團隊里某個人的
174、專業素養不能支撐住在團隊生存的時候,他必然會進化出一種其他方面的能力幫助自己在團隊里生存。比如他可能特別“會匯報”、特別會“寫 PPT”、特別會“搞東搞西”的一些事情來幫助他自己生存,因為他的專業能力無法跟上團隊,為了不被踢出團隊,所以需要進化其他能力。所以我后來就養成了一個習慣,就是在招聘的時候會將候選人專業素質的要求提高,我寧愿招不到人,寧愿業務不做或是做得慢一些。那重視人才意味著什么?你每周花幾個小時做招聘/面試/1-on-1 溝通?你是否對每次面試都嚴格要求?會不會因為項目壓力降低要求?你能欣賞和你不同的想法和觀點嗎?你有信心充分地授權,并敢于為此負責嗎?在招聘比較旺盛的時候,比如校招
175、開始時,我每天平均會花幾個小時的時間來做招聘和面試,和一些 1-on-1 溝通,并且不斷地告誡自己,一旦招聘一個人,如果我很喜歡但是又有點猶豫,我就會判斷可能哪里存在問題,就會放棄。在招聘過程中,首先我會非常的重視工程能力,比如會進行在線筆試,在線編碼能力和歷史代碼等,一輪兩輪三輪,不斷地驗證候選人的代碼是否足夠 Solid,討論時是否足夠 Opening,還會問一些明知對方不會的問題,去看對方是直接反饋不會,還是選擇繞圈回答,比如有人繞了一圈后,最后結論是雖然我不會,但是我會怎樣怎樣。但其實我不需要對方去回答這些問題,我需要的是職業發展目標對齊,基本能力對齊,溝通簡單,邏輯清楚,這幾點要求我
176、一直非常堅持。65 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 到目前為止,我們團隊在公司每年的 360 員工滿意度調研中的分數都是不錯的,這并不是因為員工進來之后我帶領的多好,而是因為他們進入了合適自己的團隊,并且能夠開心地工作,這是我認為比較關鍵的。下一步,就是如何帶團隊。帶團隊肯定要定戰略、做規劃。那戰略目標如何落地?阿里是用的 OKR,我每個兩周或一個月,都會去看我的 OKR 進展并進行更新。很多人的規劃經常變來變去,可能過去一個月后做的事情已經和規劃完全無關了,但我今年的規劃相比去年,有 80%其實是一樣的,這是多重原因決定的,一方面是因為我認為我做的規劃比較
177、科學清晰,另一方面是整個組織結構比較穩定,比如沒有老板天天換等等,這兩點其實非常重要,實際上也應該如此。我們的業務并沒有多大的變化,我們是做工程的,平時的工作就是寫代碼的時候做發布、做構建、做運維,以及訪問各種云產品等,這些平臺和業務是非常穩定的,并不會發生劇烈的變化。但如果你的規劃發生劇烈的變化,證明你或者你的老板甚至公司的 CTO 并沒有想清楚,這些是不應該發生的事情。那作為管理者,如何去制定 OKR?關于 OKR 有很多相關的書籍可以學習,此處我根據自己的體感做了一些摘錄和總結,主要為以下幾點:1.OKR 應該體現團隊為誰服務(for who),即圍繞價值闡述。很多人將 OKR 寫成了一
178、個指標,比如寫“性能優化10%”,那因此誰受益了?你是為誰服務的?比如寫“構建速度提升10%,讓研發者在構建的時候得到更快的反饋”,這里寫讓誰發生了一個變化很關鍵,所以要圍繞用戶價值進行闡述。66 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 2.OKR 應該體現聚焦(即取舍),資源有限,集中精力辦大事。舉個反例,很多人寫 OKR,帶了 3 個人,寫了 8 個 O,20 個 KR,這樣寫并不知道他們在干嘛。我的團隊規模大約三四十人,我的 O 應該是 4 個,專注這四個目標,明確地告訴團隊我們做什么和不做什么,如果我一旦列 40 個 O,那所有人都會不明白到底需要做什么。其
179、實也沒有那么多需要做的事情,把每一件事做好是不容易的,很多人做事情是抱著“廣撒網總能撈到一條魚”的態度,但我們的目標其實是去“撈一條最好的魚”,因此一定要做取舍,集中精力辦大事。3.OKR 應該要盡可能量化(不必 100%),用來校準方向,且量化不應被用來考核績效。量化的意思,即不要全是形容詞,比如寫“卓越的、先進的”,如何衡量是否卓越、是否先進、是否優秀?這很難說,所以需要去盡量量化。同時,量化也是個雙刃劍,因為一旦量化之后,大家很容易陷入為了“數字”而去“做數字”的局面,所以作為管理者需要去和團隊強調,量化的目的是為了讓大家了解方向是否正確,進展是否偏離,而不是為了進行 KPI 考核,一旦
180、強調是在考核,那“數字”必然會變得好看,但實際上毫無用處,還可能給團隊帶來負擔。所以作為管理者一定要謹慎地對待量化,并在團隊建立起好的共識。4.OKR 的承接應該遵循 Single Threaded Leadership 原則。OKR 的負責人沒有,或者 OKR 的負責人有一堆,都是錯誤的。在亞馬遜逆向工作法一書中,有個觀點非常好,即你關鍵的 O 需要有唯一的責任人,他只對這個 O 負責,并不用對太多事情負責,權責對等。5.OKR 應該公開,且根據實際情況溝通調整。67 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 反例:一線員工看不到主管的 OKR,看不到更高層級主管的
181、 OKR。工程文化 接下來,講一些被廣泛低估的一件事,工程文化。為何工程文化重要?中國的互聯網快速發展,導致大家產生了我們的工程能力趕超英美的錯覺,但其實在很多方面還是會被打回原形。我們整個工程能力在性能和穩定性領域,其實和谷歌、微軟等公司沒有太大差距,因為我們分布式系統的用戶量會要求我們的性能必須做到極致,否則便無法支撐。我們一直討論的研發效能、代碼質量等其實都是工程文化的問題,軟件系統是極高復雜度的系統,工程文化一旦出現問題,復雜度失控,質量失控,會導致系統崩潰;其次,研發人員是知識工作者,是“手藝人”,良好的工程文化能激發他們的工作熱情,反之則會消磨熱情,增加穩定性風險。像阿里這種規模的
182、公司,每月多人協同產出數以億級的代碼行,其實是非常復雜的,如果沒有好的工程能力最后會無法維護。除了效率問題,另外一個是激勵問題。工程師其實都想在專業領域做得很好,拋開只為達成功利目的的少數人,大部分人都是希望把自己的工作給做好,代碼寫得漂亮舒服,被人認可,這是大家都廣泛認同的東西。畢竟,誰愿意在代碼“屎”山上工作呢?所以我們需要去重視工程文化。技術管理者與其他領域的管理者之間最大的不同,就是技術管理者除了招聘、做戰略 68 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 規劃之外,還需要關注團隊的工程文化。那如何建設工程文化?以下是我的一些做法:要求代碼開放,要求 code
183、 review,要求 unit test 搭建 CI 看板 技術領導者每天參加 code review 績效考核/晉升考核中納入“技術素養”的要求 定義階段性技術目標,降低系統復雜度(如:下線服務,架構治理)如果作為技術管理者不親力親為,工程文化往往會被犧牲。舉個例子,我的老板是研究員級別,P10 級別,他每天都會花不少時間看 code review,每天挑幾個看一下并給個反饋,慢慢地就形成了一個比較好的工程文化。如果團隊里有工程師有事沒事刪個幾千行代碼,那他一定是佼佼者,因為降低系統復雜度是比往系統里懟功能加代碼難得多的事情,以上的這些方法都很關鍵。案例:故障 Review 的重要性 所有的
184、公司都會去做故障 Review,但是我并不能確定是否所有的管理者都會去仔細Review 團隊中的每一個故障和細節。因為從中可以看到這幾個方面的信息:1.系統架構是否存在問題(例如:存在不合理依賴)2.研發流程是否存在問題(例如:代碼提交沒有單元測試覆蓋)3.運維應急能力是否存在問題(例如:是否第一時間操作擴容)基本上團隊的每個故障我都會去看,最近看的比較少,因為故障比較少:),在新接一 69 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 些系統時故障比較多。為什么要去做這件事情?一是你會對整個技術架構有更深入的理解,因為多數故障是工程能力不足的癥狀表現;另外,通過觀察團隊
185、對故障的處理和復盤,可以發現團隊里優秀工程師,優秀的工程師在處理故障的時候,他對整個系統的全局有著清晰點認識,但如果是一個不熟悉系統的工程師,他會非?;艔?,因為他不知道哪里出現了問題。因此,一方面是在看系統,一方面也是在看人,在這種過程中,看到優秀的工程師需要去給他相應的一些資源支持,鼓勵他去做架構治理,去下線系統等等,這都是非常關鍵的細節之處。出現故障之后,了解問題并幫助大家改進,我們宣揚 blameless,即創造安全感。如果將故障與人的績效掛鉤,那會造成相互甩鍋的局面,沒有人想著去改進,故障非個人主觀情況造成的話,沒有必要去進行追責,鼓勵大家發現問題,去改進系統,給予好的正向反饋才是重要
186、的,這也體現出管理者對技術的要求與態度。建設開放透明的文化 團隊文化的建設其實是潤物細無聲的一件事,很多人將文化建設停留在口頭,或者理解的是一些團建聚餐活動等,導致大家認為它是“虛”的,其實不然。如果你的團隊文化不注意建設開放透明的文化,那會發生一些反例:A 同學把自己寫的代碼設置為 private,他人不知道其工程能力,老板也不在乎,但是他非常會寫 PPT 匯報。B同學找C,D單獨溝通獲取了大量的信息后,和老板單獨匯報(選取對自己有益的信息),促成了老板做出對自己有利的決策。70 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 B同學就某個想法找C、D聊完后,包裝成自己的
187、觀點,和老板單獨溝通,給老板造成他能力強的印象。X 領導在一年中多次改變團隊目標,但是未和團隊解釋這些變化的原因,導致團隊士氣低落。晉升季的時候,B同學被晉升了,但是領導沒有向大家清晰的公開晉升標準以及B同學何以滿足這些標準,導致團隊各種猜測。那有哪些建設開放透明文化的方法:1.開放團隊所有的代碼和文檔 2.關鍵決策公開群組/會議討論,鼓勵離線記錄討論 3.公開晉升/獎勵等標準,公開其過程 4.公開團隊和個人目標(如:OKR)有很多團隊中每個人都有自己的代碼庫,只有在彼此系統對接合作時才會了解,我要求團隊必須強制開放代碼,是因為這樣做可以讓所有人相互了解,形成一種同行的壓力。在團隊管理中,盡可
188、能地給團隊信息公開,信息透明,決策透明,避免私下溝通、信息差等問題存在,能夠提高團隊的效率和凝聚力。另外,公開透明的環境會讓“小惡”無處遁形,創造鼓勵向善的行為十分關鍵;其次,在團隊中給予充分的信息和規則,知識工作者自己可以做最高效的判斷;最后,文化的建設需要時間,不可能一蹴而就。71 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 達爾文進化論的啟發 最后聊一下管理中的激勵,大家講管理經常會提到馬斯洛需求層次理論,但這里我認為達爾文的進化論在管理和激勵上給我們的啟發會更大。達爾文的進化論大家都了解,這里不再贅述,我簡單提煉下幾個核心的信息:人類進化的 99%時間(約 20
189、0 萬年前到 3.5 萬年)都處于依靠狩獵采集的社會狀態。在這漫長時間內進化出來的,追逐地位和尊重的心理特點,普遍刻在每一個人的基因里。在狩獵采集階段,面對力量和速度都遠超人類的野獸,人類的核心競爭力是相互協作。被集體所排斥(安全感缺失)意味著高概率的死亡。被集體所尊重,獲取更高的地位,意味著更多的物質機會和更多的交配機會。我們今天所有的心理狀態都是在進化過程中逐漸形成的,都旨在幫助我們生存,以上這些心理機制在今天的管理和激勵上也有很大的借鑒意義,管理者需要意識到人類普遍對安全感的需求,對地位和尊重的需求??偨Y一下,那如何在團隊中營造一個充滿安全感的工作氛圍?首先,從微小之處讓團隊成員感受到自
190、己的價值與意義,比如 1-on-1 的溝通,鼓勵團隊中的正向行為,公開場合明確目標,讓團隊成員知曉自己的決策過程等方式,讓團隊成員獲得安全感和價值感。其次,理解團隊成員對于“名利”看重的心理機制,作為管理者可以盡可能的去為團隊成員的成長提供資源支持,但固然無法滿足每個人對于“地位”和“資源”的訴求。72 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 然而,管理者可以做到對每個人的尊重,對其工作成果的尊重,不論是開慶功會還是群里發紅包等形式,讓團隊成員感受到自己工作的價值和意義,這對促進團隊成員的創造性行為是非常重要的。定目標,找人才、建文化,這就是我們做團隊管理比較關鍵的
191、一些內容。有時候很多事情是很表面的,但實際上內心的一些機制、人的認知、人的心理,其實是起了一些決定性的作用的,我們是改變不了的,我們只能接受。在這些基礎上,我們再思考可以去做哪些措施去不斷地優化。重新 Review 你的面試流程,是否有明確的標準要求?是否有嚴格的流程遵循?和團隊的關鍵成員安排一次 1-on-1 溝通,關注你和他/她是否有清晰一致的目標?把團隊所有代碼設置成盡可能公開,至少團隊內公開,每天至少花 2 小時 Review 代碼。73 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 思考并修訂團隊目標(OKR),和你上級討論達成共識,在團隊公開宣講。思考團隊目標
192、,如果必須要砍掉其中一個子項,你會怎么選擇,寫下你的思考。整理團隊的技術債務和技術風險,產出改進計劃。最后我認為很關鍵的一句話,做管理實際上你要在團隊內建立一種氛圍和文化,把每個人的善意都激發出來,我覺得這是非常值得做的一件事情,不一定是偉大,但是是非常有意義的一件事情。拋開我們對升職加薪那些功利的追求之外,每個做管理的人,不論你的團隊是 10 人、20 人、30 人、50 個人還是 100 人,每個人產生的影響都是巨大的,這也可能是對技術更有價值的一件事情。作者介紹作者介紹 許曉斌許曉斌,阿里巴巴工程師,技術管理者,目前負責阿里巴巴集團運維及構建基礎設施平臺,Maven 實戰作者。74 中國
193、中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 如何為那些在裁員中幸存的人重建技術文化 作者:Mehnaaz Abidi 譯者:劉雅夢 策劃:丁曉昀 一波裁員潮沖擊了軟件行業,并改變了技術文化的定義。本文探討了多家科技公司的情況,以及為支持幸存下來的員工和不得不告別的員工而做出的不同選擇。它為我們這些留下來的員工以及如何在我們的技術團隊中重建文化提供了建議。本文要點本文要點 2023 年重建技術團隊文化的三大領域是團隊自由、遠程或混合工作以及保護多樣性。通過專注于在你的直屬團隊內而不是在整個公司內建立文化,從而找回動力。投資自己;不要等著公司給你學習的機會。一家公司的真正文化可
194、以從他們如何對待離職員工和他們的前員工的網絡中看出。前員工是更強大的未來雇員。不要為成為公司的擁護者而感到壓力,而是要成為團隊的擁護者。在 2022 年舊金山 QCon 和 2022 年 12 月 QCon Plus 會議上,我談到了軟件行業在新冠疫情后如何學習適應新的全球現實以及其對流量度量的影響。我的演講名為“作為一個技術團隊,如何在一個感覺像是瘋狂的麥克斯電影的新現實中獲勝?”我 75 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 分享了一些快速技巧,以幫助技術負責人在世界試圖恢復常態之際,為混合和遠程團隊創建文化。我強調過,后疫情時代需要留住女性技術員工,以及將文
195、化建設作為一項新的指標納入流程框架的重要性。自那次演講之后,一波裁員潮沖擊了軟件行業,并改變了技術文化的定義??吹揭恍┕静扇》侨诵曰姆绞绞菤埧岬?,而另一些公司卻為支持離職員工付出了額外的努力,這著實讓我驚訝。許多人會因為找到工作而感到幸運和欣慰,同時又會為前同事的遭遇而內疚。2020 年,哈佛商業評論(Harvard Business Review)將此與人們質疑的幸存者內疚進行了比較,“為什么我成功了,但他們沒有?當我還在工作時,我將如何面對那些在經濟困難時被解雇的朋友?雇主會不會再次裁員,然后像對待他們一樣對待我?”未來幾年,對雇主的信任將是許多公司求之不易的回報。從那以后,我采取了額
196、外的步驟來了解多家科技公司的情況,以及為支持幸存下來的員工和那些不得不告別的員工而做出的不同選擇。在這篇文章中,我將重點關注那些留下來的人,以及如何在我們的技術團隊中重建文化。76 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 在經歷了同事被解雇后,如何重新找回自己的動力?當你對雇主的信任度很低的時候,這更有可能?答案不在于去另一家公司,而在于你在當前的工作場能做什么。人們很容易認為,新的工作場所將能解決現有團隊中的一些文化不適應問題。在微軟2022 年工作新未來報告中,他們提到尋找新工作的主要文化因素是不尊重、不包容、不道德、殘酷和虐待。根據我的經驗,很難通過星光熠熠的
197、雇主品牌和幾次面試來判斷這些因素,在這些面試中,招聘經理會由于壓力而必須展示公司最好的一面。因此,作為一名員工,我們找到文化契合度的最佳時機是改進現有的“團隊”文化。我強調的是“團隊”而不是公司。我會將幫助你的鄰居吃飽飯與解決世界饑餓問題相提并論。規模和范圍對于在技術團隊中成功構建良好的文化至關重要。你仍然可以安然入睡,因為你知道你的鄰居是健康的,而這個國家還有更大的問題需要解決。因此,在你的直屬團隊范圍內認清你的影響范圍。如果你是一名工程經理或工程師,請專注于你的團隊,包括項目經理和設計師。如果你所在的是一個職能團隊,比如架構,那么請把重點放在圍繞管理者和直接下屬的團隊上。如果你是一個管理者
198、中的管理者,比如高級工程總監,那么再次將注意力集中在直接下屬身上,同時要求他們為自己的團隊復制框架。不要試圖同時為多個團隊構建文化,這會讓你不知所措。既然你已經通過縮小范圍減輕了自己和團隊的壓力,那么就開始了解你是否:信任你的團隊成員嗎 77 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 可以和他們一起開懷大笑嗎 在團隊中能就共同關注的問題達成一致嗎 能想象和他們一起工作至少一年嗎?如果以上任何一個問題的答案都是肯定的,那么你就在這部瘋狂的麥克斯電影中找到了你的安全網。你有一個團隊,你可以與他們一起努力改善心理安全感,重建裁員后留下的破碎文化。對于我們中的許多人來說,工作
199、和生活是相互關聯的,我們在這些空間中建立了親密的友誼。失去一個像朋友一樣的同事,可能會引發內疚、憤怒、否認、后悔等等。所以從這里開始。給自己和團隊成員足夠的空間來談論“他們的感受”。如果你在裁員期間擔任管理職位,那么在嘗試之前建立你的誠意就變得至關重要了。例如,一位工程經理為了節省的公司成本,通過一封電子郵件解雇了一些終身自由職業者,那么當他嘗試進行敬業度調查或試圖談論團隊文化時,他們的團隊會幾乎沒有什么回應。通過電子郵件辭退的方式,使得他們不再被團隊視為一個能承受壓力的人,而是視為一個頭銜。工程經理在潛意識中設定了這樣的信息:“我把我的團隊視為資源,而不是人。在讓我的團隊成員離開之前,我沒有
200、給予足夠的關心,甚至沒有進行過交談?!币虼?,團隊將避免任何來自工程經理嘗試建立的聯系,直到他們能夠證明他們對團隊的關心是真誠的。微軟的報告還指出,在工作中感受到被關懷的員工在工作中快樂的可能性是其他員工的 3.2 倍。這并不一定要通過雇主,許多員工在經歷了裁員過程之后,會發現任何此類的努力都是假的。但真的是你從直接團隊成員那里得到的關懷。將你的精力、承諾、堅持和創造力集中在你自己的團隊中。你會發現自己的動力在上 78 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 升,而無需偽裝你對公司的承諾。不要因為要成為公司的擁護者而感到壓力,而是要成為團隊的擁護者。在受影響的技術團隊
201、中,重建文化的三大重點領域是什么?團隊文化不是將一堆框架組合在一起,而是一個舒適的空間,在這里你的團隊可以感受到彼此的聯系、哀悼、治愈和慶祝。讓我們從技術團隊對工作滿意度的第一個要求開始自由 從摩登原始人開始,在裁員之前,產品 x 技術 x 業務經常會出現分歧。許多公司都提出了可靠的優先級框架和技術。但優先級排序總是以某些團隊感到受限為代價。因此,我們永遠無法真正平衡高優先級和全面的工作滿意度。我曾見過一些出色的功能,它們帶來了非常高的用戶留存,但背后的團隊卻認為這些不是正確的工作。那么,我們如何在團隊中培養更大的自由感,而不會被我們無法影響的優先級(尤其是在當前艱難的市場條件下)搞得精疲力竭
202、呢?找時間討論一下團隊的優先級。一旦你把壓力/緊張從系統中釋放出來,你就會發現在這些優先級中仍然有巨大的自由。我曾經和一個團隊合作過,他們承受著巨大的壓力,要“盡快”徹底重新設計他們的整個產品。我們經歷了五個悲傷的階段否認、79 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 憤怒、討價還價、沮喪和接受。當我們進入驗收階段時,奇跡發生了。團隊在這個項目中找到了合作的共同目的,并找到了對產品進行不同思考的自由。但這種自上而下的消極要求已經早早地剝奪了他們發揮創造力的能力。在當前的市場條件和公司的被動性中,自上而下的優先級只會增加。因此,一個團隊可以從接受開始,并更早地找到發揮
203、創造力的自由,或者像其他團隊一樣,經歷五個悲傷的階段,然后再達到同樣的狀態。要求繼續遠程或在家工作 在遵守公司關于遠程或混合工作政策的同時,每個團隊都可以為各自的團隊成員創造在非辦公地點工作的靈活性。有自己的習慣,通過工作與生活的平衡來相互支持,尤其是對初級看護者來說。團隊可以隨時建議他們的人力資源團隊不要設定固定的辦公室工作時間,而是讓員工根據團隊的需要選擇工作時間。我看到許多人力資源團隊已經認識到了這一點,并支持員工決定什么是對他們團隊最有利的。但如果你的人力資源團隊還沒有做出決定,那么就保持團隊的地位。迫使所有員工在辦公室固定工作的唯一原因是象牙塔認為這將能提升公司文化。不要因為擔心失業
204、而放棄你在家工作以努力提高自己知名度/價值的混合例程。我們不能讓任何人破壞在加強工作與生活平衡方面取得的進展,尤其是由于大規模裁員引發的擔憂。相反,通過提高團隊內外的在線溝通技能來提高你的知名度。80 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 一些對我有用的事情:利用每封電子郵件作為自我介紹的機會利用每封電子郵件作為自我介紹的機會:在科技領域,當我們必須解釋大的概念或讓一個大的團隊做出決定時,我們通常會寫內部電子郵件。利用這個機會,讓聽眾知道你是誰,以及他們為什么應該聽你的。通過平衡細節和清晰度來成為具有同理心的人通過平衡細節和清晰度來成為具有同理心的人:多年前我在一
205、篇文章中讀到,“唯一比聽一個你不知道他們在說什么的人說話更糟糕的事情就是聽他們絮絮叨叨?!笔冀K保持簡單,并提前闡明你談話的預期結果。詢問他們是否需要了解更多信息,不要讓太多的技術信息壓倒他們,讓他們不知所措。自信并定期分享召回價值自信并定期分享召回價值:工程師們經常努力提高他們在團隊之外的知名度。通過觀察新聞頻道的記者,以及他們如何用事實和正確的語氣進行激烈的對話,我學會了自信。他們教會了我在壓力下進行有意義的對話,展示自信的藝術,以及如何讓房間里充滿影響力。我的建議是找到有影響力的人,他們可以幫助你改善表現方式,并開始在現有公司的虛擬形式(如團隊演示、全體會議、公司員工大會、利益相關者更新等
206、)中為自己創造知名度,定期撰寫技術文章,并讓公司為此感到興奮。是保護團隊的多樣性 對于許多科技領導者來說,招聘多元化的員工非常困難。多年來,我們一直在努力加強不同的社區,并將他們與技術角色聯系起來。最近的裁員分鐘內就銷毀了所有這些努力。所以我們中的許多人現在都有責任保護團隊中剩余的多樣性。我自己的關注點是更好地理解如何提高女性團隊成員的心理安全感。新冠疫情對科技 81 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 行業的女性來說尤其困難,該行業的女性留存率大幅下降。許多因素,包括作為主要的看護人,都決定了她們要么暫停職業生涯,要么離開職業生涯。休完產假回來已經變得很困難了
207、,現在隨著大規模的裁員,復雜性增加了,他們甚至不確定自己是否還能回到原來的團隊。女性技術工作者比以往任何時候都需要更多的支持,尤其重要的是,我們要將重點放在更加個性化的挽留措施上,以支持她們。我聽過一個故事,一名女性技術員工在分娩時收到一封被解雇的郵件,并在她生完孩子幾分鐘后閱讀了全部的細節。她在這家財富排名前五的公司工作了 9 年。我們不能允許任何公司在任何國家、任何時期建立這種先例。作為一名女性技術負責人,我不能接受任何公司的這種行為。我正在通過承擔更多的責任來應對這一現實,以確保維護科技行業女性的利益。我很高興看到我們行業中的許多女性同行也對我們的社區承擔起了類似的責任。我留給大家的想法
208、是,公司文化不再是單個團隊文化的總和。較高的團隊 eNPS 和公司 eNPS 之間不會有因果關系。那些試圖讓裁員變得更簡單的雇主,已經在科技行業產生了不信任的副作用,這種不信任將長期存在,并將影響工作的開展方式。對于一個可持續的未來工作場所,這些公司為每個團隊提供空間來領導他們的文化重建至關重要。一些員工會熱情地參與其中,但其他人則需要時間來重建健康的工作關系。這將是一項耗時、富有挑戰且容易遭受挫折的工作。然而,這將按照團隊的步伐,在更堅實的信任基礎上進行。最終,你不僅可以幫助你的團隊從這次事件中恢復過來,還可以創建一個更健康、更高效的公司。82 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2
209、023 第第一一季季 作者介紹作者介紹 Mehnaaz Abidi 是 Urban Sports Club 的首席產品和技術官。在加入 Urban Sports Club 之前,她曾擔任阿迪達斯(Adidas)的產品副總裁,并在耐克(Nike)、trivago、Tesco 等公司擔任技術負責人。原文鏈接原文鏈接 https:/ 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 架構師角色的演變:從發號施令到與團隊合作 作者:Leigh Griffin,Chris Foley 譯者:明知山 策劃:丁曉昀 不斷變化的世界 與傳統的科學相比,軟件可以算是一門非常年輕的科學。但即使是
210、在它的嬰兒期,它的關鍵組成部分之一架構及其形成方式已經發生了重大變化。架構藍圖花幾個月時間完成可以解決所有問題的完整設計一去不復返了,也沒有了由一人負責管理所有東西的場景。之所以發生這種模式轉變,一部分是因為行業創造出了更好的工具,還有一部分是因為用戶行為發生了變化。他們的交互模式從事務性服務轉變為消費驅動型服務,將用戶行為從記錄系統轉變為參與系統,用戶現在有了更主動和及時的需求。軟件架構需要隨之一起演化并擁抱可用的工具才能滿足這些新的需求?,F在的架構更多的是關于決策而不是結構,更多的是關于對不斷發生的變化做出響應而不是遵循規劃,更多的是關于頻繁交付而不是一次性大型交付。這對架構師所扮演的角色
211、的影響是非常深遠的。在這篇文章中,我們將探討共享架構的文化變化和架構師角色的演變。從之前依賴架構師的權威和獨特視野,變成了在系統設計問題浮出水面時需要整個團隊的投入一起解決。這導致了一種控制反轉式的團隊關系,向共享所有權轉變的團隊可能正在為融 84 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 合這種新范式做著苦苦的掙扎。我們將分享我們是如何經歷這一變化的。我們有超過 25 年在一個團隊中擔任多個職務的經驗,從工程師、產品負責人到團隊教練和經理。這些角色中的每一個都讓我們能夠與架構師接觸,因此目睹了行業和架構師角色的演變。我們希望能夠為那些在轉變過程中苦苦掙扎以及那些希望
212、進一步增強和推廣他們的架構的人提供指導。變化因素 職責的變化 傳統的架構師有許多基本職責,其中之一就是關于應用程序的可伸縮性。架構師需要考慮許多不同的因素,確保能夠處理系統的預期負載。這些決策包括:哪種語言最適合用來處理這種類型的應用程序?如何處理 I/O?阻塞還是非阻塞?數據庫采用怎樣的策略?需要多少個 CPU 核心?內存呢?存儲呢?這些考量因素影響到了部署策略、特定硬件或芯片組的可用性,甚至是應用程序的部署位置。這些決策為我們提供了有關應用程序生命周期的整體概要、它的預期使用以及更新節奏和策略。在現代環境中,開發團隊通過使用工具減少了之前架構師需要考慮的問題。例如,自動伸縮功能解決了應用程
213、序的計算資源消耗問題。Kubernetes 這樣的編排平臺讓部署和處理突發負載變得非常簡單,這些平臺可以根據需要增加應用程序實例,并在流量減少時逐步減少實例。分析工具,從圈復雜度的靜態分析到性能分析指標,再到API 功能的可視化,現在已經在整個團隊層面提供了豐富的信息。這些工具現在已經 85 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 出現在標準的工作規范中,這意味著架構師以前的專業知識自然而然地分布到了整個團隊中,知識生成和數據見解遠遠超出了單個角色在團隊中所能分享的程度。這意味著這個領域的一些所有權和責任已經轉移到了整個團隊,而不是在某個個體身上。共享所有權已經成為
214、一種現象?,F在,團隊通常會根據行業標準、用戶期望和公司內部的技術一致性來決定采用什么工具。用戶使用模式的變化 云計算(或 SaaS 文化和模型)的快速發展要求我們在如何發布、何時發布以及發布什么方面變得更加靈活?,F在的重點是提供更健壯的服務和支持,讓團隊能夠快速改變他們的關注點。功能的增加會帶來更多的用戶使用,了解用戶的使用情況就成為開發和演化功能的關鍵決策。在以前,這一強化要素是一項長達數月關于穩定性、伸縮性和健壯性的思考,而如今已讓位于實驗性的意愿。技術預覽版功能(不要在生產環境中使用的警告通常會被故意忽略)可以讓應用程序的演化與用戶的需求同步,消除了用戶與團隊之間的脫節。在以前,這種關系
215、通常由業務系統分析師或產品負責人等角色負責維護?,F在,團隊的用戶意識更強了,有時甚至強過架構師。他們了解用戶是如何與系統交互的,并通過遙測應用程序的見解知道用戶何時與系統發生交互,了解用戶需要什么、為什么需要以及如何需要。這為應用程序的開發帶來了強大的多層面觀點,因為現在整個團隊擁有不同的背景、技能和專業知識可以為更大的愿景做出貢獻,真正地從個體角色轉變為主要由團隊驅動并與用戶需求進行協作的角色。從代碼層面來看,微服務的興起最能體現其實際影響。隨著所有權和需求發生變化,86 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 應用程序需要處于能夠獨立演變的位置,允許一些服務嘗試
216、不同的東西、測試一個功能,能夠為部分或所有用戶打開和關閉某些功能。這創造了一個良性循環,這種開發方法催生了一套支持工具和服務,(如 API 網關)來管理服務合約,還有消息傳遞系統(如 Apache Kafka)和支持 Spring Boot、Flask 和其他特定語言框架的微服務。工具的可用和成熟反過來使得團隊更容易自行選擇微服務架構風格,從而進一步推動在工具上的投入。對于架構師來說,他們不能再按照自己的藍圖來設計架構了?,F代用戶使用模式對靈活性的要求更高。架構師必須不斷調整系統設計來滿足快速變化的用戶需求,必須促進架構向前演化。思維模式的變化、機遇、挑戰和現在的架構師需要掌握的新技能 在了解
217、了這些變化因素之后,我們相信對于現代架構師來說,他們需要做出改變,需要應對挑戰和抓住機遇,并練習和掌握新的技能。軟件架構一直在演化 軟件架構是一個演化的旅程,有著不同的路線和影響,這是當今軟件架構的一個基本原則。這種演化意味著我們需要根據了解到的東西改變我們的思維,而架構師在促進架構對話方面發揮著關鍵作用。以下引用了我們在 Red Hat 與一位首席架構師進行互動時說的兩句話,反映了當今架構師的一些想法和擔憂:87 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 康威定律的影響是一個關鍵主題:系統的架構反映了組織的結構。架構對話的另一個作用是提出一些沒有人意識到的問題,或者
218、每個人都意識到但不愿意談論的問題。把這些問題提出來討論是必要的。不是只關注如何解決和實現,而是更多地討論它們,這樣每個人都知道該怎樣前進,或者可以隨著設計的演化做出適當的調整。有時候,這些討論最重要的輸出是認識到有些問題在當時并不是問題。這種清晰度對每個人來說都很重要。它可以讓人們專注于即將到來的任務,而不是被陰影所籠罩。換句話說,它消除了一些無法言喻的負擔。Emmanuel Bernard,Red Hat 杰出工程師和架構師 假設大多數人會傾向于同意這些想法,但他們的架構決策過程是否進化到與這種想法相匹配的程度?他們考慮到組織結構了嗎?他們是否放棄了預先設計而引入了預先對話?任何變化的第一步
219、都是先意識到,然后才是接受。影響產品/服務變化的主要因素之一是用戶互動和反饋,用戶有可能是內部團隊,也可能是付費客戶。在現代市場中,反饋循環是持續進行的,架構師必須充分利用這個機會。與持續反饋相應的是期望更頻繁或盡可能接近持續反饋的頻率進行交付。這給架構師、團隊和組織結構帶來了挑戰,因為持續交付很少能夠獨立實現,它通常需要在組織層面才能成功實現。實現頻繁交付的小型迭代很適合這種時間窗口。然而,當引入潛在的更大的功能塊(例如架構重構)時,它可能不像人們期望的那么簡單。這對架構師和團隊提出了挑戰,他們要能夠頻繁地交付組件,同時要確保服務能夠高質量運行,能夠滿足 SLA和質量期望。更重要的是,在開發
220、的早期,在強制的演化發生之前提出解決方案路徑會帶來一種對強制的變更擁有所有權的感覺。88 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 在很多情況下,設計決策時機可以與業務需求掛鉤。及時地將業務需求與系統設計決策結合起來是架構師及其團隊需要解決的真正挑戰。傳統的架構重點關注最終目標,現在卻變成了“接下來需要做些什么來充分解決未來幾個月的業務需求”。這可能會導致我們做出一些后續可能需要再次改變的決策,但它們在當時是正確的。我們通過構建產品來獲得經驗,我們的客戶通過與我們的產品交互來獲得經驗,這為我們提供了緊密的反饋循環。這是系統架構的自然演變,提前了解并制定策略來處理最好的
221、情況和最壞的情況是團隊需要的關鍵技能。架構曾經被認為是一條筆直的道路,但它不是,或者說將來都不應該是。架構的演化是一條曲折的路,每一次轉彎都為我們帶來一個學習機會。這并不是說架構師必須忽略架構的最終目標(他們曾經唯一的關注點)。在當前的環境下,產品負責人成為架構師非常重要的合作者,這意味著最終目標和愿景成為共享的經驗。對于架構師來說,與產品負責人就產品/服務的愿景展開討論、合作并達成一致是確保方向性的必要條件,即使這個方向可能并不總是非常明確。相反,這種討論讓產品所有者的愿景變得更加貼近現實,他們可能需要做出妥協,知道什么是可實現的、什么樣的時間表是現實的。這個愿景成為技術決策過程的另一個重要
222、輸入。架構不再是單個人的職責 架構師在軟件開發當中扮演獨立角色的情況一去不復返了。系統架構現在是一項團隊運動。團隊具備跨職能交付產品的能力,由為交付軟件過程增加價值的人組成,其中仍然包括架構師。之所以會這樣,正如前面所說的,部分原因是軟件開發生態系統涉及技術、語言(不僅是開發語言,還有業務和技術語言)、體驗(開發和用戶)和利益相關者。沒有哪一個人能夠覆蓋到所有這些方面。這種變化意味著架構師需要轉變 89 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 思維方式。對于架構師來說,他們的工作成為了團隊的一部分,這有很大的好處,但也存在挑戰。依靠他人并將職責移交給他人,這是一項需
223、要掌握的重要技能。這包括在架構師和團隊成員之間建立信任。他們必須共享技術方向的所有權,并信任同事能夠驅動系統的某些方面或組件。架構演化已經從單一的自上而下的指揮轉變為團隊聯合參與貢獻,所有人都可以有不同的觀點。信任是雙向的,有時候需要對判斷意見加以保留,允許新的想法和見解不斷涌現。架構師需要成為建立團隊心理安全防線的主要人物。團隊層面的失敗不應被視為無能,而應被視為把事情做好的機會。更頻繁的交付節奏有助于實現這種模式,因為他們可以快速采取行動。架構師需要接受架構設計已經從一個單獨的個人職責演變為一個共享的團隊職責的事實。接受了這樣的事實,他們就可以利用團隊可以提供的一系列好處。對于那些戴慣了傳
224、統架構師帽子的人來說,為了成為團隊成員的一部分而降低自己的身份是一種掙扎。不幸的是,我們已經親眼看到,一些架構師對團隊在創新階段提出的想法、建議或改進表現出了挑戰的姿態。這就導致了僵持的局面,隨著時間的推移,團隊慢慢變得沉默,他們知道自己的建議沒有被采納,而架構師無法調和自己的局限性,也就無法規劃前進的道路。這變成了一場對抗頭銜、不愿放棄控制權、承認自己認知和能力不足的斗爭。在我們的團隊中,這種行為持續存在成為所有變更的審查者,這破壞了更有能力的團隊成員的成長,減緩了交付的速度。我們已經在多個行業的一些公司中看到了這種模式,而在以云為 90 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023
225、 第第一一季季 中心的環境中,技術棧的快速發展讓這成為一個更大的挑戰。這意味著架構師不再是技術方面的唯一權威,因為改進的速度要求工具也不斷改進,技術棧和方法的改變發生在每個開發者身上,更重要的是整個行業使之成為一場技術軍備競賽。如果架構師不愿意信任和授權他們周圍的人,這將無意中導致支持、信任和實現技術棧改進失敗。對于團隊來說,這是一場注定失敗的戰斗,因為架構師覺得他們需要讓自己的知識跟上變化的速度才能做出決策,然而,開發者每天都在積極地編碼、調試、實驗和學習,而且是在架構師無法達到的更深層次上。如果這種知識鴻溝未能被彌合,就會導致團隊人員流失和喪失心理安全感。解決這個問題需要強有力的領導,更重
226、要的是需要強有力的支持,幫助架構師克服他們正在經歷的恐懼。架構師和整個團隊都需要意識到,對團隊來說最好的東西可能對個人并不是最好的,但通常會讓個人獲得最大的收益(在產品或服務的改進方面)。為了確保團隊能夠達成共同理解而放慢發布節奏就是這方面的一個例子。之前的公司有一個主題專家(SME),他被授予了架構師的頭銜,并幾乎獨自在設計方面推動功能的實現。他們的架構愿景是重構現有的面向組件的設計模式,使之成為一種更加模塊化的基于插件的架構。這種想法源于他們在架構最佳實踐方面的豐富經驗,以及與客戶的深度聯系。他們的愿景被認為是一個強大的概念證明,用一封電子郵件解釋了它們的基本原理,并建議在出現下一波客戶流
227、失之前進行重構。不可否認,愿景、激情和能力是我們(工程師Chris,工程經理Leigh)想要挖掘的東西,但團隊內部彌漫著一股不安的氣氛。這是一個架構上的轉變,整個團隊對新技術知之甚少。在這種情況下,SME 將在下一次出現客戶流失大約三個月后領導另一個項目,并且已經按照合同期待交付,這意味著將會產生延遲成本。我們決定支持 SME 的愿景,但要求他們更詳細地闡述這么做的好處(更好的互操作 91 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 性、更順暢的客戶集成、更容易的調試),然后與客戶協商我們的發布承諾。這為淡化個人主義提供了一個安全的基礎,更重要的是讓整個團隊適應了技術和
228、變化。結果是我們得到了一個可持續的架構,但更重要的是,其他五個開發者培養了可持續的技能,他們將長期參與這款產品的演化。毫無疑問,這給銷售團隊和客戶端帶來了壓力,但在接下來的 18 個月里,開發團隊獲得的回報是顯而易見的,因為他們正在協商新的業務功能需求。這是一個皆大歡喜的結局,但更廣泛的接受度源于工程領導為團隊和產品的進化創造安全感而進行的誠實對話。只具備技術敏銳性是不夠的 掌握技術知識一直都是架構師所必備的,而商業頭腦和對市場的了解無疑增加了其重要性。但是,架構師需要做出的最大改變是對軟件生命周期中涉及的所有人員進行指導。這聽起來可能過于簡單化了,但在日益增長的快節奏軟件開發行業中,對于架構
229、師來說非常重要。他們傾聽和消化業務視角、技術需求、來自開發人員的需求以及管理層快速交付的需求的能力變得至關重要。架構師需要能夠使用“強大的開放性問題”作為激發更深層次思考和引出不同觀點?!盀槭裁础边@樣的提問方式帶有評判的味道,例如,“你為什么要采取這種方法”。如果將問題改為“是什么讓你決定采用這種方法”,會促使被問者解釋他們的想法,而不是為他們的決定辯護,因為當被問及“為什么”時,他們可能會認為自己的決定是不是不正確的。這種簡單的改變,以及使用開放、好奇的語言,可以在整個團隊中創造包容性,更重要的是,創造一種支持的氛圍,而不是一種被認為是挑戰的氛圍。架構師已經成為一個通曉多種語言的人,除了傳統
230、的技術語言,他們還使用了商業語 92 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 言和從工程團隊中獲得最佳觀點和想法所必需的語言。實用技巧 經過總結,這里為架構師提供了 6 個實用的技巧,也為正在轉變泥潭中掙扎的團隊提供了 6 個實用技巧。給架構師:1.成為幫助團隊架構理解的導師,而不是障礙。公開主動地分享你的知識。2.為那些只有你自己感覺到但團隊可能沒有意識到的挑戰尋求指導,來幫助你克服內心的挑戰。不要獨自承受,支持性的指導有助于你的角色演化。3.歡迎來自客戶、團隊和環境的挑戰。這種反饋循環可能會讓人感到筋疲力盡,但可以帶來巨大的回報。4.用你的經驗將對話引向你的專業
231、知識告訴你會遇到的挑戰。5.了解團隊的動態、他們的優缺點、他們對工具的掌握,以及他們日復一日地構建應用程序的實際情況。幫助你在正確的時間組織你的輸入,在哪里可以帶來最大的價值。6.成為人際關系的建設者。培養你的軟技能,建立起人際網絡,從銷售團隊到產品負責人,從工程經理到技術中小企業。每天都要培養和維護這些關系。給團隊:1.為非領域專家總結使用工具的經驗,帶他們踏上理解之旅。93 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 2.利用架構師豐富的經驗來洞察你可能有的想法、挑戰或主意。他們現在是你團隊的一員了。3.簡單明了地表達你的想法、優點和缺點,準備好接受開放性和有挑戰性
232、的反饋,構建心理安全感。4.把頭銜和自負留在門外,擁抱團隊環境,向團隊里的每一個人學習。在當今的軟件設計當中,你對設計過程的影響是真實存在的。5.培養你的演講、溝通和指導技能,并每天使用它們,在快節奏的團隊中進行信息交流是至關重要的。6.盡你所能留住你的架構師。他們深厚的專業知識對團隊的成長和壯大是無價的,不要讓他們感到孤立,讓他們覺得自己是團隊的一部分,是未來解決方案的一部分。結論 對于軟件行業,更重要的是對于我們的用戶來說,架構師的角色已經發生了根本性的變化。我們與用戶互動的方式,我們構建、發布和支持軟件的方式都發生了變化。這種變化對整個開發團隊和他們之前的支持角色(如質量工程/質量保證)
233、進行了賦能?,F在,每個人都可以發聲,關于系統如何隨時間的推移而演化,他們有自己的意見和有效輸入。與此相輔相成的是兩個獨立但相關的變化。首先是終端用戶期望的變化,現在要求有更快速的反饋,通過不完美的服務來指導實現他們的需求以及何時實現。其次,出現了一套支持開發者日常工作的工具。這為以前只能由架構師解決的問題帶來了解決方案,并允許開發者對性能、伸縮性和設計有更多的見解,并自然地滲透到團隊中。架構師需要扮演的基本角色發生了變化。他們多年的經驗和豐富的最佳實踐 94 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2023 第第一一季季 現在需要重新滲透到團隊的日常流程中。這是一個提升整個團隊經驗水平的機
234、會,為我們如何構建軟件創建了一個更多樣化的視圖。實現這種改變可能很困難,它需要管理層和團隊的支持。它還要求這個角色愿意面對挑戰,提供比以往任何時候都更多的價值,為了團隊、產品和客戶的改善而放棄對頭銜的渴望。原文鏈接原文鏈接 https:/ 中國中國卓越技術卓越技術團隊訪談錄團隊訪談錄2022 第第一一季季 優秀的產品背后,必定有優秀的團隊做支撐。中國卓越技術團隊訪談錄是 InfoQ 打造的重磅內容產品,以各個國內優秀企業的 IT 技術團隊為線索策劃系列采訪,希望向外界傳遞頂尖技術團隊的做事方法/技術實踐,讓開發者了解他們的知識積累、技術演進、產品錘煉與團隊文化等,并從中獲得有價值的見解。此前,訪談錄嘉賓邀請主要是以 InfoQ 主動邀約的形式進行,現在我們決定長期開放報名通道長期開放報名通道。如果你身處傳統企業經歷了數字化轉型變革,或者正在互聯網公司進行創新技術的研發,并希望 InfoQ 可以關注和采訪你所在的技術團隊,就請填寫下方鏈接中的表單吧!期待你的報名。