谷歌自研晶片 替代上千萬顆英特爾CPU

伴隨著新興應用的興起以及數位化程度越來越高,已有的成熟處理器在性能、效率以及成本上的優勢相較自研晶片的優勢越來越小,因此藉助成熟的第三方IP以及EDA工具和代工廠,科技巨頭們紛紛開始自研晶片,其中最有代表性的就是谷歌TPU,除此之外,谷歌Argos VCU也值得關注。

谷歌自研晶片 替代上千萬顆英特爾CPU

谷歌設計了自己的新處理器Argos 視頻(轉)編碼單元 (VCU),其目的只有一個:處理視頻。高效的新晶片使這家技術巨頭能夠用自己的晶片替換數千萬顆英特爾 CPU。 

多年來,英特爾內置於其CPU中的視頻編解碼引擎一直主導著市場,因為它們提供了領先的性能和功能,並且易於使用。但是定製的專用集成電路 (ASIC) 的性能往往優於通用硬體,因為它們僅針對一種工作負載而設計。因此,谷歌轉而為YouTube的視頻處理任務開發自己的專用硬體,並取得了很好的效果。 

不過,英特爾可能會利用其最新技術來贏回谷歌的專業視頻處理業務。 

谷歌為什麼自研VCU?

數據顯示,用戶每分鍾向YouTube上傳超過500小時的各種格式的視頻內容。Google需要將該內容快速轉碼為多種解析度(包括144p、240p、360p、480p、720p、1080p、1440p、2160p和4320p)和數據高效格式(例如,H.264、VP9 或 AV1),這需要強大的編碼能力。  

過去,谷歌有兩種轉碼/編碼內容的選擇。第一個選項是英特爾的視覺計算加速器(VCA),它包含三個Xeon E3 CPU,內置Iris Pro P6300/P580 GT4e集成圖形內核和先進的硬體編碼器。第二種選擇是使用軟體編碼和通用英特爾至強處理器。

谷歌認為,對於YouTube的工作負載來說,這兩種選擇都不夠節能。視覺計算加速本身就相當耗電,而至強CPU的數量本質上要增加伺服器的數量,這意味著額外的功率和數據中心占用空間。因此,谷歌決定採用自研的定製硬體。 

谷歌的第一代 Argos VCU 並沒有完全取代英特爾的CPU,因為伺服器仍然需要運行作業系統並管理存儲驅動器和網絡連接。在很大程度上,谷歌的Argos VCU就像一個總是需要一個CPU的GPU。 

谷歌自研晶片 替代上千萬顆英特爾CPU

谷歌的VCU與GPU中的流處理器不同,它集成了10個H.264/VP9編碼器引擎、幾個解碼器內核、4個LPDDR4-3200記憶體通道(具有 4×32 位接口)、1個PCIe接口、1個DMA引擎和1個用於調度目的的小型通用內核。

VCU除了自研的編碼器/轉碼器外,大多數IP都從第三方獲得許可,以降低開發成本。每個 VCU還配備了8GB的可用ECC LPDDR4記憶體。  

實際上,谷歌研發VCU的理念是將盡可能多的高性能編碼器/轉碼器放入單個矽片中(同時保持節能),然後將VCU的數量與所需的伺服器數量分別擴展。谷歌在一塊板上放置兩個 VCU,然後在每個雙插槽英特爾至強伺服器上安裝10個卡,大大提高了每個機架的解碼/轉碼性能。

VCU加速替代CPU

谷歌表示,與英特爾Skylake驅動的伺服器系統相比,其基於VCU的設備在性能、TCO(總體擁有成本)、計算效率方面實現了7倍(H.264)和高達33倍(VP9)的提升。這樣的提升帶來的成本優勢(VCU與英特爾的 CPU 相比),使得 VCU 成為視頻巨頭YouTube的更好選擇。 

谷歌自研晶片 替代上千萬顆英特爾CPU CPU、GPU 和配備 VCU 的系統離線雙通道單輸出 (SOT) 吞吐量

從谷歌分享的性能數據看,很明顯單個Argos VCU僅比H.264 中的2路Skylake 伺服器CPU快。但是,由於可以在單個伺服器中安裝20個VCU,從效率的角度來看,VCU勝出。但對於要求更高的VP9編解碼器,谷歌的VCU似乎比英特爾的雙路至強快五倍,有令人印象深刻的效率優勢。 

自從谷歌擁有Argos VCU,它用自己晶片取代了許多基於至強的YouTube伺服器。很難估計谷歌實際更換了多少至強系統,但一些分析師認為,這家科技巨頭本可以將3300-4000萬個英特爾CPU換成 自己的 VCU,即使第二個數字被高估了,單位仍然是數百萬個。  

由於谷歌的其他服務需要大量處理器,因此該公司從AMD或英特爾購買的CPU數量可能仍然非常高,並且不會很快減少,因為谷歌自己的數據中心級晶片的使用需要數年時間。

還值得注意的是,目前谷歌為了嘗試使用創新的編碼技術(例如,AV1),YouTube 需要使用通用CPU,因為Argos不支持新編碼技術的編解碼。此外,隨著更高效的編解碼器的出現,這些編解碼器對計算能力的要求往往更高,谷歌將不得不繼續使用 CPU 進行部署。

但具有諷刺意味的是,專用硬體的優勢在未來只會越來越大。谷歌已經在開發支持AV1、H.264 和VP9編解碼器的第二代VCU,因為它需要進一步提高其編碼技術的效率。目前尚不清楚谷歌何時會部署新的VCU,但很明顯該公司希望盡可能使用自己的處理器而不是通用處理器。 

英特爾並未停滯不前

不過,英特爾並沒有停滯不前。該公司 基於DG1 Xe-LP的 四晶片SG1伺服器卡可以解碼多達28路4Kp60流以及同時轉碼多達12路。本質上講,英特爾的SG1與谷歌的Argos VCU 所做的工作完全一樣:將視頻解碼和轉碼性能與伺服器數量分開,從而減少用於視頻應用的數據中心所需的通用處理器數量。  

憑借即將推出的Xe-HP GPU,英特爾將同時提供10個高質量4Kp60流的轉碼。請記住,某些Xe-HP GPU將擴展到四個區塊,並且每個系統可以安裝一個以上的GPU,英特爾在領先的媒體解碼和編碼能力市場只會變得更加穩固。

總結

Google 已成功構建了出色的H.264和支持VP9的視頻(轉)編碼單元 (VCU),與英特爾現有的CPU相比,它可以在視頻編碼/轉碼工作負載方面提供顯著更高的效率。此外,VCU 使 谷歌能夠獨立於伺服器數量擴展其視頻編碼/轉碼性能。  

然而,英特爾已經擁有Xe-LP GPU和SG1卡,它們也提供了一些重要的視頻解碼和編碼功能,因此英特爾仍將在具有繁重視頻流工作負載的數據中心取得成功。此外,隨著英特爾 Xe-HP GPU的出現,該公司有望鞏固其在該市場的地位。

谷歌自研晶片 替代上千萬顆英特爾CPU

來源:快科技