AI時代,F(xiàn)PGA如何全線賦能云網邊

來源:搜狐

來源:E企研究院

大語言模型帶來的智能涌現(xiàn),讓人們意識到:強人工智能的時代真正來臨。大語言模型與強化學習的結合讓機器與人類的行為實現(xiàn)對齊,甚至體現(xiàn)了更高水平的洞察力。第四次工業(yè)革命的技術底座由5G、物聯(lián)網、機器學習構成,而人工智能將這些拼圖融合在一起。

多模態(tài)的信息輸入、預處理、學習、推理……這些關鍵性流程的應用門檻迅速降低,推動企業(yè)數字化轉型進入新的階段。許多領域正在積極引入機器學習的成果,市場處于快速變化的狀態(tài)。數據中心的性能需求旺盛,機器學習等訓練任務促進了云上性能的發(fā)展,不論是算力,還是網絡帶寬。來自邊緣側的需求也在提升——數據的本地化需要,或者嚴格的實時性要求等。FPGA是提升新型工作負載效能的理想選擇之一,其具有硬件級的性能,又擁有適應多樣任務需求的靈活性,且可以非??焖俚剡M入市場。

11月14日,英特爾在北京舉辦了以“創(chuàng)新加速,塑造FPGA芯未來”為主題的2023年英特爾FPGA技術日,展示了FPGA的新品及全矩陣應用,以及行業(yè)伙伴在數據中心、AI、網絡、嵌入式等關鍵領域的諸多應用。

Mike Fitton博士 英特爾可編程方案事業(yè)部副總裁兼網絡業(yè)務部總經理

全面的產品組合

在技術日中,英特爾推出了六款FPGA新產品和平臺,其中包括:Agilex 3、Agilex 5、Agilex 7、Nios V軟核處理器、開放式FPGA堆棧(OFS)、F2000 IPU平臺。在2023年底,還會有約10款新產品進入市場。覆蓋高、中、低端市場的產品組合,靈活、定制化的平臺功能和強大的可擴展性,輔以高效率的軟件棧,以及極具韌性的供應鏈,英特爾FPGA產品可以幫助開發(fā)人員在復雜的環(huán)境中快速構建從云到邊緣的解決方案,滿足各層級的需求。

Agilex 7系列:采用英特爾10制程工藝,支持CXL提高帶寬和連接性能,并借助HBM加快內存訪問速度,該具有性能功耗比優(yōu)勢的Agilex 7 M、F和I系列FPGA現(xiàn)已上市。其中,Agilex 7 FPGA R-Tile相較于其他同類FPGA產品,其每個端口的PCIe5.0帶寬速度提高了2倍,CXL帶寬提高了4倍。

Agilex 7開發(fā)板

Agilex 5系列:采用第二代英特爾Hyperflex FPGA架構和英特爾7制程工藝,對晶體管的每瓦性能進行了優(yōu)化,從而實現(xiàn)出色的能耗。同時采用英特爾上一代高端產品中嵌入的業(yè)界首個針對AI優(yōu)化的模塊,并將其擴展至Agilex 5 FPGA的中端產品中,為邊緣AI應用提供了理想選擇。其中,Agilex 5 E系列FPGA在功耗和尺寸上進行了優(yōu)化。

Agilex 3系列:外形小巧,在功耗和成本上進行了大幅優(yōu)化,且擁有廣泛的IO支持。其中,即將推出的Agilex 3 B系列FPGA面向電路板和系統(tǒng)管理,包括服務器平臺管理(PFM)應用;C系列FPGA則針對一系列復雜可編程邏輯設備(CPLD)和FPGA應用提供更多功能以用于垂直市場領域。

值得一提的是,英特爾的定制邏輯芯片不止于FPGA,也包括eASIC和ASIC。三管齊下的組合提供了極高的靈活度,以支持市場對于不同功耗、成本和上市時間的多樣化需求。與FPGA相比,eASIC(結構化ASIC)的開發(fā)時間較長,可滿足更低的功耗和單位成本需求,適合以十萬計的產品數量。ASIC(標準單元ASIC)在功耗、成本、性能方面更有優(yōu)勢,但開發(fā)時間是eASIC的兩倍,適合百萬級以上的產品數量。

智能、互聯(lián)對FPGA的挑戰(zhàn)

當AI進入大模型時代,算力和互聯(lián)帶寬需求激增,甚至遠遠超過了CPU性能的增長速度,系統(tǒng)對各種加速器的需求極其旺盛。對于高性能加速器(含F(xiàn)PGA),面臨三大挑戰(zhàn),也是發(fā)展趨勢。

芯片創(chuàng)新步伐:不斷變化的標準、層出不窮的工作負載、對更高性能和更高功效的旺盛需求,人們迫不及待的需要用硅來解決各種難題,傳統(tǒng)的半導體設計方法已經很難適應快速迭代的需要。新的芯片需要加快創(chuàng)新步伐、快速集成新功能,選擇適宜的制造工藝、IP、代工服務?;贑hiplet的異構集成已經被證明是后摩爾時代的理想解決方案。Agilex 7便是典型的Chiplet設計,由Core Fabric芯粒和R-Tile、F-Tile芯粒構成。其中Core Fabric負責提供運算等核心功能,F(xiàn)-Tile負責提供主流的PCIe 4.0收發(fā)器, R-Tile負責支持前衛(wèi)的PCIe 5.0、CXL2.0等特性的收發(fā)器。

數據激增:海量的數據需要更大的存儲容量和帶寬,內存墻正日益成為設計的瓶頸——再強大的加速器都需要充足的數據來喂飽。AI應用是典型的受限于內存的場景。Agilex也積極支持最新的內存接口標準,包括DDR5、LPDDR5和HBM2e。

設計復雜性:加速器的工作負載變得日益復雜,更高的性能、更多的控制平面,同一芯片可能需要支持不同的指令集,這些都導致設計復雜性增加。AI負載的需求進一步加劇了這個問題,譬如不同的數據精度、跨平臺的協(xié)同等。開發(fā)人員需要簡便的 FPGA 開發(fā)、AI 和工作負載加速工作流,開放式的加速生態(tài)系統(tǒng)。英特爾OFS、OpenVINO、Quartus等軟件棧資源有助于縮短開發(fā)時間,簡化跨平臺部署的難度。

快速滿足邊到云的AI擴展需求

AI應用場景日趨多元化,需要復雜多樣的產品才能滿足需求。我們可以將場景分成三類:云端、網絡、邊緣。

云端的AI需求主要就是大批量的處理,包括深度學習、機器學習等。其特點是數據量龐大、運算負荷大,帶寬要求高,但實時性通常不高,甚至允許錯誤回滾。網絡的AI需求包括數據包檢測、擁塞控制等,對于無線網絡,AI還會用于波束成形等。邊緣側的應用,通常需要較高的實時性,譬如工業(yè)、醫(yī)療、交通中的識別與控制,以及金融分析等應用,有嚴格的時延要求。多樣化的應用場景需要不同類型的AI算力支撐,數字底座由多層次的、不同指令集的異構算力構成。

邊緣側

對于邊緣側應用,尤其是嵌入式設備,AI是創(chuàng)新的爆發(fā)點。將AI稱為嵌入式世界轉型的中心舞臺毫不為過,利用AI可以提高生產力、效率、質量、體驗……譬如,在技術日的現(xiàn)場展示就包括通過機器學習增強計算視覺,快速地在生產線中構建缺陷檢測系統(tǒng)。再譬如通過傳感器跟蹤豐富的、超越人類經驗感知的設備信息并加以學習和推理,可以為預防性維護提供參考。物聯(lián)網從數字化到智能化,會產生巨大的市場需求。5G的普及、AI實施門檻降低,使得各種規(guī)模、數字化水平的工廠都有機會進入工業(yè) 4.0時代。

工業(yè)缺陷檢測實時平臺演示

邊緣側的應用存在于大量的細分領域,通常是個性化的,具有小批量的特點,適合FPGA進行滿足。邊緣側還可能需要多功能疊加,同時處理多個卷積神經網絡。需要靈活性,譬如I/O接口類型、可定制的數值精度等。這些特點對開發(fā)工具也提出了更高的要求。通過英特爾OpenVINO和FPGA AI Suite開發(fā)套件,可以快速生成IP和進行RTL硬編碼,快速開發(fā)和迭代FPGA,驗證和部署更優(yōu)的深度學習推理模型。

對于邊緣側,尤其是工業(yè)界的應用,AI應用的鏈條很長,場景多樣。從數據采集開始,需要涉及多種模式的傳感器及數據,部分數據還涉及傳感器融合。眾多的數據經過預處理匯入數據湖,進行進一步的處理。其中的一些事件作為推理(預測或異常檢測)的輸入,實時處理并控制相應的執(zhí)行器。一部分事件和整個數據湖積累的數據,可以通過機器學習、生成式AI助力,幫助流程、產品、設備的重新設計。在整個流程當中,會涉及到包括FPGA、ASIC、CPU、GPU等硬件能力,以及Quartus、OpenVINO等軟件棧。

傳感器融合演示

數據中心

FPGA在數據中心的應用非常廣泛,其中,數據中心的加速功能主要包括兩個方面:架構加速和應用加速。

一方面是對數據中心基礎設施的加速,也就是架構上的加速。數據中心的資源包括計算、存儲、網絡,通過重構,可以降低成本、提升效率,提升整個數據中心的TCO。

對于計算優(yōu)化型實例,CPU只是單純的使用計算的功能,對于用戶而言,虛擬的存儲資源都在IPU下面。相應的,是存儲型的節(jié)點,有的存儲服務器會把盤直接掛在 CPU 上,但會受到PCIe通道數量的限制,也有的存儲服務器把盤掛在FPGA下。在數據傳輸的過程中,可以有很多的事情交給FPGA來做,譬如壓縮解壓、加密解密,或者一些數據的預處理,效率會比通過CPU進行處理要高的多。

傳統(tǒng)服務器的內存是安裝在服務器內,容量是固定的,不能隨意增減。隨著CXL協(xié)議的成熟,用戶可以用FPGA來做內存的管理。首先是做內存容量的擴展,第二個階段是內存的池化,將內存動態(tài)的分配給需要的計算節(jié)點。在內存盒子中,還可以讓NVMe SSD充當內存(如內存語義SSD),或者讓內存充當SSD緩存,可以降低成本或者提升性能,這些對于主機可以是透明的。除了內存、存儲節(jié)點,數據中心還可以把GPU或者加速節(jié)點解耦出來。

另一方面是應用的加速,包括AI的加速、數據處理的加速,典型如DPU、智能網卡,可以卸載一些原本CPU的處理工作,或者做一些特定的數據處理。加速卡具體承擔哪些方面的處理,是根據對應用、協(xié)議的理解進行的,F(xiàn)PGA的可編程性就很適合這種場景。

FPGA還有一個特點是低時延,它的數據處理通過特定的每一個門,工作流的時延是可預測的。這種超低時延的特點對于金融分析、處理非常有價值,如高頻交易等。LMS和BittWare基于Agilex7 FPGA開發(fā)的專為金融服務業(yè)設計網卡,時延降低了61%,吞吐量提高200%,性能一致性提升超千倍。

專為金融服務業(yè)而設計的基于英特爾Agilex7 FPGA的網卡

構建可信任、有韌性的供應鏈

供應鏈是技術日中多次被提及的重點話題。半導體芯片的需求持續(xù)高速增長,芯片出貨量在2021年已達到1.15萬億個,且預計到2030年的平均增長率可以達到8%。但是,眾所周知,在過去幾年中,全球供應鏈面臨著非常復雜、廣泛的危機。英特爾的FPGA產品線針對供應鏈難題提出了韌性供應 (Supply Resilience) 計劃,將投資重點放在加強端到端供應鏈、提高產能、增加冗余和增加緩沖庫存,以提升供應鏈的彈性和控制力,不但要滿足客戶需求,還要降低未來再次遭遇供應鏈中斷的風險。相關的舉措包括優(yōu)化產品組合,增加采購來源,如對更多基板供應商進行認證、擴大測試和組裝能力,與包括臺積電、三星、格芯在內的晶圓代工廠合作擴大晶圓產能等。PSG 全球銷售總經理 Sean Dougherty表示,目前PSG已經完全擺脫供應困局,所有產品的交付周期也已恢復到正常水平。

預計到2023年第四季度,英特爾主要FPGA產品的交貨時間將達到16周或更短時間。產品供應周期將長達15年或更長時間。可預測的交付和長生命周期,加上敏捷的原型設計,將極大提升FPGA客戶的信心。

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。

標簽:

推薦

財富更多》

動態(tài)更多》

熱點