
![]()
“RISC-V具備一定的包容性,有機會融合 CPU、GPU 和 AI 處理器的特性,突破 CUDA 的生態(tài)壁壘。”
作者丨包永剛
編輯丨林覺民
2025年12月12-13日,第八屆GAIR全球人工智能與機器人大會在深圳·博林天瑞喜來登酒店正式啟幕。
作為AI 產(chǎn)學(xué)研投界的標(biāo)桿盛會,GAIR自2016年創(chuàng)辦以來,始終堅守“傳承+創(chuàng)新”內(nèi)核,始終致力于連接技術(shù)前沿與產(chǎn)業(yè)實踐。
在人工智能逐步成為國家競爭核心變量的當(dāng)下,算力正以前所未有的速度重塑技術(shù)路徑與產(chǎn)業(yè)結(jié)構(gòu)。13日舉辦的「AI 算力新十年」專場聚焦智能體系的底層核心——算力,從架構(gòu)演進、生態(tài)構(gòu)建到產(chǎn)業(yè)化落地展開系統(tǒng)討論,試圖為未來十年的中國AI產(chǎn)業(yè),厘清關(guān)鍵變量與發(fā)展方向。
深圳理工大學(xué)算力微電子學(xué)院院長、龍芯 CPU 與海光 CPU 創(chuàng)始人唐志敏發(fā)表了題為《XPU的未來——軟件決定成敗》的主題演講。
唐老師指出,算力不僅是硬件性能的體現(xiàn),更是一種在資源與時間約束下完成任務(wù)的能力體系。在這一背景下,訓(xùn)力、推力等新型算力能力正在逐步形成,推動人工智能從語言理解向多模態(tài)生成發(fā)展。
他強調(diào),隨著生成式 AI 對算力需求的快速增長,單靠 CPU 已無法滿足現(xiàn)實需求,異構(gòu)計算(CPU+XPU)成為必然選擇。但硬件本身并非決定因素,真正影響算力釋放的,是軟件與應(yīng)用生態(tài)。他通過對x86、Arm和RISC-V的分析,指出生態(tài)慣性和軟件兼容性在商業(yè)化和技術(shù)落地中起到?jīng)Q定性作用,生態(tài)成熟度往往比硬件性能更能決定芯片成敗。
唐志敏也強調(diào),軟件定義一切,這不僅意味著應(yīng)用開發(fā)與性能優(yōu)化,更決定了算力芯片的長期競爭力和產(chǎn)業(yè)格局。
在算力體系演進中,硬件是基礎(chǔ),但軟件和生態(tài)才是真正的“決定因素”。無論是 CPU、GPU 還是未來的 XPU,掌握和構(gòu)建完整的軟件生態(tài),才能在高速增長的算力需求與復(fù)雜的技術(shù)挑戰(zhàn)中立于不敗之地。
精彩演講回顧
演講完整視頻,詳見鏈接:https://youtu.be/m47Dd5rJisw
以下為唐志敏老師的精彩演講內(nèi)容,雷峰網(wǎng)作了不改變原意的整理與編輯:
01
從“算力”到 Computility:算力正在被重新定義
“算力”其實是中國人自己創(chuàng)造出來的一個詞。以前在計算機領(lǐng)域,更多講的是performance(性能),而不是算力。中國人什么事情都喜歡講“力”,比如體力、臂力、腦力,現(xiàn)在又有了算力。
既然是我們自己創(chuàng)造的詞,那怎么翻譯成英文?有人翻成Computing Power,但這個詞我覺得不太好,聽起來就很費電,現(xiàn)在的算力確實費電,但我們并不希望算力特別“更費電”。
所以有計算所的老師創(chuàng)造了一個新詞,叫Computility,把Compute(計算)和Utility(設(shè)置)合在一起,我個人是比較認(rèn)同這個說法的。我們希望算力像水、電一樣,成為一種基礎(chǔ)設(shè)施。
實際上算力就是:在可接受的資源、可接受的時間內(nèi),完成某種計算任務(wù)的能力。
在算力這個概念之上,最近幾年又出現(xiàn)了很多新的“力”。比如現(xiàn)在大家講得比較多的:
訓(xùn)力,就是快速訓(xùn)練出大模型的能力;
推力,就是基于大模型快速推理、生成結(jié)果的能力。
未來還可能會有什么力?我自己也做過一些暢想。現(xiàn)在的大模型已經(jīng)可以理解語言,也可以生成視頻,GPU 可以渲染高度逼真的圖形。如果把這些能力結(jié)合起來,也許有一天,我們可以把小說直接“演”成電視劇。這種能力,本質(zhì)上還是算力體系不斷演進的結(jié)果。
02
CPU 不能滿足需求,異構(gòu)計算成為必然選擇
各種各樣的計算芯片,是算力的基礎(chǔ)。我原來是做高性能計算機體系結(jié)構(gòu),后來進入半導(dǎo)體行業(yè),會發(fā)現(xiàn)處理器和其它很多芯片并不一樣。處理器不是一個單純的硬件,它最復(fù)雜的地方在于,要支撐運行非常復(fù)雜、規(guī)模巨大的軟件系統(tǒng),所以出現(xiàn)了“軟件定義一切”的概念,比如軟件定義存儲,軟件定義網(wǎng)絡(luò),軟件定義無線電。
雖然摩爾定律逐漸放緩,但算力需求,尤其是生成式人工智能對算力的需求,卻在持續(xù)快速增長,而且增長速度遠(yuǎn)遠(yuǎn)超過了制程和工藝所能帶來的性能提升。
![]()
在這種情況下,只靠CPU肯定不能滿足對算力的需求。CPU的主頻和整體架構(gòu),二十多年里并沒有發(fā)生本質(zhì)變化,所以我們只能通過CPU + XPU的方式,比如CPU+GPGPU,或者其他的PU,總稱為XPU,和CPU形成異構(gòu)計算架構(gòu),在通用性、性能、能耗和成本之間尋找平衡。
03
XPU 的本質(zhì):硬件只是資源,性能取決于軟件
但異構(gòu)計算帶來了編程、軟件兼容性兩大難題:
編程變得更加困難;
原來只在CPU上運行的程序,如今要分為兩部分,一部分仍在CPU上,另一部分放到XPU上運行。
從計算機體系結(jié)構(gòu)的角度看,我習(xí)慣把架構(gòu)分成三類。
第一類是比較激進的結(jié)構(gòu),主要靠硬件做動態(tài)優(yōu)化。為了運行復(fù)雜應(yīng)用,硬件要分析指令之間的并行性,典型代表就是傳統(tǒng) CPU。
第二類是比較保守的結(jié)構(gòu),硬件并不去做復(fù)雜分析,而是提供大量運算部件和存儲資源,至于這些資源怎么用,主要依賴軟件,比如GPU和各種XPU。
第三類是動靜態(tài)優(yōu)化相結(jié)合的結(jié)構(gòu)。
XPU本質(zhì)上屬于保守型結(jié)構(gòu)。硬件只負(fù)責(zé)把計算資源提供出來,并不保證性能一定能發(fā)揮出來。性能能不能出來,更多取決于軟件、編譯器和程序員。
自動并行化這個方向,學(xué)術(shù)界和工業(yè)界研究了幾十年,效果始終有限。現(xiàn)實中,真正能把性能跑出來的,還是依賴經(jīng)驗豐富的程序員和成熟的軟件體系。
也正因為這樣,我一直強調(diào),算力芯片真正面臨的核心問題,不是硬件架構(gòu),而是應(yīng)用生態(tài)。
![]()
所謂生態(tài),就是能在處理器上運行的所有軟件的總和,包括應(yīng)用軟件、操作系統(tǒng)、編譯器、中間件、函數(shù)庫和開發(fā)工具。最終真正產(chǎn)生生產(chǎn)力的,是應(yīng)用軟件,而不是芯片本身。
04
生態(tài)慣性:x86、Arm與RISC-V的現(xiàn)實邊界
在CPU領(lǐng)域,x86生態(tài)經(jīng)過四五十年的發(fā)展,已經(jīng)有非常高的市場占有率和生態(tài)慣性。哪怕是英特爾自己,也很難去推動一個不兼容x86的體系。
根據(jù)Gartner給出的全球企業(yè)軟件的情況,經(jīng)過多年發(fā)展,x86軟件市場越來越大,基于x86軟件的銷售收入是3000多億美元。為x86開發(fā)軟件的費用,每年大概是600億美元。而全球服務(wù)器市場總的收入,大概是800億美元。也就是說,一年賣出800億美元的服務(wù)器,為了開發(fā)x86軟件,每年要新增600億美元。可見軟件開發(fā)需要耗費大量精力。
![]()
在手機領(lǐng)域很成功的Arm也想要進入服務(wù)器領(lǐng)域,可以看到一個又一個Arm架構(gòu)服務(wù)器公司屢戰(zhàn)屢敗。他們的失敗有各種各樣的原因,我認(rèn)為Arm架構(gòu)在服務(wù)器領(lǐng)域要成功需要有兩個原因:一個原因是掌握全棧技術(shù)的大公司不再使用x86,這是Arm的機會,典型的比如蘋果不用x86,自己掌握軟件棧可以切換。另一個原因是端云融合,手機上和云端都用Arm架構(gòu),這樣手機上的應(yīng)用比較容易遷移到云端,包括云游戲等,這樣Arm在服務(wù)器市場才更容易成功。
除了Arm,RISC-V也是一個大家都在關(guān)注的方向,但RISC-V到底靈不靈?它的開放性確實帶來了新的可能性,但開放和開源本身,并不自動等于成功,開放的CPU有很多,比如OpenRISC、OpenSPARC、OpenPower現(xiàn)在也開放了。
也有人說Arm太貴,用RISC-V可以省錢。但我之前做芯片公司的時候,一直買Arm的IP授權(quán),也沒覺得有多貴。若干年前,Arm一年的收入十幾億美元,如今Arm每年收入三四十億美元,Arm收入的增加是在很多公司使用RISC-V的背景下,這從某個角度說明了做RISC-V的公司需要反思。
還有人說RISC-V更適合做研究,因為可以隨便修改。但我認(rèn)為做研究用什么架構(gòu)都可以,不一定要用RISC-V,用x86、Arm照樣可以做研究,這不是理由。
RISC-V開放,很多人希望用開源硬件去走一條類似開源軟件的發(fā)展路徑,但我一直覺得,這條路并沒有那么容易。和開源軟件相比,開源硬件的難度要大得多。
從現(xiàn)實情況看,現(xiàn)在全球的 RISC-V 都面臨著商業(yè)化的困難。我看到一條新聞,Jim Keller——這個行業(yè)里做CPU架構(gòu)的頂級人物——創(chuàng)辦了一家做RISC-V的公司Tenstorrent,最近開始裁員了。包括Tenstorrent在內(nèi)美國好幾家公司做出了RISC-V芯片,但問題是不知道賣給誰。
目前相對做得好一些的,反而是一些軟件相對簡單的嵌入式場景,比如做存儲的企業(yè),把 RISC-V 用來做存儲控制器。這類場景軟件非常簡單,確實能用,也用得不錯。但一旦進入計算領(lǐng)域RISC-V面臨的問題就多了很多。
這背后反映的,不只是軟件生態(tài)的問題,硬件生態(tài)本身也還不成熟。只要是 CPU,就一定會走向多核,多核就涉及片上互聯(lián)網(wǎng)絡(luò),Arm在片上互聯(lián)這件事上,已經(jīng)有比較成熟的解決方案,但RISC-V還沒有。
于是就出現(xiàn)一種很現(xiàn)實的困境:想做RISC-V CPU,但片上互聯(lián)又要去找Arm買。Arm愿意把互聯(lián)網(wǎng)絡(luò)賣給你,也想順便把CPU核一起賣給你。這就是RISC-V目前在工程層面面臨的實際困難,也說明還有很長的路要走。
05
為什么兼容 CUDA 容易,復(fù)制 CUDA 生態(tài)極難?
也有人認(rèn)為,將來指令系統(tǒng)可能沒那么重要,因為現(xiàn)在是“軟件定義一切”,上層可以用 Python、Java 這些平臺無關(guān)的高級語言。但從實際發(fā)展來看,情況并不是這樣。以Intel為例,無論是過去的AVX-512、SGX,還是現(xiàn)在圍繞人工智能不斷加入的新指令,都說明:硬件指令的直接支持,對性能和能效始終是有價值的。
在XPU領(lǐng)域也是類似的情況。現(xiàn)在大家都在講兼容 CUDA,因為 CUDA 的生態(tài)確實做得好。很多做其他XPU、AI加速器的廠商,第一件事就是要兼容CUDA。
但 CUDA本質(zhì)上是什么?它其實就是一個高級語言接口,是英偉達的一套API。從技術(shù)角度看,兼容一個API并不難,有一個編譯器,就可以兼容CUDA的接口。但真正難的,是兼容 CUDA 背后的軟件生態(tài)。
生態(tài)從來不只是一個 API,它包含了大量算力庫、函數(shù)庫、開發(fā)工具和工程實踐,這是一套非常復(fù)雜、長期演進的體系,工作量極其龐大。
也正因為如此,現(xiàn)在國家層面也意識到這個問題的重要性,正在推動大家一起做生態(tài)建設(shè)。從這個角度看,打造我們自己的算力生態(tài)是非常有必要的。除了CUDA,英特爾、AMD 也都在做各自的生態(tài),我們?nèi)绻蛔觯陀肋h(yuǎn)受制于人。
06
誰能把芯片做成?軟件生態(tài)決定成敗
從整體來看,我們現(xiàn)在的算力體系仍然存在不小的缺口和瓶頸。中國乃至全球范圍內(nèi),半導(dǎo)體的發(fā)展速度都在放慢,但算力需求卻在持續(xù)增加。中國還面臨制程方面的限制,這就決定了我們必須通過跨學(xué)科交叉,在系統(tǒng)、軟件和算法層面,去尋找實際性能的突破。
![]()
算力的發(fā)揮,靠的不只是硬件。硬件當(dāng)然是基礎(chǔ),但硬件的峰值性能,本質(zhì)上只是一個指標(biāo)。真正的性能提升,很大一部分來自軟件優(yōu)化。
做高性能計算的人都知道,LINPACK可以把整機效率跑到60%~70%,但LINPACK只是測試程序,不是真實應(yīng)用。真正的應(yīng)用軟件,能跑到整機20%~30%的效率已經(jīng)非常不容易。這里面還有很大的優(yōu)化空間。
![]()
我們的芯片峰值性能可能很難做到最高,但如果能打破硬件和軟件之間的隔閡,在軟件、編譯、系統(tǒng)層面多做一些優(yōu)化,即便在峰值性能相對低一些的芯片上,也完全有可能獲得不錯的應(yīng)用效果。這是未來非常重要的一項工作。
另外,現(xiàn)在大家都在做 GPGPU,但GPU最基本的能力同樣重要,比如紋理生成、圖案著色、光照和陰影處理等。現(xiàn)在有些GPGPU已經(jīng)發(fā)生了“異化”,只能計算,不能渲染。但如果我們真的要實現(xiàn)從小說生成電視劇,不僅需要 GPGPU 的計算能力,也同樣需要GPU的圖形渲染能力。AIGC不只是生成文章,還應(yīng)該能生成影視內(nèi)容。
計算芯片產(chǎn)業(yè)的發(fā)展,本身是一個螺旋式上升的過程。早期系統(tǒng)廠商都會自己做CPU,因為 CPU是計算機系統(tǒng)的核心;后來由于量產(chǎn)和成本壓力,x86快速發(fā)展,系統(tǒng)廠商逐步退出;而現(xiàn)在,系統(tǒng)廠商和平臺廠商又重新開始自研芯片。
美國的互聯(lián)網(wǎng)巨頭如此,中國的互聯(lián)網(wǎng)廠商、系統(tǒng)廠商也都在自研CPU。自研自用這條路能不能走通,關(guān)鍵并不在于“能不能做芯片”,而在于:能否為產(chǎn)品和服務(wù)提供足夠大的增值,能否掌控全棧軟件體系。
蘋果是一個非常典型的成功案例。從跟摩托羅拉和IBM聯(lián)合開發(fā)PowerPC CPU,到轉(zhuǎn)向采用Intel CPU,再到基于Arm架構(gòu)自研CPU,它之所以能成功,原因其實非常簡單:通過自研高性能芯片,配合自有的軟件體系,形成非常領(lǐng)先的用戶體驗,在此基礎(chǔ)上把產(chǎn)品賣得很貴。手機賣得貴,筆記本也賣得貴。其它廠商如果做不到這一點,僅僅自研芯片,最終大概率都會失敗。只有軟硬件通吃,才能真正賣得貴。
我們要不要再搞新的指令系統(tǒng)?我個人的看法是:架構(gòu)創(chuàng)新不需要依賴新的指令系統(tǒng)。指令系統(tǒng)只是硬件和軟件之間交流的語言,我們沒必要不斷增加新的語言。如果要做創(chuàng)新,在現(xiàn)有指令體系下完全可以做,RISC-V 已經(jīng)足夠了。
歸根結(jié)底,誰能把芯片做成功?不管是CPU還是GPU,只有真正重視軟件和應(yīng)用生態(tài),才有成功的可能。“軟件定義一切”,這個“一切”,同樣包括成功和失敗。
對于平臺廠商和系統(tǒng)廠商來說,如果要自研芯片,一定要有清晰的差異化,并且這個差異化必須能為系統(tǒng)或服務(wù)帶來顯著增值,否則使用成熟的商用芯片,反而是更理性的選擇。
最后我還是希望,大家能把RISC-V作為一個統(tǒng)一的指令系統(tǒng)方向。無論是CPU、GPU還是其他處理器,都盡量統(tǒng)一到同一架構(gòu)平臺上,減少重復(fù)投入。
![]()
我們常說“三國定律”,合久必分,分久必合。過去是CPU為中心,現(xiàn)在是CPU + XPU的異構(gòu)體系,未來也許會回到以CPU為中心的新一體化架構(gòu)。RISC-V具備一定的包容性,有機會融合 CPU、GPU 和 AI 處理器的特性,吸收開源體系的力量,逐步突破 CUDA 的生態(tài)壁壘。
以上就是我全部的分享,謝謝大家。





京公網(wǎng)安備 11011402013531號