深圳理工大學唐志敏：異構計算已成必然，軟件決定芯片勝負

IP屬地中國·北京 雷峰網 時間：2025-12-24 12:16:37

作者｜包永剛
編輯｜林覺民
2025年12月12-13日，第八屆GAIR全球人工智能與機器人大會在深圳·博林天瑞喜來登酒店正式啟幕。
作為AI 產學研投界的標桿盛會，GAIR自2016年創辦以來，始終堅守“傳承+創新”內核，始終致力于連接技術前沿與產業實踐。
在人工智能逐步成為國家競爭核心變量的當下，算力正以前所未有的速度重塑技術路徑與產業結構。13日舉辦的「AI 算力新十年」專場聚焦智能體系的底層核心——算力，從架構演進、生態構建到產業化落地展開系統討論，試圖為未來十年的中國AI產業，厘清關鍵變量與發展方向。
深圳理工大學算力微電子學院院長、龍芯 CPU 與海光 CPU 創始人唐志敏發表了題為《XPU的未來——軟件決定成敗》的主題演講。
唐老師指出，算力不僅是硬件性能的體現，更是一種在資源與時間約束下完成任務的能力體系。在這一背景下，訓力、推力等新型算力能力正在逐步形成，推動人工智能從語言理解向多模態生成發展。
他強調，隨著生成式 AI 對算力需求的快速增長，單靠 CPU 已無法滿足現實需求，異構計算（CPU+XPU）成為必然選擇。但硬件本身并非決定因素，真正影響算力釋放的，是軟件與應用生態。他通過對x86、Arm和RISC-V的分析，指出生態慣性和軟件兼容性在商業化和技術落地中起到決定性作用，生態成熟度往往比硬件性能更能決定芯片成敗。
唐志敏也強調，軟件定義一切，這不僅意味著應用開發與性能優化，更決定了算力芯片的長期競爭力和產業格局。
在算力體系演進中，硬件是基礎，但軟件和生態才是真正的“決定因素”。無論是 CPU、GPU 還是未來的 XPU，掌握和構建完整的軟件生態，才能在高速增長的算力需求與復雜的技術挑戰中立于不敗之地。
以下為唐志敏老師的精彩演講內容，雷峰網作了不改變原意的整理與編輯：
從“算力”到 Computility：算力正在被重新定義
“算力”其實是中國人自己創造出來的一個詞。以前在計算機領域，更多講的是performance（性能），而不是算力。中國人什么事情都喜歡講“力”，比如體力、臂力、腦力，現在又有了算力。
既然是我們自己創造的詞，那怎么翻譯成英文？有人翻成Computing Power，但這個詞我覺得不太好，聽起來就很費電，現在的算力確實費電，但我們并不希望算力特別“更費電”。
所以有計算所的老師創造了一個新詞，叫 Computility，把Compute（計算）和Utility（設置）合在一起，我個人是比較認同這個說法的。我們希望算力像水、電一樣，成為一種基礎設施。
實際上算力就是：在可接受的資源、可接受的時間內，完成某種計算任務的能力。
在算力這個概念之上，最近幾年又出現了很多新的“力”。比如現在大家講得比較多的：
訓力，就是快速訓練出大模型的能力；推力，就是基于大模型快速推理、生成結果的能力。
未來還可能會有什么力？我自己也做過一些暢想。現在的大模型已經可以理解語言，也可以生成視頻，GPU 可以渲染高度逼真的圖形。如果把這些能力結合起來，也許有一天，我們可以把小說直接“演”成電視劇。這種能力，本質上還是算力體系不斷演進的結果。
CPU 不能滿足需求，異構計算成為必然選擇
各種各樣的計算芯片，是算力的基礎。我原來是做高性能計算機體系結構，后來進入半導體行業，會發現處理器和其它很多芯片并不一樣。處理器不是一個單純的硬件，它最復雜的地方在于，要支撐運行非常復雜、規模巨大的軟件系統，所以出現了“軟件定義一切”的概念，比如軟件定義存儲，軟件定義網絡，軟件定義無線電。
雖然摩爾定律逐漸放緩，但算力需求，尤其是生成式人工智能對算力的需求，卻在持續快速增長，而且增長速度遠遠超過了制程和工藝所能帶來的性能提升。

在這種情況下，只靠CPU肯定不能滿足對算力的需求。CPU的主頻和整體架構，二十多年里并沒有發生本質變化，所以我們只能通過CPU + XPU的方式，比如CPU+GPGPU，或者其他的PU，總稱為XPU，和CPU形成異構計算架構，在通用性、性能、能耗和成本之間尋找平衡。
XPU 的本質：硬件只是資源，性能取決于軟件
但異構計算帶來了編程、軟件兼容性兩大難題：
編程變得更加困難；原來只在CPU上運行的程序，如今要分為兩部分，一部分仍在CPU上，另一部分放到XPU上運行。
從計算機體系結構的角度看，我習慣把架構分成三類。
第一類是比較激進的結構，主要靠硬件做動態優化。為了運行復雜應用，硬件要分析指令之間的并行性，典型代表就是傳統 CPU。
第二類是比較保守的結構，硬件并不去做復雜分析，而是提供大量運算部件和存儲資源，至于這些資源怎么用，主要依賴軟件，比如GPU和各種XPU。
第三類是動靜態優化相結合的結構。
XPU本質上屬于保守型結構。硬件只負責把計算資源提供出來，并不保證性能一定能發揮出來。性能能不能出來，更多取決于軟件、編譯器和程序員。
自動并行化這個方向，學術界和工業界研究了幾十年，效果始終有限。現實中，真正能把性能跑出來的，還是依賴經驗豐富的程序員和成熟的軟件體系。
也正因為這樣，我一直強調，算力芯片真正面臨的核心問題，不是硬件架構，而是應用生態。

所謂生態，就是能在處理器上運行的所有軟件的總和，包括應用軟件、操作系統、編譯器、中間件、函數庫和開發工具。最終真正產生生產力的，是應用軟件，而不是芯片本身。
生態慣性：x86、Arm與RISC-V的現實邊界
在CPU領域，x86生態經過四五十年的發展，已經有非常高的市場占有率和生態慣性。哪怕是英特爾自己，也很難去推動一個不兼容x86的體系。
根據Gartner給出的全球企業軟件的情況，經過多年發展，x86軟件市場越來越大，基于x86軟件的銷售收入是3000多億美元。為x86開發軟件的費用，每年大概是600億美元。而全球服務器市場總的收入，大概是800億美元。也就是說，一年賣出800億美元的服務器，為了開發x86軟件，每年要新增600億美元。可見軟件開發需要耗費大量精力。

在手機領域很成功的Arm也想要進入服務器領域，可以看到一個又一個Arm架構服務器公司屢戰屢敗。他們的失敗有各種各樣的原因，我認為Arm架構在服務器領域要成功需要有兩個原因：一個原因是掌握全棧技術的大公司不再使用x86，這是Arm的機會，典型的比如蘋果不用x86，自己掌握軟件棧可以切換。另一個原因是端云融合，手機上和云端都用Arm架構，這樣手機上的應用比較容易遷移到云端，包括云游戲等，這樣Arm在服務器市場才更容易成功。
除了Arm，RISC-V也是一個大家都在關注的方向，但RISC-V到底靈不靈？它的開放性確實帶來了新的可能性，但開放和開源本身，并不自動等于成功，開放的CPU有很多，比如OpenRISC、OpenSPARC、OpenPower現在也開放了。
也有人說Arm太貴，用RISC-V可以省錢。但我之前做芯片公司的時候，一直買Arm的IP授權，也沒覺得有多貴。若干年前，Arm一年的收入十幾億美元，如今Arm每年收入三四十億美元，Arm收入的增加是在很多公司使用RISC-V的背景下，這從某個角度說明了做RISC-V的公司需要反思。
還有人說RISC-V更適合做研究，因為可以隨便修改。但我認為做研究用什么架構都可以，不一定要用RISC-V，用x86、Arm照樣可以做研究，這不是理由。
RISC-V開放，很多人希望用開源硬件去走一條類似開源軟件的發展路徑，但我一直覺得，這條路并沒有那么容易。和開源軟件相比，開源硬件的難度要大得多。
從現實情況看，現在全球的 RISC-V 都面臨著商業化的困難。我看到一條新聞，Jim Keller——這個行業里做CPU架構的頂級人物——創辦了一家做RISC-V的公司Tenstorrent，最近開始裁員了。包括Tenstorrent在內美國好幾家公司做出了RISC-V芯片，但問題是不知道賣給誰。
目前相對做得好一些的，反而是一些軟件相對簡單的嵌入式場景，比如做存儲的企業，把 RISC-V 用來做存儲控制器。這類場景軟件非常簡單，確實能用，也用得不錯。但一旦進入計算領域RISC-V面臨的問題就多了很多。
這背后反映的，不只是軟件生態的問題，硬件生態本身也還不成熟。只要是 CPU，就一定會走向多核，多核就涉及片上互聯網絡，Arm在片上互聯這件事上，已經有比較成熟的解決方案，但RISC-V還沒有。
于是就出現一種很現實的困境：想做RISC-V CPU，但片上互聯又要去找Arm買。Arm愿意把互聯網絡賣給你，也想順便把CPU核一起賣給你。這就是RISC-V目前在工程層面面臨的實際困難，也說明還有很長的路要走。
為什么兼容 CUDA 容易，復制 CUDA 生態極難？
也有人認為，將來指令系統可能沒那么重要，因為現在是“軟件定義一切”，上層可以用 Python、Java 這些平臺無關的高級語言。但從實際發展來看，情況并不是這樣。以Intel為例，無論是過去的AVX-512、SGX，還是現在圍繞人工智能不斷加入的新指令，都說明：硬件指令的直接支持，對性能和能效始終是有價值的。
在XPU領域也是類似的情況。現在大家都在講兼容 CUDA，因為 CUDA 的生態確實做得好。很多做其他XPU、AI加速器的廠商，第一件事就是要兼容CUDA。
但 CUDA本質上是什么？它其實就是一個高級語言接口，是英偉達的一套API。從技術角度看，兼容一個API并不難，有一個編譯器，就可以兼容CUDA的接口。但真正難的，是兼容 CUDA 背后的軟件生態。
生態從來不只是一個 API，它包含了大量算力庫、函數庫、開發工具和工程實踐，這是一套非常復雜、長期演進的體系，工作量極其龐大。
也正因為如此，現在國家層面也意識到這個問題的重要性，正在推動大家一起做生態建設。從這個角度看，打造我們自己的算力生態是非常有必要的。除了CUDA，英特爾、AMD 也都在做各自的生態，我們如果不做，就永遠受制于人。
誰能把芯片做成？軟件生態決定成敗
從整體來看，我們現在的算力體系仍然存在不小的缺口和瓶頸。中國乃至全球范圍內，半導體的發展速度都在放慢，但算力需求卻在持續增加。中國還面臨制程方面的限制，這就決定了我們必須通過跨學科交叉，在系統、軟件和算法層面，去尋找實際性能的突破。

算力的發揮，靠的不只是硬件。硬件當然是基礎，但硬件的峰值性能，本質上只是一個指標。真正的性能提升，很大一部分來自軟件優化。
做高性能計算的人都知道，LINPACK可以把整機效率跑到60%～70%，但LINPACK只是測試程序，不是真實應用。真正的應用軟件，能跑到整機20%～30%的效率已經非常不容易。這里面還有很大的優化空間。

我們的芯片峰值性能可能很難做到最高，但如果能打破硬件和軟件之間的隔閡，在軟件、編譯、系統層面多做一些優化，即便在峰值性能相對低一些的芯片上，也完全有可能獲得不錯的應用效果。這是未來非常重要的一項工作。
另外，現在大家都在做 GPGPU，但GPU最基本的能力同樣重要，比如紋理生成、圖案著色、光照和陰影處理等。現在有些GPGPU已經發生了“異化”，只能計算，不能渲染。但如果我們真的要實現從小說生成電視劇，不僅需要 GPGPU 的計算能力，也同樣需要GPU的圖形渲染能力。AIGC不只是生成文章，還應該能生成影視內容。
計算芯片產業的發展，本身是一個螺旋式上升的過程。早期系統廠商都會自己做CPU，因為 CPU是計算機系統的核心；后來由于量產和成本壓力，x86快速發展，系統廠商逐步退出；而現在，系統廠商和平臺廠商又重新開始自研芯片。
美國的互聯網巨頭如此，中國的互聯網廠商、系統廠商也都在自研CPU。自研自用這條路能不能走通，關鍵并不在于“能不能做芯片”，而在于：能否為產品和服務提供足夠大的增值，能否掌控全棧軟件體系。
蘋果是一個非常典型的成功案例。從跟摩托羅拉和IBM聯合開發PowerPC CPU，到轉向采用Intel CPU，再到基于Arm架構自研CPU，它之所以能成功，原因其實非常簡單：通過自研高性能芯片，配合自有的軟件體系，形成非常領先的用戶體驗，在此基礎上把產品賣得很貴。手機賣得貴，筆記本也賣得貴。其它廠商如果做不到這一點，僅僅自研芯片，最終大概率都會失敗。只有軟硬件通吃，才能真正賣得貴。
我們要不要再搞新的指令系統？我個人的看法是：架構創新不需要依賴新的指令系統。指令系統只是硬件和軟件之間交流的語言，我們沒必要不斷增加新的語言。如果要做創新，在現有指令體系下完全可以做，RISC-V 已經足夠了。
歸根結底，誰能把芯片做成功？不管是CPU還是GPU，只有真正重視軟件和應用生態，才有成功的可能。“軟件定義一切”，這個“一切”，同樣包括成功和失敗。
對于平臺廠商和系統廠商來說，如果要自研芯片，一定要有清晰的差異化，并且這個差異化必須能為系統或服務帶來顯著增值，否則使用成熟的商用芯片，反而是更理性的選擇。
最后我還是希望，大家能把RISC-V作為一個統一的指令系統方向。無論是CPU、GPU還是其他處理器，都盡量統一到同一架構平臺上，減少重復投入。

我們常說“三國定律”，合久必分，分久必合。過去是CPU為中心，現在是CPU + XPU的異構體系，未來也許會回到以CPU為中心的新一體化架構。RISC-V具備一定的包容性，有機會融合 CPU、GPU 和 AI 處理器的特性，吸收開源體系的力量，逐步突破 CUDA 的生態壁壘。
以上就是我全部的分享，謝謝大家。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

鏖戰2025年，大模型圍著開源轉

“十四五”期間，我國5G用戶普及率從15%增至83.9%

舊金山一場停電，為什么馬斯克會“幸災樂禍”？

魯豫對話鴻蒙開發者：把興趣寫進系統里的年輕人

華碩終于發布RTX 5090D v2顯卡！OC版已正式上架：19999元

張一鳴押注、豆包加持！字節AR眼鏡外觀圖曝光

全站最新

鏖戰2025年，大模型圍著開源轉

“十四五”期間，我國5G用戶普及率從15%增至83.9%

舊金山一場停電，為什么馬斯克會“幸災樂禍”？

魯豫對話鴻蒙開發者：把興趣寫進系統里的年輕人

熱門推薦

OPPO Pad Air5上架開啟預售：售價1899元起

鏖戰2025年，大模型圍著開源轉

V觀財報｜通光線纜：未與SpaceX開展合作

“十四五”期間，我國5G用戶普及率從15%增至83.9%

舊金山一場停電，為什么馬斯克會“幸災樂禍”？

魯豫對話鴻蒙開發者：把興趣寫進系統里的年輕人

華碩終于發布RTX 5090D v2顯卡！OC版已正式上架：19999元

張一鳴押注、豆包加持！字節AR眼鏡外觀圖曝光

四大重磅舉措落地！徐匯AI+區塊鏈融合創新閃耀CCF中國區塊鏈技術大會

舊金山一場停電，為什么馬斯克會“幸災樂禍”？ | 電廠

在AI面前，人類終于不說謊了

iPhone Fold依舊有折痕：蘋果沒有攻克這一行業難題

李想“揮淚”送張驍，新L7 L8明年要打硬仗

九識聯手菜鳥對戰新石器？無人配送再生變

昇思MindSpore引領AI框架邁入“超節點時代”