作者:金旺
由于打破了芯片設計的“存儲墻”和“功耗墻”,實現了計算單元與存儲單元的集成,顛覆了馮·諾依曼架構的存算一體技術正在成為大模型時代設計AI芯片的一條全新技術路徑。
不過,在大模型還未引爆全球的2020年,吳強基于存算一體技術創業做AI芯片時,當時的后摩智能并不被大家所理解。
后摩智能創始人、CEO吳強回憶起創業之初,當時被問到最多的是,“既然存算一體技術這么好,為什么別人沒有做,只有你們在做?”
作為第一批將存算一體技術從學術界應用到工業界的人,被質疑在所難免。
不過,當四年后,以大模型技術為代表的人工智能新范式成為這個社會主流意識時,存算一體技術的優勢開始顯現,主流芯片廠商也開始進入這一領域。
這時的吳強需要面對的問題成了,“面對其他廠商的入局和競爭,后摩智能如何形成自己的護城河?”
就在WAIC 2025前夕,后摩智能正式對外發布了后摩漫界M50,這顆面向端邊大模型的AI芯片,就是吳強給出的答案。
![]()
01 破解大模型的計算瓶頸
2020年,在鮮有主流芯片廠商會提及存算一體計算架構時,在國內外頭部科技廠商任職多年、負責過多個AI芯片項目的吳強決定創業,當時他為后摩智能選定的創業方向正是存算一體技術。
吳強之所以會選擇這樣一條路創業,有兩個原因:
第一,吳強早年間在美國普林斯頓大學博士期間,論文的研究方向就是高能效比芯片和編譯器,自那時起他就知道,要真正解決“存儲墻”、“功耗墻”問題,存算一體是一條必然路徑;
第二,在英特爾、AMD、英偉達這樣巨頭林立的芯片領域,要想參與到全球競爭中,就需要通過創新技術進行彎道超車。
于是,吳強帶領后摩智能團隊基于存算一體這一冷門技術路線開始研發AI芯片,到現在已經有四年多的時間。
![]()
后摩智能拿出第一顆存算一體芯片是在2023年。
2023年5月,后摩智能正式對外發布首款存算一體芯片鴻途H30,這款應用于智駕領域的存算一體芯片最高物理算力達到了256TOPS,典型功耗為35W,存算一體技術的高算力、高帶寬、低功耗等特性首次顯現。
然而,2023年下半年,智能駕駛領域已經格局逐漸趨于穩定,留給新入局者的機會已經不多,由于后摩智能第一代AI芯片做得算力很大,算力大就意味著成本高,彼時低成本已經成為智能駕駛市場一大趨勢,智能駕駛AI芯片的價格甚至達到了千元級。
在無法看到L3級,乃至更高階自動駕駛的年代,拼算力成本成了市場上的主流聲音,吳強回憶稱,“由于我們第一代芯片的算力太超前,和當時市場存在一個gap,再面向智能駕駛領域造一顆心的芯片,將會錯過這個市場的窗口期,我們在2023年開始思考轉型。”
創業團隊沒有大公司的通病,轉向并不算難,于是,后摩智能在2023年開始尋找新的機會。
2023年,ChatGPT已經火遍全球,中國大模型市場正在經歷著百團大戰,大模型已經成為了當下時代趨勢。
當時的吳強發現,大模型中的Prefill算力非常密集,但是到了Decoding階段,開始對帶寬要求很高,所以大模型既是算力密集型,又是訪存密集型的AI應用。
![]()
這樣的應用需求與存算一體計算架構的技術能力高度吻合,發現這樣的市場需求后,吳強和他的團隊非常興奮,在2023年年底決定轉向,基于大模型的應用需求研發存算一體AI芯片。
在這個過程中,后摩智能團隊投入大量資源深入研究了大模型芯片架構、設計、量化等問題,在過去兩年里陸續在國際頂刊上發表了30多篇論文,甚至其中一篇與北京大學合作的關于在大模型推理架構中DRAM存算用的研究成果入選了2025 ISCA最佳論文獎。
這是吳強在國外讀博士期間,每位學生都夢寐以求計算機架構國際頂級會議。
也是基于這兩年的技術積累,在WAIC 2025前夕,后摩智能兩年磨一劍的后摩漫界M50芯片正式對外亮相。
![]()
02 大模型計算權重下放,90%需求在端邊
說起來,M50并不是后摩智能面向大模型領域推出的第一顆AI芯片。
早在2024年6月,后摩智能就面向大模型領域推出了第一顆基于存算一體計算架構的AI芯片,后摩漫界M30。
這顆芯片首先應用到了中國移動的一體機產品中,并在2024年年初隨著中國移動在MWC 2024上正式對外展出,當時基于后摩漫界M30運行60B大模型的效果超出了后摩智能團隊的預期,這進一步堅定了后摩智能做大模型AI芯片的決心。
與此同時,中國移動旗下的北京中移數字新經濟產業基金和上海中移數字轉型產業基金后來也成了后摩智能的投資方。
錨定大模型AI芯片后,基于對大模型的深入研究,吳強又有了兩個判斷:
第一,大模型的重心將逐漸從訓練向推理側遷移,未來大模型推理對AI芯片會有更多需求;
第二,大模型將從云端智能向端邊智能遷移,在未來端邊云混合智能體系中,90%的數據處理需求將會來自端和邊。
![]()
基于這兩大趨勢判斷,后摩智能將下一代芯片,也就是這次發布的后摩漫界M50定位到了端邊大模型應用場景。
后摩漫界M50采用存算一體計算架構,芯片大小只有20×23mm,典型功耗進一步控制到了10W,單芯片算力最高可達160TOPS,配備最大48GB內存和153.6GB/s帶寬,目前已經實現了7B/8B大模型25+Tokens/s的推理速度。
不過,后摩漫界M50不僅僅能夠支持7B/8B大模型,據吳強在媒體溝通會上透露,這款芯片已經完成了對70B參數的deepseek的適配,最大可以支持100B參數大模型。
這樣的后摩漫界M50,是后摩智能過去兩年的研發成果,而之所以這顆芯片能實現如此高的能效,是因為后摩智能在存算一體化計算架構上的技術突破,這又包括存算IP和IPU架構兩個方面。
在存算IP上,后摩智能演進到了第二代,在權重加載電路、加法樹架構、加法樹物理實現、控制電路以及時序電路優、SRAM電路上都進行了全新的優化設計,在此過程中,后摩智能團隊就可測性、可靠性,以及存算成本、電源穩定性、面效比等方面都進行了深入研究,并將這些成果集成到了M50芯片上。
在IPU架構上,后摩智能同樣向前邁進了一代,對于第二代天璇架構,吳強特別介紹了團隊在以下兩個方面進行的優化:
![]()
第一,通過自適應計算周期壓縮實現彈性加速。
在GPU中已經得到普遍應用的稀疏加速的技術原理是,如果某個權重為0,就可以直接跳過,以此實現計算加速,而如果這個權重不是0,GPU中的稀疏算力將會很難被利用起來。
相較而言,存算一體AI芯片是基于比特串行的計算,這就使得針對某個輸入,不需要所有值都為0,而是只要比特位內有0就可以按照比特位進行優化,進行彈性加速。
第二,浮點模型直接運行,提升應用效率。
基于第二代天璇架構M50運行的大模型,針對FP16的浮點模型可以直接運行,只有特殊場景下才需要做額外的量化工作,由此提升了模型的適配和應用效率。
為了更好地發揮出M50芯片的能力,后摩智能還為這代芯片重構了編譯器工具,研發了支持主流深度學習框架、能夠自動搜索最優優化策略、提供原生浮點算力支持的后摩大道編譯器。
此外,基于后摩漫界M50,后摩智能還同步推出了力系列M.2卡、力謀系列加速卡及計算盒子等硬件組合,形成了覆蓋移動終端與邊緣場景完整的產品矩陣。
![]()
03 AI終端潛力,開始加速釋放
2022年11月30日,OpenAI正式對外發布了ChatGPT,作為大模型時代第一個超級應用,ChatGPT僅用了2個月就達到了1億用戶。
更為瘋狂的是,2024年面世的deepseek,達到1億用戶量,僅僅用了兩周時間。
這樣的現象級大模型產品的出現,讓吳強意識到,大模型時代的產品底層邏輯已經改變。
互聯網產品是通過連接產生價值,只有擁有一定用戶量形成網絡效應才能產生價值,而大模型產品發展更快速,可以在很短時間能成長為超級應用,直接創造生產力,產生價值。
那么,后摩智能當下的目標商業市場是在哪里呢?
吳強給出的答案是:消費終端、智能辦公、智能工業、機器人。
這是吳強為后摩智能商業化發展制定的方向,也是后摩漫界M50最先落地方向。
這其中,在發布會上,吳強也進一步透露了,諸如聯想的下一代AI PC、訊飛聽見的下一代智能語音設備、中國移動的5G+AI應用落地設備,都將是后摩智能面向端邊大模型布局的后摩智能M50的意向客戶。
![]()
值得注意的是,吳強同樣看好如今處于風口上的具身智能市場,他告訴我們,“機器人對功耗更敏感,對AI芯片有更高要求,也是我們的機會之一。”
據悉,后摩智能如今已經在與機器人廠商合作,在具身智能領域進行提前布局。





京公網安備 11011402013531號