
![]()
“超算性能的突破與人工智能的深度融合,讓全球氣象預報從「風云莫測」走向「變幻可測」。”
作者丨張夏寧
編輯丨胡敏
12月12日,第八屆 GAIR 全球人工智能與機器人大會于深圳正式拉開帷幕。
本次大會為期兩天,由GAIR研究院與雷峰網聯合主辦,高文院士任指導委員會主席,楊強院士與朱曉蕊教授任大會主席。
作為 AI 產學研投界標桿盛會,GAIR自2016年創辦以來,始終堅守 “傳承+創新” 內核,是 AI 學界思想接力的陣地、技術交流的平臺,更是中國 AI 四十年發展的精神家園。過去四年大模型驅動 AI 產業加速變革,歲末年初 GAIR 如約而至,以高質量觀點碰撞,為行業與大眾呈現AI時代的前沿洞見。
本次峰會之上,清華大學深圳國際研究生院長聘教授,國家超算深圳中心副主任付昊桓以“超智融合支撐下的地球系統模式研發”為主題,為參會者們帶來了一場精彩紛呈的開場報告。
付昊桓教授在講座上分享了超算在地球系統模式研發中的應用、發展歷程、成果及面臨的挑戰,他認為超算與大模型開發具有很多相似之處,同時在地球系統模式的研發當中,超算還要面臨如何應對時空分辨率提升所帶來的算力需求指數級增長,以及如何利用AI進一步高效利用多源觀測數據等挑戰。
付昊桓教授介紹到,近些年來神威等國產超算系統的性能增長,支撐了地球系統模式時空分辨率的顯著提高,實現在一公里層級左右達到一年每天的全球氣候模擬速度。
他表示,地球系統模擬可以利用超算研究全球氣候變化,以科學模型支撐防災減災,并期望在未來可以做到數值智能雙驅動的大灣區百米級氣象預報系統,以百米級的精度構建下一代大灣區氣象模型。
最后,付昊桓教授總結道:“超算和智算思維類似,都是聚全力于一點,用最強算力形成技術的突破和創新,過程中工具需最大限度自動化,性能、效率、規模和穩定性缺一不可。”
![]()
講座完整視頻,詳見鏈接:https://youtu.be/dw4tRbvoENY
以下是付昊桓的現場演講內容,雷峰網作了不改變原意的編輯及整理:
![]()
01
為什么需要用超算模擬地球?
今天非常榮幸參加此次活動。眾所周知,超算的傳統使命是用整臺機器的資源來解決單一核心問題,而地球系統模擬正是超算的經典應用之一。為什么要用超算來做地球模擬?因為科學家無法在真實的地球上進行實驗。研究化學、物理等學科,可在實驗室內便捷地開展實驗,但如果研究當前備受關注的碳達峰、碳中和、氣候變化,以及未來臺風是否會增多等地球氣候的問題,就必須借助超算構建地球的數字孿生模型來進行實驗。因此,基于超算的地球系統模式對于研究全球氣候變化、防災減災,乃至可持續發展都具有重要意義。
這也關聯到近期備受關注的氣候談判。在各種國際場合,氣候變化也已演變為一個政治議題,各國圍繞未來的碳中和計劃、如何減排、減排多少等議題進行磋商。此類談判同樣需要模型支撐。由此可見,地球系統模式在眾多方面發揮著重要作用。
![]()
圖中左上角展示的是全球的地球系統模式的比較,匯總了全球各國的不同模式在過去近百年氣候變化曲線的模擬結果。可以看到,各模型的模擬結果之間存在差異。如何進一步降低模型的不確定性?首先,是提升模式的時空分辨率。例如,深圳的下一代氣象模式,我們目標將其時空分辨率提升至100米。這樣,在臺風來臨時,就能更精準地研判臺風對整個城市的具體影響,但同時這會帶來計算需求的指數級增長。
其次,是新的AI方法。我們對地觀測正在產生海量科學數據,除了用傳統的數據同化方法將數據引入模型外,如何利用AI方法是一大方向。
與此同時,超算架構也在發生巨大變化,特別是2010年以來,我們從同構多核轉向了GPU。規模上,也從百萬核發展到千萬核。當前所有的超算,包括國產超算,除了提供傳統的雙精度、單精度浮點算力,也集成了強大的AI算力。如何有效利用AI性能變得非常重要,這些發展也帶來了新的挑戰。
02
挑戰:指數級增長的算力需求與架構變革
第一個挑戰是,計算機在向前發展,科學也在進步,我們如何解決越來越復雜的模型與機器之間的適配問題?另一個挑戰是觀測數據。太空中約有千余 顆衛星在進行科學觀測,相當于地球每天在進行高精度“自拍”,如何融合這些數據,AI都可以發揮重要作用。
![]()
接下來,我簡要介紹我們在地球系統模擬,或稱數字孿生地球方面,于國產超算上開展的一些工作。首先介紹神威系列超級計算機。大家可能從新聞中有所了解,1998年的首代神威1,為國家氣象局建造,服務于1999年50周年國慶閱兵的氣象保障。當時它還是基于英特爾X86架構的機器,排名不高。而神威在國內外引起關注,始于濟南的神威·藍光。這是第一臺完全采用國產處理器打造的超算,當時吸引了許多美、日專家前來考察。
![]()
而真正憑借全國產處理器獲得世界第一的,是無錫的神威·太湖之光超算。其CPU內核完全自主研發,采用了全國產的眾核片上融合異構架構,分為四個核組,每個核組由一個主核和一個8×8的從核陣列組成,集成了管理與高密度計算器件。連續四次獲得世界第一的神威·太湖之光,也是全球首臺峰值性能超過100 Pflops的機器,并行規模達一千萬核。
![]()
這臺機器問世之初曾面臨一個挑戰:由于采用了全新的國產架構,沒有可直接在其上運行的大型復雜科學計算程序。因此,我們花了三到五年時間,在神威的國產生態上開發了200多個可擴展到百萬核并行的應用。我們還發展了50余項可充分利用整機的新應用。對于程序員而言,使用一臺一千萬核的機器,如同現在用上萬張顯卡訓練大模型,既是巨大挑戰,也極富成就感。神威超算系列有10余項應用入圍國際高性能計算應用最高獎“戈登·貝爾”獎,其中3項獲獎。
![]()
這里列出了一些主要的全新應用領域,涵蓋今天講的地球系統模擬,以及工業仿真、當前備受關注的生物材料、圖計算、生物醫藥數據分析、量子計算、高能物理、天文等,相關一系列生態正在神威平臺上逐步建立起來。
![]()
這是我們2015年在神威上完成的第一個項目,即全系統地球系統模式的移植,包括大氣、海洋、陸面、海冰及耦合器,將其整體遷移到新機器上運行。這項約百萬行代碼的移植工作,由清華和北師大組成的二十多人團隊完成,并在該機器上實現了百萬核規模的高效擴展。
![]()
如此復雜的地球系統模式移植本身是一個典型的復雜軟件工程。因為程序本身復雜,涉及百萬行代碼,需在新機器上運行,且計算分布不均,需對整個代碼進行優化與重構。而且該程序與新架構不適配,需進行全新設計。這類科學計算程序運行與大模型訓練非常相似,需要在全機規模運行一個月甚至數月,對機器穩定性、I/O及整個系統都是巨大挑戰。最后一個挑戰是交叉型人才匱乏,難以找到既懂氣象又懂HPC的人。近年來又面臨一個新挑戰:培養出的這類人才,很快便被從事大模型的公司挖走,因為能勝任這種規模系統調優的人,所面臨的挑戰與大模型領域高度相似。
![]()
在這個基于國產超算的模式研發項目中,我們的第一步是對整個程序進行重構與優化,針對這個復雜模型,我們分不同部分處理,例如其中的動力學部分、求解器部分,這些是相對程序員易懂的部分,我們進行了手動分析和優化。
另一部分是模型中的物理過程,包括云微物理過程、降水過程、輻射過程等。這對程序員是很大的挑戰,因為他們不了解背后的物理機制。因此,我們主要借助自動化工具,對循環進行自動變換,以適配新架構。
![]()
經過初步重構優化后,我們基本實現了百萬核規模的擴展,達到了每天模擬約三年氣候的速度。
![]()
03
從“刻畫現象”到“驅動未來”
在2017年,我們在此基礎上進一步重新設計了整個模型。所謂重新設計,就是針對神威處理器架構的特點,對算法、數據排布、計算過程、并行過程進行全面優化。
由于受生態限制,氣象領域代碼大多用Fortran編寫,所以我們第一步是將Fortran重寫為C,因為當時我們底層編寫的Athread沒有Fortran接口。轉換成C之后,再開展底層優化,從而能夠控制DMA、向量化,并實現Register Communication。
![]()
通過這種方式,我們才能真正實現對這一新處理器架構的利用。我們的一個神威核組(64個從核),在計算密集任務中,可相當于數個至四十多個英特爾核的性能。
![]()
2017年,我們的這項工作也入圍了“戈登·貝爾”獎,這副圖片是我們當時對卡特里娜颶風的模擬,其中展示了熱帶氣旋逐漸形成、逼近美國大陸及消散的過程。這是我們首次嘗試利用氣候模型對此類臺風、颶風現象進行較準確的刻畫。
![]()
之后,我們利用這個模型支持了清華大學的氣候系統模式,參與前述的國際模式比較計劃。這套數據顯著提升了對熱帶氣旋的模擬能力,我們也吸引了美國國家大氣研究中心(NCAR)的科學家合作,在神威上開發了高分辨率地球系統模式,并利用該模式生產了全球首套約750年的高分辨率氣候模擬數據,供國際使用。
![]()
第二步,基于神威·海洋之光,我們進一步向公里級的地球系統模擬探索。海洋之光是神威·太湖之光處理器架構的演進,仍采用核組結構,但核組數從4個增至6個,每個核組仍是一個主核帶64個從核。因為數據的緩存和移動能力至關重要,每個從核內部的緩存架構都得到了提升,因此存儲和整體計算性能也得到了進一步提升。
![]()
在此基礎之上,我們致力于將全球氣候模式的分辨率提升至5公里級。圖片展示的是我們2023年的工作,相比2015年首次移植CESM時,科學家已對氣候模擬做了大量改進,推出了新版本,這個新版本又需要移植到新的超算上。基于前期經驗,我們采用了一種“非侵入式的代碼并行化方案”,核心是基于OpenMP的O2ATH Thread方案,自動將代碼轉換為Athread接口,從而完成了整個代碼主要的并行化工作。
![]()
我們在2023年完成了這項三周內的模式移植探索(a three week porting experiment),從CESM 1.3 到 2.0,代碼約有30%到40%的變動。我們通過這種自動化方式,在三周內完成了這套代碼在新超算系統上的重構與調優過程。
這次工作使性能從最初的每天約模擬5天,提升到最后每天可模擬半年,并且是在全球5公里大氣、3公里海洋的分辨率下實現。2024年,我們進一步引入AI能力,實現了AI增強的全球1公里分辨率,稱為無縫隙的天氣氣候模式。它既可進行短時天氣研究,也可用于長期氣候研究,這也是我們開展此項工作的初衷。
![]()
大家看到的這幾張圖,a圖名為“Blue Marble”,是NASA宇航員在飛船內拍攝的第一張完整地球照片,細節豐富。右上方c圖是1965年首位因氣候模型獲得諾貝爾物理學獎的真鍋淑郎等科學家提出的模型,分辨率約數百公里,較為粗糙。最后一張圖是我們2024年實現的公里級模型,可見其對氣候過程的刻畫已非常接近遙感衛星實時采集的圖像,為HPC與AI進一步融合提供了良好基礎。
![]()
該模型在極端降水的模擬方面效果顯著。
![]()
![]()
在新神威上,模型在弱擴展和強擴展方面均取得了良好的scaling能力。特別在集成AI能力后,可以實現接近全機規模的擴展,同時達到一年每天以上的模擬速度。
![]()
這張圖小結了我們多年來在地球系統模擬方面的進展,包括美國、日本和中國超算在該領域推進的工作。圖中橫軸代表模擬分辨率,縱軸代表模擬速度。分辨率的提升意味著計算量以四次方增長。我們希望在提升分辨率的同時,加快模擬速度,目標是向圖右上角推進。目前,我們大致可以在約1公里分辨率下達到接近一年每天的模擬速度。
![]()
這是我們今年的最新工作,集成了之前在大氣、海洋等方面的工作。在與嶗山海洋實驗室合作的這個工作中,聯合團隊實現了一個名為“AI驅動的高性能便攜式地球系統模型”(AI-Powered Performance Portable Earth System Model),這項工作也入圍了今年戈登·貝爾獎氣候建模類別的最終提名。
![]()
04
展望:超算與智算的融合演進
接下來談談深圳超算二期。前面已部分提及,近期大模型發展如此迅速,其背后是AI的Scaling Law。其實在超算領域也是同樣的核心邏輯,即通過高速互聯將所有處理器連接成整體,形成龐大的計算資源,用以求解極其復雜的問題。這與用數萬張卡訓練大模型的本質相同,其背后需要高度并行可擴展的算法,以及能與算力增長匹配的模型復雜度。
另一個難點在于,超算上運行的多是科學與工程計算,其背后是科學和工程領域的數理方程。因此,算力、軟件必須與科學發現協同發展。
![]()
我簡單做了一個AI與科學計算領域的比較。在通用人工智能領域,過去這些年我們確實看到了近乎線性的有效擴展。其背后是Transformer這一目前業界近乎標準、非常適合并行的強力方法。它與GPU架構高度共生,形成了一套生態。數據方面,擁有大量公開數據集,并有良好的軟件和人才生態。
現在所有AI會議幾乎是計算機學術會議中參與人數最多、發文量最大的,自然吸引了大量研究人員。相比之下,科學計算的優勢在于其背后是可解釋的科學規律,是科學理解轉化的方程和模型。但其缺點是代碼復雜、并行難度高、演進緩慢。
培養一位能進行數理方程建模的研究者需時較長。算力主要依靠國產算力,大約從2013、2014年開始,我們主要基于神威·太湖之光等國產超算。此外,還存在公開數據集少、標注難、軟件生態不完善,以及剛才提到的人才流動性大等問題——超算培養的人才常被大模型團隊吸引。
![]()
回到國家超算深圳中心。在我們2010年一期系統基礎上,二期系統即將上線。時隔15年,其效率將實現巨大提升,從原來的P級峰值雙精度計算性能,提升至預期Linpack持續測試性能達到雙精度2個E,單精度4個EFlops。
該處理器還支持INT 8計算,若換算為INT 8,整機可支持32 EFlops,理論峰值約40 EFlops。深圳超算二期將與鵬城云腦三期背靠背放置。深圳超算二期是傳統超算,云腦三期是AI超算,兩臺機器間有高速光纖互聯。如此大規模的傳統超算與AI超算相連,在全世界可能也屬首例,我們也很期待能探索其在計算上的全新應用。
![]()
國產先進CPU的雙精度浮點算力較高,同時,它既可以做高精度的雙精度浮點計算,又可以做 AI 的計算,當然這也是一個非常高密度集成的方案,最后是 2 萬多節點可以提供持續大概2E以上的計算性能。
![]()
此圖展示了初步的應用成果。在氣象常用應用,如WRF或海浪預報中,均取得了顯著的性能提升,尤其得益于芯片集成的片上內存帶來的高帶寬。
![]()
我們也準備這臺機器上嘗試HPC與AI融合的氣象模型。例如,我本人主持的一個項目是在這臺超算上嘗試構建千萬核可擴展的、公里級的我國區域海陸氣候模式預測系統,核心目標是進行汛期預報,比如在3月份預測我國區域整個汛期(6、7、8月)的降水情況。這是一個非常困難的問題,包括當前的新型氣象大模型也未能很好解決。我們已開始相關優化工作。非常期待高精度模擬與數據驅動大模型結合能產生何種效果。
![]()
在深圳我們希望推進的另一項工作,是構建“國產新一代數值智能雙驅動大灣區百米級氣象預報系統”,包括百米級高精度數值模擬、AI輔助的大樣本集合預報與數據同化技術,以及數值模型與AI模型雙驅動。
![]()
最后總結幾點。從我作為一名超算研究者的角度看,超算與智算的思維非常相似,都是聚全力于一點,用我們最強算力的方式去形成技術的突破和創新。在這個過程中,我們所需的工具也需最大限度地自動化,如代碼遷移、移植、生態運轉等。在所有這些大型計算任務中,性能、效率、規模和穩定性缺一不可。如今,易用的生態愈發重要。重大問題的牽引始終是超算發展的核心驅動力,需要硬件與軟件協同發展。最后,正如之前提到的,我們亟需跨領域復合型人才,并具備系統思維。
我今天的分享就到這里,謝謝大家。
05
對話付昊桓:數值計算與 AI 的深度共生
下面是在演講之后,付昊桓教授的專訪以及現場觀眾的問答環節:
雷峰網:您現在在超算這邊,最核心想做的事情到底是什么?
付昊桓:其實如果從一個比較抽象的層面來總結,我們現在最核心想推動的一件事,就是數值計算和人工智能的深度融合。
地球系統只是一個比較典型、也比較容易被大家理解的例子,但并不是唯一的應用場景。類似的問題,其實在很多科學計算領域都會遇到,比如具身智能、生物醫藥、材料科學等等。只不過地球系統的復雜性、跨尺度挑戰和社會影響都非常突出,所以它經常被拿出來討論。
我們并不是說要單獨把 AI 拿出來做一個“更聰明的模型”,也不是簡單地去提升某一個模型的精度,而是希望從根本上去思考:在科學計算這樣一個長期以數值模擬為核心的方法體系中,AI 到底應該以什么樣的方式介入,才能真正改變我們理解和預測復雜系統的能力。
雷峰網:那為什么地球系統會被您反復作為一個核心例子?
付昊桓:因為地球系統本身,幾乎把科學計算中最難的幾個問題都集中在了一起。首先,它是一個典型的混沌系統。我們常說的蝴蝶效應,本質上講的是系統對初始條件的高度敏感性。哪怕是一個非常微小的擾動,在經過足夠長的時間和足夠復雜的相互作用之后,都可能對整體狀態產生顯著影響。
其次,它是一個極端多尺度的系統。比如說,臺風這種現象,可能發生在幾十公里的尺度上;而降水、對流,往往是公里甚至百米尺度;再往下,還有更微觀的過程,發生在米級甚至更小的尺度上。
更重要的是,這些不同尺度的過程,并不是彼此獨立的,而是相互耦合、彼此影響的。你不能只算大尺度而忽略小尺度,也不能只盯著局部而不看整體。正是這種“所有尺度連在一起”的特性,使得地球系統成為一個非常典型、但也極其困難的研究對象。
雷峰網:今年我們觀察到市場關于算力討論比較多,就像算力泡沫的這樣聲音一直存在,而國內一些上市公司的算力項目也出現延期或者終止的情況。但是另一方面,頭部科技公司的資本支出一直在高速增長。所以想請教您怎么去判斷當前整個算力市場的一個供需的情況?
付昊桓:其實我自己不是做算力的,但是我們超算培養的很多科研人員,現在確實在做算力。我覺得這里面有一個問題我覺得大家需要去關注,就是算力的投入,到底是不是投硬件就夠了?特別是我們國產算力這一塊。比如從超算的角度來講,長期以來都是硬件的投入比較大,但是軟件的投入相對比較少,我想國產的AI算力可能也面臨這么一個問題。
剛才也提到了其實 GPU 的生態從大概從 CUDA 推出的 2008 年,到現在已經是十幾年的發展才到現在這樣,背后其實英偉達投了大量的資源來做這個生態,所以你說是不是應該大家都去投算力?還是說我們跟應用貼的更近的,應該多投一點資源來做相應算力的軟件生態,特別是基礎框架的軟件?我感覺這塊做的人可能相對還是比較少。
至于說這個算力到底夠不夠,我感覺對我們科研從業人員來講可能還是不太夠。至于說產業發展角度夠不夠,因為我不在這個行業里面,我也很難給出準確的判斷。





京公網安備 11011402013531號