編輯:KingHZ
離開OpenAI,只是為了meta天價(jià)薪資?Jason Wei離職博客,泄露天機(jī):未來AI更令人向往!
硅谷人才爭奪戰(zhàn),火熱升級(jí)!
過去,是OpenAI從谷歌等公司吸引人才;現(xiàn)在,meta直接砸錢搶人。
頂尖AI人才的薪酬包可謂天價(jià),1億美元還是扎克伯格給的起步價(jià)!
思維鏈之父、華人AI科學(xué)家Jason Wei,就是從谷歌跳槽到OpenAI,剛剛又跳槽到meta。

在AI領(lǐng)域,Jason Wei非常高產(chǎn)。
根據(jù)谷歌學(xué)術(shù)統(tǒng)計(jì),他有13篇被引次數(shù)超過1000的論文,合作者包括Jeff Dean、Quoc V. Le等知名AI研究員,參與了OpenAI的GPT-4、GPT-4o、o1、深度研究等項(xiàng)目。

離職消息被媒體爆出之前,他發(fā)表了兩篇博客,或許能讓我們看出他為何選擇離開
意外的是,這些靈感都來自強(qiáng)化學(xué)習(xí)!


RL之人生啟示
天生我材必有用
過去一年,他開始瘋狂學(xué)習(xí)強(qiáng)化學(xué)習(xí),幾乎每時(shí)每刻都在思考強(qiáng)化學(xué)習(xí)。
RL里有個(gè)核心概念:永遠(yuǎn)盡量「on-policy」(同策略):與其模仿他人的成功路徑,不如采取行動(dòng),自己從環(huán)境中獲取反饋,并不斷學(xué)習(xí)。
當(dāng)然,在一開始,模仿學(xué)習(xí)(imitation learning)非常必要,就像我們剛開始訓(xùn)練模型時(shí),必須靠人類示范來獲得基本的表現(xiàn)。但一旦模型能產(chǎn)生合理的行為,大家更傾向于放棄模仿,因?yàn)橐畲蠡P酮?dú)特的優(yōu)勢,就只能依靠它自己的經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)。
一個(gè)很典型的例子是:相比用人類寫的思維鏈做監(jiān)督微調(diào),用RL訓(xùn)練語言模型解數(shù)學(xué)題效果更好。
人生也一樣。
我們一開始靠「模仿」來成長,學(xué)校就是這個(gè)階段,合情合理。
研究別人的成功之道,然后照抄。有時(shí)候確實(shí)有效,但時(shí)間一長就能意識(shí)到,模仿永遠(yuǎn)無法超越原版,因?yàn)槊總€(gè)人都有自己獨(dú)特的優(yōu)勢。
強(qiáng)化學(xué)習(xí)告訴我們,如果想超越前人,必須走出自己的路,接受外部風(fēng)險(xiǎn),也擁抱它可能給予的獎(jiǎng)勵(lì)。
他舉兩個(gè)他自己更享受、卻相對小眾的習(xí)慣:
讀大量原始數(shù)據(jù)。
做消融實(shí)驗(yàn),把系統(tǒng)拆開看每個(gè)部件的獨(dú)立作用。
有一次收集數(shù)據(jù)集時(shí),他花了幾天把每條數(shù)據(jù)讀一遍,然后給每個(gè)標(biāo)注員寫個(gè)性化反饋;數(shù)據(jù)質(zhì)量隨后飆升,他也對任務(wù)有了獨(dú)到見解。
今年年初,他還專門花了一個(gè)月,把過去研究中「瞎搞」的決策逐條消融。雖然費(fèi)了不少時(shí)間,但因此弄清了哪種RL真正好用,也收獲了很多別人教不會(huì)的獨(dú)特經(jīng)驗(yàn)。
更重要的是,順著自己的興趣去做研究不僅更快樂,我也感覺自己正在打造一個(gè)更有特色、更屬于自己的研究方向。
所以總結(jié)一下:模仿確實(shí)重要,而且是起步的必經(jīng)之路。但一旦你站穩(wěn)腳跟,想要超越別人,就得像強(qiáng)化學(xué)習(xí)那樣on-policy,走自己的節(jié)奏,發(fā)揮你獨(dú)有的優(yōu)勢與短板





京公網(wǎng)安備 11011402013531號(hào)