![]()
12月12日,第八屆 GAIR 全球人工智能與機(jī)器人大會(huì)于深圳正式拉開帷幕。
本次大會(huì)為期兩天,由GAIR研究院與雷峰網(wǎng)聯(lián)合主辦,高文院士任指導(dǎo)委員會(huì)主席,楊強(qiáng)院士與朱曉蕊教授任大會(huì)主席。
作為 AI 產(chǎn)學(xué)研投界標(biāo)桿盛會(huì),GAIR自2016年創(chuàng)辦以來,始終堅(jiān)守 “傳承+創(chuàng)新” 內(nèi)核,是 AI 學(xué)界思想接力的陣地、技術(shù)交流的平臺(tái),更是中國 AI 四十年發(fā)展的精神家園。過去四年大模型驅(qū)動(dòng) AI 產(chǎn)業(yè)加速變革,歲末年初 GAIR 如約而至,以高質(zhì)量觀點(diǎn)碰撞,為行業(yè)與大眾呈現(xiàn)AI時(shí)代的前沿洞見。
本次峰會(huì)之上,香港科技大學(xué)講座教授、馮諾依曼研究院院長,IEEE Fellow賈佳亞教授親臨現(xiàn)場,為與會(huì)者們帶來了一場精彩紛呈的開場報(bào)告。
![]()
賈佳亞教授在會(huì)上先是回顧了馮諾依曼研究院成立前后,其帶領(lǐng)相關(guān)團(tuán)隊(duì)從事的一些AI研究以及取得的成果。其中今年的一些最新技術(shù)成果,此前均未在公開場合正式披露:
1、2023年,發(fā)布了LongLoRA技術(shù),成為全球第一個(gè)32K長文本上下文理解大模型技術(shù);
2、2024年,推出 Mini-Gemini—— 該平臺(tái)在 GitHub 上收獲超 3000 個(gè) Star,且為當(dāng)時(shí)開源社區(qū)中性能最強(qiáng)的模型。其以文字系統(tǒng)為基礎(chǔ),融入多模態(tài)理解能力,可實(shí)現(xiàn)高性能圖像理解與推理式圖片生成;
3、今年,推出 Mini-Gemini 新版本,該版本新增完整中文語音系統(tǒng),支持長視頻理解、無樣本音色克隆及跨語言生成,解決中文語音系統(tǒng)混亂的痛點(diǎn)。
此外,智能圖像生成編輯技術(shù)成果豐碩:ControlNeXt輕量化操作可實(shí)現(xiàn)圖像風(fēng)格轉(zhuǎn)換、動(dòng)效生成等。
同時(shí),研究院新推出了全球領(lǐng)先的智能圖像生成編輯統(tǒng)一系統(tǒng)DreamOmni2,有望成為在開源系統(tǒng)里唯一能跟Nano Banana對(duì)齊的系統(tǒng)。據(jù)了解,Nano Banana的研發(fā)投入了10萬張卡,投資規(guī)模超50億美金,而DreamOmni2僅由2名學(xué)生主導(dǎo),用500張卡、耗時(shí)半年便完成開發(fā)。
回顧過去三年的研究探索,賈佳亞提出關(guān)鍵思考:
1、大模型智力是綜合多因素結(jié)果:神經(jīng)元數(shù)量不代表更聰明,更重要的是神經(jīng)之間的連接方式,包括大腦皮層的復(fù)雜度,以及大腦與其他器官的配合程度等。
2、因此未來大模型發(fā)展有兩個(gè)關(guān)鍵要點(diǎn):當(dāng)前Sacling Law是基本發(fā)展方向,但大模型發(fā)展需聚焦“改善神經(jīng)元連接方式”,讓其在同等數(shù)量的神經(jīng)上變得更聰明。從早期的卷積神經(jīng)網(wǎng)絡(luò),到后來的Transformer,都是在改變神經(jīng)元的連接方式。
3、未來人工智能發(fā)展的兩大重心:一是訓(xùn)練方法要從一次性學(xué)習(xí)轉(zhuǎn)為像人一樣的連續(xù)學(xué)習(xí),二是要結(jié)合機(jī)器人、機(jī)械臂等作為人工智能的感知載體,彌補(bǔ)當(dāng)前AI無實(shí)體的短板。
4、AI與大模型的未來發(fā)展模式:會(huì)走向感知機(jī)器與終身學(xué)習(xí)結(jié)合的訓(xùn)練模式,該發(fā)展將在未來五到十年持續(xù)性發(fā)生,并會(huì)帶來巨大進(jìn)步。
以下是賈佳亞院長演講的精彩內(nèi)容,雷峰網(wǎng)作了不改變?cè)獾恼砼c編輯:
大家中午好,我從事計(jì)算機(jī)視覺研究超過20多年,2000年進(jìn)入香港,到現(xiàn)在20多年的時(shí)間。去年我從港中文轉(zhuǎn)到了港科大,我們建立了馮諾依曼研究院,研究院是今年5月份揭牌,成為了香港里程碑式的AI發(fā)展事件,包括香港特區(qū)政府財(cái)政司司長,見證了我們的開幕。
![]()
在短短半年的時(shí)間中,我們邀請(qǐng)了很多專家和領(lǐng)導(dǎo)對(duì)馮諾依曼研究院進(jìn)行了訪問,看了我們很多的研究和進(jìn)展,大家覺得很興奮,覺得這應(yīng)該是香港未來發(fā)展得最快、最領(lǐng)先的AI團(tuán)隊(duì)。
![]()
在這個(gè)團(tuán)隊(duì)中,我們有大概超過30位的年輕教授在從事AI的各項(xiàng)研究。今天我就花點(diǎn)時(shí)間給大家介紹一下我基本沒有在公開場合講過的一些大型技術(shù)。
2023年,我們自己發(fā)布了LongLoRA技術(shù),這是全球第一個(gè)32K長文本上下文理解大模型技術(shù)。
![]()
可以想象一下,2023年,雖然ChatGPT3.5已經(jīng)有了很多大模型的能力,但很多大模型不具備長問答的能力,你只能問它一個(gè)很簡短的問題,它回答你的問題長度沒辦法超過50字或100字,這是2023年的狀態(tài)。當(dāng)時(shí)我的學(xué)生以敏銳的嗅覺,察覺到了這個(gè)問題。
我們發(fā)布這個(gè)模型之后,在全世界得到了很多的關(guān)注和影響力,后來在整個(gè)領(lǐng)域中,所有的大模型開始推動(dòng)長文本上下文理解。我們終于可以讓大模型在人類歷史上第一次開始讀一本書,并對(duì)這本書的內(nèi)容進(jìn)行分析,在此之前,沒有任何的大模型能夠真正讀一部非常長的文本并進(jìn)行總結(jié)和歸納的,大概有四萬多個(gè)Token、兩到三萬字,它進(jìn)行了回答。
![]()
但我們并不滿足,我們又提出了Mini-Gemini,這是GitHub上超過3000個(gè)Star的一個(gè)大產(chǎn)品。當(dāng)時(shí)我們基于了文字系統(tǒng),加入了我們的多模態(tài)理解能力,我們希望能夠做到非常強(qiáng)悍的圖像理解能力和推理式圖片生成。Mini-Gemini是去年發(fā)布的,當(dāng)時(shí)應(yīng)該是整個(gè)開源社區(qū)當(dāng)中最強(qiáng)悍的模型。
![]()
它可以做很多事情,給大家舉幾個(gè)例子。今年,我們不滿足于去年的版本,我們做了一個(gè)新的版本。如果對(duì)人工智能或多模態(tài)系統(tǒng)感興趣的可以應(yīng)用一下這個(gè)模型,它加入了音色克隆技術(shù),在現(xiàn)有的開源大模型當(dāng)中,不具備完整的中文語音系統(tǒng),而這個(gè)模型具備完整的中文語音系統(tǒng)。
![]()
給大家舉幾個(gè)例子。它可以干什么事?它可以讀一個(gè)超長的音頻和個(gè)性化的音色,比如它可以看30分鐘長的TVB News或新聞聯(lián)播,然后它可以把新聞聯(lián)播里所有的內(nèi)容進(jìn)行歸納總結(jié),用戶可以提問任何有關(guān)長視頻的問題,它的回答是可以基于語音的。
![]()
這是一個(gè)清華的公開課,90分鐘的時(shí)長,每一個(gè)想學(xué)大模型的學(xué)生想看這個(gè)視頻,是非常難受的事情,因?yàn)閮?nèi)容很長,需要大家專注的時(shí)間也很長。我們做了一個(gè)視頻的理解,希望用一個(gè)Attention機(jī)制,用戶看完這個(gè)視頻之后,你可以問它任何問題,然后大模型可以通過這個(gè)問題去回答所有的內(nèi)容。比如,它可以用馬斯克、周杰倫、川普的聲音給你進(jìn)行回答。這是一個(gè)完整的中英文音色,在當(dāng)前階段非常具體、有用的中文語音庫存。
![]()
我們還可以做音色克隆,這是無樣本學(xué)習(xí),你不需要在輸入的時(shí)候加入,我只輸入了大概2秒鐘的周杰倫的音色,它就可以復(fù)制出來。再比如鄧紫棋、太乙真人的音色,它是自動(dòng)的,文字輸入進(jìn)去,語音就輸出出來了,音色可以自己調(diào)節(jié)和生成。這就是大模型的當(dāng)前階段,一方面它可以塑造出非常多創(chuàng)造性的事情,另一方面也可以用它做很多不同的事情。
![]()
另外,可以用它做跨音色、跨語言的東西,比如有一個(gè)講座,要求你用英文來進(jìn)行講座,但你的英文并不好,或者需要你用法文,怎么辦?就用它來生成就可以了。
![]()
在這個(gè)過程中,我們也可以輸入一些非常有意思的其他音色,這里我們輸入了網(wǎng)紅馬寶國的音色,然后讓他讀了一段非常正經(jīng)的文章。這一段的話非常難念,大家可以嘗試,中國很多開源模型是讀不好這段話的。現(xiàn)在它已經(jīng)全部開源了,大家可以在網(wǎng)上做嘗試。
![]()
我們之前為什么做這件事情?因?yàn)槲覀儼l(fā)現(xiàn)在整個(gè)市場中,英文系統(tǒng)做得非常強(qiáng)大,而中文系統(tǒng)一直做得非常混亂,我們希望成為第一個(gè)把中文語音系統(tǒng)做得比較完整和完備的團(tuán)隊(duì),這是我們做這個(gè)事情的初衷之一。
![]()
再給大家看看我們做得非常有意思的創(chuàng)造性工作,非常直接,可以拿來做非常有意思的創(chuàng)造性效果。
比如大家可以輸入圖像,這個(gè)叫ControlNeXt,它可以生成完整的、真實(shí)的、自然圖像的表達(dá),包括卡通圖像,或者是任何形式的圖像表達(dá)。我們可以把一張圖像變成任何的風(fēng)格,比如版畫風(fēng)格或中式風(fēng)格。
我的一個(gè)學(xué)生非常希望看到靜態(tài)圖片能夠跳舞,讓它能夠動(dòng)起來,我們用了一個(gè)簡單的模型就做了這個(gè)事情,ControlNeXt是非常輕量化的操作,不需要預(yù)訓(xùn)練,也不需要你有5張卡或10張卡,你只需要有一個(gè)系統(tǒng),就可以實(shí)現(xiàn)以上所有功能。
另外它還可以做超級(jí)分辨率,以前拍攝得非常模糊的圖片,都可以用它變清晰。這不是我們做出來的,是我們放出來這個(gè)系統(tǒng)之后,其他國內(nèi)高校團(tuán)隊(duì)用這個(gè)系統(tǒng)做的嘗試,發(fā)現(xiàn)它在超分方面的能力非常強(qiáng)悍,所以我們也把這個(gè)結(jié)果借鑒過來了。
![]()
這是我們最新出的全球領(lǐng)先智能圖像生成編輯統(tǒng)一系統(tǒng)(DreamOmni2),它強(qiáng)大到,我覺得是在開源系統(tǒng)里唯一能跟Nano Banana對(duì)齊的系統(tǒng)。大家知道,Nano Banana用了10萬張卡,投資規(guī)模在50億美金以上。我們這個(gè)系統(tǒng)大概就是2名學(xué)生,用了500張卡,在半年之內(nèi)就做出來了。
![]()
這個(gè)系統(tǒng)的能力之強(qiáng)悍,證明了這個(gè)世界上在現(xiàn)有的AI研究中是絕對(duì)的聰明制勝。如果你的團(tuán)隊(duì)有一個(gè)聰明的人,可能一個(gè)人能干一百個(gè)人的活。它的功能非常強(qiáng)悍,這個(gè)系統(tǒng)叫DreamOmni2,它可以做廣告設(shè)計(jì)、圖像編輯、虛擬試衣、一鍵美容、改變光照、產(chǎn)品設(shè)計(jì),它的很多功能甚至比Nano Banana還強(qiáng)悍。
![]()
這是外部媒體對(duì)這個(gè)工作的報(bào)道,大家都覺得很震撼。一個(gè)很難的工作,就是把圖里的這盞油燈換成下面的這只狗。以前用photoshop,需要很長的時(shí)間。現(xiàn)在只需要說一句話,請(qǐng)將第一張圖里油燈換成第二張圖的狗,很快就可以完成,它可以做局部替換、局部光照姿態(tài)的融合。
![]()
這也是同一個(gè)例子,“請(qǐng)將第一張圖里的男人替換成第二張圖的女士。”,實(shí)際是非常難的,它涉及到每一個(gè)像素級(jí)的編輯和修改。右邊就是我們做出來的結(jié)果,可以看到它在效果上達(dá)到了專業(yè)美工三天才能干的事情,我們只花了大概10秒鐘,就實(shí)現(xiàn)了這個(gè)功能。
![]()
再比如這張圖上面小孩子哭的表情很有意思,我只是想把這個(gè)小孩子的表情轉(zhuǎn)移到上一張圖里,這是一個(gè)非常抽象的動(dòng)作,但它也可以完成,這是非常抽象概念的轉(zhuǎn)移,大模型中的文本理解、圖像理解、像素編輯等領(lǐng)域,都具有極大的挑戰(zhàn)性。這是一個(gè)很難的問題,我們找到了辦法把這個(gè)問題解決了,也發(fā)表了論文,這也是開源的系統(tǒng),大家可以嘗試修改,可以嘗試去玩。
再比如這張圖,我想把這個(gè)女士的發(fā)型改變一下,也是可以的,甚至連耳環(huán)的樣式都很相似,說明大模型對(duì)像素級(jí)的精準(zhǔn)理解到了極致的狀態(tài),這是非常難做的商業(yè)化水準(zhǔn)的工作。
![]()
它還可以換衣服,比如你拍了張照片,你想知道這個(gè)衣服你穿著合不合適,現(xiàn)在大家都會(huì)進(jìn)行網(wǎng)購,試衣服是很難的,不可能網(wǎng)上試衣服。以前試衣服,要人為編輯,現(xiàn)在我們可以“一鍵試衣”,也就一句話:把第一張圖里的衣服替換成第二張圖里的樣子,就完成了,是一張非常自然的圖像,質(zhì)量達(dá)到了非常高的地步。
![]()
還有一些非常抽象概念的融合,比如上面這張貓的圖片,你非常喜歡,但是你只想改變這張圖的光線、色彩分布,這件事情是非常難做的,對(duì)人而言,這都是非常抽象的概念,但是我們這個(gè)系統(tǒng),可以一鍵把光線這件事情進(jìn)行理解,能夠把貓的照片,從一個(gè)明媚的早晨搬到一個(gè)歌廳里。
![]()
再比如你喜歡這張衣服,但不喜歡它的紋路,這又是非常難做的一件事情,因?yàn)槟愀淖兊牟粌H僅是換衣服,而是不換衣服,僅改變材質(zhì),這件事情可不可以做?也是可以的。如果達(dá)到如此精準(zhǔn)的編輯狀態(tài),你可以想象,這在全世界將有無限的可能性,不管是中國還是美國,我想絕大部分的設(shè)計(jì)師都面臨著失業(yè),因?yàn)樗械氖虑槎紩?huì)被電腦替代掉。
再比如你有一輛非常好的跑車,但你覺得跑車的顏色不好看,你直接對(duì)它說:把第一張圖里的車換成第二張圖里的鼠標(biāo)外觀,如果你感覺這個(gè)效果滿意,你再去4S店換你的車衣就好了。
![]()
再比如這個(gè)杯子,不改變樣式,只改變成下圖霓虹燈的樣子,這也是非常難的事情,系統(tǒng)對(duì)文字的理解已經(jīng)到了極致的狀態(tài),它可以區(qū)分出來什么是文字,什么是紋路,電腦的理解已經(jīng)比人更深刻了。
我們也可以做女式的包包,以前需要設(shè)計(jì)師去設(shè)計(jì)圖像的外觀,現(xiàn)在你只需要把圖像輸入進(jìn)去,就可以把紋路換成你想要的設(shè)計(jì)。這都是以前完全做不到的事情,不管你用什么大模型,不管用開源的、閉源的,不管一個(gè)月花一萬美刀還是一千萬美刀,你都是做不到的,我們這個(gè)月才完成這個(gè)事情。
再比如,你可以讓一匹站著的匹馬坐下,你也可以把一個(gè)雕像從玉的材質(zhì)變成大理石的材質(zhì)。
![]()
再比如把這只狐貍從最右邊的質(zhì)感,變成最左邊水的樣子,也是可以完成的(中間圖效果),它可以變成非常真實(shí)、透明的、水材質(zhì)的狐貍。
![]()
當(dāng)你想把這個(gè)老人的姿勢從左邊的捂臉姿勢,變成右邊的握手姿勢,可不可以?也是可以做的,中間圖片就是呈現(xiàn)的效果,可以看到他的其他部分都不會(huì)發(fā)生改變。
這是我們這個(gè)月跟千問、GPT-4o、Nano Banana做的比較,在很多評(píng)測上我們超越了Nano Banana,這是難以想象的事情,因?yàn)槲覀冎挥昧怂娜f分之一的資源,達(dá)到了這個(gè)效果。人類的未來,很多時(shí)候不見得要拼資源或者拼誰有錢,有很多聰明人能力在這個(gè)過程中殺出來,用最少的資源實(shí)現(xiàn)最漂亮的效果。
![]()
不僅如此,我們還可以把有兩只在打拳的貓換成哈士奇在打拳。經(jīng)常被很多人二創(chuàng)的《甄嬛傳》,我們可以對(duì)這類視頻再次進(jìn)行二次創(chuàng)作,比如變成機(jī)器人給皇后捏肩。
我們還可以對(duì)圖像、視頻的生成做6~20倍的加速。你可以想象,這可以幫全世界節(jié)省多少資源。這個(gè)技術(shù)上了之后,對(duì)于每一個(gè)系統(tǒng)而言,可以節(jié)省95%的能源。
![]()
我們得到了非常多的榮譽(yù)和認(rèn)可,得到了很多國內(nèi)外媒體對(duì)我們的報(bào)道和認(rèn)可。
![]()
在Hugging face上,我們有非常多的引用量。這是黃仁勛當(dāng)時(shí)來我們實(shí)驗(yàn)室參觀時(shí)拍的圖片,它可以識(shí)別出來誰是黃仁勛,下面這張圖可以識(shí)別出來哪些是人、哪些是機(jī)器。
![]()
最后跟大家做個(gè)總結(jié)。現(xiàn)在大模型的路徑對(duì)不對(duì)?這是我在這三年時(shí)間內(nèi)非常深度的思考。
一方面,我們覺得大模型有非常強(qiáng)的創(chuàng)造力。另一方面,我們覺得大模型會(huì)產(chǎn)生很多幻覺。一方面,我們覺得大模型是非常高智商的。但是他又會(huì)犯很多錯(cuò)誤。在早期的時(shí)候,他不會(huì)數(shù)數(shù),可能會(huì)給人類生成 6 個(gè)手指頭,一些很簡單的操作他會(huì)犯錯(cuò),但一些很難的操作他也可以做到,這是為什么?
![]()
大家知道,人是很聰明的,人是世界上最聰明的動(dòng)物,但世界上比人的大腦神經(jīng)元更多的動(dòng)物是什么?像大象、鯨魚,他們腦神經(jīng)中的神經(jīng)元比人類要多,但它們沒有比人更聰明。大家看著大象的腦袋那么大,神經(jīng)元的總量肯定是比人類多的。但神經(jīng)元的數(shù)量并不代表著它更聰明,因?yàn)橹橇κ且粋€(gè)綜合、多因素的結(jié)果,所以不僅是數(shù)量,更重要的是神經(jīng)之間的連接方式,包括大腦皮層的復(fù)雜度,以及大腦與其他器官的配合程度等等。
現(xiàn)在的大模型,在一路高歌猛進(jìn),沿著更大、更強(qiáng)的方向走的時(shí)候,我們需要從另一個(gè)角度思考,大模型做得更大這件事情,只是它其中的一個(gè)因素。另外一個(gè)因素是神經(jīng)元的連接方式。包括我的團(tuán)隊(duì),我們所有學(xué)生以及所有年輕教授做的事情,我們考慮的就是如何改善神經(jīng)元的連接方式,讓同等神經(jīng)數(shù)量的大腦變得更聰明。
這兩個(gè)要點(diǎn)都非常重要,首先,Scaling Law 是基本方向,但是我們研究人員,或者說我們的業(yè)界和學(xué)術(shù)界現(xiàn)在做的事情是:考慮如何改變神經(jīng)元的連接方式,讓它在同等數(shù)量上變得更聰明,這兩者我們都在做。
之前 Transformer 或卷積神經(jīng)網(wǎng)絡(luò),都是在改變神經(jīng)元的連接方式。最早的計(jì)算機(jī)視覺我們叫卷積神經(jīng)網(wǎng)絡(luò),到后來的 Transformer,說到底,他們并沒有在改變神經(jīng)元的數(shù)量大小,他們改變的是連接方式,也就是改變每一個(gè)神經(jīng)元和另外一個(gè)神經(jīng)元之間的連接方式,這個(gè)改變是天翻地覆的,讓整個(gè)大模型的智能提升了大概1萬倍。
相信我們未來繼續(xù)探索,還會(huì)有比 Transformer 更好的架構(gòu),能夠把智能再提升 1 萬倍。
![]()
未來,整個(gè)人工智能發(fā)展的重心是訓(xùn)練方法。訓(xùn)練方法是什么意思?現(xiàn)在大模型的訓(xùn)練是一次性的,一次性學(xué)完1萬億到10萬億參數(shù),而它未來的學(xué)習(xí)方式應(yīng)該像人一樣,連續(xù)學(xué)習(xí),像課程一樣,從小學(xué)一直學(xué)習(xí)到大學(xué),這才是真正的學(xué)習(xí)方式,而不是像現(xiàn)在這樣讓它一次性學(xué)完,這是我們?cè)谘芯窟^程中得到驗(yàn)證的一個(gè)例子。
另外,今天我們看到很多教授講的機(jī)器人,我們?cè)谡麄€(gè)領(lǐng)域里,包括投資界比較熱門的機(jī)器人、機(jī)械臂,這是未來人工智能真正的載體。現(xiàn)在的人工智能是完全沒有載體的,它是一個(gè)虛擬的大腦,它沒有活動(dòng)裝置,它不能像人一樣通過手臂、通過四肢去理解這個(gè)世界。
但未來如果加入了機(jī)器人的控制,人工智能的發(fā)展會(huì)越來越像人。而現(xiàn)在大模型和人之間真正的差距還是相當(dāng)大的。我認(rèn)為人工智能的未來發(fā)展重心是:一個(gè)是改變訓(xùn)練方法,另一個(gè)是感知載體。
我覺得AI與大模型一定會(huì)走向感知機(jī)器與終身學(xué)習(xí)結(jié)合的訓(xùn)練模式,這也是未來我們所有的學(xué)生、年輕人以及企業(yè)界未來發(fā)展的重心。而這個(gè)發(fā)展不會(huì)那么快,在未來五到十年的過程中都會(huì)持續(xù)性發(fā)生,但它的發(fā)生一定是不可避免的,同時(shí)一定會(huì)帶來巨大的進(jìn)步。
這就是我今天帶來的分享,謝謝。雷峰網(wǎng)雷峰網(wǎng)





京公網(wǎng)安備 11011402013531號(hào)