IT之家 10 月 26 日消息,特斯拉人工智能與自動(dòng)輔助駕駛軟件副總裁阿肖克?埃盧斯瓦米(Ashok Elluswamy)近日罕見地揭秘了該公司的人工智能系統(tǒng)是如何學(xué)習(xí)駕駛的。IT之家注意到,在參加完國際計(jì)算機(jī)視覺會(huì)議(International Conference on Computer Vision)后,埃盧斯瓦米通過社交媒體平臺(tái) X 發(fā)布了一篇長文,詳細(xì)介紹了特斯拉“端到端”神經(jīng)網(wǎng)絡(luò)的技術(shù)原理。

根據(jù)埃盧斯瓦米的闡述,目前大多數(shù)自動(dòng)駕駛公司依賴的是模塊化、傳感器密集型系統(tǒng),將感知、規(guī)劃和控制三個(gè)環(huán)節(jié)彼此分離。而特斯拉則采取截然不同的方法 —— 將這三個(gè)功能整合進(jìn)一個(gè)統(tǒng)一的、持續(xù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)中。他解釋道:“梯度信號(hào)從控制層一直反向傳播至傳感器輸入層,從而實(shí)現(xiàn)對(duì)整個(gè)網(wǎng)絡(luò)的全局優(yōu)化。”
他指出,這種架構(gòu)的優(yōu)勢在于可擴(kuò)展性以及更貼近人類思維方式的推理能力。通過真實(shí)駕駛場景示例,他表示,特斯拉的 AI 能夠?qū)W習(xí)并掌握細(xì)微的價(jià)值判斷,例如決定是繞過路面積水,還是短暫駛?cè)雽?duì)向空車道以確保安全通行。“自動(dòng)駕駛汽車無時(shí)無刻不在面對(duì)‘微型電車難題’,”埃盧斯瓦米寫道,“通過在人類駕駛數(shù)據(jù)上進(jìn)行訓(xùn)練,機(jī)器人得以學(xué)習(xí)與人類價(jià)值觀相一致的行為準(zhǔn)則。”
他還強(qiáng)調(diào),該系統(tǒng)使 AI 能夠理解復(fù)雜的意圖判斷,例如識(shí)別道路上的動(dòng)物是準(zhǔn)備穿越還是原地停留。這類細(xì)微行為若采用傳統(tǒng)編程方式手動(dòng)編碼,難度極高。
埃盧斯瓦米坦言,這一技術(shù)路徑仍面臨巨大挑戰(zhàn)。特斯拉的 AI 系統(tǒng)需處理來自多攝像頭、導(dǎo)航地圖及運(yùn)動(dòng)學(xué)數(shù)據(jù)的數(shù)十億個(gè)“輸入標(biāo)記”(input tokens)。為應(yīng)對(duì)如此龐大的數(shù)據(jù)量,特斯拉依托其全球車隊(duì)構(gòu)建了一個(gè)被稱為“數(shù)據(jù)瀑布”的龐大資源池,每天產(chǎn)生的駕駛數(shù)據(jù)相當(dāng)于 500 年的實(shí)際駕駛經(jīng)驗(yàn)。隨后,先進(jìn)的數(shù)據(jù)管道會(huì)從中篩選出最具價(jià)值的訓(xùn)練樣本。
為了提升神經(jīng)網(wǎng)絡(luò)的可解釋性和可測試性,特斯拉開發(fā)了一系列專用工具。其中,“生成式高斯點(diǎn)陣渲染”(Generative Gaussian Splatting)技術(shù)可在毫秒級(jí)時(shí)間內(nèi)重建三維場景,并無需復(fù)雜配置即可建模動(dòng)態(tài)物體。此外,特斯拉自主研發(fā)的“神經(jīng)世界模擬器”(neural world simulator)使工程師能夠在高度逼真的虛擬環(huán)境中安全測試新的駕駛模型,并實(shí)時(shí)生成高分辨率、具備因果邏輯的響應(yīng)。
埃盧斯瓦米最后表示,這一相同的神經(jīng)網(wǎng)絡(luò)架構(gòu)未來也將應(yīng)用于特斯拉人形機(jī)器人 Optimus。“這項(xiàng)工作最終將極大造福全人類,”他說道,并稱特斯拉是“當(dāng)前全球從事人工智能研究的最佳平臺(tái)”。





京公網(wǎng)安備 11011402013531號(hào)