今天凌晨,全球社交、科技巨頭meta開源了,最新視覺大模型DINOv3。
DINOv3的主要創新使用了自我監督學習,無需標注數據就能大幅度降低訓練所需要的時間和算力資源。并且與前一代相比,DINOv3的訓練數據大12倍擴大至17億張圖像以及大7倍的70億參數。
根據測試數據顯示,DINOv3在圖像分類、語義分割、單目深度估計、3D理解、實例識別、視頻分割跟蹤、視頻分類等10大類,60多個子集測試中全部都非常出色,超越了同類開、閉源模型。可幫助醫療保健、環境監測、自動駕駛汽車、航空航天等解鎖更多的用例。

開源地址:https://huggingface.co/collections/facebook/dinov3-68924841bd6b561778e31009
https://github.com/facebookresearch/dinov3
網友表示,這么優秀的視覺模型應該集成在Llama大語言模型中,因為它現在視覺能力有點糟糕啊。

DINOv3憑借70億參數橫掃視覺模型領域。

萬萬沒想到 DINOv2 模型還能出后續版本。但它的出現無疑是受歡迎的。

DINOv3就像一個統領所有任務的視覺模型,強大、通用,且無需微調。

這看起來增強了單目深度估計能力。這對我的野火管理項目非常有用!
希望這些改進能增強 Marigold 模型,或者催生一個更出色的模型。

我覺得現在我終于可以讓我的算法僅通過觀察屏幕就開始玩游戲了。不必再去尋找能提供特征狀態空間的環境了。

看起來好太多了,meta的AI團隊已經沉寂了一段時間,希望這能成為他們的一款翻身之作。

DINOv3簡單介紹
DINOv3在模型架構上采用定制化的Vision Transformer,擁有70億參數。相比DINOv2的ViT-giant,其嵌入維度從1536提升至4096,注意力頭數從24增至32,前饋網絡隱藏維度從4096擴展到8192,并采用旋轉位置嵌入替代可學習嵌入,使模型能自適應不同分辨率輸入。
同時,取消余弦調度,改用恒定超參數調度,解決了大規模訓練中優化周期難以預估的問題。

針對長時間訓練中密集特征圖退化的問題,DINOv3創新提出Gram錨定技術。該技術的核心原理是強制學生模型的特征Gram矩陣與早期訓練階段的“教師模型”保持一致,通過計算兩者差異作為損失,確保特征間的相似性結構穩定,而非強制特征值本身一致。
為進一步優化,DINOv3將高分辨率圖像(512×512)輸入教師模型,通過雙三次插值下采樣至學生模型輸出尺寸,使平滑后的特征保留更精細的空間信息。

在訓練階段設計上,于100萬次迭代后啟動Gram錨定優化,每10k次迭代更新一次教師模型。結果顯示,密集任務性能在引入該技術后10k次迭代內即顯著提升,有效解決了密集特征退化難題。
為提升模型的實用性與部署靈活性,DINOv3引入了三大后處理優化策略。高分辨率適配通過混合分辨率訓練,全局crop尺寸512/768,局部crop尺寸112/168等,使模型在4096×4096等高分辨率輸入下仍保持特征穩定性。測試顯示,適配后模型在1024×1024分辨率下的語義分割性能提升15%。

知識蒸餾將70億參數模型的知識蒸餾到更小的變體中,形成包含ViT-S、ViT-B、ViT-L及ConvNeXt(T/S/B/L)的模型家族,其中ViT-H+(8.4億參數)性能接近70億參數模型,而ConvNeXt-L在資源受限場景下效率提升3倍。
文本對齊方面,凍結視覺主干網絡,訓練文本編碼器與視覺特征對齊,支持零樣本任務,在COCO圖像-文本檢索任務中,圖像到文本的Recall@1達到84.7%。
這些后處理策略極大地擴展了DINOv3的應用場景,使其能適應從邊緣設備到高性能服務器的多種部署環境。
DINOv3在60多個視覺任務測試中表現非常出色,大幅度超越了同類模型。以語義分割任務來說,在 ADE20k 數據集里,其線性探針的mIoU達到了55.9,遠超DINOv2的49.5以及SigLIP 2的42.7。

在Cityscapes數據集的測試中,DINOv3的mIoU達到81.1,超過了AM-RADIOv2.5的78.4和PEspatial的73.2。在深度估計任務中,面對NYUv2數據集,DINOv3的RMSE低至0.309,優于DINOv2的0.372和PEspatial的0.362;在KITTI數據集中,RMSE為2.346,相較于DINOv2降低了0.278,與專門的深度估計模型Depth Anything V2的性能差距極小。
在3D關鍵點匹配任務方面,在NAVI數據集中,DINOv3的召回率達到64.4%,超過DINOv2的60.1%和AM-RADIOv2.5的59.4%;在SPair數據集中,其召回率為58.7%,領先同類模型2–5個百分點。
在全局任務領域,DINOv3同樣打破了自監督模型之前的性能瓶頸。在圖像分類任務中,于ImageNet1k數據集上,線性探針準確率達到88.4%,與PEcore的89.3%和SigLIP 2的89.1%相差無幾;在跨分布泛化測試中,ObjectNet數據集準確率為79.0%,略低于PEcore的80.2%,但遠超DINOv2的66.4%。

在細粒度分類任務中,iNaturalist 2021數據集(物種識別)上,其準確率高達89.8%,超過PEcore的87.0%和DINOv2的86.1%;在Fine-S數據集(12個細粒度任務平均)中,準確率為93.0%,已達到弱監督模型的水平。
在實例檢索任務中,Oxford-Hard數據集的mAP為60.7,顯著高于DINOv2的58.2和SigLIP 2的25.1;在阿姆斯特丹歷史影像匹配任務中,mAP達到56.5,相較DINOv2提升了7.6個百分點。
DINOv3在視頻與3D任務中也展現出強大的遷移能力。在視頻分割跟蹤任務中,DAVIS 2017數據集上,DINOv3達到83.3(高分辨率),遠超DINOv2的76.6和PEspatial的70.5。從多分辨率測試結果看,其性能隨輸入分辨率提升而穩定增長,而對比模型在高分辨率下性能反而下降。
在3D理解任務中,結合VGGT框架,在DTU多視圖深度估計中,整體誤差為0.368,優于原始VGGT的0.382;在ScanNet視圖匹配任務中,AUC@10達到56.1,超過SuperGlue的33.8和Roma的53.4。

在遙感與地理空間任務方面,DINOv3表現同樣亮眼。在樹冠高度估計任務中,Open-Canopy數據集,其MAE為2.02米,優于Tolan et al.的2.42米和DINOv2的2.17米;在肯尼亞地區的實際應用中,樹冠高度測量誤差從DINOv2的4.1米大幅降至1.2米。
在地理語義任務中,GEO-Bench數據集(包含12個遙感分類/分割任務)的平均準確率為81.6%,超過Prithvi-v2的79.6%和DOFA的79.9%;在LoveDA土地覆蓋分割任務中,mIoU達到56.2,刷新了此前由BillionFM保持的54.4紀錄。





京公網安備 11011402013531號