DoNews1月28日消息,螞蟻集團旗下具身智能公司 —— 螞蟻靈波科技今日宣布全面開源 LingBot-VLA 具身大模型及后訓練代碼。目前,LingBot-VLA 已與星海圖、松靈、樂聚等機器人廠商完成適配,驗證了模型在不同構型機器人上的跨本體遷移能力。

與此同時,螞蟻靈波科技構建了一套后訓練工具鏈,在 8 卡 GPU 配置下實現(xiàn)了單卡每秒 261 個樣本的吞吐量,其訓練效率達到 StarVLA、OpenPI 等主流框架的 1.5~2.8 倍,實現(xiàn)了數(shù)據(jù)與算力成本的雙重降低。

基于在海量真實世界數(shù)據(jù)上的預訓練,螞蟻靈波科技第一次系統(tǒng)研究了 VLA 模型在真實機器人任務性能上隨著數(shù)據(jù)規(guī)模增長時的 Scaling Law。

項目發(fā)現(xiàn)隨著預訓練數(shù)據(jù)規(guī)模從 3,000 小時擴展到 6,000、13,000、18,000,最終至 20,000 小時,模型在下游任務的成功率獲得持續(xù)且顯著的提升。

值得注意的是,預訓練數(shù)據(jù)量達到 20,000 小時時,模型性能仍呈現(xiàn)上升趨勢,表明 VLA 的性能仍然能夠隨著數(shù)據(jù)量的增加而提升。

依此研究結果,螞蟻靈波科技構造了 20,000 小時的真實機器人訓練數(shù)據(jù),涵蓋了 9 種主流的雙臂機器人構型(包括 AgileX Cobot Magic,Galaxea R1Pro、R1Lite 、AgiBot G1 等)。

在上海交通大學開源的具身評測基準 GM-100(包含 100 項真實操作任務)測試中,LingBot-VLA 在 3 個不同的真實機器人平臺上,跨本體泛化平均成功率相較于 Pi0.5 的 13.0% 提升至 15.7%(w/o Depth)。引入深度信息(w/ Depth)后,空間感知能力增強,平均成功率進一步攀升至 17.3%。

此外,螞蟻靈波科技 1 月 27 日開源了 LingBot-Depth 空間感知模型。LingBot-Depth 是一種面向真實場景的深度補全模型,依托奧比中光 Gemini 330 系列雙目 3D 相機進行 RGB-Depth 數(shù)據(jù)采集與效果驗證,并基于深度引擎芯片直出的深度數(shù)據(jù)進行訓練與優(yōu)化,旨在將不完整且受噪聲干擾的深度傳感器數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量、具備真實尺度的三維測量結果,提升環(huán)境深度感知與三維空間理解能力,為機器人、自動駕駛汽車等智能終端賦予更精準、更可靠的三維視覺。
實驗結果表明,LingBot-Depth 模型在深度精度與像素覆蓋率兩項核心指標上均超越業(yè)界頂級工業(yè)級深度相機。在 NYUv2、ETH3D 等多個基準測試中,LingBot-Depth 在深度補全、單目深度估計及雙目匹配任務上均達到當前最優(yōu)水平,并在無需顯式時序建模的情況下保持視頻級時間一致性。
LingBot-Depth 模型也已通過奧比中光深度視覺實驗室的專業(yè)認證,在精度、穩(wěn)定性及復雜場景適應性方面均達到行業(yè)領先水平。