少妇色情AAA片,成人无码视频AAAAAAAA级

DoNews > 專欄 > 具身智能終局是干活，但怎么才能干好活？

具身智能終局是干活，但怎么才能干好活？

具身研習(xí)社 2025-12-22 11:21:09

198585

分享到

作者：彭堃方

編輯：呂鑫燚

出品：具身研習(xí)社

具身智能的終局，必然指向“干活”。

這并非單一企業(yè)的片面判斷，而是產(chǎn)業(yè)確定性的方向。近日，波士頓動力副總裁Zack Jackowski 在公開訪談中系統(tǒng)性闡述了企業(yè)戰(zhàn)略轉(zhuǎn)型邏輯，從早年憑借 “病毒式跑酷傳播”，轉(zhuǎn)向構(gòu)建適配場景的大小腦能力。

不可否認，跑酷、跳舞等高難度運控調(diào)試作為產(chǎn)業(yè)培育期的注意力錨點，具備初期市場啟蒙價值，但絕非產(chǎn)業(yè)演進的終極歸宿。作為在運控領(lǐng)域聞名遐邇的“古早網(wǎng)紅”，波士頓動力的轉(zhuǎn)舵向全行業(yè)釋放出明確信號：干活能力的構(gòu)建，既是具身智能的未來方向，更是產(chǎn)業(yè)進階的必答題。

放眼全球產(chǎn)業(yè)實踐，頭部企業(yè)的布局已形成協(xié)同印證：特斯拉Optimus在自家超級工廠承擔(dān)電池模組分揀與裝配作業(yè)，F(xiàn)igure機器人進駐寶馬工廠開展汽車零部件裝配實訓(xùn)，均以干活為核心錨點推進技術(shù)迭代。

國內(nèi)產(chǎn)業(yè)脈絡(luò)同樣遵循這一邏輯，北京人形機器人憑借具身天工Ultra以全場唯一自主奔跑的方式斬獲人形機器人半程馬拉松賽事冠軍，通過極限場景驗證核心運控能力后，便迅速回歸干活；在人形機器人運動會中，不僅成為了首個全自主的人形機器人的百米“飛人”，更是在物料整理、搬運、酒店迎賓等場景賽事中斬獲1金3銀1銅的佳績，持續(xù)夯實場景適配基礎(chǔ)。

更關(guān)鍵的是，北京人形始終以“全自主、更好用”的干活場景為導(dǎo)向，貫穿技術(shù)落地全過程，在3D場景（Dangerous、Dirty、Dull）中，通過真實工況下的作業(yè)實踐驗證模型有效性，持續(xù)挖掘新質(zhì)生產(chǎn)力價值。

從全球頭部企業(yè)的戰(zhàn)略布局與實踐路徑不難看出，具身智能的終極發(fā)展導(dǎo)向，必然指向干活能力的成熟落地。

當(dāng)行業(yè)熱議人形機器人邁入萬億級市場爆發(fā)窗口期時，其核心破局點在于干活能力的實質(zhì)性突破。唯有當(dāng)人形機器人能在真實產(chǎn)業(yè)場景中創(chuàng)造可量化的商業(yè)價值與產(chǎn)業(yè)價值，才能推動產(chǎn)業(yè)從實驗室原型階段邁向規(guī)模化商業(yè)落地階段，真正激活萬億市場的增長潛力。

北京人形圍繞具身智能機器人“能干活，會干活”的核心訴求，破解了“單一場景落地”的瓶頸。其跨場景適配的背后，藏著技術(shù)路線的底層創(chuàng)新。

之所以能成為“多面手”，關(guān)鍵在于北京人形構(gòu)建的具身“大小腦”：以WoW（我悟）世界模型與Pelican-VL（天鶘）多模態(tài)大模型構(gòu)成的智能大腦為核心；搭配以XR-1模型為核心的具身操作“小腦”，通過大小腦協(xié)同，為具身天工、天軼等具身智能機器人賦予感知-決策-執(zhí)行的完整能力閉環(huán)。

其中，“大腦”是支撐機器人自主決策的核心。WoW作為具身世界模型，能構(gòu)建交互式虛擬世界，讓機器人在虛擬世界中實現(xiàn)“預(yù)測判斷和自我調(diào)試邏輯錯誤”，提前規(guī)避真實操作中的失誤；而Pelican-VL視覺語言模型則負責(zé)打通“看見”與“理解”的鏈路，使機器人能精準(zhǔn)識別變形料箱、反光零部件等復(fù)雜目標(biāo)，為操作提供決策依據(jù)。

具身大腦讓機器人知道該怎么做后，如何精準(zhǔn)執(zhí)行并輸出流暢動作則需具身小腦來完成。

XR-1是北京人形為機器人打造的具身“小腦”的核心，是目前國內(nèi)首個且唯一一個通過具身智能國標(biāo)測試的具身VLA大模型，能在多構(gòu)型本體上精準(zhǔn)完成多種場景下的多種任務(wù)。

具體來看，XR-1的核心優(yōu)勢在于實現(xiàn)了“三跨”特性：

跨數(shù)據(jù)源學(xué)習(xí)，不僅能利用機器人真機和仿真數(shù)據(jù)進行訓(xùn)練，甚至通過人類第一視角的視頻進行學(xué)習(xí)，解決各種應(yīng)用場景數(shù)據(jù)稀缺的痛點；

跨模態(tài)對齊，通過獨創(chuàng)的統(tǒng)一視覺-運動編碼（UVMC）技術(shù)，用一套共享“詞典”翻譯視覺信息與動作指令，讓機器人形成某種本能反應(yīng)；

跨本體控制，讓算法能適配雙足、輪式等不同構(gòu)型、不同品牌的機器人。

從底層數(shù)據(jù)到指令再到適配，XR-1“三跨”解決了具身智能“由里到外”的痛點，當(dāng)同一套模型能驅(qū)動不同機器人完成不同任務(wù)時，場景拓展成本將大幅降低。

XR-1的靈活性也源于其首創(chuàng)的結(jié)合數(shù)據(jù)的三段式訓(xùn)練范式“先練內(nèi)功再練招式”：

第一階段是依托海量自有多本體數(shù)據(jù)，結(jié)合互聯(lián)網(wǎng)人類操作視頻，不學(xué)習(xí)具體任務(wù)，只學(xué)習(xí)如何將復(fù)雜的視覺畫面與動作軌跡壓縮成一套統(tǒng)一的視覺-運動代碼字典。
第二階段是再用大規(guī)?？鐧C器人數(shù)據(jù)強化訓(xùn)練，讓它理解物理世界的基本規(guī)律和通用操作規(guī)范。經(jīng)過這一步，XR-1不再依賴具體場景的預(yù)設(shè)，而是能根據(jù)物理規(guī)律自主判斷動作。
第三階段針對特定場景用少量專項數(shù)據(jù)微調(diào)，讓其在具體崗位上更“專業(yè)”。

簡單來說就是模型兼具通用和專用，且不只是“照葫蘆畫瓢式”輸出動作，而是真正理解把一件事做對、干好活是意味著什么。

這不再是一個“有多少智能就有多少人工”的落地悖論，而是實打?qū)嵉拇笠?guī)模部署。

這種訓(xùn)練范式帶來的領(lǐng)先性，在與行業(yè)頂尖模型的對比中尤為明顯。

北京人形將XR-1與當(dāng)前世界先進的具身VLA模型（如PI0.5）在120項真實世界任務(wù)中測試，結(jié)果顯示XR-1的任務(wù)成功率全面領(lǐng)先，在部分任務(wù)上，成功率更是達到其他模型的2倍。此外，XR-1在具身天工2.0、UR、Franka等多種多構(gòu)型的機器人本體上，都表現(xiàn)出了高成功率和強魯棒性。

XR-1的靈活性和泛化性離不開優(yōu)質(zhì)數(shù)據(jù)滋養(yǎng)，其數(shù)據(jù)養(yǎng)分為RoboMIND與ArtVIP。

其中，RoboMIND是一個大規(guī)模多構(gòu)型機器人數(shù)據(jù)集與評測基準(zhǔn)，旨在解決機器人訓(xùn)練數(shù)據(jù)采集成本高昂、高質(zhì)量數(shù)據(jù)稀缺的行業(yè)痛點。其最初版本于24年12月發(fā)布，目前累計下載量已超15萬。現(xiàn)在RoboMIND 2.0版本已升級至包含30萬條雙臂操作軌跡，覆蓋具身天工等6種機器人本體，并搭建了10余個場景、涵蓋739項任務(wù)，不僅為模型訓(xùn)練提供了海量、多樣化的“實戰(zhàn)經(jīng)驗”，其新增的1.2+萬條帶觸覺操作數(shù)據(jù)，更是為訓(xùn)練更智能、更協(xié)作的機器人模型提供了關(guān)鍵養(yǎng)料。

當(dāng)然，RoboMIND?2.0本身還有一創(chuàng)舉值得一提，即RoboMIND?2.0打通了虛實數(shù)據(jù)壁壘，將海量仿真數(shù)據(jù)與真機經(jīng)驗深度熔鑄，使得模型性能大幅提升。據(jù)了解，在XR-1模型在數(shù)據(jù)調(diào)配中發(fā)現(xiàn)，當(dāng)真機數(shù)據(jù)與仿真數(shù)據(jù)比例從1：0提升至1:5后，任務(wù)成功率平均提升超25%。

而RoboMIND中的仿真數(shù)據(jù)并非是習(xí)以為常的“抓取&放置”這類常規(guī)操作，它還包含了ArtVIP這類高保真，且針對復(fù)雜鉸接物體的操作數(shù)據(jù)。

ArtVIP是北京人形與北京市建筑設(shè)計研究院聯(lián)合打造的高保真鉸接物體仿真資產(chǎn)庫，專注于攻克如轉(zhuǎn)椅、抽屜、冰箱等復(fù)雜靈巧操作難題。

通過極致還原物體的視覺外觀與物理特性，ArtVIP極大地縮小了Sim2Real的鴻溝，讓XR-1模型能在投入物理世界前，于虛擬空間中安全、高效地“預(yù)演”萬千復(fù)雜任務(wù)，錘煉出應(yīng)對真實世界不確定性的強大泛化能力。目前其高保真數(shù)字孿生鉸接物品數(shù)量正持續(xù)增加至超1000個，是目前已開源的全球最精細的復(fù)雜鉸接物體仿真庫。

至此，一套“由ArtVIP高保真數(shù)據(jù)搭起可擴展的數(shù)據(jù)基礎(chǔ)，RoboMIND?2.0熔鑄仿真數(shù)據(jù)與真機數(shù)據(jù)，XR-1高效學(xué)習(xí)”的具身智能系統(tǒng)已經(jīng)完備。在數(shù)據(jù)集的優(yōu)質(zhì)養(yǎng)分和靈活的具身“小腦”支撐下，具身天工2.0已經(jīng)能做出點新東西。例如，在昏暗的酒吧環(huán)境中，無懼光照泛化，精準(zhǔn)理解測試員的自然語言表達，再識別桌面不同的酒，拿起杯子倒酒后穩(wěn)穩(wěn)遞給測試員手中，整個過程一氣呵成，頭部和身體軌跡互相配合，有了點人類的“呼吸感”。

如今，兩大數(shù)據(jù)資源與首個國標(biāo)具身VLA模型?XR-1都已同步開源，北京人形用已被驗證好用的應(yīng)用落地“工具箱”，為產(chǎn)業(yè)注入了新動力。

相較于在領(lǐng)獎臺上摘得賽事桂冠、刷新紀(jì)錄的高光時刻，北京人形在多元場景中干活顯得略微有些低調(diào)，或說更加務(wù)實。

這里還有個從產(chǎn)業(yè)需求中衍生出的小插曲，北京人形在運動會取得的勝利，并非是單純的比賽，而是企業(yè)特意布置的考題。

作為世界經(jīng)濟論壇認證的“燈塔工廠”，福田康明斯一直尋求適配其復(fù)雜生產(chǎn)場景的人形機器人生產(chǎn)力，但始終未找到和其核心需求匹配的人形機器人生產(chǎn)力。為此，其在2025世界機器人大會場景挑戰(zhàn)賽中，針對性設(shè)置了料箱規(guī)整、物料分類等貼合工廠日常作業(yè)的實操難題，這些正是真實工作場景中高頻出現(xiàn)且亟待解決的痛點。

經(jīng)過多輪技術(shù)方案的深度比對，北京人形憑借對產(chǎn)業(yè)場景需求的深度解構(gòu)與技術(shù)方案的精準(zhǔn)適配，最終成為福田康明斯的合作方。

如今在福田康明斯昌平工廠，北京人形的具身天工2.0與天軼2.0在福田康明斯進入實訓(xùn)，其中，天軼2.0能高效率完成物料轉(zhuǎn)運作業(yè)，面對使用3-5年的變形周轉(zhuǎn)箱，可通過視覺感知系統(tǒng)實時動態(tài)調(diào)整抓取角度，實現(xiàn)非結(jié)構(gòu)化環(huán)境下的自適應(yīng)操作。

福田康明斯的實踐并非孤例，北京人形的場景落地版圖始終聚焦于3D場景。此類場景既是人類勞動力亟待解放的核心領(lǐng)域，也是具身智能實現(xiàn)價值轉(zhuǎn)化的關(guān)鍵陣地，機器人的落地干活并非簡單替代，而是針對性解決產(chǎn)業(yè)痛點的“靶向性賦能”。

在福田康明斯的生產(chǎn)車間，天軼機器人承接了長期彎腰搬運的重負荷作業(yè)，而這類工序曾是導(dǎo)致工人頸椎、腰椎損傷的職業(yè)病高發(fā)誘因，其高負載承載與升降調(diào)節(jié)能力從源頭降低了勞動傷害風(fēng)險；
在中國電力科學(xué)院的特高壓試驗場站，具身天工機器人替代人工完成高壓設(shè)備巡檢，將人員觸電風(fēng)險歸零，實現(xiàn)高危場景的無人化作業(yè)；
在李寧運動科學(xué)實驗室，天工機器人僅需2-3天即可完成人類需1個月的跑步運動數(shù)據(jù)采集工作，將研究人員從高強度、重復(fù)性的奔跑測試和數(shù)據(jù)記錄工作中解放；

需要強調(diào)的是，北京人形落地的多場景絕非簡單的業(yè)務(wù)鋪陳。

汽車工廠的物料搬運需要應(yīng)對動態(tài)障礙物，高壓巡檢依賴高精度環(huán)境識別，制藥場景則對操作精度有嚴(yán)苛要求。每種任務(wù)都對應(yīng)著截然不同的模型能力與技能組合。

這種落地價值遠超炫技類技術(shù)演示，北京人形的實踐正在印證具身智能的產(chǎn)業(yè)化核心邏輯：當(dāng)機器人脫離表演性動作范疇，切入能夠直接降低勞動風(fēng)險、提升生產(chǎn)效率、保障作業(yè)精度的具象化產(chǎn)業(yè)場景時，具身智能才真正邁入產(chǎn)業(yè)化落地的實質(zhì)性階段，其技術(shù)價值也隨之轉(zhuǎn)化為可量化的產(chǎn)業(yè)價值與商業(yè)價值。

2025年末，行業(yè)正在悄然進入一個新的階段。故事依然重要，但不再是免檢通行證。企業(yè)要思考回答一個更現(xiàn)實的問題：能不能干活，值不值錢，能不能規(guī)?；瘡?fù)用。在這個節(jié)點上，北京人形給出的選擇并不張揚，卻足夠清晰。

從產(chǎn)業(yè)視角來看，北京人形提供的XR-1并不是一個單純?yōu)榱伺判邪穸哪Ｐ?。相較于“刷新指標(biāo)”，它更像是一套面向真實產(chǎn)業(yè)世界的通用能力基座。

一方面，北京人形通過開放包含“國標(biāo)適配具身小腦大模型”和“多場景遷移方案”在內(nèi)的核心能力，XR-1能夠賦能產(chǎn)業(yè)鏈上下游的合作伙伴，使其能快速適配嚴(yán)格的行業(yè)標(biāo)準(zhǔn)與安全要求，顯著縮短了產(chǎn)品研發(fā)和部署的周期。

另一方面，XR-1的開源也顯著降低了中小企業(yè)與高校的研發(fā)成本。具身智能的現(xiàn)實困境在于：重復(fù)造輪子的人太多，而真正把輪子裝到車上的人太少。當(dāng)?shù)讓幽芰梢詮?fù)用，有限的工程資源才能被投入到更具體的場景問題中。

從這個角度看，XR-1的價值并不只是北京人形多了一個強大模型，而是整個產(chǎn)業(yè)少走了一段彎路。

而且必須承認，在產(chǎn)業(yè)早期階段，頂尖的模型能力與高質(zhì)量的數(shù)據(jù)通常被企業(yè)視為最核心的競爭壁壘和商業(yè)機密，嚴(yán)加守護。然而，北京人形卻反其道而行之，不僅開源了XR-1核心算法，更將支撐其強大泛化能力的RoboMIND數(shù)據(jù)集與ArtVIP仿真資產(chǎn)庫一并開放。這種開放的姿態(tài)在當(dāng)下顯得尤為珍貴。

它意味著北京人形致力于將自身的技術(shù)成果轉(zhuǎn)化為整個行業(yè)發(fā)展的“公共基石”，而非獨享的“護城河”。其目標(biāo)是通過協(xié)作創(chuàng)新，共同把機器人應(yīng)用的“蛋糕”做大，而非在存量市場中內(nèi)卷。

如果從具身智能的終局反觀現(xiàn)在北京人形的做法，它是一種更務(wù)實的下注方式。當(dāng)基礎(chǔ)能力被不斷復(fù)用、檢驗和修正，真正的差異化才會逐漸從系統(tǒng)工程、場景理解與規(guī)模交付中生長出來。具身智能也才能從“被反復(fù)講述的未來”，變成“已經(jīng)開始運轉(zhuǎn)的現(xiàn)實”。

在宏大敘事與踏實做事之間，北京人形選擇了后者。很多時候，產(chǎn)業(yè)真正的拐點，并不誕生于最響亮的口號中，而是在這種持續(xù)把活兒干下去的選擇里，悄然成形。

特別聲明：本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載，文章版權(quán)歸原作者及原出處所有。文章系作者個人觀點，不代表DoNews專欄的立場，轉(zhuǎn)載請聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問都請聯(lián)系idonews@donews.com)