中國機(jī)器人,夢想(xiǎng)是當打工仔

2026/06/02 05:00:41 發燒的(de)胖頭魚 神盤鬼算 / 歐陽鋒

來源 | 伯虎財經(jīng)(bohuFN)

作者 | 楷楷

去年 4 月,人形機器人第一次和人類站在同(tóng)一條賽道上跑馬拉鬆(sōng);今年(nián)4月,機器人已經跑得比人類還快。

不過(guò),爭議聲也隨之而來:機器人跑那(nà)麽快有什麽用;機器人什麽(me)時候才能幹實事?但這一次,機器人企業給出了更(gèng)務實的答(dá)案——想要幹活,先去實(shí)習。

近日,智元機器(qì)人宣布(bù)新款A3人形機(jī)器(qì)人將通過“擎(qíng)天租”平台交付,批量上崗(gǎng)景區(qū);自變量機(jī)器(qì)人宣布與58同城合(hé)作提供到家服務,機器人將進入真實家庭,與保潔阿姨協同作業。

具身智能迎來了一波密(mì)集的商業化動作(zuò),行(háng)業敘事也在悄然轉(zhuǎn)向。

過去兩年,登上春(chūn)晚、參加比賽是機器人展示拳腳(jiǎo)的最(zuì)佳舞台;但如今,深入工廠、走進家門,在真實場景(jǐng)中解決實際(jì)問題,才是對(duì)機器人的真正(zhèng)考驗。

01 “大腦”還沒長好

早在一個月前,自變量跟58同城合作,推出(chū)全球首個機(jī)器人保潔員,與保(bǎo)潔阿姨協同為用戶提供家庭(tíng)清潔服務。

在社交媒體上,有不少用戶進(jìn)行了“嚐鮮”,但整體評價依然是“機器(qì)人不如(rú)人”。

有用(yòng)戶稱,機器人動作比較笨拙,雖然能做晾衣服、收納之(zhī)類比較複雜(zá)的家務,但疊一件衣服就要接近10分鍾;機器人的活動範圍有限,有台階、有門檻(kǎn)都進不去。

但這種(zhǒng)“不足”並非一家機器人企業麵臨(lín)的難題,而是整(zhěng)個行業的共同挑戰。

自變(biàn)量CEO王潛在近日表示(shì),“今天在(zài)全世界範圍內(nèi),沒有任何一台機(jī)器(qì)人(rén)可以在(zài)沒有遙(yáo)控操作的(de)情況下,獨立完成(chéng)大部分的日常家務。”

宇樹科技創始人王興興也(yě)提過類似(sì)觀點,他表示機器人在預設場景任務中,成功率趨近100%,一旦(dàn)場景變化或(huò)出現從未見過的事件,成功率會斷崖式下跌,機器人做家務還要3-5年。

這也是當下(xià)具身智能(néng)行(háng)業最大的瓶頸——機器(qì)人無法(fǎ)理解真實世界的物理邏輯。

業內有個形象的比喻(yù),機器人雖然“小腦”發達,但“大腦”還在發育。“小(xiǎo)腦”指的(de)是機器人的運動(dòng)控製能力,能做武術、舞蹈等複雜(zá)動作;“大腦”則(zé)是認知(zhī)、決策能力,是“能幹事”的基礎。

因此,讓(ràng)機器人真正擁(yōng)有一(yī)顆會思考的“大腦”,是當(dāng)下整個機器人行業都在努力的事情,目前來看,主要分成了三條技術路線:

VLA端到端是當下的主流,也是最成熟的路線,主要(yào)通過融合視覺(jiào)等多模態感知信(xìn)號與語言指令直接(jiē)生成機器(qì)人動作。

簡單來說,就是機器人聽命令,然後直接(jiē)做事(shì)情,比如用戶說“我(wǒ)餓了”,機器人就(jiù)會找到食(shí)物並遞給你,隻要機器人見過類似物體,它就能執行(háng)指令。

但弊端也很明顯,那就(jiù)是隨著任務的複雜程度增加,出現機器人沒(méi)有訓練過的複雜場景和行動軌跡,它(tā)就很容易出現“邏輯死機”。

而(ér)且,行業中常用的VLA架構,基本上是將(jiāng)視覺、語言、動作三個模塊各自獨立運行,數據(jù)每經過一次(cì)模塊邊界就會發生信息損(sǔn)耗和延遲,涉及精細動作,“大(dà)腦”容易跟不上“小(xiǎo)腦”。

世界模型路線則被認為是最接近人類思考模式的路線,它的核心是能理解物理世(shì)界的運轉規律,從而預測下一刻會發生什麽。

比如一隻杯子(zǐ)從桌子上掉下來,物理模型能基於對運動、重力等方麵的認知(zhī),估算出杯子掉落的(de)基本方(fāng)向,基於這個理解,機器人就可以扶穩杯子,或者避開杯子。

但世界模型也麵臨著更巨大的成本挑戰,包括數據需求、訓練成本等,英偉達(dá)的Cosmos世界基礎模型,便經過了9000萬億個Token的訓練。

大小腦分層是更具國(guó)內特色的路線,LLM大模(mó)型作為“大腦(nǎo)”,負(fù)責理解任務;VLA/動作模(mó)型作為“小腦”,負責精細控製。

但將大小腦(nǎo)拆分開來,容易導致任務出現延誤,難以實現高精度(dù)操作。況且,模塊越(yuè)多(duō),成本(běn)也會越高。

不過,由於國(guó)內大部分機器人企業在“小腦”環節都有一定積累,采(cǎi)用大小腦分層路線,先(xiān)立住長板,再集中資源補短板(bǎn),顯然比從(cóng)零造一個“大腦”更務實。

02 邊“幹活”,邊“補(bǔ)腦(nǎo)”

總(zǒng)的來(lái)說,每一條(tiáo)技(jì)術路線都各有優劣,難言誰(shuí)才(cái)是最終路徑。

況且,各個機器人企業雖然都有押注的主流技術路線,但也並非隻有一條路線走到底,深度融(róng)合(hé)才(cái)是大勢所趨。

比如VLA端到端和(hé)世界模型的融合。智元Genie業務(wù)部(bù)生態及解決方案(àn)總監沈詠劍曾在采訪(fǎng)中表示,世界模型與VLA並不一(yī)定是替代關係,也有可能有融合或合作的狀態。

今年(nián)以來,智元推出了世界(jiè)模型迭代版本(běn)GE-Sim 2.0、新一代VLA基座大模型Genie Operator-2,以及第二代一體化具(jù)身大小腦係統GenieReasoner。

智元在傳統世界模型僅建模“狀態”的基礎上,提出了世界動作模型的方向,將“狀態-動作-狀態演化”作為統一建模對象,並未隻(zhī)圍繞單一路(lù)線推進(jìn)具身模型(xíng)。

自變量(liàng)則推出了世界統一模型架(jià)構的具身智能基(jī)礎模型,將大小(xiǎo)腦塞進同一個模型,能(néng)更(gèng)有效消除模塊間的信息損耗與(yǔ)延遲,提升機器人在真實物理(lǐ)環(huán)境中的泛化能力與(yǔ)交互效率。

其具身智能基礎模型WALL-B的特點就是“幹中學”,讓機器人在反複失敗、嚐試中(zhōng)完成(chéng)自我迭代。

自變量CTO王昊指出,“世界模型並(bìng)非一個單獨的模塊(kuài),它本質上是一種能力,但這種能力不能簡單地(dì)累加,並(bìng)不是在VLA後麵再掛一個世界模型就能理解世界。”

智平方則提出了快慢雙係統融合方案,將智(zhì)能體劃分(fèn)為“快係統”(負責全身控製)和“慢(màn)係統”(負責邏輯推(tuī)理),讓機(jī)器人(rén)在麵對複雜的(de)動態環境時,既能快速反應,又能保持對長程任務的深度理解。

可以看出,無論走哪條技術路線,機器(qì)人“大腦”要真正“長好(hǎo)”,最大的挑戰都繞不開兩件事:一是理解世界,二是讓思考跟上身(shēn)體的反應速度。

但這並非練得越多就越強。自變量CTO王昊舉(jǔ)了一個例子,“一個人在泳池裏學了10年遊泳,但(dàn)把他丟到大海,他還是有可能會淹(yān)死。”

他認為實驗室裏的訓練數據太過幹淨,機器人待在象牙塔裏,很難具備真(zhēn)正的獨立思考能力,最好的方法就是讓機器人到複(fù)雜的、充(chōng)滿隨機性的環境中學(xué)習。

複旦大學計算機科學技術學院教(jiāo)授肖仰華(huá)也曾對外表示(shì),“訓練具身智能(néng)大模型,保守(shǒu)估(gū)計當前已有數據(jù)量與所需數據量(liàng)之(zhī)間(jiān)至少(shǎo)還差兩個數量級。”

出於對真實數據的渴求,機器人開始加速(sù)湧入真實場景。

優必選的人形機器人已經進入了工廠。創始人(rén)周劍表示,優必選花了兩年時間,從(cóng)新能(néng)源汽車製(zhì)造場景切(qiē)入搬運、上下料、物料分揀(jiǎn)、質檢等任務的POC 實訓。

銀河(hé)通用的Galbot機器人開始參與藥房運營,可以自主(zhǔ)識別(bié)訂單並抓(zhuā)取藥(yào)品(pǐn)、掃碼、打(dǎ)包;魔(mó)法(fǎ)原子的人形機器人則變身“汽車銷售”,在汽車專賣店招(zhāo)攬顧客,為顧客講解車輛參(cān)數。

不(bú)同的機(jī)器人(rén)企業,不(bú)同的真實場景,大家的目標都隻有一個:

在(zài)真實場景獲取數據,驗證機器人的能力,再反(fǎn)哺給具身智能基礎模型的迭代,讓機器人“大腦”從單(dān)一任務、有限場景,逐步實現物體泛化、背(bèi)景泛化和任務泛化,變得更加(jiā)聰明。

03 場景拉高上限

一旦理解了“練大腦”離不開“真數據”,就能明白為何資本市場對具身智能的估值邏輯,在最近這一年悄然發生了(le)轉向。

據第一財經不(bú)完全(quán)統計,截至4月(yuè)10日,國內具身智(zhì)能領域至少發生269起融資事件。

但與往年相比,資本投向的側重點出現了明顯(xiǎn)變化——資本正在加速湧向數據與模型算(suàn)法,本(běn)體硬件的估值預期,則從技術敘(xù)事轉向商業落地。

今年以來,多(duō)家側重於“大腦”的具身智(zhì)能企業,完成了數十億元級(jí)別融資(zī):自變量宣布(bù)已完成近20億元的B輪融資;它石智航拿下4.55億美金(jīn)Pre-A輪(lún)融資,刷新(xīn)中國(guó)具(jù)身單筆融資紀(jì)錄;具身數據與仿真基礎設施公司光輪智能最新一輪融資達(dá)10億元。

行業發展到當前階段,本體硬(yìng)件的形態已基本完善。今年機(jī)器人馬拉鬆的奪冠者並非傳統機器人企業,而是消費電子廠(chǎng)商榮耀(yào),也從側麵說明了硬件的技術(shù)門(mén)檻正在降低(dī)。

市場開始形成一種新共識,那就是決定機器人(rén)能(néng)否投入實際(jì)應用的核(hé)心(xīn)變量在於“大腦”,而“大腦(nǎo)”背後則是模型能力與數據資產。

如果(guǒ)說過去的資本邏輯,是希望通過硬(yìng)件銷量率先完成占位;那麽今天市場在估值時,則會更關注誰的“大腦”更聰(cōng)明,並具備(bèi)充足的泛化能力(lì)。

機器人的硬件門檻會隨著供應鏈成(chéng)熟而逐漸拉平,但“大腦”卻不一樣(yàng)——誰的模型能(néng)在更多真實場景(jǐng)中(zhōng)跑通,並將特定場景中學到的技能和知識(shí),遷移到新的對象、任務或環境,誰就能“舉(jǔ)一反三”,快速在更多不同場(chǎng)景中落地(dì)。

而且,具身模型的泛化能力越強,護城河越高,天花(huā)板也更高。

自變量創始人(rén)王潛提到,“家庭場景對泛化性要求最為極致,能讓模型在極複(fù)雜(zá)的家庭場景跑(pǎo)得通,進傳統的工業場景都能完全降維打擊。”

這意味著,模(mó)型能力成熟以後,其可以(yǐ)在一個行業甚至多(duō)個行業通(tōng)用,是一個可以無限複用的商(shāng)業模式。

而且,相較於先構建能力再尋找落地場景,不少機器人企業已經將(jiāng)商業場(chǎng)景置於產品設計之前,將產品服務與商業場景綁定在一起。

比如銀河通用推出的兩款輪式機器人,強調穩定性和負載能力,更適合執行搬運、抓取、分揀等重複性工作;小(xiǎo)鵬 IRON則明確將會(huì)優先落地博(bó)物(wù)館、4S 店、商場。

“機器(qì)人到(dào)底能幹什麽”這個問題,具身智(zhì)能已經漸漸摸到了答案。

“宇樹們”花了十(shí)年時間,讓(ràng)機器人實現從0到1的突破,但要讓機器人具備真正獨立思考的能力,擺脫對人類單一重複命(mìng)令的依(yī)賴,背後是從1到10,再到(dào)無限的臨界點。

手腳能讓機器人站起來,但真正活下(xià)去,還要(yào)靠大(dà)腦。

91视频网站_91巨炮在线_九一网页版免费_91prom在线视频