国产精品不卡一区,国产精品一区二区电影,精品日韩免费,91精品国产色综合久久不卡98最新章节,欧美操日本美女,欧美91,日韩激情视频在线播放

每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

一場(chǎng)需要耐心的長(zhǎng)期主義競(jìng)賽 具身智能業(yè)內(nèi)激辯三大核心問(wèn)題

2025-11-21 22:40:39

11月20日智源2025具身開(kāi)放日上,多位技術(shù)負(fù)責(zé)人探討具身智能未來(lái),共識(shí)遠(yuǎn)少于分歧,但更深層共識(shí)是具身智能競(jìng)爭(zhēng)在于長(zhǎng)期投入、真實(shí)落地與數(shù)據(jù)質(zhì)量。討論涉及世界模型、是否收斂到統(tǒng)一架構(gòu)、數(shù)據(jù)瓶頸等問(wèn)題,專家認(rèn)為具身智能需根植于真實(shí)機(jī)器人數(shù)據(jù),架構(gòu)創(chuàng)新、真實(shí)世界落地、機(jī)器人數(shù)量增長(zhǎng)與高質(zhì)量動(dòng)作數(shù)據(jù)積累需同時(shí)發(fā)生。

每經(jīng)記者|可楊    每經(jīng)編輯|廖丹    

11月20日下午,在智源2025具身開(kāi)放日上,在多位技術(shù)負(fù)責(zé)人參與的BAAI具身模型會(huì)客廳討論中,關(guān)于具身智能未來(lái)的共識(shí)遠(yuǎn)少于分歧。

世界模型是不是核心,具身智能是否會(huì)收斂到統(tǒng)一架構(gòu),語(yǔ)言是否應(yīng)該退居次要,動(dòng)作模型如何設(shè)計(jì),數(shù)據(jù)從哪里來(lái)??每一個(gè)問(wèn)題都仍在探索之中。

但《每日經(jīng)濟(jì)新聞》記者注意到,另一種更深層的共識(shí)正在形成——具身智能的真正競(jìng)爭(zhēng)不在概念,而在長(zhǎng)期投入、真實(shí)落地與數(shù)據(jù)質(zhì)量。

未來(lái)幾十年,當(dāng)機(jī)器人在真實(shí)世界中創(chuàng)造價(jià)值、積累經(jīng)驗(yàn)、形成反饋時(shí),或許才能孕育出具身智能的“ChatGPT時(shí)刻”。在此之前,這仍是一場(chǎng)需要耐心的長(zhǎng)期主義競(jìng)賽。

圖片來(lái)源:主辦方供圖

世界模型是萬(wàn)能鑰匙?

當(dāng)討論具身智能的關(guān)鍵路徑時(shí),世界模型總是被提及,與世界模型的結(jié)合是不是未來(lái)具身智能發(fā)展的關(guān)鍵?

這個(gè)問(wèn)題隨著世界模型概念的模糊化,而在業(yè)內(nèi)產(chǎn)生分歧。

北京大學(xué)助理教授、銀河通用創(chuàng)始人王鶴認(rèn)為,“世界模型”一詞最早來(lái)自強(qiáng)化學(xué)習(xí)領(lǐng)域,指的是根據(jù)當(dāng)前狀態(tài)與所采取的動(dòng)作,預(yù)測(cè)下一步狀態(tài)變化的動(dòng)力學(xué)模型。然而,在Sora等視頻生成模型出現(xiàn)后,世界模型概念逐漸向用視頻生成未來(lái)傾斜,這讓它與具身智能所需的能力發(fā)生了偏移。

王鶴認(rèn)為,視頻生成模型并不能直接作為具身智能的通用解決方案。原因在于,機(jī)器人與人的身體差異巨大,即使訓(xùn)練出一個(gè)能想象人類(lèi)如何操作世界的視頻模型,也不能保證它對(duì)機(jī)器人同樣有效。即便是當(dāng)下最像人的人形機(jī)器人,其動(dòng)作空間、靈巧度和執(zhí)行方式都與人類(lèi)存在不小差距,看起來(lái)像人做事,不等于機(jī)器人學(xué)會(huì)了做事。

但王鶴同時(shí)強(qiáng)調(diào),對(duì)未來(lái)進(jìn)行預(yù)測(cè)是具身智能不可缺少的一環(huán),機(jī)器人必須能夠根據(jù)未來(lái)目標(biāo)倒推當(dāng)前動(dòng)作,并對(duì)環(huán)境變化保持前向與后向的推理能力。因此,具身世界模型是必要的,但它必須根植于真實(shí)機(jī)器人數(shù)據(jù),才能有真正屬于機(jī)器人的世界模型誕生。

智源研究院院長(zhǎng)王仲遠(yuǎn)認(rèn)可世界模型對(duì)具身智能未來(lái)發(fā)展的重要性。他指出,當(dāng)下業(yè)界對(duì)世界模型并無(wú)統(tǒng)一定義。“如果世界模型僅僅指視頻生成(Video Generation),那顯然不夠?!闭嬲龑?duì)具身智能有意義的是能夠根據(jù)過(guò)去的時(shí)空狀態(tài),準(zhǔn)確預(yù)測(cè)“下一時(shí)刻狀態(tài)”,并據(jù)此規(guī)劃動(dòng)作的模型,這種預(yù)測(cè)是基于前序的時(shí)空狀態(tài)和現(xiàn)場(chǎng)環(huán)境上下文,進(jìn)而給出的精準(zhǔn)決策。

王仲遠(yuǎn)舉例稱,自己回答問(wèn)題時(shí),要基于前一位嘉賓的發(fā)言內(nèi)容以及現(xiàn)場(chǎng)環(huán)境,做出“拿起話筒”這一決策。這才是機(jī)器人需要的世界模型,不僅僅是生成幾秒鐘后的畫(huà)面,而是要基于對(duì)環(huán)境的理解,給出一個(gè)準(zhǔn)確的步驟動(dòng)作和響應(yīng)。

具身智能會(huì)否收斂到統(tǒng)一架構(gòu)?

在大語(yǔ)言模型時(shí)代,Transformer架構(gòu)(一種基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu))一統(tǒng)天下。具身智能領(lǐng)域是否會(huì)收斂到一個(gè)統(tǒng)一的架構(gòu)?是否會(huì)出現(xiàn)屬于機(jī)器人的“具身Transformer”?

中國(guó)科學(xué)院大學(xué)教授趙東斌給出了一種可能性。他表示,目前Transformer在具身智能領(lǐng)域的應(yīng)用已經(jīng)帶來(lái)了顯著的性能提升,例如近期Physical Intelligence發(fā)布的π*0.6模型,利用強(qiáng)化學(xué)習(xí)獲取數(shù)據(jù)鏈,能夠在疊衣服、裝盒子等多個(gè)任務(wù)中實(shí)現(xiàn)通用。他認(rèn)為,隨著技術(shù)演進(jìn),模型架構(gòu)可能會(huì)收斂到單一模型,或者呈現(xiàn)多樣化但核心統(tǒng)一的態(tài)勢(shì)。

此外,大部分嘉賓則對(duì)于技術(shù)路線的收斂持認(rèn)可態(tài)度。在此基礎(chǔ)上,如果具身智能最終會(huì)收斂到一個(gè)統(tǒng)一架構(gòu),那么這個(gè)“具身Transformer”的技術(shù)路徑在哪里?

招商局集團(tuán)AI首席科學(xué)家張家興認(rèn)為,當(dāng)下大模型的發(fā)展邏輯難以直接遷移到具身智能。“過(guò)去三年形成的LLM(Large Language Model,大語(yǔ)言模型)與VLM(Vision-Language Model,視覺(jué)語(yǔ)言模型)等結(jié)構(gòu),是以語(yǔ)言為中心,而語(yǔ)言在人類(lèi)執(zhí)行動(dòng)作時(shí)并不參與?!彼e例稱,人類(lèi)開(kāi)車(chē)時(shí)不會(huì)在大腦中不斷語(yǔ)言化動(dòng)作指令,因此語(yǔ)言作為中間層的VLA架構(gòu)(視覺(jué)語(yǔ)言動(dòng)作模型,Vision-Language-Action),其本質(zhì)與機(jī)器人需要的結(jié)構(gòu)不一致。

張家興提出,具身智能需要一個(gè)完全屬于機(jī)器人自身的智能結(jié)構(gòu),而不是從現(xiàn)有VLA體系延展出來(lái)的產(chǎn)物?,F(xiàn)階段,他認(rèn)為真正的具身架構(gòu)還未出現(xiàn),業(yè)界正在等待一個(gè)來(lái)自基礎(chǔ)大模型領(lǐng)域的突破性創(chuàng)新,類(lèi)似當(dāng)年Transformer論文那樣。這種創(chuàng)新將有可能弱化語(yǔ)言在模型中的中心地位,讓模型以行動(dòng)和視覺(jué)作為驅(qū)動(dòng)核心。

與張家興的視角類(lèi)似,清華大學(xué)助理教授、星海圖聯(lián)合創(chuàng)始人趙行認(rèn)為,視覺(jué)是世界上最通用的感知傳感器,具身智能的基礎(chǔ)模型應(yīng)當(dāng)遵循生物進(jìn)化規(guī)律:先有運(yùn)動(dòng)和視覺(jué),最后才誕生高級(jí)語(yǔ)言智慧。因此,理想的模型順序應(yīng)該是Action First(動(dòng)作優(yōu)先),然后Vision(視覺(jué)),最后Language(語(yǔ)言)。

趙行強(qiáng)調(diào)了一個(gè)關(guān)鍵差異:具身模型是一個(gè)閉環(huán)系統(tǒng)。語(yǔ)言模型是一問(wèn)一答的開(kāi)放系統(tǒng),而具身模型需要“動(dòng)作—反饋—再次動(dòng)作”的實(shí)時(shí)循環(huán),其核心是持續(xù)的環(huán)境交互。它必須從世界反饋中修正自己的策略,而不是完成一次思考后給出單一答案。

智元機(jī)器人合伙人、首席科學(xué)家羅劍嵐在此基礎(chǔ)上進(jìn)一步擴(kuò)展了閉環(huán)系統(tǒng)的結(jié)構(gòu)組成。他認(rèn)為,未來(lái)一定會(huì)出現(xiàn)閉環(huán)一致的“具身Transformer 系統(tǒng)”,但未必是單一模型,而更可能是由視覺(jué)(V)、語(yǔ)言(L)、動(dòng)作(A)等模塊共同構(gòu)成的系統(tǒng)?!癡LA 的趨勢(shì)是對(duì)的,但最終形態(tài)不會(huì)是今天這個(gè)樣子?!闭嬲馁|(zhì)變可能需要等到具身智能互聯(lián)網(wǎng)形成,即成千上萬(wàn)臺(tái)機(jī)器人在真實(shí)場(chǎng)景中解決具體問(wèn)題,累積海量數(shù)據(jù)后,才能催生出真正的統(tǒng)一系統(tǒng)。

在架構(gòu)探索之外,動(dòng)作輸出端的不成熟也是當(dāng)下具身智能無(wú)法收斂的重要原因。王鶴指出,目前行業(yè)在動(dòng)作輸出上尚未收斂,存在大量基于概率匹配的方法,這類(lèi)方法雖然適合處理連續(xù)變量,但為端到端的深度強(qiáng)化學(xué)習(xí)埋下了隱患,如何對(duì)概率模型應(yīng)用策略更新是尚未解決的問(wèn)題。

王鶴認(rèn)為,短期內(nèi)行業(yè)需依賴仿真環(huán)境和合成數(shù)據(jù)來(lái)探索動(dòng)作優(yōu)先的架構(gòu),因?yàn)槟壳叭騼H有約一千臺(tái)人形機(jī)器人在運(yùn)行,數(shù)據(jù)量遠(yuǎn)不足以支撐新架構(gòu)的探索?!伴L(zhǎng)期來(lái)看,地球上人形機(jī)器人的數(shù)量必須保持長(zhǎng)期高速增長(zhǎng),只有這樣,它們的能力才能同步提升,而反過(guò)來(lái),能力的增長(zhǎng)又會(huì)進(jìn)一步推動(dòng)數(shù)量增長(zhǎng),最終才能孕育出真正強(qiáng)大的模型?!?/p>

自變量創(chuàng)始人、CEO王潛則認(rèn)為,是否叫Transformer并不重要,Transformer 更像蓋樓的鋼筋,真正決定樓是什么樣子的,是建筑的結(jié)構(gòu)設(shè)計(jì)。他強(qiáng)調(diào),物理世界充滿了語(yǔ)言和圖像無(wú)法描述的精細(xì)摩擦與接觸過(guò)程,因此必須建立一個(gè)獨(dú)立于虛擬世界的、能夠描繪復(fù)雜物理過(guò)程的基礎(chǔ)模型。“可能十年后或者是五年后,可能反而是我們從物理世界中收集到的數(shù)據(jù)來(lái)做出來(lái)的多模態(tài)模型,反過(guò)來(lái)吞噬今天的一些基礎(chǔ)模型。”

突破跨域數(shù)據(jù)瓶頸一定要用真實(shí)數(shù)據(jù)嗎?

無(wú)論是否收斂到一個(gè)統(tǒng)一模型,對(duì)所有具身企業(yè)而言,一個(gè)共識(shí)正在形成:如果具身智能要走到“ChatGPT時(shí)刻”,必須先解決數(shù)據(jù)問(wèn)題。

張家興團(tuán)隊(duì)選擇“高質(zhì)量+低成本”的路線,以真實(shí)物理世界的探索數(shù)據(jù)為基礎(chǔ),并通過(guò)低成本的人類(lèi)采集來(lái)構(gòu)建數(shù)據(jù)金字塔的中間層,試圖以最高效的方式夯實(shí)數(shù)據(jù)地基。

趙行則提出了數(shù)據(jù)采集的三個(gè)維度:真實(shí)性、多樣性和規(guī)?;?。他強(qiáng)調(diào)必須以真實(shí)機(jī)器人的素材為起點(diǎn),且不能局限于實(shí)驗(yàn)室,必須深入真實(shí)場(chǎng)景。羅劍嵐同樣堅(jiān)持真實(shí)數(shù)據(jù)路線,他認(rèn)為,靠遙控操作采集數(shù)據(jù)只是起步,未來(lái)必須依靠大量部署在真實(shí)環(huán)境中的機(jī)器人,在自主交互中產(chǎn)生廣泛數(shù)據(jù),形成自我反饋和提升的閉環(huán)。

王仲遠(yuǎn)主張利用互聯(lián)網(wǎng)上的海量視頻數(shù)據(jù)作為基座模型的學(xué)習(xí)來(lái)源,這類(lèi)似于人類(lèi)兒童通過(guò)看視頻認(rèn)識(shí)世界。在此基礎(chǔ)上,再通過(guò)真機(jī)采集的數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)和反饋,不斷精進(jìn)能力。

但亦有真實(shí)數(shù)據(jù)之外的探索路徑。

王鶴在討論中提到,全球規(guī)模化運(yùn)行的人形機(jī)器人可能僅在千臺(tái)級(jí),甚至更少,如此小的機(jī)器人人口,遠(yuǎn)不足以支撐一個(gè)動(dòng)作優(yōu)先的基礎(chǔ)模型。

王鶴認(rèn)為,短期內(nèi)行業(yè)必須依賴模擬環(huán)境與合成數(shù)據(jù),這會(huì)比受限于真實(shí)機(jī)器數(shù)量的方式發(fā)展得更快。但長(zhǎng)期來(lái)看,只有當(dāng)機(jī)器人數(shù)量進(jìn)入指數(shù)級(jí)增長(zhǎng),數(shù)據(jù)才可能形成正反饋循環(huán),推動(dòng)模型與能力共同演進(jìn)。

加速進(jìn)化創(chuàng)始人、CEO程昊認(rèn)為,數(shù)據(jù)瓶頸的破解是一個(gè)螺旋上升的過(guò)程。目前極速進(jìn)化多使用仿真數(shù)據(jù)以求速度,目標(biāo)是為了讓機(jī)器人具備落地能力,從而在真實(shí)場(chǎng)景中收集數(shù)據(jù)。當(dāng)真實(shí)數(shù)據(jù)遇到瓶頸時(shí),再回退到仿真環(huán)境中進(jìn)行針對(duì)性訓(xùn)練?!皺C(jī)器人落地創(chuàng)造價(jià)值,價(jià)值驅(qū)動(dòng)規(guī)模,規(guī)模反哺模型?!?/p>

在海量數(shù)據(jù)需求之外,王潛認(rèn)為,自變量什么數(shù)據(jù)都在用,只是側(cè)重點(diǎn)不同?;ヂ?lián)網(wǎng)數(shù)據(jù)用于學(xué)習(xí)通用常識(shí),仿真數(shù)據(jù)用于導(dǎo)航和探索,而真實(shí)的物理接觸數(shù)據(jù)則是核心壁壘。

王潛提到,根本在于所有類(lèi)型的數(shù)據(jù)都可以被利用,但真正的挑戰(zhàn)在于:處理好任何單一類(lèi)型的數(shù)據(jù)都相當(dāng)困難。這背后涉及大量核心的工程問(wèn)題,也正是團(tuán)隊(duì)日常工作的重點(diǎn)所在,同時(shí)這些難題也構(gòu)成了行業(yè)的技術(shù)壁壘。

一個(gè)清晰的現(xiàn)實(shí)浮現(xiàn)出來(lái):具身智能的未來(lái)并非由某一種技術(shù)突破決定,而是取決于架構(gòu)創(chuàng)新、真實(shí)世界落地、機(jī)器人數(shù)量增長(zhǎng)與高質(zhì)量動(dòng)作數(shù)據(jù)積累是否能同時(shí)發(fā)生。具身智能的發(fā)展路徑比語(yǔ)言模型時(shí)代更復(fù)雜,也更漫長(zhǎng)。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0