2025-11-05 21:13:35
每經(jīng)記者|朱成祥 每經(jīng)編輯|黃博文
11月5日,在第八屆虹橋國際經(jīng)濟(jì)論壇“人形機(jī)器人創(chuàng)新發(fā)展合作”分論壇上,宇樹科技創(chuàng)始人兼首席執(zhí)行官王興興發(fā)表了主題演講。
王興興認(rèn)為,今年機(jī)器人產(chǎn)業(yè)非?;馃?。不過,他也指出,機(jī)器人大模型進(jìn)展比想象中緩慢,還沒有達(dá)到臨界值。王興興表示,具身智能大模型、端到端技術(shù)的進(jìn)步,總體上非??欤潜人胂蟮纳晕⒙稽c(diǎn)點(diǎn)。
對于什么才是具身智能發(fā)展的臨界點(diǎn),即具身智能“ChatGPT時(shí)刻”,王興興認(rèn)為,在陌生的場景中,給機(jī)器人發(fā)送語音或文字,若機(jī)器人能夠完成80%左右的任務(wù)。這便是突破性技術(shù),基本可以達(dá)到“ChatGPT時(shí)刻”。
那么,為了早日實(shí)現(xiàn)“ChatGPT時(shí)刻”,更應(yīng)該研究模型,還是收集更多的數(shù)據(jù)?王興興表示,目前在模型結(jié)構(gòu)上大家做了很多嘗試,發(fā)現(xiàn)泛化能力不夠,還需要?jiǎng)?chuàng)新。大家也需要收集更大規(guī)模的數(shù)據(jù)、質(zhì)量更好的數(shù)據(jù)。但目前,對數(shù)據(jù)的采集、對數(shù)據(jù)質(zhì)量的評(píng)判還非常困難。
王興興提出,模型和數(shù)據(jù)需要相輔相成,而不是一股腦采集大量數(shù)據(jù),或者一股腦把模型做大。
目前,具身智能主流模型有VLA(視頻語言動(dòng)作)+RL(強(qiáng)化學(xué)習(xí))模型和基于視頻生成的世界模型。王興興表示,前者可以用仿真環(huán)境做訓(xùn)練,或者用真實(shí)場景做訓(xùn)練,但泛化能力相對來說不是特別夠。因此,他更喜歡基于視頻生成的世界模型。
然而,王興興也認(rèn)為,該模型面臨比較大的挑戰(zhàn)。因?yàn)榛谝曨l生成的世界模型對算力的需求非常大,需要的算力卡比較多,所以中小型人形機(jī)器人公司往往“跑不動(dòng)”,反而是一些大型AI公司、互聯(lián)網(wǎng)公司視頻模型的資源更加豐富,做出該模型的概率更大。
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP