據(jù)悉,GO-2首次在統(tǒng)一架構(gòu)中打通從邏輯推理到精準(zhǔn)動(dòng)作執(zhí)行的“最后一公里”,結(jié)合數(shù)萬小時(shí)的數(shù)據(jù)訓(xùn)練,在多個(gè)機(jī)器人基準(zhǔn)測(cè)試中刷新行業(yè)SOTA,讓機(jī)器人從“黑盒摸索”邁向真正的 “知行合一”。

圖片來源:智元機(jī)器人
一年前,智元發(fā)布了Genie Operator-1(簡(jiǎn)稱GO-1)基座模型,通過創(chuàng)新的ViLLA架構(gòu),首次實(shí)現(xiàn)了視覺-語言-動(dòng)作的統(tǒng)一建模。
GO-1 讓機(jī)器人學(xué)會(huì)了“理解”。它能看懂指令,能識(shí)別場(chǎng)景,能規(guī)劃任務(wù)。
然而,當(dāng)系統(tǒng)進(jìn)入更加復(fù)雜的真實(shí)環(huán)境后,一個(gè)關(guān)鍵問題逐漸顯現(xiàn):機(jī)器人雖然能生成合理的規(guī)劃,但動(dòng)作并不總能嚴(yán)格按照規(guī)劃執(zhí)行。
在傳統(tǒng)具身模型中,鏈路往往是割裂的:高層語義推理 → 抽象指令 → 控制系統(tǒng) → 機(jī)器人動(dòng)作。高層模型輸出的抽象信號(hào),與真實(shí)世界所需的精細(xì)動(dòng)作之間,仍隔著巨大落差。到了執(zhí)行環(huán)節(jié),控制模塊常常繞過規(guī)劃、直接依賴瞬時(shí)視覺生成動(dòng)作,最終導(dǎo)致:長(zhǎng)程任務(wù)誤差不斷累積、動(dòng)作持續(xù)偏離規(guī)劃、系統(tǒng)整體穩(wěn)定性大幅下降。
而新一代基座模型 GO?2 要做的,正是彌合這道鴻溝。GO?2 的目標(biāo)清晰而堅(jiān)定:讓機(jī)器人不只理解世界,更能穩(wěn)定、可靠地作用于世界。
從 GO?1 到 GO?2,智元完成了一次從能力到價(jià)值的關(guān)鍵躍遷:從 “理解世界”,走向真正作用于世界;從 “偶爾成功”,走向持續(xù)穩(wěn)定完成;從 “單純完成動(dòng)作”,走向在物理世界中精準(zhǔn)交互、穩(wěn)定落地。
GO?2 基座模型所做的,正是為具身智能打造真正會(huì)思考、可信賴、能落地的通用大腦,打破語義與動(dòng)作的割裂,讓規(guī)劃與執(zhí)行真正合一,讓機(jī)器人的每一個(gè)動(dòng)作,都能適配物理世界的復(fù)雜變量、穩(wěn)定作用于真實(shí)場(chǎng)景。