多模態(tài)感知+強推理規劃
賦能工業(yè)場(chǎng)景規?;瘧?/b>
在智能化浪潮席卷全球的當下,人形機器人的規劃能力已成為關(guān)鍵競爭維度之一。傳統機器人系統依賴(lài)預設指令執行任務(wù),難以應對高度動(dòng)態(tài)、多變的現實(shí)場(chǎng)景。而本次三大基準測試的核心,正是針對人形機器人在復雜環(huán)境中的多模態(tài)感知和推理規劃能力進(jìn)行系統化驗證。
MS COCO detection challenge由微軟發(fā)起,是計算機視覺(jué)領(lǐng)域的權威評測基準之一,在全球學(xué)術(shù)界與工業(yè)界享有極高認可度,常年被眾多頂尖論文與技術(shù)報告用作感知算法性能的衡量標準。
RoboVQA和Egoplan-bench2則分別由谷歌DeepMind和香港大學(xué)提出,致力于構建機器人第一視角推理與任務(wù)規劃的公開(kāi)標準基準測試,重點(diǎn)關(guān)注多模態(tài)、長(cháng)周期任務(wù)規劃能力。參與排名的模型包括北京智源、英偉達ThinkAct、Cosmos-reason1、GPT-4V、Qwen2.5-vl等。
優(yōu)必選Thinker在MS COCO detection challenge - Segmentation Mask中排名第一
優(yōu)必選Thinker在MS COCO detection challenge - Bounding Box排名中并列第一
優(yōu)必選Thinker在RoboVQA與Egoplan-bench2中排名第一
這一成績(jì)的背后,是優(yōu)必選自主研發(fā)的Thinker架構與訓練框架所提供的技術(shù)支撐,通過(guò)多項關(guān)鍵技術(shù)創(chuàng )新性整合,系統化提升了人形機器人的感知與推理規劃能力,為工業(yè)場(chǎng)景的規?;瘧玫於ɑA。
prompt: "Move the material box to the conveyor belt."
Thinker: "First locate the conveyor belt, then place the material box."
Walker S2在工業(yè)場(chǎng)景中自主完成上料
第一,自研視覺(jué)編碼器基座,構建精準環(huán)境感知。優(yōu)必選以ViT作為視覺(jué)編碼器原型,結合Co-DETR檢測頭,依托Object 365等開(kāi)源數據在通用視覺(jué)任務(wù)上進(jìn)行預訓練,并通過(guò)多階段模態(tài)對齊機制實(shí)現了視覺(jué)-語(yǔ)言模態(tài)的高效融合。最終,在優(yōu)必選機器人數據集上進(jìn)行微調,顯著(zhù)提升機器人在工業(yè)場(chǎng)景中對物體、障礙和操作上下文的識別能力,為復雜環(huán)境下穩定可靠的多模態(tài)環(huán)境感知奠定了堅實(shí)基礎。
第二,超大規模參數架構,提供強大語(yǔ)義理解基礎。優(yōu)必選自研了具有百億參數的多模態(tài)大模型Thinker基座,實(shí)現視覺(jué)-語(yǔ)言-時(shí)間的跨域統一表征,使機器人能夠在多場(chǎng)景中準確捕捉環(huán)境細節、理解任務(wù)指令并做出推理,為自動(dòng)化操作提供可靠的認知基礎。
第三,時(shí)序增強算法與強化學(xué)習方法,增強長(cháng)程任務(wù)規劃連貫可靠。通過(guò)大模型蒸餾技術(shù),將百億參數模型效果濃縮至7B參數模型中,在保持高性能的同時(shí)增強多步驟任務(wù)分解與連續決策能力。該優(yōu)化使模型可以在端側部署,用機器人自身搭載的算力就可實(shí)時(shí)自主拆解復雜流程,避免規劃中斷或邏輯混亂,在流程嚴格、環(huán)環(huán)相扣的工業(yè)場(chǎng)景中展現出關(guān)鍵價(jià)值,將有力保障生產(chǎn)連貫性和操作安全性。
通用基礎能力打造+工業(yè)場(chǎng)景精調
共創(chuàng )工業(yè)人形機器人應用生態(tài)
工業(yè)場(chǎng)景的精調策略正成為推動(dòng)多模態(tài)大模型邁向實(shí)際應用的關(guān)鍵力量,為人形機器人在生產(chǎn)線(xiàn)上的穩定、高效部署奠定了技術(shù)基礎,加速其從技術(shù)驗證走向規?;瘜?shí)戰應用的進(jìn)程。
優(yōu)必選創(chuàng )新性地采用“通用基礎能力打造+工業(yè)場(chǎng)景精調”的微調策略,基于超200萬(wàn)條視頻數據構成的大規模訓練集進(jìn)行預訓練,隨后引入優(yōu)必選在工廠(chǎng)實(shí)訓中積累的億級工業(yè)數據集進(jìn)行微調,并對工業(yè)場(chǎng)景任務(wù)規劃數據加以清洗與整合,構建高效多模態(tài)大模型學(xué)習閉環(huán)。通過(guò)這一流程,模型能夠快速學(xué)習工業(yè)場(chǎng)景的視覺(jué)特征、任務(wù)規則與操作偏好,最終顯著(zhù)提升人形機器人在工業(yè)場(chǎng)景中的理解準確率、規劃適配性與決策可靠性,實(shí)現在多種復雜場(chǎng)景中的泛化性與穩定性。
prompt: "Move the material box onto the pile of boxes next to it."
Thinker: "The middle slot is the best one for the material box."
Walker S2在工業(yè)場(chǎng)景中自主規劃任務(wù)
在Thinker大模型技術(shù)體系的全方位賦能下,優(yōu)必選新一代工業(yè)人形機器人Walker S2 實(shí)現“最強大腦”再進(jìn)化,不僅具備高精準環(huán)境感知能力,更能夠在動(dòng)態(tài)場(chǎng)景中高效完成任務(wù)分解、實(shí)時(shí)調整與穩定規劃。借助Thinker,Walker S2可精準識別設備、物料與障礙物,深度理解場(chǎng)景語(yǔ)義及操作前后邏輯關(guān)聯(lián),顯著(zhù)提升長(cháng)周期任務(wù)的執行穩定性。在復雜流水線(xiàn)環(huán)境中,機器人展現出持續連貫的規劃能力,大幅降低對人工干預的依賴(lài)。
實(shí)際應用數據顯示,相比僅基于通用數據微調的模型,采用工業(yè)數據集進(jìn)行二次微調后,Walker S2在拆碼垛規劃等典型任務(wù)的中的規劃精度提升超過(guò) 20%,有力驗證了該技術(shù)方案的產(chǎn)業(yè)化價(jià)值,相關(guān)技術(shù)報告將在arxiv上發(fā)布。
prompt: “Move the material box onto the roller rack.”
Thinker: “First locate the roller rack and then place material box.”
Walker S2在工業(yè)場(chǎng)景中自主規劃任務(wù)
當前,人形機器人正在進(jìn)入大規模應用的關(guān)鍵階段,其發(fā)展亟需與開(kāi)發(fā)者共同構建開(kāi)放、協(xié)同的應用生態(tài)。為此,優(yōu)必選將逐步開(kāi)源一系列業(yè)界稀缺的工業(yè)場(chǎng)景數據集與通用基礎大模型,為全行業(yè)提供源自實(shí)際應用一線(xiàn)的高質(zhì)量合規數據資源。開(kāi)發(fā)者可基于優(yōu)必選多模態(tài)大模型Thinker,面向各類(lèi)新場(chǎng)景開(kāi)展精調與二次開(kāi)發(fā),助力提升開(kāi)發(fā)效率。我們期待與全球開(kāi)發(fā)者攜手,共創(chuàng )工業(yè)人形機器人的應用生態(tài),為具身智能行業(yè)的加速發(fā)展注入持續動(dòng)能。