全國服務(wù)熱線:
400-155-6825
具身智能(Embodied AI)是指機(jī)器人能夠通過其物理形態(tài)與環(huán)境的交互,進(jìn)行感知、學(xué)習(xí)、決策和執(zhí)行,從而完成復(fù)雜任務(wù)的能力。具身智能強(qiáng)調(diào)機(jī)器人不僅要具備感知環(huán)境和分析數(shù)據(jù)的能力,還要能夠通過身體的行為和物理互動來適應(yīng)環(huán)境變化,做出實(shí)時(shí)響應(yīng)。

具身智能的特性包括自主性、適應(yīng)性、學(xué)習(xí)能力和環(huán)境互動能力。在工業(yè)能源領(lǐng)域,智能巡檢機(jī)器人需要面對多樣化的設(shè)備、復(fù)雜的環(huán)境和不可預(yù)測的狀況,因此,具身智能特性使得機(jī)器人能夠應(yīng)對這些挑戰(zhàn),通過自主巡航、實(shí)時(shí)避障、故障檢測與預(yù)測、環(huán)境變化的應(yīng)對等功能,提升巡檢任務(wù)的效率和準(zhǔn)確性。本文將從具身智能技術(shù)在巡檢及操作任務(wù)上以及在導(dǎo)航上的應(yīng)用兩方面進(jìn)行分析。
具身智能技術(shù)在巡檢及操作任務(wù)上的應(yīng)用
機(jī)器人在進(jìn)行巡檢任務(wù)時(shí),以超維第三代室內(nèi)輪式巡檢機(jī)器人為例:

機(jī)器人在進(jìn)行操作任務(wù)時(shí),以超維第二代操作機(jī)器人為例:

痛點(diǎn)問題:
痛點(diǎn)1:針對新客戶的不熟悉的現(xiàn)場,需重新訓(xùn)練每一個(gè)模型,并重新部署,交付成本高。
痛點(diǎn)2:老客戶升級設(shè)備,或更換操作部件,仍需要重新訓(xùn)練每一個(gè)小模型,維護(hù)成本高。
痛點(diǎn)3:巡檢機(jī)器人攝像頭更換或圖像的分辨率改變,模型都存在識別率降低或不識別的風(fēng)險(xiǎn),仍需重新訓(xùn)練每一個(gè)模型。
基于小模型的方案算力需求小,好部署,但魯棒性差,維護(hù)成本高,適合在數(shù)據(jù)不足時(shí)的開發(fā)。

得益于超維機(jī)器人在工業(yè)和能源領(lǐng)域多年數(shù)據(jù)積累,在開源的通用檢測大模型GLEE的基礎(chǔ)上,公司二次開發(fā)了應(yīng)用于工業(yè)和能源場景的圖像處理大模型。

根據(jù)操作業(yè)務(wù)及機(jī)械臂自動手眼標(biāo)定需求,我們獨(dú)立設(shè)計(jì)了3d深度估計(jì)的decode模塊,實(shí)現(xiàn)了模型對深度的估計(jì).GLEE并未包含圖像的匹配模塊。我們根據(jù)模型所提取的圖像特征輸出,設(shè)計(jì)了獨(dú)立GNN(Graph Neural Network)模塊,同時(shí)考慮圖像上關(guān)鍵點(diǎn)的特征和位置信息,實(shí)現(xiàn)了圖像匹配功能。以下為我們采用大模型后,各個(gè)任務(wù)指標(biāo)的對比:

具身智能技術(shù)在導(dǎo)航上的應(yīng)用
機(jī)器人在執(zhí)行巡檢和操作任務(wù)時(shí),對導(dǎo)航的精度要求很高,一般要求誤差在±5cm內(nèi),姿態(tài)誤差在±3°內(nèi)。
目前常用的感知定位方案
SLAM導(dǎo)航痛點(diǎn):
痛點(diǎn)1:在缺乏特征的場景下,相機(jī)和激光雷達(dá)的信息用傳統(tǒng)的方法很難提取到有效的特征。例如在空曠的場景,例如田野,大的較為空曠的變電站,或室內(nèi)特征相同的走廊通道,室外的林蔭道等。
痛點(diǎn)2:
在極端天氣下,如雨雪,大霧等天氣,激光雷達(dá)和相機(jī)的工作受限,無法準(zhǔn)確定位。
痛點(diǎn)3:
在環(huán)境變化的場景下,如設(shè)備升級改造,場地施工等情況下,原有的建圖與目前的激光雷達(dá)和相機(jī)的感知結(jié)果不匹配,機(jī)器人導(dǎo)航定位就會丟失位置,無法導(dǎo)航。
痛點(diǎn)4:
在光照變化在環(huán)境變化的場景下,如設(shè)備升級改造,場地施工等情況下,原有的建圖與目前的激光雷達(dá)和相機(jī)的感知結(jié)果不匹配,機(jī)器人導(dǎo)航定位就會丟失位置,無法導(dǎo)航。比較劇烈的情況下,利用傳統(tǒng)機(jī)器視覺無法提取的圖像特征信息,從而降低了感知定位的精度。
基于超維機(jī)器人開發(fā)的視覺大模型,采用自研的圖像匹配模塊,有效提高了處理圖像信息的魯棒性。目前能有效保證機(jī)器人在白天和黑夜有燈光情況下的巡檢任務(wù)的精度需求。
采用圖優(yōu)化神經(jīng)網(wǎng)絡(luò)(GNN)開發(fā)了3d點(diǎn)云的匹配方案,當(dāng)場景變化時(shí),在線更新地圖。
未來重點(diǎn)研發(fā)方向:具身智能操作機(jī)器人
核心技術(shù):
1、感知與交互技術(shù):多模態(tài)感知,自然語言及手勢識別等交互;
2、決策與規(guī)劃技術(shù):通常基于深度學(xué)習(xí)等算法,能夠處理復(fù)雜的任務(wù)和問題,并具備一定的泛化能力
3、運(yùn)動控制技術(shù):通過運(yùn)動控制算法、驅(qū)動電機(jī),實(shí)現(xiàn)對機(jī)器人的精準(zhǔn)控制和穩(wěn)定運(yùn)動。
應(yīng)用場景:
工業(yè)、能源等高危復(fù)雜場景
工作計(jì)劃
巡檢任務(wù)方面:研發(fā)統(tǒng)一視覺和語音信息的大模型,實(shí)現(xiàn)巡檢任務(wù),(包括巡檢,語音識別和智能問答任務(wù))的全流程的端到端模型,減少模型對算力的需求,降低部署成本,同時(shí)提高語音識別的準(zhǔn)確率。
導(dǎo)航定位方面:研究整體的基于激光雷達(dá),imu和視覺的端到端的神經(jīng)網(wǎng)絡(luò)導(dǎo)航模型,提高在不同極端天氣下模型的魯棒性。特斯拉的FSD模型有重要的參考左右,但其定位精度為10cm,需在它的基礎(chǔ)上融合雷達(dá),imu和gps信號,實(shí)現(xiàn)定位精度3cm內(nèi)的需求。