【Kaiyun·開云,科技消息】據(jù)《中國經(jīng)濟網(wǎng)》報道,近日,香港科技大學(廣州)李昊昂教授團隊在機器人導航技術領域取得了重要突破,成功研發(fā)出視覺-語言導航技術,為機器人提供了更加自然、智能、高效的導航與交互能力。
傳統(tǒng)的機器人導航技術主要依賴純視覺信息,如圖像或視頻,來理解周圍環(huán)境并規(guī)劃路徑。然而,在復雜多變的環(huán)境中,這種導航方式往往存在局限性,導致機器人導航能力不足。為了克服這一難題,李昊昂教授團隊研究出了視覺-語言導航技術,該技術能夠整合視覺信息及語言指令,實現(xiàn)高效的人機交互。
在服務機器人的應用中,該技術使得機器人能夠理解人類的語言指令,如“走到客廳,把餐桌上的蘋果拿給我”,并通過視覺數(shù)據(jù)識別關鍵信息,如“客廳”、“餐桌”、“蘋果”等,從而準確地完成任務。這一技術的實現(xiàn),不僅拓展了機器人的應用場景,還提高了機器人的工作效率和安全性。
此外,針對現(xiàn)有視覺-語言大模型在信息保障方面存在的問題,如對數(shù)據(jù)質(zhì)量和訓練場景的敏感性、難以理解模糊語言指令等,李昊昂教授團隊提出了面向視覺-語言導航應用的大模型調(diào)優(yōu)策略。通過在機器人室內(nèi)外導航數(shù)據(jù)上進行視覺數(shù)據(jù)抽取和語言指令標注,并對模型進行擬合,機器人可以根據(jù)提取的環(huán)境視覺特征和人類語言指令來決定其導航路徑。
在數(shù)據(jù)基礎方面,團隊還通過仿真數(shù)據(jù)合成的方式解決了現(xiàn)有導航訓練數(shù)據(jù)存在的問題。他們設計了新穎的生成式擴散模型,可以合成大量、多樣化、高質(zhì)量的視覺數(shù)據(jù)和相關的語言描述,從而有效增加訓練數(shù)據(jù)的多樣性,提高模型在處理復雜、未見場景時的魯棒性。
版權所有,未經(jīng)許可不得轉載
-Kaiyun·開云