實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備
技術(shù)領(lǐng)域
[0001] 本申請涉及機器人領(lǐng)域,特別是涉及一種實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備。
背景技術(shù)
[0002] 近年來,機器人逐漸被應(yīng)用到各個領(lǐng)域,例如工業(yè)領(lǐng)域、日常生活領(lǐng)域,機器人的普遍應(yīng)用也要求機器人具有更高的智能化,例如能通過學習技能來完成更為復(fù)雜的任務(wù),而模仿學習就是一種簡化機器人技能學習的有效方法,其可以避免復(fù)雜的手動編程。本申請的發(fā)明人發(fā)現(xiàn),目前機器人模仿學習的過程效率低下,有待進一步改進。
發(fā)明內(nèi)容
[0003] 本申請?zhí)峁┮环N實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備,能夠提高機器人模仿學習軌跡的效率。
[0004] 本申請實施例第一方面提供一種實現(xiàn)機器人模仿學習軌跡的方法,所述方法包括:獲取初始軌跡,并通過動態(tài)運動基元算法將所述初始軌跡進行編碼,得到所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組,所述基函數(shù)權(quán)重組包括多個基函數(shù)權(quán)重值;生成所述初始軌跡對應(yīng)的獎勵,其中,所述初始軌跡對應(yīng)的獎勵表征所述機器人按照所述初始軌跡運動后完成目標任務(wù)的概率;根據(jù)所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組以及所述初始軌跡對應(yīng)的獎勵,生成當前基函數(shù)權(quán)重組,所述當前基函數(shù)權(quán)重組包括多個基函數(shù)權(quán)重值;根據(jù)所述當前基函數(shù)權(quán)重組以及所述動態(tài)運動基元算法,生成當前軌跡;生成所述當前軌跡對應(yīng)的獎勵,其中,所述當前軌跡對應(yīng)的獎勵表征所述機器人按照所述當前軌跡運動后完成所述目標任務(wù)的概率;根據(jù)所述機器人已經(jīng)運行的多個目標軌跡對應(yīng)的獎勵,從多個所述目標軌跡中篩選出若干個第一軌跡;根據(jù)篩選出的若干個所述第一軌跡對應(yīng)的基函數(shù)權(quán)重組,生成第一權(quán)重梯度組,所述第一權(quán)重梯度組包括多個第一權(quán)重梯度值;判斷所述第一權(quán)重梯度組是否滿足預(yù)設(shè)要求;響應(yīng)于所述第一權(quán)重梯度組滿足所述預(yù)設(shè)要求,將所述當前軌跡確定為最終軌跡;否則,獲取第一噪聲項,根據(jù)所述第一權(quán)重梯度組以及所述第一噪聲項生成第二權(quán)重梯度組,接著根據(jù)所述第二權(quán)重梯度組更新所述當前軌跡的所述當前基函數(shù)權(quán)重組,并返回執(zhí)行所述根據(jù)所述當前基函數(shù)權(quán)重組以及所述動態(tài)運動基元算法,生成當前軌跡的步驟;其中,相鄰兩次獲取的所述第一噪聲項不同。
[0005] 本申請實施例第二方面提供一種電子設(shè)備,所述電子設(shè)備包括處理器、存儲器以及通信電路,所述處理器分別耦接所述存儲器、所述通信電路,所述存儲器中存儲有程序數(shù)據(jù),所述處理器通過執(zhí)行所述存儲器內(nèi)的所述程序數(shù)據(jù)以實現(xiàn)上述方法中的步驟。
[0006] 本申請實施例第三方面提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序能夠被處理器執(zhí)行以實現(xiàn)上述方法中的步驟。
[0007] 有益效果是:本申請使用了動態(tài)運動基元算法將軌跡進行策略的參數(shù)化,得到軌跡對應(yīng)的基函數(shù)權(quán)重組,同時在對基函數(shù)權(quán)重組進行迭代更新的過程中,根據(jù)軌跡對應(yīng)的獎勵,對機器人已經(jīng)運行的多個目標軌跡進行了篩選,選擇性復(fù)用了機器人已經(jīng)運行的目標軌跡,能夠提高機器人模仿學習軌跡的效率。
附圖說明
[0008] 為了更清楚地說明本申請實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖,其中:
[0009] 圖1是本申請機器人在未運動之前的狀態(tài)示意圖;
[0010] 圖2是圖1中機器人在運動之后的狀態(tài)示意圖;
[0011] 圖3是本申請實現(xiàn)機器人模仿學習軌跡的方法一實施方式的流程示意圖;
[0012] 圖4是本申請實現(xiàn)機器人模仿學習軌跡的方法另一實施方式的流程示意圖;
[0013] 圖5是本申請實現(xiàn)機器人模仿學習軌跡的方法又一實施方式的流程示意圖;
[0014] 圖6是本申請電子設(shè)備一實施方式的結(jié)構(gòu)示意圖;
[0015] 圖7是本申請計算機可讀存儲介質(zhì)一實施方式的結(jié)構(gòu)示意圖。
具體實施方式
[0016] 下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅是本申請的一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本申請保護的范圍。