實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備

專利號

CN119260750B

公開日期

2025-02-18

申請人

北京配天技術(shù)有限公司（北京市海淀區(qū)東北旺西路8號9號樓3區(qū)103）

發(fā)明人

任琳琳

IPC分類

B25J9/16; B25J9/04; G06N20/00

技術(shù)領(lǐng)域

軌跡,權(quán)重,獎勵,梯度,函數(shù),機器人,機器,生成,噪聲,目標

地域： 北京市北京市海淀區(qū)

摘要

本申請公開了一種實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備，該方法包括：獲取初始軌跡，并得到初始軌跡對應(yīng)的基函數(shù)權(quán)重組；生成初始軌跡對應(yīng)的獎勵；根據(jù)初始軌跡對應(yīng)的基函數(shù)權(quán)重組、對應(yīng)的獎勵，生成當前基函數(shù)權(quán)重組；根據(jù)當前基函數(shù)權(quán)重組以及動態(tài)運動基元算法，生成當前軌跡；生成當前軌跡對應(yīng)的獎勵；根據(jù)從機器人已經(jīng)運行的多個目標軌跡中篩選出的若干個第一軌跡對應(yīng)的基函數(shù)權(quán)重組，生成第一權(quán)重梯度組；響應(yīng)于第一權(quán)重梯度組滿足預(yù)設(shè)要求，停止迭代過程，生成最終軌跡；否則，更新當前基函數(shù)權(quán)重組，并返回執(zhí)行根據(jù)當前基函數(shù)權(quán)重組以及動態(tài)運動基元算法，生成當前軌跡的步驟。本申請的方法能夠提高機器人模仿學習軌跡的效率。

說明書

1 2 3 4 5 6 7

實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備技術(shù)領(lǐng)域 [0001] 本申請涉及機器人領(lǐng)域，特別是涉及一種實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備。背景技術(shù) [0002] 近年來，機器人逐漸被應(yīng)用到各個領(lǐng)域，例如工業(yè)領(lǐng)域、日常生活領(lǐng)域，機器人的普遍應(yīng)用也要求機器人具有更高的智能化，例如能通過學習技能來完成更為復(fù)雜的任務(wù)，而模仿學習就是一種簡化機器人技能學習的有效方法，其可以避免復(fù)雜的手動編程。本申請的發(fā)明人發(fā)現(xiàn)，目前機器人模仿學習的過程效率低下，有待進一步改進。發(fā)明內(nèi)容 [0003] 本申請?zhí)峁┮环N實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備，能夠提高機器人模仿學習軌跡的效率。 [0004] 本申請實施例第一方面提供一種實現(xiàn)機器人模仿學習軌跡的方法，所述方法包括：獲取初始軌跡，并通過動態(tài)運動基元算法將所述初始軌跡進行編碼，得到所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組，所述基函數(shù)權(quán)重組包括多個基函數(shù)權(quán)重值；生成所述初始軌跡對應(yīng)的獎勵，其中，所述初始軌跡對應(yīng)的獎勵表征所述機器人按照所述初始軌跡運動后完成目標任務(wù)的概率；根據(jù)所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組以及所述初始軌跡對應(yīng)的獎勵，生成當前基函數(shù)權(quán)重組，所述當前基函數(shù)權(quán)重組包括多個基函數(shù)權(quán)重值；根據(jù)所述當前基函數(shù)權(quán)重組以及所述動態(tài)運動基元算法，生成當前軌跡；生成所述當前軌跡對應(yīng)的獎勵，其中，所述當前軌跡對應(yīng)的獎勵表征所述機器人按照所述當前軌跡運動后完成所述目標任務(wù)的概率；根據(jù)所述機器人已經(jīng)運行的多個目標軌跡對應(yīng)的獎勵，從多個所述目標軌跡中篩選出若干個第一軌跡；根據(jù)篩選出的若干個所述第一軌跡對應(yīng)的基函數(shù)權(quán)重組，生成第一權(quán)重梯度組，所述第一權(quán)重梯度組包括多個第一權(quán)重梯度值；判斷所述第一權(quán)重梯度組是否滿足預(yù)設(shè)要求；響應(yīng)于所述第一權(quán)重梯度組滿足所述預(yù)設(shè)要求，將所述當前軌跡確定為最終軌跡；否則，獲取第一噪聲項，根據(jù)所述第一權(quán)重梯度組以及所述第一噪聲項生成第二權(quán)重梯度組，接著根據(jù)所述第二權(quán)重梯度組更新所述當前軌跡的所述當前基函數(shù)權(quán)重組，并返回執(zhí)行所述根據(jù)所述當前基函數(shù)權(quán)重組以及所述動態(tài)運動基元算法，生成當前軌跡的步驟；其中，相鄰兩次獲取的所述第一噪聲項不同。 [0005] 本申請實施例第二方面提供一種電子設(shè)備，所述電子設(shè)備包括處理器、存儲器以及通信電路，所述處理器分別耦接所述存儲器、所述通信電路，所述存儲器中存儲有程序數(shù)據(jù)，所述處理器通過執(zhí)行所述存儲器內(nèi)的所述程序數(shù)據(jù)以實現(xiàn)上述方法中的步驟。 [0006] 本申請實施例第三方面提供一種計算機可讀存儲介質(zhì)，所述計算機可讀存儲介質(zhì)存儲有計算機程序，所述計算機程序能夠被處理器執(zhí)行以實現(xiàn)上述方法中的步驟。 [0007] 有益效果是：本申請使用了動態(tài)運動基元算法將軌跡進行策略的參數(shù)化，得到軌跡對應(yīng)的基函數(shù)權(quán)重組，同時在對基函數(shù)權(quán)重組進行迭代更新的過程中，根據(jù)軌跡對應(yīng)的獎勵，對機器人已經(jīng)運行的多個目標軌跡進行了篩選，選擇性復(fù)用了機器人已經(jīng)運行的目標軌跡，能夠提高機器人模仿學習軌跡的效率。附圖說明 [0008] 為了更清楚地說明本申請實施例中的技術(shù)方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本申請的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其它的附圖，其中： [0009] 圖1是本申請機器人在未運動之前的狀態(tài)示意圖； [0010] 圖2是圖1中機器人在運動之后的狀態(tài)示意圖； [0011] 圖3是本申請實現(xiàn)機器人模仿學習軌跡的方法一實施方式的流程示意圖； [0012] 圖4是本申請實現(xiàn)機器人模仿學習軌跡的方法另一實施方式的流程示意圖； [0013] 圖5是本申請實現(xiàn)機器人模仿學習軌跡的方法又一實施方式的流程示意圖； [0014] 圖6是本申請電子設(shè)備一實施方式的結(jié)構(gòu)示意圖； [0015] 圖7是本申請計算機可讀存儲介質(zhì)一實施方式的結(jié)構(gòu)示意圖。具體實施方式 [0016] 下面將結(jié)合本申請實施例中的附圖，對本申請實施例中的技術(shù)方案進行清楚、完整地描述，顯然，所描述的實施例僅是本申請的一部分實施例，而不是全部的實施例。基于本申請中的實施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例，都屬于本申請保護的范圍。

權(quán)利要求

1 2 3

1.一種實現(xiàn)機器人模仿學習軌跡的方法，其特征在于，所述方法包括：獲取初始軌跡，并通過動態(tài)運動基元算法將所述初始軌跡進行編碼，得到所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組，所述基函數(shù)權(quán)重組包括多個基函數(shù)權(quán)重值；生成所述初始軌跡對應(yīng)的獎勵，其中，所述初始軌跡對應(yīng)的獎勵表征所述機器人按照所述初始軌跡運動后完成目標任務(wù)的概率；根據(jù)所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組以及所述初始軌跡對應(yīng)的獎勵，生成當前基函數(shù)權(quán)重組，所述當前基函數(shù)權(quán)重組包括多個基函數(shù)權(quán)重值；根據(jù)所述當前基函數(shù)權(quán)重組以及所述動態(tài)運動基元算法，生成當前軌跡；生成所述當前軌跡對應(yīng)的獎勵，其中，所述當前軌跡對應(yīng)的獎勵表征所述機器人按照所述當前軌跡運動后完成所述目標任務(wù)的概率；根據(jù)所述機器人已經(jīng)運行的多個目標軌跡對應(yīng)的獎勵，從多個所述目標軌跡中篩選出若干個第一軌跡；根據(jù)篩選出的若干個所述第一軌跡對應(yīng)的基函數(shù)權(quán)重組，生成第一權(quán)重梯度組，所述第一權(quán)重梯度組包括多個第一權(quán)重梯度值；判斷所述第一權(quán)重梯度組是否滿足預(yù)設(shè)要求；響應(yīng)于所述第一權(quán)重梯度組滿足所述預(yù)設(shè)要求，將所述當前軌跡確定為最終軌跡；否則，獲取第一噪聲項，根據(jù)所述第一權(quán)重梯度組以及所述第一噪聲項生成第二權(quán)重梯度組，接著根據(jù)所述第二權(quán)重梯度組更新所述當前軌跡的所述當前基函數(shù)權(quán)重組，并返回執(zhí)行所述根據(jù)所述當前基函數(shù)權(quán)重組以及所述動態(tài)運動基元算法，生成當前軌跡的步驟；其中，相鄰兩次獲取的所述第一噪聲項不同。 2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述目標軌跡對應(yīng)的獎勵與所述機器人按照所述目標軌跡運動后完成所述目標任務(wù)的概率呈正相關(guān)；所述根據(jù)所述機器人已經(jīng)運行的多個目標軌跡對應(yīng)的獎勵，從多個所述目標軌跡中篩選出若干個第一軌跡的步驟，包括：根據(jù)多個所述目標軌跡對應(yīng)的獎勵，從多個所述目標軌跡中，篩選出對應(yīng)獎勵最大的第一數(shù)量的所述目標軌跡作為所述若干個第一軌跡。 3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組以及所述初始軌跡對應(yīng)的獎勵，生成當前基函數(shù)權(quán)重組的步驟，包括：對所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組施加多個第二噪聲項，生成多個噪聲權(quán)重組；分別根據(jù)多個所述噪聲權(quán)重組以及所述動態(tài)運動基元算法，生成多個測試軌跡；分別生成每個所述測試軌跡對應(yīng)的獎勵，其中，所述測試軌跡對應(yīng)的獎勵表征所述機器人按照所述測試軌跡運動后完成所述目標任務(wù)的概率；

微信群二維碼

意見反饋

白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備

摘要

說明書

權(quán)利要求

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：

該功能需要專業(yè)版企業(yè)版VIP權(quán)限，您可以：