白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備

專利號
CN119260750B
公開日期
2025-02-18
申請人
北京配天技術(shù)有限公司(北京市海淀區(qū)東北旺西路8號9號樓3區(qū)103)
發(fā)明人
任琳琳
IPC分類
B25J9/16; B25J9/04; G06N20/00
技術(shù)領(lǐng)域
軌跡,權(quán)重,獎勵,梯度,函數(shù),機器人,機器,生成,噪聲,目標
地域: 北京市 北京市海淀區(qū)

摘要

本申請公開了一種實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備,該方法包括:獲取初始軌跡,并得到初始軌跡對應(yīng)的基函數(shù)權(quán)重組;生成初始軌跡對應(yīng)的獎勵;根據(jù)初始軌跡對應(yīng)的基函數(shù)權(quán)重組、對應(yīng)的獎勵,生成當前基函數(shù)權(quán)重組;根據(jù)當前基函數(shù)權(quán)重組以及動態(tài)運動基元算法,生成當前軌跡;生成當前軌跡對應(yīng)的獎勵;根據(jù)從機器人已經(jīng)運行的多個目標軌跡中篩選出的若干個第一軌跡對應(yīng)的基函數(shù)權(quán)重組,生成第一權(quán)重梯度組;響應(yīng)于第一權(quán)重梯度組滿足預(yù)設(shè)要求,停止迭代過程,生成最終軌跡;否則,更新當前基函數(shù)權(quán)重組,并返回執(zhí)行根據(jù)當前基函數(shù)權(quán)重組以及動態(tài)運動基元算法,生成當前軌跡的步驟。本申請的方法能夠提高機器人模仿學習軌跡的效率。

說明書

1 2 3 4 5 6 7
實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備 技術(shù)領(lǐng)域 [0001] 本申請涉及機器人領(lǐng)域,特別是涉及一種實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備。 背景技術(shù) [0002] 近年來,機器人逐漸被應(yīng)用到各個領(lǐng)域,例如工業(yè)領(lǐng)域、日常生活領(lǐng)域,機器人的普遍應(yīng)用也要求機器人具有更高的智能化,例如能通過學習技能來完成更為復(fù)雜的任務(wù),而模仿學習就是一種簡化機器人技能學習的有效方法,其可以避免復(fù)雜的手動編程。本申請的發(fā)明人發(fā)現(xiàn),目前機器人模仿學習的過程效率低下,有待進一步改進。 發(fā)明內(nèi)容 [0003] 本申請?zhí)峁┮环N實現(xiàn)機器人模仿學習軌跡的方法以及電子設(shè)備,能夠提高機器人模仿學習軌跡的效率。 [0004] 本申請實施例第一方面提供一種實現(xiàn)機器人模仿學習軌跡的方法,所述方法包括:獲取初始軌跡,并通過動態(tài)運動基元算法將所述初始軌跡進行編碼,得到所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組,所述基函數(shù)權(quán)重組包括多個基函數(shù)權(quán)重值;生成所述初始軌跡對應(yīng)的獎勵,其中,所述初始軌跡對應(yīng)的獎勵表征所述機器人按照所述初始軌跡運動后完成目標任務(wù)的概率;根據(jù)所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組以及所述初始軌跡對應(yīng)的獎勵,生成當前基函數(shù)權(quán)重組,所述當前基函數(shù)權(quán)重組包括多個基函數(shù)權(quán)重值;根據(jù)所述當前基函數(shù)權(quán)重組以及所述動態(tài)運動基元算法,生成當前軌跡;生成所述當前軌跡對應(yīng)的獎勵,其中,所述當前軌跡對應(yīng)的獎勵表征所述機器人按照所述當前軌跡運動后完成所述目標任務(wù)的概率;根據(jù)所述機器人已經(jīng)運行的多個目標軌跡對應(yīng)的獎勵,從多個所述目標軌跡中篩選出若干個第一軌跡;根據(jù)篩選出的若干個所述第一軌跡對應(yīng)的基函數(shù)權(quán)重組,生成第一權(quán)重梯度組,所述第一權(quán)重梯度組包括多個第一權(quán)重梯度值;判斷所述第一權(quán)重梯度組是否滿足預(yù)設(shè)要求;響應(yīng)于所述第一權(quán)重梯度組滿足所述預(yù)設(shè)要求,將所述當前軌跡確定為最終軌跡;否則,獲取第一噪聲項,根據(jù)所述第一權(quán)重梯度組以及所述第一噪聲項生成第二權(quán)重梯度組,接著根據(jù)所述第二權(quán)重梯度組更新所述當前軌跡的所述當前基函數(shù)權(quán)重組,并返回執(zhí)行所述根據(jù)所述當前基函數(shù)權(quán)重組以及所述動態(tài)運動基元算法,生成當前軌跡的步驟;其中,相鄰兩次獲取的所述第一噪聲項不同。 [0005] 本申請實施例第二方面提供一種電子設(shè)備,所述電子設(shè)備包括處理器、存儲器以及通信電路,所述處理器分別耦接所述存儲器、所述通信電路,所述存儲器中存儲有程序數(shù)據(jù),所述處理器通過執(zhí)行所述存儲器內(nèi)的所述程序數(shù)據(jù)以實現(xiàn)上述方法中的步驟。 [0006] 本申請實施例第三方面提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序能夠被處理器執(zhí)行以實現(xiàn)上述方法中的步驟。 [0007] 有益效果是:本申請使用了動態(tài)運動基元算法將軌跡進行策略的參數(shù)化,得到軌跡對應(yīng)的基函數(shù)權(quán)重組,同時在對基函數(shù)權(quán)重組進行迭代更新的過程中,根據(jù)軌跡對應(yīng)的獎勵,對機器人已經(jīng)運行的多個目標軌跡進行了篩選,選擇性復(fù)用了機器人已經(jīng)運行的目標軌跡,能夠提高機器人模仿學習軌跡的效率。 附圖說明 [0008] 為了更清楚地說明本申請實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖,其中: [0009] 圖1是本申請機器人在未運動之前的狀態(tài)示意圖; [0010] 圖2是圖1中機器人在運動之后的狀態(tài)示意圖; [0011] 圖3是本申請實現(xiàn)機器人模仿學習軌跡的方法一實施方式的流程示意圖; [0012] 圖4是本申請實現(xiàn)機器人模仿學習軌跡的方法另一實施方式的流程示意圖; [0013] 圖5是本申請實現(xiàn)機器人模仿學習軌跡的方法又一實施方式的流程示意圖; [0014] 圖6是本申請電子設(shè)備一實施方式的結(jié)構(gòu)示意圖; [0015] 圖7是本申請計算機可讀存儲介質(zhì)一實施方式的結(jié)構(gòu)示意圖。 具體實施方式 [0016] 下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅是本申請的一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本申請保護的范圍。

權(quán)利要求

1 2 3
1.一種實現(xiàn)機器人模仿學習軌跡的方法,其特征在于,所述方法包括: 獲取初始軌跡,并通過動態(tài)運動基元算法將所述初始軌跡進行編碼,得到所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組,所述基函數(shù)權(quán)重組包括多個基函數(shù)權(quán)重值; 生成所述初始軌跡對應(yīng)的獎勵,其中,所述初始軌跡對應(yīng)的獎勵表征所述機器人按照所述初始軌跡運動后完成目標任務(wù)的概率; 根據(jù)所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組以及所述初始軌跡對應(yīng)的獎勵,生成當前基函數(shù)權(quán)重組,所述當前基函數(shù)權(quán)重組包括多個基函數(shù)權(quán)重值; 根據(jù)所述當前基函數(shù)權(quán)重組以及所述動態(tài)運動基元算法,生成當前軌跡; 生成所述當前軌跡對應(yīng)的獎勵,其中,所述當前軌跡對應(yīng)的獎勵表征所述機器人按照所述當前軌跡運動后完成所述目標任務(wù)的概率; 根據(jù)所述機器人已經(jīng)運行的多個目標軌跡對應(yīng)的獎勵,從多個所述目標軌跡中篩選出若干個第一軌跡; 根據(jù)篩選出的若干個所述第一軌跡對應(yīng)的基函數(shù)權(quán)重組,生成第一權(quán)重梯度組,所述第一權(quán)重梯度組包括多個第一權(quán)重梯度值; 判斷所述第一權(quán)重梯度組是否滿足預(yù)設(shè)要求; 響應(yīng)于所述第一權(quán)重梯度組滿足所述預(yù)設(shè)要求,將所述當前軌跡確定為最終軌跡; 否則,獲取第一噪聲項,根據(jù)所述第一權(quán)重梯度組以及所述第一噪聲項生成第二權(quán)重梯度組,接著根據(jù)所述第二權(quán)重梯度組更新所述當前軌跡的所述當前基函數(shù)權(quán)重組,并返回執(zhí)行所述根據(jù)所述當前基函數(shù)權(quán)重組以及所述動態(tài)運動基元算法,生成當前軌跡的步驟; 其中,相鄰兩次獲取的所述第一噪聲項不同。 2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標軌跡對應(yīng)的獎勵與所述機器人按照所述目標軌跡運動后完成所述目標任務(wù)的概率呈正相關(guān); 所述根據(jù)所述機器人已經(jīng)運行的多個目標軌跡對應(yīng)的獎勵,從多個所述目標軌跡中篩選出若干個第一軌跡的步驟,包括: 根據(jù)多個所述目標軌跡對應(yīng)的獎勵,從多個所述目標軌跡中,篩選出對應(yīng)獎勵最大的第一數(shù)量的所述目標軌跡作為所述若干個第一軌跡。 3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組以及所述初始軌跡對應(yīng)的獎勵,生成當前基函數(shù)權(quán)重組的步驟,包括: 對所述初始軌跡對應(yīng)的基函數(shù)權(quán)重組施加多個第二噪聲項,生成多個噪聲權(quán)重組; 分別根據(jù)多個所述噪聲權(quán)重組以及所述動態(tài)運動基元算法,生成多個測試軌跡; 分別生成每個所述測試軌跡對應(yīng)的獎勵,其中,所述測試軌跡對應(yīng)的獎勵表征所述機器人按照所述測試軌跡運動后完成所述目標任務(wù)的概率;
微信群二維碼
意見反饋