前言
Guided Policy Search (GPS) 是一個滿酷的 policy search 方法,接下來我們會來介紹這個 package 的安裝還有啟動方法,讓大家好入個門。如果你不太了解什麼是 policy 跟 policy search,可以看看 這篇文章。
因為核心的安裝方法在網頁上已經寫得滿清楚,所以這篇文章主要是側重在幫大家整合一些可能需要的資源(因為安裝過程中可能會遇到一些問題)。
安裝方法
首先,要先安裝一些基本的 dependency,這個可以直接參考 GPS 的網頁。需要有 python, caffe/Tensorflow 等等東西,網路上都有很多資源了,就不再贅述。
接下來,要 clone GPS 的 package:
git clone https://github.com/cbfinn/gps.git
然後就是去執行設定:
cd gps
./compile_proto.sh
如果你在安裝完畢後有遇到其他問題,你可以看看 這個 issue,或者也可以看 這個 issue,應該就可以 cover 大部分遇到的問題了!
啟動 GPS
這個 package 裡面已經提供了幾種測試環境,Box 2D、Mujoco 跟 Gazebo PR2,因為個人覺得 PR2 比較大隻,可以做到更複雜的任務,所以就講一下怎麼啟動 PR2 的範例。
一開始要先啟動 Gazebo 跟弄出一隻 PR2:
roslaunch gps_agent_pkg pr2_gazebo.launch
這一步你如果碰到問題,可以參考 這篇文章。
接下來是啟動 Guided Policy Search:
python python/gps/gps_main.py pr2_example
跑起來之後應該就會看到如下的視窗,然後 Gazebo 裡面的 PR2 會開始動,Window 中也會開始顯示訓練時的軌跡資料:
接下來就會看到 PR2 的左手一直在進行嘗試,這些嘗試是為了讓 PR2 的左手可以到達目標位置:
達到目標之後,GPS 的視窗就會顯示如下:
下一步是什麼?
下一步就看你想要拿 GPS 來做什麼實驗,你可以套用自己的機器人、設計自己的實驗等等,或是以目前的環境為起點完全弄懂 GPS 的實作細節,有滿多東西可以延伸的。
總結
今天跟大家介紹了 Guided Policy Search 的環境安裝跟基本概念,主要是想幫助有興趣的讀者可以減輕入門的環境安裝門檻,更詳細的演算法概念可以參考 深入淺出 End-to-End Learning on Robotics,或你也可以去看 Guided Policy Search 的論文,會幫助你對演算法本身更加了解。
延伸閱讀
關於作者:
@pojenlai 演算法工程師,對機器人跟電腦視覺有少許研究,最近在學習看清事物的本質與改進自己的觀念