instruction_hurdle.txt


<Collect data of pre-trained policy for Hurdle Walk, Jump>
--(front walk)--
python -m main --hrl False --train False --complex_task hurdle --collect_exp_data True --env Walker2dJump-v1 --suffix front --primitive_env Walker2dForward-v1 --primitive_path data/Walker2dForward.forward_ICLR2019
--(rear walk)--
python -m main --hrl False --train False --complex_task hurdle --collect_exp_data True --env Walker2dJump-v1 --front False --suffix rear --primitive_env Walker2dForward-v1 --primitive_path data/Walker2dForward.forward_ICLR2019
--(front jump)--
python -m main --hrl False --train False --complex_task hurdle --collect_exp_data True --env Walker2dJump-v1 --suffix front --primitive_env Walker2dJump-v1 --primitive_path data/Walker2dJump.jump_ICLR2019
--(rear jump)--
python -m main --hrl False --train False --complex_task hurdle --collect_exp_data True --env Walker2dJump-v1 --front False --suffix rear --primitive_env Walker2dJump-v1 --primitive_path data/Walker2dJump.jump_ICLR2019

<Train transition policy for Hurdle Walk->Jump>
--(front)--
python -m main --hrl False --train True --irl_training True --complex_task hurdle --env Walker2dJump-v1 --exp_data_path_1 data/exp_demo/Walker2dForward-v1_front --exp_data_path_2 data/exp_demo/Walker2dJump-v1_rear --env_1 walk --env_2 jump
--(rear)--
python -m main --hrl False --train True --irl_training True --complex_task hurdle --env Walker2dJump-v1 --front False --exp_data_path_1 data/exp_demo/Walker2dJump-v1_front --exp_data_path_2 data/exp_demo/Walker2dForward-v1_rear --env_1 jump --env_2 walk

<Train Q network for Hurdle>
python -m main --hrl True --train True --complex_task hurdle --env Walker2dHurdle-v1 --pi1_env Walker2dForward-v1 --pi2_env Walker2dJump-v1 --pi1 data/Walker2dForward.forward_ICLR2019 --pi2 data/Walker2dJump.jump_ICLR2019 --pi12 data/transition/walk_jump/step10000000/model.pt --pi21 data/transition/jump_walk/step10000000/model.pt --fname hurdle

<Evaluate trained networks>
python -m main --hrl True --train Fasle --complex_task hurdle --env Walker2dHurdle-v1 --pi1_env Walker2dForward-v1 --pi2_env Walker2dJump-v1 --pi1 data/Walker2dForward.forward_ICLR2019 --pi2 data/Walker2dJump.jump_ICLR2019 --pi12 data/transition/walk_jump/step10000000/model.pt --pi21 data/transition/jump_walk/step10000000/model.pt --q12 data/q_network/hurdle/20000_q12.pt --q21 data/q_network/hurdle/20000_q21.pt