roamlab · gagkhan · Sep 3, 2020 · Sep 4, 2020 · Oct 17, 2020 · Oct 22, 2020
diff --git a/Dockerfile b/Dockerfile
@@ -72,7 +72,6 @@ RUN mkdir -p /root/.mujoco && \
 COPY README.md /root/code/roam_rl/README.md
 COPY roam_rl/__init__.py /root/code/roam_rl/roam_rl/__init__.py
 COPY setup.py /root/code/roam_rl/setup.py
-COPY Makefile /root/code/roam_rl/Makefile
 WORKDIR /root/code/roam_rl
 
 # Create virtualenv
@@ -86,11 +85,14 @@ RUN pip install --upgrade pip
 # We need a MuJoCo key to install mujoco_py
 # In this step only the presence of the file mjkey.txt is required, so we only
 # create an empty file
-RUN touch /root/.mujoco/mjkey.txt && \
-  pip install mujoco_py && \
-  make default && \
-  rm -r /root/.cache/pip && \
-  rm /root/.mujoco/mjkey.txt
+RUN touch /root/.mujoco/mjkey.txt && pip install mujoco_py &&  rm /root/.mujoco/mjkey.txt && \
+  pip uninstall --yes tensorflow tensorflow-gpu && pip install tensorflow==1.14 && \
+  pip install git+https://[email protected]/roamlab/confac@master#egg=confac && \
+	pip install git+https://[email protected]/roamlab/roam_env@master#egg=roam_env && \
+	pip install --force-reinstall git+https://[email protected]/openai/baselines@master#egg=baselines && \
+	pip install --force-reinstall git+https://[email protected]/roamlab/baselines-hippo@master#egg=baselines-hippo && \
+	pip install -e . && \
+  rm -r /root/.cache/pip
 
 COPY . /root/code/roam_rl/
 

diff --git a/Dockerfile.garage b/Dockerfile.garage
diff --git a/Makefile b/Makefile
@@ -8,7 +8,7 @@ default: test-env
 	make common
 
 # dependencies for baselines, we use garage's well maintained setup script
-setup:	
+setup:
 	if [ -d "tmp" ]; then\
 	    rm -rf tmp;\
 	fi
@@ -27,7 +27,7 @@ test-env:
 	    exit 1;\
 	fi
 
-common:  
+common:
 	pip install git+https://[email protected]/roamlab/confac@master#egg=confac
 	pip install git+https://[email protected]/roamlab/roam_env@master#egg=roam_env
 	pip install --force-reinstall git+https://[email protected]/openai/baselines@master#egg=baselines

diff --git a/roam_rl/__init__.py b/roam_rl/__init__.py
@@ -0,0 +1 @@
+from .ppo import PPO
diff --git a/roam_rl/baselines/__init__.py b/roam_rl/baselines/__init__.py
diff --git a/roam_rl/baselines/hippo.py b/roam_rl/baselines/hippo.py
diff --git a/roam_rl/baselines/utils/__init__.py b/roam_rl/baselines/utils/__init__.py
diff --git a/roam_rl/garage/__init__.py b/roam_rl/garage/__init__.py
diff --git a/roam_rl/garage/sac.py b/roam_rl/garage/sac.py
diff --git a/roam_rl/baselines/ppo.py → roam_rl/ppo.py b/roam_rl/baselines/ppo.py → roam_rl/ppo.py
@@ -1,13 +1,13 @@
 import os
-from confac import make
 from baselines.common import set_global_seeds
 from baselines.ppo2 import ppo2
 from baselines import logger
-from roam_rl.baselines.utils import VecEnvMaker
-from roam_rl.baselines.models import get_network
+from roam_rl.utils.vec_env_maker import VecEnvMaker
+from roam_rl.utils.models import get_network
 from gym import spaces
 import numpy as np
-from roam_rl import utils
+from roam_rl.utils import path_utils
+from roam_rl.utils import config_utils
 
 class PPO:
 
@@ -30,12 +30,14 @@ def __init__(self, config, section):
 
         # env
         env_maker_section = config.get(section, 'env_maker')
-        self.env_maker = make(config, env_maker_section)
+        self.env_maker = config_utils.initfromconfig(config, env_maker_section)
         vec_env_maker_section = config.get(section, 'vec_env_maker')
         self.vec_env_maker = VecEnvMaker(config, vec_env_maker_section)
 
         self.seed = config.getint(section, 'seed')
 
+        self.info_keywords = eval(config.get(section, 'info_keywords', fallback='()'))
+
     def _get_parameter_descr_dict(self):
 
         """
@@ -67,17 +69,17 @@ def train(self, model_path=None):
 
         # Create vec env
         set_global_seeds(self.seed)
-        logdir = utils.get_log_dir(self.experiment_dir, self.seed)   # setup ppo logging
+        logdir = path_utils.get_log_dir(self.experiment_dir, self.seed)   # setup ppo logging
         logger.configure(dir=logdir, format_strs=['stdout', 'log', 'csv', 'tensorboard'])
         monitor_file_path = os.path.join(logdir, 'monitor.csv')
-        env = self.vec_env_maker(self.env_maker, self.seed, monitor_file=monitor_file_path)
+        env = self.vec_env_maker(self.env_maker, self.seed, monitor_file=monitor_file_path, info_keywords=self.info_keywords)
 
         # Learn
         # pylint: disable=E1125
-        model = self._learn(env=env, **self.params, seed=self.seed, load_path=model_path)   # learn model
+        model = self._learn(env=env, **self.params, seed=self.seed, load_path=model_path, extra_keys=self.info_keywords)   # learn model
 
         # Save
-        model.save(utils.get_model_path(self.experiment_dir, self.seed))
+        model.save(path_utils.get_model_path(self.experiment_dir, self.seed))
         env.close()
 
     def set_experiment_dir(self, dir_name):
@@ -92,7 +94,7 @@ def load(self, model_seed, model_checkpoint=None, env_seed=0, monitor_file=None)
 
         # train for 0 timesteps to load
         self.params['total_timesteps'] = 0
-        model_path = utils.get_model_path(self.experiment_dir, model_seed, model_checkpoint)
+        model_path = path_utils.get_model_path(self.experiment_dir, model_seed, model_checkpoint)
         # pylint: disable=E1125
         model = self._learn(env=env, **self.params, load_path=model_path)
         return model, env
@@ -101,10 +103,10 @@ def run(self, model, env, stochastic=False):
         """ """
         obs = env.reset()
         _states = None
-        # after training stochasticity of the policy is not relevant, 
+        # after training stochasticity of the policy is not relevant,
         # set the actions to be mean of the policy
         if not stochastic:
-            model.act_model.action = model.act_model.pi 
+            model.act_model.action = model.act_model.pi
 
         def determinstic_action(pi):
             if isinstance(env.action_space, spaces.Box):

diff --git a/roam_rl/utils/__init__.py b/roam_rl/utils/__init__.py
@@ -0,0 +1 @@
+