Doubly Bounded Q-Learning through Abstracted Dynamic Programming (DB-ADP)

This is a TensorFlow implementation for our paper On the Estimation Bias in Double Q-Learning accepted by NeurIPS 2021.

Requirements

Python 3.6.13
gym == 0.18.3
TensorFlow == 1.12.0
BeautifulTable == 0.8.0
opencv-python == 4.5.3.56

Running Commands

Run the following commands to reproduce our main results shown in section 5.2.

python train.py --tag='DB-ADP Alien' --env=Alien
python train.py --tag='DB-ADP BankHeist' --env=BankHeist
python train.py --tag='DB-ADP BattleZone' --env=BattleZone
python train.py --tag='DB-ADP Frostbite' --env=Frostbite
python train.py --tag='DB-ADP Jamesbond' --env=Jamesbond
python train.py --tag='DB-ADP MsPacman' --env=MsPacman
python train.py --tag='DB-ADP Qbert' --env=Qbert
python train.py --tag='DB-ADP RoadRunner' --env=RoadRunner
python train.py --tag='DB-ADP StarGunner' --env=StarGunner
python train.py --tag='DB-ADP TimePilot' --env=TimePilot
python train.py --tag='DB-ADP WizardOfWor' --env=WizardOfWor
python train.py --tag='DB-ADP Zaxxon' --env=Zaxxon

python train.py --tag='DB-ADP-C Alien' --env=Alien --alg=cddqn
python train.py --tag='DB-ADP-C BankHeist' --env=BankHeist --alg=cddqn
python train.py --tag='DB-ADP-C BattleZone' --env=BattleZone --alg=cddqn
python train.py --tag='DB-ADP-C Frostbite' --env=Frostbite --alg=cddqn
python train.py --tag='DB-ADP-C Jamesbond' --env=Jamesbond --alg=cddqn
python train.py --tag='DB-ADP-C MsPacman' --env=MsPacman --alg=cddqn
python train.py --tag='DB-ADP-C Qbert' --env=Qbert --alg=cddqn
python train.py --tag='DB-ADP-C RoadRunner' --env=RoadRunner --alg=cddqn
python train.py --tag='DB-ADP-C StarGunner' --env=StarGunner --alg=cddqn
python train.py --tag='DB-ADP-C TimePilot' --env=TimePilot --alg=cddqn
python train.py --tag='DB-ADP-C WizardOfWor' --env=WizardOfWor --alg=cddqn
python train.py --tag='DB-ADP-C Zaxxon' --env=Zaxxon --alg=cddqn

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
algorithm		algorithm
envs		envs
learner		learner
utils		utils
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
common.py		common.py
test.py		test.py
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Doubly Bounded Q-Learning through Abstracted Dynamic Programming (DB-ADP)

Requirements

Running Commands

About

Releases

Packages

Languages

License

Stilwell-Git/Doubly-Bounded-Q-Learning

Folders and files

Latest commit

History

Repository files navigation

Doubly Bounded Q-Learning through Abstracted Dynamic Programming (DB-ADP)

Requirements

Running Commands

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages