-
Notifications
You must be signed in to change notification settings - Fork 9
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[HW2 공지] GPU가 장착된 머신으로 cpu_enable branch 사용시 버그 수정 #25
Comments
cpu_enable branch를 pull 했는데도, |
사용하신 resource info가 무엇인가요? |
localhost 이구요, error message는 아래와 같습니다. WARNING:tensorflow:From /home/jeeyung/parallax_venv/local/lib/python2.7/site-packages/tensorflow/contrib/learn/python/learn/datasets/mnist.py:290: init (from tensorflow.[0/1498]learn.python.learn.datasets.mnist) is deprecated and will be removed in a future version. Primary job terminated normally, but 1 process returned mpirun detected that one or more processes exited with non-zero status, thus causing Process name: [[10466,1],1] |
Horovod를 어떻게 설치하셨나요? |
horovod에서도 cpu worker를 2개 사용하기 위해 pip install horovod 를 사용했습니다. HOROVOD_GPU_ALLREDUCE=NCCL HOROVOD_GPU_ALLGATHER=NCCL HOROVOD_WITHOUT_PYTORCH=True pip install --no-cache-dir dist/horovod-*.tar.gz 이렇게 horovod를 설치하고, parallax를 실행했을 땐, tensorflow.python.framework.errors_impl.InvalidArgumentError: 'visible_device_list' listed an invalid GPU id '1' but visible device count is 1 이 error message가 나왔습니다. |
말씀해주신 TypeError: allreduce() got an unexpected keyword argument 'average_dense'는
로 설치해주시길 바랍니다. 이것과 별개로, |
새로 pull 해도 같은 error 입니다...ㅜㅜ |
저는 해당 에러가 재현이 안되는데, 혹시 새로 parallax build 및 |
해결됐습니다! 감사합니다.!! |
@gyeongin Thanks! |
GPU가 장착되어 있는 머신에서 cpu_enable branch를 사용해
따위로 cpu worker 2개를 사용하려 할 때 버그가 있어 이를 수정하였습니다.
GPU가 장착된 머신에서 CPU만 이용해 학습하려 하실 경우 cpu_enable branch를 새로 pull 해 주시길 바랍니다.
The text was updated successfully, but these errors were encountered: