chatglm3 多卡微调时保存checkpoint报错 #601

xiyao23 · 2023-12-14T16:40:00Z

xiyao23
Dec 14, 2023

/lib/python3.10/site-packages/transformers/trainer.py", line 2383, in _save_checkpoint
os.rename(staging_output_dir, output_dir)
FileExistsError: [Errno 17] File exists:xxxx 多卡微调就会报这个错，但是单卡微调就不会报错，就可以保存checkpoint

以下是我的训练脚本

set -ex

PRE_SEQ_LEN=128
LR=2e-2
NUM_GPUS=4
MAX_SEQ_LEN=2048
DEV_BATCH_SIZE=1
GRAD_ACCUMULARION_STEPS=16
MAX_STEP=1000
SAVE_INTERVAL=500

DATESTR=date +%Y%m%d-%H%M%S
RUN_NAME=test1

BASE_MODEL_PATH=/data/resources/chatglm3_6B
DATASET_PATH=medical_prompt.json
OUTPUT_DIR=output/${RUN_NAME}-${DATESTR}-${PRE_SEQ_LEN}-${LR}

mkdir -p $OUTPUT_DIR

torchrun --standalone --nnodes=1 --nproc_per_node=$NUM_GPUS finetune.py
--train_format multi-turn
--train_file $DATASET_PATH
--max_seq_length $MAX_SEQ_LEN
--preprocessing_num_workers 1
--model_name_or_path $BASE_MODEL_PATH
--output_dir $OUTPUT_DIR
--per_device_train_batch_size $DEV_BATCH_SIZE
--gradient_accumulation_steps $GRAD_ACCUMULARION_STEPS
--max_steps $MAX_STEP
--logging_steps 1
--save_steps $SAVE_INTERVAL
--learning_rate $LR
--pre_seq_len $PRE_SEQ_LEN 2>&1 | tee ${OUTPUT_DIR}/train.log

zRzRzRzRzRzRzR · 2023-12-15T09:40:57Z

zRzRzRzRzRzRzR
Dec 15, 2023
Maintainer

#253 在这里问可以获得更多人回答

0 replies

wyq6213 · 2024-04-26T01:34:17Z

wyq6213
Apr 26, 2024

请问解决了吗

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

chatglm3 多卡微调时保存checkpoint报错 #601

{{title}}

Replies: 2 comments

{{title}}

{{title}}

Select a reply

chatglm3 多卡微调时保存checkpoint报错 #601

xiyao23 Dec 14, 2023

Replies: 2 comments

zRzRzRzRzRzRzR Dec 15, 2023 Maintainer

wyq6213 Apr 26, 2024

xiyao23
Dec 14, 2023

zRzRzRzRzRzRzR
Dec 15, 2023
Maintainer

wyq6213
Apr 26, 2024