disc7 / config.txt

Upload model weights

fc84f42 verified about 1 year ago

683 Bytes

--model_name_or_path meta-llama/Llama-3.2-3B --output_dir /data/yujia_wang/translora/checkpoints_moe/Llama-3.2-3B/TIGER-Lab/MathInstruct/1e-6_noniid_disc7 --dataset_name TIGER-Lab/MathInstruct --dataset_config_name default --per_device_train_batch_size 1 --per_device_eval_batch_size 1 --num_train_epochs 1 --overwrite_output_dir --do_train True --do_eval --seed 42 --dataloader_num_workers 16 --disable_tqdm False --save_strategy no --evaluation_strategy epoch --load_best_model_at_end True --learning_rate 1e-6 --notes disc7 --split_strategy noniid --num_rounds 10 --num_clients 10 --sample_clients 1 --max_gate_samples 50 --max_train_samples 50000 --gradient_accumulation_steps 4