DeLVM / dist_train_vqgan.py

Upload folder using huggingface_hub

ee3e701 verified about 1 year ago

12.1 kB

	import os
	# os.environ['CUDA_LAUNCH_BLOCKING']='1'
	import numpy as np
	import torch.distributed as dist
	import torch.nn as nn
	from torch.nn.parallel import DistributedDataParallel as DDP
	import argparse
	from torch.utils.data import DataLoader
	from torch.utils.tensorboard import SummaryWriter
	from datetime import datetime
	# import cv2
	import torch
	from torch.nn.utils import clip_grad_norm_
	import yaml
	from dist_train_utils import print, get_world_size, get_rank, get_local_rank, barrier, reduce_sum, reduce_mean
	from tqdm import tqdm
	from lr_utils import CosineAnnealingWarmupRestarts
	import ssl
	ssl._create_default_https_context = ssl._create_unverified_context
	import webdataset as wds
	from dataset.get_vqgan_wds import get_dataset, handle_exception
	# from dataset.vq_wds import get_dataset, my_sample_decoder, my_sample_prec
	import json
	import time
	from accelerate import Accelerator
	from accelerate.utils import set_seed
	from data_generation.vqgan.load import load_model
	import random

	parser = argparse.ArgumentParser()
	#ddp
	parser.add_argument('--local_rank', default=-1, type=int, help='node rank for distributed training')
	parser.add_argument("--batch_size", type=int, default=16)
	parser.add_argument("--epoch", type=int, default=20)
	parser.add_argument("--base_lr", type=float, default=4.5e-6)
	parser.add_argument("--log_folder", type=str, default='f16')

	args = parser.parse_args()

	set_seed(42)
	accelerator = Accelerator()

	# class MyLoader(wds.WebLoader, torch.utils.data.DataLoader):
	# pass

	# train_dataloader = MyLoader(train_dataset, ...)


	# with open('/mnt/bn/robotics-data-hl/jirong/git/incontextrobotics/models/embedding/VQGAN//model.yaml', encoding='utf-8') as f:
	# cfg = yaml.load(f, Loader=yaml.FullLoader)

	log_folder = args.log_folder
	log_path = os.path.join('/mnt/bn/roboicl-jirong/codebase/DeLVM/logs/', log_folder)
	if get_rank() == 0:
	if not os.path.exists(log_path):
	os.makedirs(log_path)
	os.system('chmod -R 777 ' + log_path)
	accelerator.wait_for_everyone()

	timestamp = "{0:%Y-%m-%dT%H-%M-%S/}".format(datetime.now())

	if get_rank() == 0:
	WRITER = SummaryWriter(log_path+'/'+timestamp, max_queue=1000)

	print('world_size: {}, rank: {}, local_rank: {}'.format(get_world_size(), get_rank(), get_local_rank()), all=True)

	# dist.init_process_group(backend='nccl', rank = get_rank(), world_size=get_world_size())
	# # assign gpu
	# torch.cuda.set_device(get_local_rank())
	# # torch.cuda.set_device(7)
	# device = torch.cuda.current_device()
	device = accelerator.device

	print('device:', device, all=True)

	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_muse_finetune_calvin_vl_20m_1e-6_256/checkpoint_vq_epoch_48127.tar')
	# vqmodel = load_model()
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_192_real_data_1024/checkpoint_vq_epoch_139999.tar')
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_192_real_data_1024/checkpoint_vq_epoch_64999.tar')
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_16384_160m_1e-4_192_disc_50000/checkpoint_vq_epoch_49999.tar')
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_16384_160m_1e-4_192_subset/checkpoint_vq_epoch_549999.tar')
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_16384_160m_3e-4_192/checkpoint_vq_epoch_149999.tar')
	# vqmodel = load_model('/mnt/bn/roboicl-jirong/codebase/DeLVM/vqgan_ckpt/ckpt.pth', 8192)
	vqmodel = load_model('/mnt/bn/roboicl-jirong/codebase/DeLVM/logs/f16_192_real_calvin_robot_datacomp_1e-5_disc_start_0_weight_0.2_acc_1/checkpoint_vq_epoch_9999.tar', 8192)
	# vqmodel = load_model('/mnt/bn/roboicl-jirong/codebase/DeLVM/logs/f16_192_real_calvin_robot_datacomp_1e-5_disc_start_0_weight_0.2_acc_32/checkpoint_vq_epoch_19199.tar', 8192)
	# vqmodel = load_model('/mnt/bn/roboicl-jirong/codebase/DeLVM/logs/f16_256_real_calvin_datacomp_1e-5_disc_start_0_weight_0.1/checkpoint_vq_epoch_34999.tar', 8192)
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_192_real_data_muse_finetune_teacher_2048_aug_disc_0.3/checkpoint_vq_epoch_89999.tar', 2048)
	# vqmodel = load_model(None, 2048)
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_192_real_data_muse_finetune_teacher_2048_aug_disc_0.3_resume/checkpoint_vq_epoch_23999.tar', 2048)
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_192_real_data_muse_finetune_teacher_2048/checkpoint_vq_epoch_122499.tar', 2048)
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_192_real_data_muse_finetune_teacher_2048_resume_aug/checkpoint_vq_epoch_97499.tar', 2048)
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/git/DeLVM/vqgan_ckpt/ckpt.pth', 8192)
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_192_muse_ego4d_llava_calvin_3e-6_disc_0/checkpoint_vq_epoch_66999.tar', 8192)
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_192_real_data_muse_finetune_teacher_2048_aug_disc_0.3/checkpoint_vq_epoch_89999.tar', 2048)
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_192_real_data_muse_finetune_teacher_2048_aug_disc_0.5_resume/checkpoint_vq_epoch_999.tar', 2048)
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_192_real_data_muse_finetune_teacher_2048_resume_aug/checkpoint_vq_epoch_97499.tar', 2048)
	# copied_param = []
	# init_param = []
	# for ((name, param), (name_s, param_s)) in zip(vq_model_t.named_parameters(), vqmodel.named_parameters()):
	# if param.shape == param_s.shape:
	# param_s.data = param.clone().data
	# copied_param.append(param_s)
	# else:
	# init_param.append(name_s)
	# # print (name, param.shape, name_s, param_s.shape)
	# print ('params coopied from teacher')

	# print (init_param)

	# vqmodel = get_vqmodel(cfg)
	# vqmodel = load_model('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_8192_160m_1e-4_muse_pretrained/checkpoint_vq_epoch_49999.tar')
	# ckpt = torch.load('/mnt/bn/robotics-data-hl/jirong/rlhf/vq/f16_8192_160m_1e-4_muse_pretrained/checkpoint_vq_epoch_49999.tar', map_location='cpu')
	# vqmodel.load_state_dict(ckpt)
	vqmodel = nn.SyncBatchNorm.convert_sync_batchnorm(vqmodel)
	vqmodel = vqmodel.to(device)

	# with open('/mnt/bn/robotics-data-hl/jirong/git/incontextrobotics/dataset/vqgan_imgs/calvin_only.json', 'r') as f:
	# tars = json.load(f)

	ds_list = []

	# ds0 = get_dataset('/mnt/bn/roboicllq-data1/calvin_img/calvin_img_00000051.tar', seed=42)
	# ds_list += [(ds0, 0.05)]

	# print (len(tars), '============')
	# ds1 = get_dataset('/mnt/bn/roboicllq-data1/processed_real/imgs/real_data_img_{0000..0590}.tar', seed=42)
	# ds_list += [(ds1, 0.1)]

	# ds2 = get_dataset('/mnt/bn/roboicllq-data1/processed_real/hand_imgs/real_data_hand_img_{0000..0590}.tar', seed=42)
	# ds_list += [(ds2, 0.02)]

	ds3 = get_dataset('/mnt/bn/roboicllq-data1/calvin_img/calvin_img_{00000000..00000110}.tar', seed=42)
	ds_list += [(ds3, 0.1)]

	ds6 = get_dataset('/mnt/bn/roboicllq-data1/calvin_img/hands/calvin_hands_img_{00000000..00000110}.tar', seed=42)
	ds_list += [(ds6, 0.02)]

	with open('/mnt/bn/roboicl-jirong/codebase/RoboICL/robot_img.json', 'r') as f:
	tars = json.load(f)

	# # # print (len(tars))
	ds4 = get_dataset(tars, seed=42)
	ds_list += [(ds4, 0.3)]

	with open('/mnt/bn/roboicllq-data1/aligned_robot_ds/calvin/datacomp.json', 'r') as f:
	tars = json.load(f)

	# # # print (len(tars))
	ds0 = get_dataset(tars, seed=42)

	ds_list += [(ds0, 0.68)]


	ds = wds.RandomMix(zip(ds_list))
	ds = wds.DataPipeline(ds)

	loader = (
	wds.WebLoader(ds, num_workers=4, batch_size=args.batch_size, pin_memory=True).with_epoch(args.epoch)
	)

	# loader = MyLoader(dataset=trainset, num_workers=4, batch_size=args.batch_size, pin_memory=True).with_epoch(args.epoch)

	# base_lr = 4.5e-6 * args.batch_size * get_world_size()
	base_lr = 1e-5
	# base_lr = 3e-6
	# base_lr = 1e-6
	# base_lr = 1e-3
	# base_lr = 5e-4
	# base_lr = 1e-4
	# base_lr = 5e-5
	opt, _ = vqmodel.configure_optimizers(base_lr)

	# ae_scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(opt[0], T_max=args.epoch, eta_min=base_lr * 0.001)
	# disc_scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(opt[1], T_max=args.epoch, eta_min=base_lr * 0.001)
	# disc_start = cfg['model']['params']['lossconfig']['params']['disc_start']
	disc_start = 0

	ae_opt, disc_opt = opt[0], opt[1]
	ae_scheduler = CosineAnnealingWarmupRestarts(ae_opt,
	first_cycle_steps=args.epoch,
	cycle_mult=1,
	max_lr=base_lr,
	min_lr=base_lr*0.9999999,
	warmup_steps=args.epoch/10,
	gamma=1)

	disc_scheduler = CosineAnnealingWarmupRestarts(disc_opt,
	first_cycle_steps=args.epoch,
	cycle_mult=1,
	max_lr=base_lr,
	min_lr=base_lr*0.9999999,
	warmup_steps=args.epoch/10,
	gamma=1)

	vqmodel, ae_opt, disc_opt, ae_scheduler, disc_scheduler, loader = accelerator.prepare(vqmodel, ae_opt, disc_opt, ae_scheduler, disc_scheduler, loader)

	print ('global config end ---------------------------------------------------')

	log_iter = 50

	acc_steps = 1

	def train_one_epoch(args):
	STEP_CNT = 0
	DISC_STEP_CNT = 0
	vqmodel.train()
	stat_dict = {}

	for i, data in enumerate(loader):

	batch = data.to(device)

	aeloss, log_dict_ae = vqmodel.module.training_step(batch, 0, device, STEP_CNT)

	if STEP_CNT >= disc_start:
	discloss, log_dict_disc = vqmodel.module.training_step(batch, 1, device, STEP_CNT)

	accelerator.backward(aeloss)
	# if (STEP_CNT + 1) == 0:
	ae_opt.step()
	ae_opt.zero_grad()

	if STEP_CNT >= disc_start:
	# print('asodkjsaoifdjosjio')
	accelerator.backward(discloss)
	# if (STEP_CNT + 1) == 0:
	disc_opt.step()
	disc_opt.zero_grad()

	# STEP_CNT += 1


	if (STEP_CNT + 1) % log_iter == 0:
	if get_rank() == 0:
	for k, v in log_dict_ae.items():
	if k not in stat_dict.keys():
	stat_dict[k] = 0
	stat_dict[k] += v.cpu().item()

	if STEP_CNT >= disc_start:
	for k, v in log_dict_disc.items():
	if k not in stat_dict.keys():
	stat_dict[k] = 0
	stat_dict[k] += v.cpu().item()

	for k, v in stat_dict.items():
	WRITER.add_scalar(k, v/log_iter, STEP_CNTargs.batch_sizeget_world_size())
	stat_dict[k] = 0

	WRITER.add_scalar('lr_ae', ae_opt.param_groups[0]['lr'], STEP_CNTargs.batch_sizeget_world_size())
	WRITER.add_scalar('lr_disc', disc_opt.param_groups[0]['lr'], STEP_CNTargs.batch_sizeget_world_size())

	STEP_CNT += 1
	# i += 1

	ae_scheduler.step(STEP_CNT)
	if STEP_CNT >= disc_start:
	DISC_STEP_CNT += 1
	disc_scheduler.step(STEP_CNT)

	if (STEP_CNT + 1) % (log_iter*1000) == 0:
	save_dict = {}
	if get_rank() == 0:

	unwrapped_model = accelerator.unwrap_model(vqmodel)
	accelerator.save(unwrapped_model.state_dict(), os.path.join(log_path, 'checkpoint_vq_epoch_' +str(STEP_CNT)+'.tar'))
	# barrier()
	accelerator.wait_for_everyone()
	print ('epoch {} train done'.format(STEP_CNT))


	def main(args):

	train_one_epoch(args)

	if __name__ == '__main__':
	import time

	# train_one_epoch()
	main(args)
	time.sleep(60)
	dist.destroy_process_group()
	print ('train done!')