Spaces:

liguang0115
/

vmem

Runtime error

App Files Files Community

vmem / train.py

liguang0115

Add initial project structure with core files, configurations, and sample images

2df809d 2 months ago

raw

history blame

9.66 kB

	import argparse
	from datetime import datetime
	import random
	import os
	import time
	import multiprocessing

	# Set multiprocessing start method to 'spawn' to avoid CUDA initialization issues in forked processes
	multiprocessing.set_start_method('spawn', force=True)


	from tqdm.auto import tqdm # Progress bar
	import numpy as np
	from omegaconf import OmegaConf

	import torch
	import torch.nn as nn
	from torch.utils.data import DataLoader
	from torch.optim.lr_scheduler import SequentialLR, LambdaLR, CosineAnnealingLR, ExponentialLR # Importing CosineAnnealingLR scheduler
	import torch.nn.functional as F



	from accelerate import Accelerator, DistributedDataParallelKwargs
	from accelerate.utils import set_seed # Removed get_scheduler import

	from peft import get_peft_model, LoraConfig

	from modeling import VMemModel
	from modeling.modules.autoencoder import AutoEncoder
	from modeling.sampling import DDPMDiscretization, DiscreteDenoiser, create_samplers
	from modeling.modules.conditioner import CLIPConditioner

	from utils.training_utils import DiffusionTrainer, load_pretrained_model
	from data.dataset import RealEstatePoseImageSevaDataset




	# set random seed for reproducibility
	torch.manual_seed(42)
	random.seed(42)
	np.random.seed(42)



	def parse_args():
	parser = argparse.ArgumentParser(description='Train a model')
	parser.add_argument('--config', type=str, default="", required=True, help='Path to the config file')
	args = parser.parse_args()
	return args


	def generate_current_datetime():
	return datetime.now().strftime("%Y-%m-%d_%H-%M-%S")

	def prepare_model(unet, config):
	assert isinstance(unet, VMemModel), "unet should be an instance of VMemModel"
	if config.training.lora_flag:
	target_modules = []
	for name, param in unet.named_parameters():
	# # if ("temporal" in name or "transformer" in name) and "norm" not in name:
	print(name)
	if ("transformer" in name or "emb" in name or "layers" in name) \
	and "norm" not in name and "in_layers.0" not in name and "out_layers.0" not in name:
	# print(name)
	name = name.replace(".weight", "")
	name = name.replace(".bias", "")
	if name not in target_modules:
	target_modules.append(str(name))

	lora_config = LoraConfig(
	r=config.training.lora_r,
	lora_alpha=config.training.lora_alpha,
	target_modules=target_modules,
	lora_dropout=config.training.lora_dropout,
	# bias="none",
	)
	lora_config.target_modules = target_modules

	unet = get_peft_model(unet, lora_config)
	# for name, param in unet.named_parameters():
	# if "camera" in name or "control" in name or "context" in name or "epipolar" in name or "appearance" in name:
	# print(name)
	# param.requires_grad = True

	unet.print_trainable_parameters()
	else:
	for name, param in unet.named_parameters():
	param.requires_grad = True

	print("trainable parameters percentage: ", np.sum([p.numel() for p in unet.parameters() if p.requires_grad])/np.sum([p.numel() for p in unet.parameters()]))
	return unet




	def main():
	args = parse_args()
	config_path = args.config
	config = OmegaConf.load(config_path)

	# Load the configuration
	num_epochs = config.training.num_epochs
	batch_size = config.training.batch_size
	learning_rate = config.training.learning_rate
	gradient_accumulation_steps = config.training.gradient_accumulation_steps
	num_workers = config.training.num_workers
	warmup_epochs = config.training.warmup_epochs
	max_grad_norm = config.training.max_grad_norm
	validation_interval = config.training.validation_interval
	visualization_flag = config.training.visualization_flag
	visualize_every = config.training.visualize_every
	random_seed = config.training.random_seed
	save_flag = config.training.save_flag
	use_wandb = config.training.use_wandb
	samples_dir = config.training.samples_dir



	weights_save_dir = config.training.weights_save_dir


	resume = config.training.resume



	exp_id = generate_current_datetime()
	if visualization_flag:
	run_visualization_dir = f"{samples_dir}/{exp_id}"
	os.makedirs(run_visualization_dir, exist_ok=True)
	else:
	run_visualization_dir = None
	if save_flag:
	run_weights_save_dir = f"{weights_save_dir}/{exp_id}"
	os.makedirs(run_weights_save_dir, exist_ok=True)
	else:
	run_weights_save_dir = None


	accelerator = Accelerator(
	mixed_precision="fp16",
	gradient_accumulation_steps=gradient_accumulation_steps,
	kwargs_handlers=[DistributedDataParallelKwargs(find_unused_parameters=False)],
	)
	num_gpus = accelerator.num_processes

	if random_seed is not None:
	set_seed(random_seed, device_specific=True)
	device = accelerator.device



	model = load_pretrained_model(cache_dir=config.model.cache_dir, device=device)


	model = prepare_model(model, config)
	if resume:
	model.load_state_dict(torch.load(resume, map_location='cpu'), strict=False)
	torch.cuda.empty_cache()

	# model = model.to(device)


	# time.sleep(100*3600)



	train_dataset = RealEstatePoseImageSevaDataset(rgb_data_dir=config.dataset.realestate10k.rgb_data_dir,
	meta_info_dir=config.dataset.realestate10k.meta_info_dir,
	num_sample_per_episode=config.dataset.realestate10k.num_sample_per_episode,
	mode='train')
	val_dataset = RealEstatePoseImageSevaDataset(rgb_data_dir=config.dataset.realestate10k.rgb_data_dir,
	meta_info_dir=config.dataset.realestate10k.meta_info_dir,
	num_sample_per_episode=config.dataset.realestate10k.val_num_sample_per_episode,
	mode='test')


	train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=num_workers, multiprocessing_context='spawn')
	val_dataloader = DataLoader(val_dataset, batch_size=batch_size, shuffle=True, num_workers=num_workers, multiprocessing_context='spawn')

	optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate, weight_decay=config.training.weight_decay)
	train_steps_per_epoch = len(train_dataloader)
	total_train_steps = num_epochs * train_steps_per_epoch
	warmup_steps = warmup_epochs * train_steps_per_epoch

	lr_scheduler = CosineAnnealingLR(
	optimizer, T_max=total_train_steps - warmup_steps, eta_min=0
	)

	# lr_scheduler = ExponentialLR(optimizer, gamma=gamma)
	if warmup_epochs > 0:
	def warmup_lambda(current_step):
	return float(current_step) / float(max(1, warmup_steps))
	warmup_scheduler = LambdaLR(optimizer, lr_lambda=warmup_lambda)


	# Combine the schedulers using SequentialLR
	lr_scheduler = SequentialLR(
	optimizer, schedulers=[warmup_scheduler, lr_scheduler], milestones=[warmup_steps]
	)
	vae = AutoEncoder(chunk_size=1).to(device)
	vae.eval()
	conditioner = CLIPConditioner().to(device)
	discretization = DDPMDiscretization()
	denoiser = DiscreteDenoiser(discretization=discretization, num_idx=1000, device=device)
	sampler = create_samplers(guider_types=config.training.guider_types,
	discretization=discretization,
	num_frames=config.model.num_frames,
	num_steps=config.training.inference_num_steps,
	cfg_min=config.training.cfg_min,
	device=device)


	(model,
	vae,
	train_dataloader,
	val_dataloader,
	optimizer,
	lr_scheduler) = accelerator.prepare(
	model,
	vae,
	train_dataloader,
	val_dataloader,
	optimizer,
	lr_scheduler,
	)


	trainer = DiffusionTrainer(network=model,
	ae=vae,
	conditioner=conditioner,
	denoiser=denoiser,
	sampler=sampler,
	discretization=discretization,
	cfg=config.training.cfg,
	optimizer=optimizer,
	lr_scheduler=lr_scheduler,
	ema_decay=config.training.ema_decay,
	device=device,
	accelerator=accelerator,
	max_grad_norm=max_grad_norm,
	save_flag=save_flag,
	visualize_flag=visualization_flag)



	trainer.train(train_dataloader,
	num_epochs,
	unconditional_prob=config.training.uncond_prob,
	log_every=10,
	validation_dataloader=val_dataloader,
	validation_interval=validation_interval,
	save_dir=run_weights_save_dir,
	save_interval=config.training.save_every,
	visualize_every=visualize_every,
	visualize_dir=run_visualization_dir,
	use_wandb=use_wandb)


	if __name__ == "__main__":
	main()