Spaces:

FQiao
/

SoundingStreet

Sleeping

App Files Files Community

SoundingStreet / external_models /TangoFlux /tangoflux /generate_crpo_dataset.py

FQiao

Upload 70 files

3324de2 verified about 1 month ago

raw

history blame contribute delete

6.63 kB

	import os
	import json
	import time
	import torch
	import argparse
	import multiprocessing
	from tqdm import tqdm
	from safetensors.torch import load_file
	from diffusers import AutoencoderOobleck
	import soundfile as sf
	from model import TangoFlux
	import random




	def generate_audio_chunk(args, chunk, gpu_id, output_dir, samplerate, return_dict, process_id):
	"""
	Function to generate audio for a chunk of text prompts on a specific GPU.
	"""
	try:
	device = f"cuda:{gpu_id}"
	torch.cuda.set_device(device)
	print(f"Process {process_id}: Using device {device}")

	# Initialize model
	config = {
	'num_layers': 6,
	'num_single_layers': 18,
	'in_channels': 64,
	'attention_head_dim': 128,
	'joint_attention_dim': 1024,
	'num_attention_heads': 8,
	'audio_seq_len': 645,
	'max_duration': 30,
	'uncondition': False,
	'text_encoder_name': "google/flan-t5-large"
	}

	model = TangoFlux(config)
	print(f"Process {process_id}: Loading model from {args.model} on {device}")
	w1 = load_file(args.model)
	model.load_state_dict(w1, strict=False)
	model = model.to(device)
	model.eval()

	# Initialize VAE
	vae = AutoencoderOobleck.from_pretrained("stabilityai/stable-audio-open-1.0", subfolder='vae')
	vae = vae.to(device)
	vae.eval()

	outputs = []

	# Corrected loop using enumerate properly with tqdm
	for idx, item in tqdm(enumerate(chunk), total=len(chunk), desc=f"GPU {gpu_id}"):
	text = item['captions']


	if os.path.exists(os.path.join(output_dir, f"id_{item['id']}_sample1.wav")):
	print("Exist! Skipping!")
	continue
	with torch.no_grad():
	latent = model.inference_flow(
	text,
	num_inference_steps=args.num_steps,
	guidance_scale=args.guidance_scale,
	duration=10,
	num_samples_per_prompt=args.num_samples
	)

	#waveform_end = int(duration * vae.config.sampling_rate)
	latent = latent[:, :220, :] ## 220 correspond to the latent length of audiocaps encoded with this vae. You can modify this
	wave = vae.decode(latent.transpose(2, 1)).sample.cpu()

	for i in range(args.num_samples):
	filename = f"id_{item['id']}_sample{i+1}.wav"
	filepath = os.path.join(output_dir, filename)

	sf.write(filepath, wave[i].T, samplerate)
	outputs.append({
	"id": item['id'],
	"sample": i + 1,
	"path": filepath,
	"captions": text
	})

	return_dict[process_id] = outputs
	print(f"Process {process_id}: Completed processing on GPU {gpu_id}")

	except Exception as e:
	print(f"Process {process_id}: Error on GPU {gpu_id}: {e}")
	return_dict[process_id] = []

	def split_into_chunks(data, num_chunks):
	"""
	Splits data into num_chunks approximately equal parts.
	"""
	avg = len(data) // num_chunks
	chunks = []
	for i in range(num_chunks):
	start = i * avg
	# Ensure the last chunk takes the remainder
	end = (i + 1) * avg if i != num_chunks - 1 else len(data)
	chunks.append(data[start:end])
	return chunks

	def main():
	parser = argparse.ArgumentParser(description="Generate audio using multiple GPUs")
	parser.add_argument('--num_steps', type=int, default=50, help='Number of inference steps')
	parser.add_argument('--model', type=str, required=True, help='Path to tangoflux weights')
	parser.add_argument('--num_samples', type=int, default=5, help='Number of samples per prompt')
	parser.add_argument('--output_dir', type=str, default='output', help='Directory to save outputs')
	parser.add_argument('--json_path', type=str, required=True, help='Path to input JSON file')
	parser.add_argument('--sample_size', type=int, default=20000, help='Number of prompts to sample for CRPO')
	parser.add_argument('--guidance_scale', type=float, default=4.5, help='Guidance scale used for generation')
	args = parser.parse_args()

	# Check GPU availability
	num_gpus = torch.cuda.device_count()
	sample_size = args.sample_size


	# Load JSON data
	import json
	try:
	with open(args.json_path, 'r') as f:
	data = json.load(f)

	except Exception as e:
	print(f"Error loading JSON file {args.json_path}: {e}")
	return

	if not isinstance(data, list):
	print("Error: JSON data is not a list.")
	return

	if len(data) < sample_size:
	print(f"Warning: JSON data contains only {len(data)} items. Sampling all available data.")
	sampled = data
	else:
	sampled = random.sample(data, sample_size)

	# Split data into chunks based on available GPUs
	random.shuffle(sampled)
	chunks = split_into_chunks(sampled, num_gpus)

	# Prepare output directory
	os.makedirs(args.output_dir, exist_ok=True)
	samplerate = 44100

	# Manager for inter-process communication
	manager = multiprocessing.Manager()
	return_dict = manager.dict()

	processes = []
	for i in range(num_gpus):
	p = multiprocessing.Process(
	target=generate_audio_chunk,
	args=(
	args,
	chunks[i],
	i, # GPU ID
	args.output_dir,
	samplerate,
	return_dict,
	i, # Process ID

	)
	)
	processes.append(p)
	p.start()
	print(f"Started process {i} on GPU {i}")

	for p in processes:
	p.join()
	print(f"Process {p.pid} has finished.")

	# Aggregate results






	audio_info_list = [
	[{
	"path": f"{args.output_dir}/id_{sampled[j]['id']}_sample{i}.wav",
	"duration": sampled[j]["duration"],
	"captions": sampled[j]["captions"]
	}
	for i in range(1, args.num_samples+1) ] for j in range(sample_size)
	]

	#print(audio_info_list)

	with open(f'{args.output_dir}/results.json','w') as f:
	json.dump(audio_info_list,f)

	print(f"All audio samples have been generated and saved to {args.output_dir}")


	if __name__ == "__main__":
	multiprocessing.set_start_method('spawn')
	main()