Spaces:

wrice
/

audio_denoiser

Running

App Files Files Community

audio_denoiser / app.py

wrice

handle multi-channel audio

3d1e219 about 1 year ago

raw

history blame

1.75 kB

	"""Gradio demo for denoisers."""
	import gradio as gr
	import numpy as np
	import torch
	import torchaudio
	from denoisers import UNet1DModel, WaveUNetModel
	from tqdm import tqdm

	MODELS = [
	"wrice/unet1d-vctk-48khz",
	"wrice/waveunet-vctk-48khz",
	"wrice/waveunet-vctk-24khz",
	]


	def denoise(model_name, inputs):
	"""Denoise audio."""
	if "unet1d" in model_name:
	model = UNet1DModel.from_pretrained(model_name)
	else:
	model = WaveUNetModel.from_pretrained(model_name)
	sr, audio = inputs
	audio = torch.from_numpy(audio)[None]
	audio = audio / 32768.0
	audio = audio.permute(0, 2, 1)

	print(f"Audio shape: {audio.shape}")
	print(f"Sample rate: {sr}")

	if audio.shape[1] > 1:
	audio = audio.mean(1, keepdim=True)

	print(f"Audio shape: {audio.shape}")

	if sr != model.config.sample_rate:
	audio = torchaudio.functional.resample(audio, sr, model.config.sample_rate)

	chunk_size = model.config.max_length

	padding = abs(audio.size(-1) % chunk_size - chunk_size)
	padded = torch.nn.functional.pad(audio, (0, padding))

	clean = []
	for i in tqdm(range(0, padded.shape[-1], chunk_size)):
	audio_chunk = padded[:, :, i : i + chunk_size]
	with torch.no_grad():
	clean_chunk = model(audio_chunk).logits
	clean.append(clean_chunk.squeeze(0))

	denoised = torch.concat(clean, 1)[:, : audio.shape[-1]].clamp(-1.0, 1.0)
	denoised = (denoised * 32767.0).numpy().astype(np.int16)

	print(f"Denoised shape: {denoised.shape}")

	return model.config.sample_rate, denoised.transpose()


	iface = gr.Interface(
	fn=denoise,
	inputs=[gr.Dropdown(choices=MODELS, value=MODELS[0]), "audio"],
	outputs="audio",
	)
	iface.launch()