Spaces:

FunAudioLLM
/

InspireMusic

Running on Zero

App Files Files Community

chong.zhang commited on Feb 7

Commit

b3d320b

1 Parent(s): e35a9be

update

Browse files

Files changed (1) hide show

app.py +34 -50

app.py CHANGED Viewed

@@ -39,6 +39,8 @@ import hashlib
 import importlib
 MODELS = ["InspireMusic-1.5B-Long", "InspireMusic-1.5B", "InspireMusic-1.5B-24kHz", "InspireMusic-Base", "InspireMusic-Base-24kHz"]
 def generate_filename():
 	hash_object = hashlib.sha256(str(int(datetime.datetime.now().timestamp())).encode())
@@ -70,7 +72,7 @@ def get_args(
 		"max_audio_prompt_length": 5.0,
 		"model_dir"                 : os.path.join("pretrained_models",
 												   model_name),
-		"result_dir"                : "exp/inspiremusic",
 		"output_fn"                 : generate_filename(),
 		"format"                    : "wav",
 		"time_start" : time_start,
@@ -90,7 +92,7 @@ def trim_audio(audio_file, cut_seconds=5):
 	audio, sr = torchaudio.load(audio_file)
 	num_samples = cut_seconds * sr
 	cutted_audio = audio[:, :num_samples]
-	output_path = os.path.join(os.getcwd(), "audio_prompt_" + generate_filename() + ".wav")
 	torchaudio.save(output_path, cutted_audio, sr)
 	return output_path
@@ -158,7 +160,9 @@ def main():
 		""")
 		with gr.Row(equal_height=True):
-			model_name = gr.Dropdown(MODELS, label="Select Model Name", value="InspireMusic-1.5B-Long")
 			chorus = gr.Dropdown(["intro", "verse", "chorus", "outro"],
 								 label="Chorus Mode", value="intro")
 			output_sample_rate = gr.Dropdown([48000, 24000],
@@ -168,55 +172,35 @@ def main():
 												   label="Generate Audio Length (s)",
 												   value=30)
-		# with gr.Row(equal_height=True):
-		text_input = gr.Textbox(label="Input Text (For Text-to-Music Task)", value="Experience soothing and sensual instrumental jazz with a touch of Bossa Nova, perfect for a relaxing restaurant or spa ambiance.")
-		music_output = gr.Audio(label="Text to Music Output", type="filepath", autoplay=True)
-		button = gr.Button("Text to Music")
-		button.click(demo_inspiremusic_t2m,
-						  inputs=[text_input, model_name,
-								  chorus,
-								  output_sample_rate,
-								  max_generate_audio_seconds],
-						  outputs=music_output)
-		audio_input = gr.Audio(label="Input Audio Prompt (For Music Continuation Task)",
-								   type="filepath")
-		music_con_output = gr.Audio(label="Music Continuation Output", type="filepath", autoplay=True)
-		generate_button = gr.Button("Music Continuation")
-		generate_button.click(demo_inspiremusic_con,
-							  inputs=[text_input, audio_input, model_name,
-									  chorus,
-									  output_sample_rate,
-									  max_generate_audio_seconds],
-							  outputs=music_con_output)
-	# t2m_demo = gr.Interface(fn=demo_inspiremusic_t2m,
-	# 						inputs=[
-	# 							gr.Textbox(
-	# 								label="Input Text (For Text-to-Music Task)",
-	# 								value="Experience soothing and sensual instrumental jazz with a touch of Bossa Nova, perfect for a relaxing restaurant or spa ambiance.")
-	# 						],
-	# 						outputs=[
-	# 							gr.Audio(label="Output Audio", type="filepath", autoplay=True),
-	# 						],
-	# 						title="InspireMusic",
-	# 						description=("test"),
-	# 						article=(
-	# 							"<p style='text-align: center'><a href='https://arxiv.org/abs/2206.07293' target='_blank'>FRCRN: Boosting Feature Representation Using Frequency Recurrence for Monaural Speech Enhancement (ICASSP 2022)</a> </p>"
-	# 							"<p style='text-align: center'><a href='https://arxiv.org/abs/2312.11825' target='_blank'>MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation (ICASSP 2024)</a> </p>"
-	# 							"<p style='text-align: center'><a href='https://arxiv.org/abs/2501.10045' target='_blank'>HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution (ICASSP 2025)</a> </p>"),
-	# 						examples=[
-	# 							["examples/sample.wav", True],
-	# 						],
-	# 						cache_examples=True)
-	# with gr.Blocks():
-	# 	gr.TabbedInterface([demo, t2m_demo],
-	# 					   ["Task 1",
-	# 						"Task 2"])
 	demo.launch()
 if __name__ == '__main__':
 	main()

 import importlib
 MODELS = ["InspireMusic-1.5B-Long", "InspireMusic-1.5B", "InspireMusic-1.5B-24kHz", "InspireMusic-Base", "InspireMusic-Base-24kHz"]
+AUDIO_PROMPT_DIR = "audio_prompts"
+OUTPUT_AUDIO_DIR = "demo/outputs"
 def generate_filename():
 	hash_object = hashlib.sha256(str(int(datetime.datetime.now().timestamp())).encode())
 		"max_audio_prompt_length": 5.0,
 		"model_dir"                 : os.path.join("pretrained_models",
 												   model_name),
+		"result_dir"                : OUTPUT_AUDIO_DIR,
 		"output_fn"                 : generate_filename(),
 		"format"                    : "wav",
 		"time_start" : time_start,
 	audio, sr = torchaudio.load(audio_file)
 	num_samples = cut_seconds * sr
 	cutted_audio = audio[:, :num_samples]
+	output_path = os.path.join(AUDIO_PROMPT_DIR, "audio_prompt_" + generate_filename() + ".wav")
 	torchaudio.save(output_path, cutted_audio, sr)
 	return output_path
 		""")
 		with gr.Row(equal_height=True):
+			model_name = gr.Dropdown(
+					MODELS, label="Select Model Name",
+					value="InspireMusic-1.5B-Long")
 			chorus = gr.Dropdown(["intro", "verse", "chorus", "outro"],
 								 label="Chorus Mode", value="intro")
 			output_sample_rate = gr.Dropdown([48000, 24000],
 												   label="Generate Audio Length (s)",
 												   value=30)
+		with gr.Row(equal_height=True):
+			text_input = gr.Textbox(label="Input Text (For Text-to-Music Task)",
+									value="Experience soothing and sensual instrumental jazz with a touch of Bossa Nova, perfect for a relaxing restaurant or spa ambiance.")
+			audio_input = gr.Audio(
+				label="Input Audio Prompt (For Music Continuation Task)",
+				type="filepath")
+		music_output = gr.Audio(label="Generated Music", type="filepath", autoplay=True)
+		with gr.Row():
+			button = gr.Button("Text to Music")
+			button.click(demo_inspiremusic_t2m,
+						 inputs=[text_input, model_name,
+								 chorus,
+								 output_sample_rate,
+								 max_generate_audio_seconds],
+						 outputs=music_output)
+			generate_button = gr.Button("Music Continuation")
+			generate_button.click(demo_inspiremusic_con,
+								  inputs=[text_input, audio_input, model_name,
+										  chorus,
+										  output_sample_rate,
+										  max_generate_audio_seconds],
+								  outputs=music_output)
 	demo.launch()
 if __name__ == '__main__':
+	os.makedirs(AUDIO_PROMPT_DIR, exist_ok=True)
+	os.makedirs(OUTPUT_AUDIO_DIR, exist_ok=True)
 	main()