Spaces:

FunAudioLLM
/

InspireMusic

Running on Zero

App Files Files Community

chong.zhang commited on Feb 7

Commit

acf41f6

1 Parent(s): 4e0151a

add wavtokenizer version

Browse files

Files changed (2) hide show

app.py +25 -25
inspiremusic/cli/inference.py +5 -0

app.py CHANGED Viewed

@@ -170,7 +170,7 @@ def main():
 		# with gr.Row(equal_height=True):
 		text_input = gr.Textbox(label="Input Text (For Text-to-Music Task)", value="Experience soothing and sensual instrumental jazz with a touch of Bossa Nova, perfect for a relaxing restaurant or spa ambiance.")
-		music_output = gr.Audio(label="Text to Music Output", type="filepath")
 		button = gr.Button("Text to Music")
 		button.click(demo_inspiremusic_t2m,
@@ -183,7 +183,7 @@ def main():
 		audio_input = gr.Audio(label="Input Audio Prompt (For Music Continuation Task)",
 								   type="filepath")
-		music_con_output = gr.Audio(label="Music Continuation Output", type="filepath")
 		generate_button = gr.Button("Music Continuation")
 		generate_button.click(demo_inspiremusic_con,
 							  inputs=[text_input, audio_input, model_name,
@@ -192,29 +192,29 @@ def main():
 									  max_generate_audio_seconds],
 							  outputs=music_con_output)
-	t2m_demo = gr.Interface(fn=demo_inspiremusic_t2m,
-							inputs=[
-								gr.Textbox(
-									label="Input Text (For Text-to-Music Task)",
-									value="Experience soothing and sensual instrumental jazz with a touch of Bossa Nova, perfect for a relaxing restaurant or spa ambiance.")
-							],
-							outputs=[
-								gr.Audio(label="Output Audio", type="filepath"),
-							],
-							title="InspireMusic",
-							description=("test"),
-							article=(
-								"<p style='text-align: center'><a href='https://arxiv.org/abs/2206.07293' target='_blank'>FRCRN: Boosting Feature Representation Using Frequency Recurrence for Monaural Speech Enhancement (ICASSP 2022)</a> </p>"
-								"<p style='text-align: center'><a href='https://arxiv.org/abs/2312.11825' target='_blank'>MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation (ICASSP 2024)</a> </p>"
-								"<p style='text-align: center'><a href='https://arxiv.org/abs/2501.10045' target='_blank'>HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution (ICASSP 2025)</a> </p>"),
-							examples=[
-								["examples/sample.wav", True],
-							],
-							cache_examples=True)
-	with gr.Blocks():
-		gr.TabbedInterface([demo, t2m_demo],
-						   ["Task 1",
-							"Task 2"])
 	demo.launch()

 		# with gr.Row(equal_height=True):
 		text_input = gr.Textbox(label="Input Text (For Text-to-Music Task)", value="Experience soothing and sensual instrumental jazz with a touch of Bossa Nova, perfect for a relaxing restaurant or spa ambiance.")
+		music_output = gr.Audio(label="Text to Music Output", type="filepath", autoplay=True)
 		button = gr.Button("Text to Music")
 		button.click(demo_inspiremusic_t2m,
 		audio_input = gr.Audio(label="Input Audio Prompt (For Music Continuation Task)",
 								   type="filepath")
+		music_con_output = gr.Audio(label="Music Continuation Output", type="filepath", autoplay=True)
 		generate_button = gr.Button("Music Continuation")
 		generate_button.click(demo_inspiremusic_con,
 							  inputs=[text_input, audio_input, model_name,
 									  max_generate_audio_seconds],
 							  outputs=music_con_output)
+	# t2m_demo = gr.Interface(fn=demo_inspiremusic_t2m,
+	# 						inputs=[
+	# 							gr.Textbox(
+	# 								label="Input Text (For Text-to-Music Task)",
+	# 								value="Experience soothing and sensual instrumental jazz with a touch of Bossa Nova, perfect for a relaxing restaurant or spa ambiance.")
+	# 						],
+	# 						outputs=[
+	# 							gr.Audio(label="Output Audio", type="filepath", autoplay=True),
+	# 						],
+	# 						title="InspireMusic",
+	# 						description=("test"),
+	# 						article=(
+	# 							"<p style='text-align: center'><a href='https://arxiv.org/abs/2206.07293' target='_blank'>FRCRN: Boosting Feature Representation Using Frequency Recurrence for Monaural Speech Enhancement (ICASSP 2022)</a> </p>"
+	# 							"<p style='text-align: center'><a href='https://arxiv.org/abs/2312.11825' target='_blank'>MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation (ICASSP 2024)</a> </p>"
+	# 							"<p style='text-align: center'><a href='https://arxiv.org/abs/2501.10045' target='_blank'>HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution (ICASSP 2025)</a> </p>"),
+	# 						examples=[
+	# 							["examples/sample.wav", True],
+	# 						],
+	# 						cache_examples=True)
+	# with gr.Blocks():
+	# 	gr.TabbedInterface([demo, t2m_demo],
+	# 					   ["Task 1",
+	# 						"Task 2"])
 	demo.launch()

inspiremusic/cli/inference.py CHANGED Viewed

@@ -196,6 +196,11 @@ class InspireMusicUnified:
             else:
                 logging.error(f"Generated audio length is shorter than minimum required audio length.")
 def get_args():
     parser = argparse.ArgumentParser(description='Run inference with your model')

             else:
                 logging.error(f"Generated audio length is shorter than minimum required audio length.")
+        if music_fn:
+            if os.path.exists(music_fn):
+                return music_fn
+            else:
+                logging.error(f"{music_fn} does not exist.")
 def get_args():
     parser = argparse.ArgumentParser(description='Run inference with your model')