Spaces:

owiedotch
/

oac

Sleeping

App Files Files Community

owiedotch commited on Feb 27

Commit

85dc4b0

verified ·

1 Parent(s): 8ad4b15

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -18

app.py CHANGED Viewed

@@ -17,31 +17,34 @@ semanticodec = load_model()
 @spaces.GPU(duration=20)
 def encode_audio(audio_path):
-    """Encode audio file to tokens and save them"""
     tokens = semanticodec.encode(audio_path)
     # Move tokens to CPU before converting to numpy
     if isinstance(tokens, torch.Tensor):
         tokens = tokens.cpu().numpy()
-    # Save to a temporary file
-    temp_file = tempfile.NamedTemporaryFile(suffix='.oterin', delete=False)
-    temp_file.close()  # Close the file before writing to it
-    np.save(temp_file.name, tokens)
-    # Ensure the file exists and has content
-    if os.path.exists(temp_file.name) and os.path.getsize(temp_file.name) > 0:
-        return temp_file.name, f"Encoded to {len(tokens)} tokens"
-    else:
-        raise Exception("Failed to create token file")
 @spaces.GPU(duration=60)
-def decode_tokens(token_path):
     """Decode tokens to audio"""
-    # Ensure the file exists and has content
-    if not os.path.exists(token_path) or os.path.getsize(token_path) == 0:
-        return None, "Error: Empty or missing token file"
-    tokens = np.load(token_path)
     # Convert to torch tensor if needed by the model
     if hasattr(semanticodec, 'decode_requires_tensor') and semanticodec.decode_requires_tensor:
         tokens = torch.tensor(tokens)
@@ -50,7 +53,7 @@ def decode_tokens(token_path):
     if isinstance(waveform, torch.Tensor):
         waveform = waveform.cpu().numpy()
-    # Create in-memory file
     output_buffer = io.BytesIO()
     sf.write(output_buffer, waveform[0, 0], 32000, format='WAV')
     output_buffer.seek(0)
@@ -95,14 +98,14 @@ with gr.Blocks(title="Oterin Audio Codec") as demo:
     with gr.Tab("Encode Audio"):
         with gr.Row():
             encode_input = gr.Audio(type="filepath", label="Input Audio")
-            encode_output = gr.File(label="Encoded Tokens (.oterin)")
         encode_status = gr.Textbox(label="Status")
         encode_btn = gr.Button("Encode")
         encode_btn.click(encode_audio, inputs=encode_input, outputs=[encode_output, encode_status])
     with gr.Tab("Decode Tokens"):
         with gr.Row():
-            decode_input = gr.File(label="Token File (.oterin)")
             decode_output = gr.Audio(label="Decoded Audio")
         decode_status = gr.Textbox(label="Status")
         decode_btn = gr.Button("Decode")

 @spaces.GPU(duration=20)
 def encode_audio(audio_path):
+    """Encode audio file to tokens and return them as a binary buffer"""
     tokens = semanticodec.encode(audio_path)
     # Move tokens to CPU before converting to numpy
     if isinstance(tokens, torch.Tensor):
         tokens = tokens.cpu().numpy()
+    # Save to a BytesIO buffer
+    buffer = io.BytesIO()
+    np.save(buffer, tokens)
+    buffer.seek(0)
+    # Verify the buffer has content
+    if buffer.getbuffer().nbytes == 0:
+        raise Exception("Failed to create token buffer")
+    return buffer, f"Encoded to {len(tokens)} tokens"
 @spaces.GPU(duration=60)
+def decode_tokens(token_buffer):
     """Decode tokens to audio"""
+    # Ensure the buffer has content
+    if not token_buffer or token_buffer.getbuffer().nbytes == 0:
+        return None, "Error: Empty token buffer"
+    # Reset buffer position to start
+    token_buffer.seek(0)
+    tokens = np.load(token_buffer)
     # Convert to torch tensor if needed by the model
     if hasattr(semanticodec, 'decode_requires_tensor') and semanticodec.decode_requires_tensor:
         tokens = torch.tensor(tokens)
     if isinstance(waveform, torch.Tensor):
         waveform = waveform.cpu().numpy()
+    # Create in-memory file for audio
     output_buffer = io.BytesIO()
     sf.write(output_buffer, waveform[0, 0], 32000, format='WAV')
     output_buffer.seek(0)
     with gr.Tab("Encode Audio"):
         with gr.Row():
             encode_input = gr.Audio(type="filepath", label="Input Audio")
+            encode_output = gr.File(label="Encoded Tokens (.oterin)", file_types=[".oterin"])
         encode_status = gr.Textbox(label="Status")
         encode_btn = gr.Button("Encode")
         encode_btn.click(encode_audio, inputs=encode_input, outputs=[encode_output, encode_status])
     with gr.Tab("Decode Tokens"):
         with gr.Row():
+            decode_input = gr.File(label="Token File (.oterin)", file_types=[".oterin"])
             decode_output = gr.Audio(label="Decoded Audio")
         decode_status = gr.Textbox(label="Status")
         decode_btn = gr.Button("Decode")