Spaces:

napstablook911
/

ImageToSound

Running

App Files Files Community

napstablook911 commited on Jun 22

Commit

2f115cc

verified ·

1 Parent(s): 7646e96

Upload 2 files

Browse files

Files changed (2) hide show

app.py +150 -0
requirements.txt +81 -3

app.py ADDED Viewed

	@@ -0,0 +1,150 @@

+import streamlit as st
+import io
+from PIL import Image
+import soundfile as sf
+import librosa
+import numpy as np
+import torch # Importa torch
+import sys
+sys.setrecursionlimit(2000) # Aumentiamo il limite di ricorsione
+# --- Configurazione del Dispositivo ---
+# Questo rileva automaticamente se MPS (GPU Apple Silicon) è disponibile
+# Per ora, useremo la CPU come fallback se MPS è problematico per Stable Audio
+device = "mps" if torch.backends.mps.is_available() else "cpu"
+# ******************** MODIFICA QUI: Forza device = "cpu" ********************
+# Per superare i problemi di Stable Audio su MPS con float16/float32
+# FORZA LA CPU PER TUTTI I MODELLI, per semplicità.
+# Se la caption genera velocemente, potremmo tornare indietro e mettere il modello vit_gpt2 su MPS
+device = "cpu"
+# **************************************************************************
+st.write(f"Utilizzo del dispositivo: {device}")
+# --- 1. Caricamento dei Modelli AI (spostati qui, fuori dalle funzioni Streamlit) ---
+@st.cache_resource
+def load_models():
+    # Caricamento del modello per la captioning (ViT-GPT2)
+    from transformers import AutoFeatureExtractor, AutoTokenizer, AutoModelForVision2Seq
+    st.write("Caricamento del modello ViT-GPT2 per la captioning dell'immagine...")
+    vit_gpt2_feature_extractor = AutoFeatureExtractor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
+    vit_gpt2_tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
+    # Questo modello andrà sulla CPU
+    vit_gpt2_model = AutoModelForVision2Seq.from_pretrained("nlpconnect/vit-gpt2-image-captioning").to(device)
+    st.write("Modello ViT-GPT2 caricato.")
+    # Caricamento del modello Text-to-Audio (Stable Audio Open - 1.0)
+    from diffusers import DiffusionPipeline
+    st.write("Caricamento del modello Stable Audio Open - 1.0 per la generazione del soundscape...")
+    # ******************** MODIFICA QUI ********************
+    # Assicurati che non ci sia torch_dtype=torch.float16 e che vada sulla CPU
+    stable_audio_pipeline = DiffusionPipeline.from_pretrained("stabilityai/stable-audio-open-1.0", force_download=True).to(device)
+    # ******************************************************
+    st.write("Modello Stable Audio Open 1.0 caricato.")
+    return vit_gpt2_feature_extractor, vit_gpt2_model, vit_gpt2_tokenizer, stable_audio_pipeline
+# Carica i modelli all'avvio dell'app
+vit_gpt2_feature_extractor, vit_gpt2_model, vit_gpt2_tokenizer, stable_audio_pipeline = load_models()
+# --- 2. Funzioni della Pipeline ---
+def generate_image_caption(image_pil):
+    pixel_values = vit_gpt2_feature_extractor(images=image_pil.convert("RGB"), return_tensors="pt").pixel_values
+    pixel_values = pixel_values.to(device) # Sposta input su CPU
+    # Token di inizio per GPT-2, assicurandosi che sia su CPU
+    # Ottieni il decoder_start_token_id dal modello o dal tokenizer
+    if hasattr(vit_gpt2_model.config, "decoder_start_token_id"):
+        decoder_start_token_id = vit_gpt2_model.config.decoder_start_token_id
+    else:
+        if vit_gpt2_tokenizer.pad_token_id is not None:
+            decoder_start_token_id = vit_gpt2_tokenizer.pad_token_id
+        else:
+            decoder_start_token_id = 50256 # Default GPT-2 EOS token
+    # Crea un input_ids iniziale con il decoder_start_token_id e spostalo su CPU
+    input_ids = torch.ones((1, 1), device=device, dtype=torch.long) * decoder_start_token_id
+    output_ids = vit_gpt2_model.generate(
+        pixel_values=pixel_values,
+        input_ids=input_ids,
+        max_length=50,
+        do_sample=True,
+        top_k=50,
+        temperature=0.7,
+        no_repeat_ngram_size=2,
+        early_stopping=True
+    )
+    caption = vit_gpt2_tokenizer.decode(output_ids[0], skip_special_tokens=True)
+    return caption
+def generate_soundscape_from_caption(caption: str, duration_seconds: int = 10):
+    st.write(f"Generazione soundscape per: '{caption}' (durata: {duration_seconds}s)")
+    with st.spinner("Generazione audio in corso..."):
+        try:
+            # Assicurati che il modello sia già su CPU dal caricamento
+            audio_output = stable_audio_pipeline(
+                prompt=caption,
+                audio_end_in_s=duration_seconds
+            ).audios
+            audio_data = audio_output[0].cpu().numpy()
+            sample_rate = stable_audio_pipeline.sample_rate
+            audio_data = audio_data.astype(np.float32)
+            audio_data = librosa.util.normalize(audio_data)
+            buffer = io.BytesIO()
+            sf.write(buffer, audio_data, sample_rate, format='WAV')
+            buffer.seek(0)
+            return buffer.getvalue(), sample_rate
+        except Exception as e:
+            st.error(f"Errore durante la generazione dell'audio: {e}")
+            return None, None
+# --- 3. Interfaccia Streamlit ---
+st.title("Generatore di Paesaggi Sonori da Immagini")
+st.write("Carica un'immagine e otterrai una descrizione testuale e un paesaggio sonoro generato!")
+uploaded_file = st.file_uploader("Scegli un'immagine...", type=["jpg", "jpeg", "png"])
+if uploaded_file is not None:
+    input_image = Image.open(uploaded_file)
+    st.image(input_image, caption='Immagine Caricata.', use_column_width=True)
+    st.write("")
+    audio_duration = st.slider("Durata audio (secondi):", 5, 30, 10, key="audio_duration_slider")
+    if st.button("Genera Paesaggio Sonoro"):
+        st.subheader("Processo in Corso...")
+        # PASSO 1: Genera la caption
+        st.write("Generazione della caption...")
+        caption = generate_image_caption(input_image)
+        st.write(f"Caption generata: **{caption}**")
+        # PASSO 2: Genera il soundscape
+        st.write("Generazione del paesaggio sonoro...")
+        audio_data_bytes, sample_rate = generate_soundscape_from_caption(caption, duration_seconds=audio_duration)
+        if audio_data_bytes is not None:
+            st.subheader("Paesaggio Sonoro Generato")
+            st.audio(audio_data_bytes, format='audio/wav', sample_rate=sample_rate)
+            st.download_button(
+                label="Scarica Audio WAV",
+                data=audio_data_bytes,
+                file_name="paesaggio_sonoro_generato.wav",
+                mime="audio/wav"
+            )
+        else:
+            st.error("La generazione del paesaggio sonoro è fallita.")

requirements.txt CHANGED Viewed

@@ -1,3 +1,81 @@
-altair
-pandas
-streamlit

+accelerate==1.8.1
+altair==5.5.0
+attrs==25.3.0
+audioop-lts==0.2.1
+audioread==3.0.1
+blinker==1.9.0
+cachetools==6.1.0
+certifi==2025.6.15
+cffi==1.17.1
+charset-normalizer==3.4.2
+click==8.2.1
+decorator==5.2.1
+diffusers==0.33.1
+filelock==3.13.1
+fsspec==2024.6.1
+gitdb==4.0.12
+GitPython==3.1.44
+hf-xet==1.1.5
+huggingface-hub==0.33.0
+idna==3.10
+importlib_metadata==8.7.0
+Jinja2==3.1.4
+joblib==1.5.1
+jsonschema==4.24.0
+jsonschema-specifications==2025.4.1
+lazy_loader==0.4
+librosa==0.11.0
+llvmlite==0.44.0
+MarkupSafe==2.1.5
+mpmath==1.3.0
+msgpack==1.1.1
+narwhals==1.43.1
+networkx==3.3
+numba==0.61.2
+numpy==2.1.2
+packaging==25.0
+pandas==2.3.0
+pillow==11.0.0
+platformdirs==4.3.8
+pooch==1.8.2
+protobuf==6.31.1
+psutil==7.0.0
+pyarrow==20.0.0
+pycparser==2.22
+pydeck==0.9.1
+python-dateutil==2.9.0.post0
+pytz==2025.2
+PyYAML==6.0.2
+referencing==0.36.2
+regex==2024.11.6
+requests==2.32.4
+rpds-py==0.25.1
+safetensors==0.5.3
+scikit-learn==1.7.0
+scipy==1.15.3
+setuptools==70.2.0
+six==1.17.0
+smmap==5.0.2
+soundfile==0.13.1
+soxr==0.5.0.post1
+standard-aifc==3.13.0
+standard-chunk==3.13.0
+standard-sunau==3.13.0
+streamlit==1.46.0
+sympy==1.13.3
+tenacity==9.1.2
+threadpoolctl==3.6.0
+tokenizers==0.21.1
+toml==0.10.2
+torch==2.7.1
+torchaudio==2.7.1
+torchsde==0.2.6
+torchvision==0.22.1
+tornado==6.5.1
+tqdm==4.67.1
+trampoline==0.1.2
+transformers==4.52.4
+typing_extensions==4.12.2
+tzdata==2025.2
+urllib3==2.5.0
+zipp==3.23.0