Spaces:

Nepjune
/

Project_image_captioning_blip

Runtime error

Nepjune commited on Feb 15, 2024

Commit

72cd368

verified ·

1 Parent(s): 7bb2720

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,37 +1,33 @@
 import gradio as gr
-from transformers import BlipProcessor, BlipForConditionalGeneration
-from concurrent.futures import ThreadPoolExecutor
-import pyttsx3
-model_id = "dblasko/blip-dalle3-img2prompt"
-model = BlipForConditionalGeneration.from_pretrained(model_id)
-processor = BlipProcessor.from_pretrained(model_id)
-# Initialize Text-to-Speech engine
-tts_engine = pyttsx3.init()
-def generate_caption(image):
-    # Generate caption from image
-    inputs = processor(images=image, return_tensors="pt")
-    pixel_values = inputs.pixel_values
-    generated_ids = model.generate(pixel_values=pixel_values, max_length=50)
-    generated_caption = processor.batch_decode(generated_ids, skip_special_tokens=True, temperature=0.8, top_k=40, top_p=0.9)[0]
-    # Convert the generated caption to speech
-    tts_engine.save_to_file(generated_caption, "generated_audio.mp3")
-    tts_engine.runAndWait()
-    return generated_caption, "generated_audio.mp3"
-# Create a Gradio interface with an image input, a textbox output, a button, and an audio player
 demo = gr.Interface(
-    fn=generate_caption,
-    inputs=gr.Image(),
     outputs=[
-        gr.Textbox(label="Generated caption"),
-        gr.Button("Convert to Audio", None),
     ],
     live=True  # ทำให้ Gradio ทำงานแบบไม่บล็อก
 )
 demo.launch(share=True)

 import gradio as gr
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+import torchaudio
+from torchaudio.transforms import Resample
+import torch
+# สร้างโมเดล TTS
+model_name = "facebook/tts-crdnn-baker-softmax"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
+# ฟังก์ชันสำหรับแปลงข้อความเป็นเสียง
+def text_to_speech(text, output_path="generated_audio.wav"):
+    input_ids = tokenizer.encode(text, return_tensors="pt", max_length=150, truncation=True)
+    with torch.no_grad():
+        audio = model.generate(input_ids)
+    waveform = torchaudio.transforms.Resample(48_000, 24_000)(audio.squeeze().numpy())
+    torchaudio.save(output_path, waveform, 24_000)
+def play_audio(audio_path):
+    gr.audio(audio_path, type="player")
+# สร้าง Gradio interface ที่ใช้ image input, textbox output, button และ audio player
 demo = gr.Interface(
+    fn=text_to_speech,
+    inputs=gr.Textbox(label="Enter Text"),
     outputs=[
+        gr.Audio("audio", type="player"),
+        gr.Button("Convert to Audio", play_audio),
     ],
     live=True  # ทำให้ Gradio ทำงานแบบไม่บล็อก
 )
 demo.launch(share=True)