Spaces:

shukdevdatta123
/

GPT-4.5-Multimodal-Chatbot

Paused

App Files Files Community

shukdevdatta123 commited on Mar 15

Commit

ec333f1

verified ·

1 Parent(s): 7057cb9

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -3

app.py CHANGED Viewed

@@ -2,6 +2,9 @@ import gradio as gr
 import openai
 import fitz  # PyMuPDF for PDF processing
 import base64
 # Variable to store API key
 api_key = ""
@@ -45,7 +48,7 @@ def image_url_chat(image_url, text_query, temperature, top_p, max_output_tokens)
         {"role": "user", "content": [
             {"type": "image_url", "image_url": {"url": image_url}},  # Corrected format
             {"type": "text", "text": text_query}
-        ]}
     ]
     return query_openai(messages, temperature, top_p, max_output_tokens)
@@ -72,7 +75,7 @@ def image_chat(image_file, text_query, temperature, top_p, max_output_tokens):
         {"role": "user", "content": [
             {"type": "image_url", "image_url": {"url": image_data}},  # Fixed format
             {"type": "text", "text": text_query}
-        ]}
     ]
     return query_openai(messages, temperature, top_p, max_output_tokens)
@@ -89,10 +92,33 @@ def pdf_chat(pdf_file, text_query, temperature, top_p, max_output_tokens):
         {"role": "user", "content": [
             {"type": "text", "text": text},  # Fixed format
             {"type": "text", "text": text_query}
-        ]}
     ]
     return query_openai(messages, temperature, top_p, max_output_tokens)
 # Function to clear the chat (Fix: Returns the correct number of outputs)
 def clear_chat():
     return "", "", "", "", "", "", "", None, "", None, "", 1.0, 1.0, 2048
@@ -144,6 +170,12 @@ with gr.Blocks() as demo:
             pdf_output = gr.Textbox(label="Response", interactive=False)
             pdf_button = gr.Button("Ask")
     # Clear chat button
     clear_button = gr.Button("Clear Chat")
@@ -153,6 +185,7 @@ with gr.Blocks() as demo:
     text_button.click(text_chat, [text_query, temperature, top_p, max_output_tokens], text_output)
     image_button.click(image_chat, [image_upload, image_text_query, temperature, top_p, max_output_tokens], image_output)
     pdf_button.click(pdf_chat, [pdf_upload, pdf_text_query, temperature, top_p, max_output_tokens], pdf_output)
     # Fix: Clear button resets all necessary fields correctly
     clear_button.click(

 import openai
 import fitz  # PyMuPDF for PDF processing
 import base64
+import openai
+import soundfile as sf
+import io
 # Variable to store API key
 api_key = ""
         {"role": "user", "content": [
             {"type": "image_url", "image_url": {"url": image_url}},  # Corrected format
             {"type": "text", "text": text_query}
+        ]},
     ]
     return query_openai(messages, temperature, top_p, max_output_tokens)
         {"role": "user", "content": [
             {"type": "image_url", "image_url": {"url": image_data}},  # Fixed format
             {"type": "text", "text": text_query}
+        ]},
     ]
     return query_openai(messages, temperature, top_p, max_output_tokens)
         {"role": "user", "content": [
             {"type": "text", "text": text},  # Fixed format
             {"type": "text", "text": text_query}
+        ]},
     ]
     return query_openai(messages, temperature, top_p, max_output_tokens)
+# Function to process uploaded audio and transcribe to text
+def transcribe_audio(audio_file):
+    if audio_file is None:
+        return "Please upload an audio file."
+    try:
+        # Load the audio file
+        audio_data, samplerate = sf.read(audio_file.name)
+        audio_buffer = io.BytesIO()
+        sf.write(audio_buffer, audio_data, samplerate, format='WAV')
+        audio_buffer.seek(0)
+        # Transcribe the audio using OpenAI's Whisper API
+        transcript = openai.Audio.transcribe(
+            model="whisper-1",
+            file=audio_buffer
+        )
+        return transcript["text"]
+    except Exception as e:
+        return f"Error in transcription: {str(e)}"
 # Function to clear the chat (Fix: Returns the correct number of outputs)
 def clear_chat():
     return "", "", "", "", "", "", "", None, "", None, "", 1.0, 1.0, 2048
             pdf_output = gr.Textbox(label="Response", interactive=False)
             pdf_button = gr.Button("Ask")
+        with gr.Tab("Voice Chat"):
+            audio_upload = gr.File(label="Upload an Audio File", type="file")
+            audio_query = gr.Textbox(label="Ask about the transcription")
+            audio_output = gr.Textbox(label="Response", interactive=False)
+            audio_button = gr.Button("Ask")
     # Clear chat button
     clear_button = gr.Button("Clear Chat")
     text_button.click(text_chat, [text_query, temperature, top_p, max_output_tokens], text_output)
     image_button.click(image_chat, [image_upload, image_text_query, temperature, top_p, max_output_tokens], image_output)
     pdf_button.click(pdf_chat, [pdf_upload, pdf_text_query, temperature, top_p, max_output_tokens], pdf_output)
+    audio_button.click(lambda audio, query, temperature, top_p, max_output_tokens: query_openai([{"role": "user", "content": [{"type": "text", "text": transcribe_audio(audio)}, {"type": "text", "text": query}]}], temperature, top_p, max_output_tokens), [audio_upload, audio_query, temperature, top_p, max_output_tokens], audio_output)
     # Fix: Clear button resets all necessary fields correctly
     clear_button.click(