Spaces:

vsj0702
/

voice_ai

Running

App Files Files Community

vsj0702 commited on Feb 7

Commit

3b43e04

verified ·

1 Parent(s): 5590000

Chat and voice feature with history retained

Browse files

Files changed (1) hide show

app.py +38 -22

app.py CHANGED Viewed

@@ -13,34 +13,51 @@ load_dotenv()
 #Front end using streamlit
 def frontend():
     st.title("Voice AI Demo")
     status_placeholder = st.empty()
-    status_placeholder.write("Press Mic button to start asking question")
     recorded_audio = audio_recorder(sample_rate=8000)
     text = st.chat_input()
-    if text:
         status_placeholder.write("Getting response...")
-        response = answer(text)
-        status_placeholder.write("Coverting response in audio")
-        asyncio.run(convert_audio(response))
         status_placeholder.write("Press mic button again to ask more questions")
-        st.write("Q:" + text)
-        st.write("A: " + response)
-        st.audio("output.mp3", format="audio/mp3", loop=False, autoplay=True)
     elif recorded_audio:
         status_placeholder.write("Converting audio...")
         data_to_file(recorded_audio)
-        status_placeholder.write("Audio conversion done.")
         status_placeholder.write("Uploading audio...")
         transcription = audio_to_text("temp_audio.wav")
-        status_placeholder.write("Transcription is now made.")
-        status_placeholder.write("Getting response...")
-        response = answer(transcription)
-        status_placeholder.write("Coverting response in audio")
-        asyncio.run(convert_audio(response))
-        status_placeholder.write("Press mic button again to ask more questions")
-        st.write("Q:" + transcription)
-        st.write("A: " + response)
-        st.audio("output.mp3", format="audio/mp3", loop=False, autoplay=True)
 #Fuction to convert audio data to audio file
 def data_to_file(recorded_audio):
@@ -78,10 +95,9 @@ def answer(user_question):
     return answer
 # Audio conversion
-async def convert_audio(text):
-    filename = "output.mp3"
     voice = "fr-FR-VivienneMultilingualNeural"
-    communicte = edge_tts.Communicate(text, voice)
-    await communicte.save(filename)
 frontend()

 #Front end using streamlit
 def frontend():
     st.title("Voice AI Demo")
+    # Initialize session state variables
+    if "conversation" not in st.session_state:
+        st.session_state.conversation = []  # Stores (question, answer, audio_filename)
+    if "audio_count" not in st.session_state:
+        st.session_state.audio_count = 1  # Start numbering audio files from output1.wav
     status_placeholder = st.empty()
+    status_placeholder.write("Press Mic button to start asking a question")
     recorded_audio = audio_recorder(sample_rate=8000)
     text = st.chat_input()
+    def process_input(user_input):
         status_placeholder.write("Getting response...")
+        response = answer(user_input)
+        status_placeholder.write("Converting response to audio...")
+        # Generate unique audio filename
+        audio_filename = f"output{st.session_state.audio_count}.wav"
+        asyncio.run(convert_audio(response, audio_filename))
+        st.session_state.audio_count += 1  # Increment for next response
         status_placeholder.write("Press mic button again to ask more questions")
+        # Append (question, answer, audio_filename) to conversation history
+        st.session_state.conversation.append((f"Q: {user_input}", f"A: {response}", audio_filename))
+    # Handle user input
+    if text:
+        process_input(text)
     elif recorded_audio:
         status_placeholder.write("Converting audio...")
         data_to_file(recorded_audio)
         status_placeholder.write("Uploading audio...")
         transcription = audio_to_text("temp_audio.wav")
+        status_placeholder.write("Transcription completed.")
+        process_input(transcription)
+    # Display full conversation history
+    for i, (q, a, audio_file) in enumerate(st.session_state.conversation):
+        st.write(q)
+        st.write(a)
+        st.audio(audio_file, format="audio/wav", loop=False, autoplay=(i == len(st.session_state.conversation) - 1))
 #Fuction to convert audio data to audio file
 def data_to_file(recorded_audio):
     return answer
 # Audio conversion
+async def convert_audio(text, filename):
     voice = "fr-FR-VivienneMultilingualNeural"
+    communicate = edge_tts.Communicate(text, voice)
+    await communicate.save(filename)
 frontend()