Spaces:

xujinheng666
/

Assignment

Sleeping

App Files Files Community

xujinheng666 commited on Mar 8

Commit

839ccc8

verified ·

1 Parent(s): 44dd12d

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -16

app.py CHANGED Viewed

@@ -1,5 +1,7 @@
 import streamlit as st
 from transformers import pipeline
 # function part
 # img2text
@@ -14,12 +16,11 @@ def text2story(text):
     story_text = story_generator(text, max_length=150, num_return_sequences=1)
     return story_text[0]["generated_text"]
-# text2audio
-def text2audio(story_text):
-    tts_model = pipeline("text-to-speech", model="facebook/mms-tts-eng")
-    audio_data = tts_model(story_text)
-    return audio_data
 # Main part
 def main():
@@ -30,8 +31,8 @@ def main():
         st.session_state.scenario = None
     if "story" not in st.session_state:
         st.session_state.story = None
-    if "audio_data" not in st.session_state:
-        st.session_state.audio_data = None
     uploaded_file = st.file_uploader("Select an Image...")
@@ -53,9 +54,10 @@ def main():
         st.session_state.story = text2story(st.session_state.scenario)
         st.write(st.session_state.story)
-        # Stage 3: Story to Audio Data
-        st.text('Generating audio data...')
-        st.session_state.audio_data = text2audio(st.session_state.story)
     elif st.session_state.scenario:
         st.image(uploaded_file, caption="Uploaded Image", use_container_width=True)
@@ -63,11 +65,8 @@ def main():
         st.write("Generated Story: ", st.session_state.story)
     # Play button (No reprocessing)
-    if st.session_state.audio_data and st.button("Play Audio"):
-        st.audio(st.session_state.audio_data['audio'],
-                 format="audio/wav",
-                 start_time=0,
-                 sample_rate=st.session_state.audio_data['sampling_rate'])
 if __name__ == "__main__":
     main()

 import streamlit as st
 from transformers import pipeline
+from gtts import gTTS
+import os
 # function part
 # img2text
     story_text = story_generator(text, max_length=150, num_return_sequences=1)
     return story_text[0]["generated_text"]
+# text2audio using gTTS
+def text2audio(story_text, filename="output.mp3"):
+    tts = gTTS(text=story_text, lang='en')
+    tts.save(filename)
+    return filename
 # Main part
 def main():
         st.session_state.scenario = None
     if "story" not in st.session_state:
         st.session_state.story = None
+    if "audio_file" not in st.session_state:
+        st.session_state.audio_file = None
     uploaded_file = st.file_uploader("Select an Image...")
         st.session_state.story = text2story(st.session_state.scenario)
         st.write(st.session_state.story)
+        # Stage 3: Story to Audio File
+        st.text('Generating audio...')
+        audio_filename = text2audio(st.session_state.story)
+        st.session_state.audio_file = audio_filename
     elif st.session_state.scenario:
         st.image(uploaded_file, caption="Uploaded Image", use_container_width=True)
         st.write("Generated Story: ", st.session_state.story)
     # Play button (No reprocessing)
+    if st.session_state.audio_file and st.button("Play Audio"):
+        st.audio(st.session_state.audio_file, format="audio/mp3")
 if __name__ == "__main__":
     main()