PDF-Text-to-Speech-Transformer

Running

App Files Files Community

awacke1 commited on Apr 17

Commit

1478e25

verified ·

1 Parent(s): 6113e34

Update app.py

Browse files

Files changed (1) hide show

app.py +59 -34

app.py CHANGED Viewed

@@ -2,6 +2,7 @@ import streamlit as st
 import base64
 import os
 import random
 from PyPDF2 import PdfReader
 import threading
 import time
@@ -28,12 +29,9 @@ CHARACTERS = {
     "Liam": {"emoji": "🌟", "voice": "en-CA-LiamNeural"}
 }
-# Available English voices for Edge TTS
-EDGE_TTS_VOICES = list(CHARACTERS.values())[0]["voice"]
 # Initialize session state
 if 'tts_voice' not in st.session_state:
-    st.session_state['tts_voice'] = random.choice(list(CHARACTERS.values()))["voice"]
 if 'character' not in st.session_state:
     st.session_state['character'] = random.choice(list(CHARACTERS.keys()))
 if 'history' not in st.session_state:
@@ -65,30 +63,34 @@ class AudioProcessor:
     async def create_audio(self, text, voice, character):
         cache_key = hashlib.md5(f"{text}:{voice}".encode()).hexdigest()
-        cache_path = os.path.join(self.cache_dir, f"{cache_key}.mp3")
-        if cache_key in self.metadata and os.path.exists(cache_path):
-            return open(cache_path, 'rb').read()
         # Clean text for speech
         text = text.replace("\n", " ").replace("</s>", " ").strip()
         if not text:
-            return None
         # Generate audio with edge_tts
         communicate = edge_tts.Communicate(text, voice)
-        await communicate.save(cache_path)
-        # Save markdown file
-        timestamp = datetime.now().strftime("%I%M %p %m%d%Y")
-        title_words = ' '.join(text.split()[:10])
-        filename = f"{timestamp} {character} {title_words}.md"
-        filepath = os.path.join(self.markdown_dir, filename)
-        with open(filepath, 'w', encoding='utf-8') as f:
-            f.write(f"# {title_words}\n\n**Character:** {character}\n**Voice:** {voice}\n\n{text}")
         # Log action
-        self._log_action("Text to Audio", f"Created audio for '{title_words}' with {character} ({voice})")
         # Update metadata
         self.metadata[cache_key] = {
@@ -96,11 +98,12 @@ class AudioProcessor:
             'text_length': len(text),
             'voice': voice,
             'character': character,
-            'markdown_file': filename
         }
         self._save_metadata()
-        return open(cache_path, 'rb').read()
 def get_download_link(bin_data, filename, size_mb=None):
     b64 = base64.b64encode(bin_data).decode()
@@ -119,14 +122,12 @@ def process_pdf(pdf_file, max_pages, voice, character, audio_processor):
     texts, audios = [], {}
     async def process_page(i, text):
-        audio_data = await audio_processor.create_audio(text, voice, character)
         audios[i] = audio_data
-    # Extract text and start audio processing
     for i in range(total_pages):
         text = reader.pages[i].extract_text()
         texts.append(text)
-        # Process audio in background
         threading.Thread(
             target=lambda: asyncio.run(process_page(i, text))
         ).start()
@@ -200,7 +201,7 @@ def main():
         st.rerun()
     # Markdown file history
-    st.sidebar.markdown("### 📜 History")
     md_files = [f for f in os.listdir(audio_processor.markdown_dir) if f.endswith('.md') and f != 'README.md']
     for md_file in md_files:
         col1, col2, col3 = st.sidebar.columns([3, 1, 1])
@@ -210,9 +211,28 @@ def main():
                     st.session_state['current_md'] = f.read()
                     audio_processor._log_action("View File", f"Viewed {md_file}")
         with col2:
-            if st.button("🗑️", key=f"delete_{md_file}"):
                 os.remove(os.path.join(audio_processor.markdown_dir, md_file))
-                audio_processor._log_action("Delete File", f"Deleted {md_file}")
                 st.rerun()
         with col3:
             st.write("")
@@ -225,9 +245,12 @@ def main():
     # Main interface
     st.markdown("<h1>📚 PDF to Audio Converter 🎧</h1>", unsafe_allow_html=True)
-    # Display current markdown if selected
     if 'current_md' in st.session_state:
         st.markdown(st.session_state['current_md'])
     col1, col2 = st.columns(2)
     with col1:
@@ -251,13 +274,11 @@ def main():
                 with st.expander(f"Page {i+1}", expanded=i==0):
                     st.markdown(text)
-                    # Wait for audio processing
                     while i not in audios:
                         time.sleep(0.1)
                     if audios[i]:
                         st.audio(audios[i], format='audio/mp3')
-                # Add download link
                 if audios[i]:
                     size_mb = len(audios[i]) / (1024 * 1024)
                     st.sidebar.markdown(
@@ -277,7 +298,7 @@ def main():
     if prompt:
         with st.spinner('Converting text to audio...'):
-            audio_data = asyncio.run(audio_processor.create_audio(
                 prompt,
                 st.session_state['tts_voice'],
                 st.session_state['character']
@@ -287,8 +308,9 @@ def main():
                 size_mb = len(audio_data) / (1024 * 1024)
                 st.sidebar.markdown("### 🎵 Custom Audio")
                 st.sidebar.markdown(
-                    get_download_link(audio_data, 'custom_text.mp3', size_mb),
                     unsafe_allow_html=True
                 )
@@ -296,9 +318,12 @@ def main():
     if st.sidebar.button("Clear Cache"):
         for file in os.listdir(audio_processor.cache_dir):
             os.remove(os.path.join(audio_processor.cache_dir, file))
         audio_processor.metadata = {}
         audio_processor._save_metadata()
-        audio_processor._log_action("Clear Cache", "Cleared audio cache")
         st.sidebar.success("Cache cleared successfully!")
 if __name__ == "__main__":

 import base64
 import os
 import random
+import glob
 from PyPDF2 import PdfReader
 import threading
 import time
     "Liam": {"emoji": "🌟", "voice": "en-CA-LiamNeural"}
 }
 # Initialize session state
 if 'tts_voice' not in st.session_state:
+    st.session_state['tts_voice'] = random.choice([char["voice"] for char in CHARACTERS.values()])
 if 'character' not in st.session_state:
     st.session_state['character'] = random.choice(list(CHARACTERS.keys()))
 if 'history' not in st.session_state:
     async def create_audio(self, text, voice, character):
         cache_key = hashlib.md5(f"{text}:{voice}".encode()).hexdigest()
         # Clean text for speech
         text = text.replace("\n", " ").replace("</s>", " ").strip()
         if not text:
+            return None, None
+        # Generate filename
+        timestamp = datetime.now().strftime("%I%M %p %m%d%Y")
+        title_words = '_'.join(text.split()[:10])
+        filename_base = f"{timestamp}_{character}_{title_words}"
+        audio_filename = f"{filename_base}.mp3"
+        md_filename = f"{filename_base}.md"
+        audio_path = os.path.join(self.cache_dir, audio_filename)
+        # Check cache
+        if cache_key in self.metadata and os.path.exists(audio_path):
+            return open(audio_path, 'rb').read(), cache_key
         # Generate audio with edge_tts
         communicate = edge_tts.Communicate(text, voice)
+        await communicate.save(audio_path)
+        # Save markdown
+        md_filepath = os.path.join(self.markdown_dir, md_filename)
+        with open(md_filepath, 'w', encoding='utf-8') as f:
+            f.write(f"# {title_words.replace('_', ' ')}\n\n**Character:** {character}\n**Voice:** {voice}\n\n{text}")
         # Log action
+        self._log_action("Text to Audio", f"Created audio and markdown for '{title_words}' with {character} ({voice})")
         # Update metadata
         self.metadata[cache_key] = {
             'text_length': len(text),
             'voice': voice,
             'character': character,
+            'markdown_file': md_filename,
+            'audio_file': audio_filename
         }
         self._save_metadata()
+        return open(audio_path, 'rb').read(), cache_key
 def get_download_link(bin_data, filename, size_mb=None):
     b64 = base64.b64encode(bin_data).decode()
     texts, audios = [], {}
     async def process_page(i, text):
+        audio_data, _ = await audio_processor.create_audio(text, voice, character)
         audios[i] = audio_data
     for i in range(total_pages):
         text = reader.pages[i].extract_text()
         texts.append(text)
         threading.Thread(
             target=lambda: asyncio.run(process_page(i, text))
         ).start()
         st.rerun()
     # Markdown file history
+    st.sidebar.markdown("### 📜 Markdown History")
     md_files = [f for f in os.listdir(audio_processor.markdown_dir) if f.endswith('.md') and f != 'README.md']
     for md_file in md_files:
         col1, col2, col3 = st.sidebar.columns([3, 1, 1])
                     st.session_state['current_md'] = f.read()
                     audio_processor._log_action("View File", f"Viewed {md_file}")
         with col2:
+            if st.button("🗑️", key=f"delete_md_{md_file}"):
                 os.remove(os.path.join(audio_processor.markdown_dir, md_file))
+                audio_processor._log_action("Delete Markdown", f"Deleted {md_file}")
+                st.rerun()
+        with col3:
+            st.write("")
+    # Audio file history
+    st.sidebar.markdown("### 🎵 Audio History")
+    audio_files = [f for f in glob.glob(os.path.join(audio_processor.cache_dir, "*.mp3")) if os.path.basename(f).startswith(tuple([f.split('.')[0] for f in md_files]))]
+    for audio_file in audio_files:
+        audio_filename = os.path.basename(audio_file)
+        col1, col2, col3 = st.sidebar.columns([3, 1, 1])
+        with col1:
+            if st.button(f"▶️ {audio_filename}", key=f"play_{audio_filename}"):
+                with open(audio_file, 'rb') as f:
+                    st.session_state['current_audio'] = {'data': f.read(), 'name': audio_filename}
+                    audio_processor._log_action("Play Audio", f"Played {audio_filename}")
+        with col2:
+            if st.button("🗑️", key=f"delete_audio_{audio_filename}"):
+                os.remove(audio_file)
+                audio_processor._log_action("Delete Audio", f"Deleted {audio_filename}")
                 st.rerun()
         with col3:
             st.write("")
     # Main interface
     st.markdown("<h1>📚 PDF to Audio Converter 🎧</h1>", unsafe_allow_html=True)
+    # Display current markdown or audio if selected
     if 'current_md' in st.session_state:
         st.markdown(st.session_state['current_md'])
+    if 'current_audio' in st.session_state:
+        st.markdown(f"**Playing:** {st.session_state['current_audio']['name']}")
+        st.audio(st.session_state['current_audio']['data'], format='audio/mp3')
     col1, col2 = st.columns(2)
     with col1:
                 with st.expander(f"Page {i+1}", expanded=i==0):
                     st.markdown(text)
                     while i not in audios:
                         time.sleep(0.1)
                     if audios[i]:
                         st.audio(audios[i], format='audio/mp3')
                 if audios[i]:
                     size_mb = len(audios[i]) / (1024 * 1024)
                     st.sidebar.markdown(
     if prompt:
         with st.spinner('Converting text to audio...'):
+            audio_data, cache_key = asyncio.run(audio_processor.create_audio(
                 prompt,
                 st.session_state['tts_voice'],
                 st.session_state['character']
                 size_mb = len(audio_data) / (1024 * 1024)
                 st.sidebar.markdown("### 🎵 Custom Audio")
+                audio_filename = audio_processor.metadata[cache_key]['audio_file']
                 st.sidebar.markdown(
+                    get_download_link(audio_data, audio_filename, size_mb),
                     unsafe_allow_html=True
                 )
     if st.sidebar.button("Clear Cache"):
         for file in os.listdir(audio_processor.cache_dir):
             os.remove(os.path.join(audio_processor.cache_dir, file))
+        for file in os.listdir(audio_processor.markdown_dir):
+            if file != 'README.md':
+                os.remove(os.path.join(audio_processor.markdown_dir, file))
         audio_processor.metadata = {}
         audio_processor._save_metadata()
+        audio_processor._log_action("Clear Cache", "Cleared audio and markdown cache")
         st.sidebar.success("Cache cleared successfully!")
 if __name__ == "__main__":