Spaces:

awacke1
/

CodeCompetitionClaudeVsGPT

Running

App Files Files Community

awacke1 commited on Dec 20, 2024

Commit

24ca3ed

verified ·

1 Parent(s): 88675e3

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -53

app.py CHANGED Viewed

@@ -1,9 +1,6 @@
 import streamlit as st
 import pandas as pd
 import numpy as np
-from sentence_transformers import SentenceTransformer
-from sklearn.metrics.pairwise import cosine_similarity
-import torch
 import json
 import os
 import glob
@@ -20,7 +17,6 @@ from xml.etree import ElementTree as ET
 from datasets import load_dataset
 # -------------------- Configuration & Constants --------------------
-# Exactly 11 user names and 11 voices
 USER_NAMES = [
     "Aria", "Guy", "Sonia", "Tony", "Jenny", "Davis", "Libby", "Clara", "Liam", "Natasha", "William"
 ]
@@ -35,8 +31,6 @@ ENGLISH_VOICES = [
 USER_VOICES = dict(zip(USER_NAMES, ENGLISH_VOICES))
 ROWS_PER_PAGE = 100
-MIN_SEARCH_SCORE = 0.3
-EXACT_MATCH_BOOST = 2.0
 SAVED_INPUTS_DIR = "saved_inputs"
 os.makedirs(SAVED_INPUTS_DIR, exist_ok=True)
@@ -59,17 +53,13 @@ SESSION_VARS = {
     'user_name': random.choice(USER_NAMES),
     'max_items': 100,
     'global_voice': "en-US-AriaNeural",
-    'last_arxiv_input': None  # To avoid double-running ArXiv search
 }
 for var, default in SESSION_VARS.items():
     if var not in st.session_state:
         st.session_state[var] = default
-@st.cache_resource
-def get_model():
-    return SentenceTransformer('all-MiniLM-L6-v2')
 def create_voice_component():
     mycomponent = components.declare_component(
         "mycomponent",
@@ -178,14 +168,12 @@ def summarize_arxiv_results(results):
         lines.append(f"Result {i}: {title}\n{summary}\n")
     return "\n\n".join(lines)
-# Simple dataset search: text-based substring search
 def simple_dataset_search(query, df):
     if df.empty or not query.strip():
         return pd.DataFrame()
     query_terms = query.lower().split()
     matches = []
     for idx, row in df.iterrows():
-        # Combine all text fields into one string
         text_parts = []
         for col in df.columns:
             val = row[col]
@@ -194,13 +182,14 @@ def simple_dataset_search(query, df):
             elif isinstance(val, (int, float)):
                 text_parts.append(str(val))
         full_text = " ".join(text_parts)
-        # Check if any query term is in full_text
         if any(qt in full_text for qt in query_terms):
             matches.append(row)
     if matches:
         return pd.DataFrame(matches)
     return pd.DataFrame()
 @st.cache_data
 def load_dataset_page(dataset_id, token, page, rows_per_page):
     try:
@@ -261,34 +250,33 @@ def main():
         conversation = []
         for fpath in files:
             user, ts, content = parse_md_file(fpath)
-            conversation.append((user, ts, content))
-        for user, ts, content in reversed(conversation):
             with st.expander(f"{ts} - {user}", expanded=False):
                 st.write(content)
-                if st.button(f"🔊 Read Aloud {ts}-{user}", key=f"read_{fpath}"):
                     voice = USER_VOICES.get(user, "en-US-AriaNeural")
                     audio_file = speak_with_edge_tts(content, voice=voice)
                     if audio_file:
                         play_and_download_audio(audio_file)
         # Read entire conversation
-        if st.button("📜 Read Conversation"):
-            # Sort by timestamp to ensure chronological order
-            # Already in order because files is sorted, but let's rely on chronological order:
-            # They are sorted ascending, so conversation is appended ascending.
-            # It's safe to assume files list is chronological by filename.
             mp3_files = []
-            for user, ts, content in conversation:
                 voice = USER_VOICES.get(user, "en-US-AriaNeural")
                 audio_file = speak_with_edge_tts(content, voice=voice)
                 if audio_file:
                     mp3_files.append(audio_file)
-                    # Show each line's MP3
                     st.write(f"**{user} ({ts}):**")
                     play_and_download_audio(audio_file)
             if mp3_files:
-                # Concatenate all mp3 files into one
                 combined_file = f"full_conversation_{datetime.now().strftime('%Y%m%d_%H%M%S')}.mp3"
                 concatenate_mp3(mp3_files, combined_file)
                 st.write("**Full Conversation Audio:**")
@@ -299,50 +287,43 @@ def main():
         st.subheader("ArXiv Search")
         edited_input = st.text_area("Enter or Edit Search Query:", value=(voice_val.strip() if voice_val else ""), height=100)
         autorun = st.checkbox("⚡ Auto-Run", value=True)
-        run_arxiv = st.button("🔍 ArXiv Search")
         input_changed = (edited_input != st.session_state.get('old_val'))
-        # Only run once:
-        # Conditions to run ArXiv search:
-        # - If autorun and input_changed and edited_input non-empty
-        # - Or if run_arxiv button is pressed and edited_input non-empty
         should_run_arxiv = False
         if autorun and input_changed and edited_input.strip():
             should_run_arxiv = True
         if run_arxiv and edited_input.strip():
             should_run_arxiv = True
-        if should_run_arxiv:
             st.session_state['old_val'] = edited_input
-            # Avoid double-running by checking if last_arxiv_input is same
-            if st.session_state['last_arxiv_input'] != edited_input:
-                st.session_state['last_arxiv_input'] = edited_input
-                save_input_as_md(st.session_state['user_name'], edited_input, prefix="input")
-                with st.spinner("Searching ArXiv..."):
-                    results = arxiv_search(edited_input)
-                    if results:
-                        summary = summarize_arxiv_results(results)
-                        save_response_as_md(st.session_state['user_name'], summary, prefix="response")
-                        st.write(summary)
-                        # Play summary aloud
-                        voice = USER_VOICES.get(st.session_state['user_name'], "en-US-AriaNeural")
-                        audio_file = speak_with_edge_tts(summary, voice=voice)
-                        if audio_file:
-                            play_and_download_audio(audio_file)
-                    else:
-                        st.warning("No results found on ArXiv.")
     # ------------------ Dataset Search -------------------------
     with tab3:
         st.subheader("Dataset Search")
         ds_searcher = SimpleDatasetSearcher()
         query = st.text_input("Enter dataset search query:")
-        run_ds_search = st.button("Search Dataset")
-        num_results = st.slider("Max results:", 1, 100, 20)
         if run_ds_search and query.strip():
             with st.spinner("Searching dataset..."):
-                # For simplicity, just load first page
                 df = ds_searcher.load_page(0)
                 results = simple_dataset_search(query, df)
                 if not results.empty:
@@ -361,8 +342,7 @@ def main():
     # ------------------ Settings Tab -------------------------
     with tab4:
         st.subheader("Settings")
-        # Clear search history: deletes all md files and clears session
-        if st.button("🗑️ Clear Search History"):
             # Delete all files
             for fpath in list_saved_inputs():
                 os.remove(fpath)

 import streamlit as st
 import pandas as pd
 import numpy as np
 import json
 import os
 import glob
 from datasets import load_dataset
 # -------------------- Configuration & Constants --------------------
 USER_NAMES = [
     "Aria", "Guy", "Sonia", "Tony", "Jenny", "Davis", "Libby", "Clara", "Liam", "Natasha", "William"
 ]
 USER_VOICES = dict(zip(USER_NAMES, ENGLISH_VOICES))
 ROWS_PER_PAGE = 100
 SAVED_INPUTS_DIR = "saved_inputs"
 os.makedirs(SAVED_INPUTS_DIR, exist_ok=True)
     'user_name': random.choice(USER_NAMES),
     'max_items': 100,
     'global_voice': "en-US-AriaNeural",
+    'last_arxiv_input': None
 }
 for var, default in SESSION_VARS.items():
     if var not in st.session_state:
         st.session_state[var] = default
 def create_voice_component():
     mycomponent = components.declare_component(
         "mycomponent",
         lines.append(f"Result {i}: {title}\n{summary}\n")
     return "\n\n".join(lines)
 def simple_dataset_search(query, df):
     if df.empty or not query.strip():
         return pd.DataFrame()
     query_terms = query.lower().split()
     matches = []
     for idx, row in df.iterrows():
         text_parts = []
         for col in df.columns:
             val = row[col]
             elif isinstance(val, (int, float)):
                 text_parts.append(str(val))
         full_text = " ".join(text_parts)
         if any(qt in full_text for qt in query_terms):
             matches.append(row)
     if matches:
         return pd.DataFrame(matches)
     return pd.DataFrame()
+from datasets import load_dataset
 @st.cache_data
 def load_dataset_page(dataset_id, token, page, rows_per_page):
     try:
         conversation = []
         for fpath in files:
             user, ts, content = parse_md_file(fpath)
+            conversation.append((user, ts, content, fpath))
+        # Enumerate to ensure unique keys
+        for i, (user, ts, content, fpath) in enumerate(reversed(conversation), start=1):
             with st.expander(f"{ts} - {user}", expanded=False):
                 st.write(content)
+                # Make button key unique by including i
+                if st.button(f"🔊 Read Aloud {ts}-{user}", key=f"read_{i}_{fpath}"):
                     voice = USER_VOICES.get(user, "en-US-AriaNeural")
                     audio_file = speak_with_edge_tts(content, voice=voice)
                     if audio_file:
                         play_and_download_audio(audio_file)
         # Read entire conversation
+        if st.button("📜 Read Conversation", key="read_conversation_all"):
+            # conversation is currently reversed, re-reverse to get chronological
+            conversation_chrono = list(reversed(conversation))
             mp3_files = []
+            for user, ts, content, fpath in conversation_chrono:
                 voice = USER_VOICES.get(user, "en-US-AriaNeural")
                 audio_file = speak_with_edge_tts(content, voice=voice)
                 if audio_file:
                     mp3_files.append(audio_file)
                     st.write(f"**{user} ({ts}):**")
                     play_and_download_audio(audio_file)
             if mp3_files:
                 combined_file = f"full_conversation_{datetime.now().strftime('%Y%m%d_%H%M%S')}.mp3"
                 concatenate_mp3(mp3_files, combined_file)
                 st.write("**Full Conversation Audio:**")
         st.subheader("ArXiv Search")
         edited_input = st.text_area("Enter or Edit Search Query:", value=(voice_val.strip() if voice_val else ""), height=100)
         autorun = st.checkbox("⚡ Auto-Run", value=True)
+        run_arxiv = st.button("🔍 ArXiv Search", key="run_arxiv_button")
         input_changed = (edited_input != st.session_state.get('old_val'))
         should_run_arxiv = False
         if autorun and input_changed and edited_input.strip():
             should_run_arxiv = True
         if run_arxiv and edited_input.strip():
             should_run_arxiv = True
+        if should_run_arxiv and st.session_state['last_arxiv_input'] != edited_input:
             st.session_state['old_val'] = edited_input
+            st.session_state['last_arxiv_input'] = edited_input
+            save_input_as_md(st.session_state['user_name'], edited_input, prefix="input")
+            with st.spinner("Searching ArXiv..."):
+                results = arxiv_search(edited_input)
+                if results:
+                    summary = summarize_arxiv_results(results)
+                    save_response_as_md(st.session_state['user_name'], summary, prefix="response")
+                    st.write(summary)
+                    # Play summary aloud
+                    voice = USER_VOICES.get(st.session_state['user_name'], "en-US-AriaNeural")
+                    audio_file = speak_with_edge_tts(summary, voice=voice)
+                    if audio_file:
+                        play_and_download_audio(audio_file)
+                else:
+                    st.warning("No results found on ArXiv.")
     # ------------------ Dataset Search -------------------------
     with tab3:
         st.subheader("Dataset Search")
         ds_searcher = SimpleDatasetSearcher()
         query = st.text_input("Enter dataset search query:")
+        run_ds_search = st.button("Search Dataset", key="ds_search_button")
+        num_results = st.slider("Max results:", 1, 100, 20, key="ds_max_results")
         if run_ds_search and query.strip():
             with st.spinner("Searching dataset..."):
                 df = ds_searcher.load_page(0)
                 results = simple_dataset_search(query, df)
                 if not results.empty:
     # ------------------ Settings Tab -------------------------
     with tab4:
         st.subheader("Settings")
+        if st.button("🗑️ Clear Search History", key="clear_history"):
             # Delete all files
             for fpath in list_saved_inputs():
                 os.remove(fpath)