dailypapershackernews-dev

Running

App Files Files Community

akhaliq HF Staff commited on Sep 20, 2024

Commit

ba4e64e

verified ·

1 Parent(s): 3b04ee1

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -46

app.py CHANGED Viewed

@@ -6,7 +6,6 @@ import pandas as pd
 import tqdm.auto
 from apscheduler.schedulers.background import BackgroundScheduler
 from huggingface_hub import HfApi
-from ragatouille import RAGPretrainedModel
 import gradio as gr
 from gradio_calendar import Calendar
@@ -21,39 +20,30 @@ api = HfApi()
 INDEX_REPO_ID = "hysts-bot-data/daily-papers-abstract-index"
 INDEX_DIR_PATH = ".ragatouille/colbert/indexes/daily-papers-abstract-index/"
-api.snapshot_download(
-    repo_id=INDEX_REPO_ID,
-    repo_type="dataset",
-    local_dir=INDEX_DIR_PATH,
-)
-abstract_retriever = RAGPretrainedModel.from_index(INDEX_DIR_PATH)
-# Initialize the retriever
-abstract_retriever.search("LLM")
-def update_abstract_index() -> None:
-    global abstract_retriever
-    api.snapshot_download(
-        repo_id=INDEX_REPO_ID,
-        repo_type="dataset",
-        local_dir=INDEX_DIR_PATH,
-    )
-    abstract_retriever = RAGPretrainedModel.from_index(INDEX_DIR_PATH)
-    abstract_retriever.search("LLM")
 # Scheduler for updating abstract index every hour
-scheduler_abstract = BackgroundScheduler()
-scheduler_abstract.add_job(
-    func=update_abstract_index,
-    trigger="cron",
-    minute=0,  # Every hour at minute 0
-    timezone="UTC",
-    misfire_grace_time=3 * 60,
-)
-scheduler_abstract.start()
 def get_df() -> pd.DataFrame:
     # Load and merge datasets
@@ -154,7 +144,6 @@ class PaperList:
         start_date: datetime.datetime,
         end_date: datetime.datetime,
         title_search_query: str,
-        abstract_search_query: str,
         max_num_to_retrieve: int,
     ) -> pd.DataFrame:
         df = self.df_raw.copy()
@@ -168,21 +157,7 @@ class PaperList:
         if title_search_query:
             df = df[df["title"].str.contains(title_search_query, case=False, na=False)]
-        # Filter by abstract using RAG
-        if abstract_search_query:
-            results = abstract_retriever.search(abstract_search_query, k=max_num_to_retrieve)
-            remaining_ids = set(df["arxiv_id"])
-            found_id_set = set()
-            found_ids = []
-            for x in results:
-                arxiv_id = x["document_id"]
-                if arxiv_id not in remaining_ids:
-                    continue
-                if arxiv_id in found_id_set:
-                    continue
-                found_id_set.add(arxiv_id)
-                found_ids.append(arxiv_id)
-            df = df[df["arxiv_id"].isin(found_ids)].set_index("arxiv_id").reindex(index=found_ids).reset_index()
         # Prettify the DataFrame
         df_prettified = self._prettifier(df).loc[:, self.column_names]
@@ -205,7 +180,7 @@ class PaperManager:
         This mimics the "hotness" algorithm used by platforms like Hacker News.
         """
         upvotes = row.get('👍', 0)
-        published_at_str = row.get('published_at', datetime.datetime.now(timezone.utc).strftime("%Y-%m-%d"))
         try:
             published_time = datetime.datetime.strptime(published_at_str, "%Y-%m-%d").replace(tzinfo=timezone.utc)
         except ValueError:
@@ -226,7 +201,7 @@ class PaperManager:
             df['score'] = df.apply(self.calculate_score, axis=1)
             df_sorted = df.sort_values(by='score', ascending=False).drop(columns=['score'])
         elif self.sort_method == "new":
-            df_sorted = df.sort_values(by='published_at', ascending=False)
         else:
             df_sorted = df

 import tqdm.auto
 from apscheduler.schedulers.background import BackgroundScheduler
 from huggingface_hub import HfApi
 import gradio as gr
 from gradio_calendar import Calendar
 INDEX_REPO_ID = "hysts-bot-data/daily-papers-abstract-index"
 INDEX_DIR_PATH = ".ragatouille/colbert/indexes/daily-papers-abstract-index/"
+# Removed ragatouille and abstract_retriever initialization
+# If INDEX_REPO_ID is not used elsewhere, consider removing related lines
+# Removed abstract_retriever initialization and search
+def update_abstract_index() -> None:
+    """
+    Removed abstract_retriever update functionality since ragatouille is no longer used.
+    """
+    pass  # No operation needed
 # Scheduler for updating abstract index every hour
+# Removed scheduler_abstract as it's no longer necessary
+# If INDEX_REPO_ID is not used elsewhere, consider removing the download
+# Optionally, remove the snapshot_download if the index is not needed
+# api.snapshot_download(
+#     repo_id=INDEX_REPO_ID,
+#     repo_type="dataset",
+#     local_dir=INDEX_DIR_PATH,
+# )
+# --- DataFrame Preparation ---
 def get_df() -> pd.DataFrame:
     # Load and merge datasets
         start_date: datetime.datetime,
         end_date: datetime.datetime,
         title_search_query: str,
         max_num_to_retrieve: int,
     ) -> pd.DataFrame:
         df = self.df_raw.copy()
         if title_search_query:
             df = df[df["title"].str.contains(title_search_query, case=False, na=False)]
+        # Removed abstract_search_query filtering since ragatouille is no longer used
         # Prettify the DataFrame
         df_prettified = self._prettifier(df).loc[:, self.column_names]
         This mimics the "hotness" algorithm used by platforms like Hacker News.
         """
         upvotes = row.get('👍', 0)
+        published_at_str = row.get('date', datetime.datetime.now(timezone.utc).strftime("%Y-%m-%d"))  # **FIX** Changed from 'published_at' to 'date'
         try:
             published_time = datetime.datetime.strptime(published_at_str, "%Y-%m-%d").replace(tzinfo=timezone.utc)
         except ValueError:
             df['score'] = df.apply(self.calculate_score, axis=1)
             df_sorted = df.sort_values(by='score', ascending=False).drop(columns=['score'])
         elif self.sort_method == "new":
+            df_sorted = df.sort_values(by='date', ascending=False)  # **FIX** Changed from 'published_at' to 'date'
         else:
             df_sorted = df