dailypapershackernews-dev

Running

App Files Files Community

akhaliq HF Staff commited on Sep 20, 2024

Commit

157015b

verified ·

1 Parent(s): c80b1ae

update

Browse files

Files changed (1) hide show

app.py +39 -12

app.py CHANGED Viewed

@@ -13,6 +13,7 @@ import datasets
 import requests
 from datetime import timezone  # Ensure timezone is imported
 # --- Data Loading and Processing ---
@@ -37,6 +38,10 @@ def get_df() -> pd.DataFrame:
     df["date"] = pd.to_datetime(df["date"], errors='coerce')
     df["date"] = df["date"].dt.strftime("%Y-%m-%d").fillna(datetime.datetime.now(timezone.utc).strftime("%Y-%m-%d"))
     # Prepare the DataFrame by removing 'abstract'
     paper_info = []
     for _, row in tqdm.auto.tqdm(df.iterrows(), total=len(df)):
@@ -56,6 +61,18 @@ class Prettifier:
     """
     Converts raw DataFrame rows into a prettified format suitable for display.
     """
     @staticmethod
     def get_github_link(link: str) -> str:
         if not link:
@@ -70,20 +87,23 @@ class Prettifier:
         new_rows = []
         for _, row in df.iterrows():
             # Handle date_display as a clickable link
-            date_display = Prettifier.create_link(row.date, f"https://huggingface.co/papers?date={row.date}")
             new_row = {
                 "arxiv_id": row.get("arxiv_id", ""),                        # Include arxiv_id
                 "date_display": date_display,                               # For display
                 "date": row.get("date", datetime.datetime.now(timezone.utc).strftime("%Y-%m-%d")),  # For internal calculations
-                "paper_page": Prettifier.create_link(row.get("arxiv_id", ""), row.get("paper_page", "#")),
                 "title": row.get("title", "No title"),
-                "github": Prettifier.get_github_link(row.get("github", "")),
                 "👍": row.get("upvotes", 0),
                 "💬": row.get("num_comments", 0),
             }
             new_rows.append(new_row)
-        return pd.DataFrame(new_rows)
 class PaperList:
@@ -205,9 +225,11 @@ class PaperManager:
             # Convert 'date' column to datetime
             df_sorted = df.copy()
-            df_sorted['date_parsed'] = pd.to_datetime(df_sorted['date'], errors='coerce').dt.tz_localize(timezone.utc)
             df_sorted = df_sorted[df_sorted['date_parsed'] >= time_threshold]
-            df_sorted = df_sorted.sort_values(by='upvotes', ascending=False).drop(columns=['date_parsed'])
         else:
             df_sorted = df
@@ -235,8 +257,9 @@ class PaperManager:
         """
         Sets the current search query and re-sorts the papers.
         """
-        print(f"Setting search query to: {query}")
-        self.current_search_query = query
         self.sort_papers()
         return True  # Assume success
@@ -374,10 +397,7 @@ def change_sort_method_ui(method: str, time_frame: str = "all time") -> str:
     """
     Changes the sort method and, if 'top' is selected, sets the time frame.
     """
-    if method.lower() == "top":
-        paper_manager.set_sort_method(method.lower(), time_frame)
-    else:
-        paper_manager.set_sort_method(method.lower())
     return paper_manager.get_current_page_papers()
@@ -670,6 +690,13 @@ with demo:
         outputs=[paper_list]
     )
 # --- Launch the App ---

 import requests
 from datetime import timezone  # Ensure timezone is imported
+import html  # For sanitizing user inputs
 # --- Data Loading and Processing ---
     df["date"] = pd.to_datetime(df["date"], errors='coerce')
     df["date"] = df["date"].dt.strftime("%Y-%m-%d").fillna(datetime.datetime.now(timezone.utc).strftime("%Y-%m-%d"))
+    # Ensure 'upvotes' and 'num_comments' are present and fill NaNs with 0
+    df['upvotes'] = df.get('upvotes', 0).fillna(0)
+    df['num_comments'] = df.get('num_comments', 0).fillna(0)
     # Prepare the DataFrame by removing 'abstract'
     paper_info = []
     for _, row in tqdm.auto.tqdm(df.iterrows(), total=len(df)):
     """
     Converts raw DataFrame rows into a prettified format suitable for display.
     """
+    def __init__(self):
+        self.expected_columns = [
+            "arxiv_id",
+            "date_display",
+            "date",
+            "paper_page",
+            "title",
+            "github",
+            "👍",
+            "💬",
+        ]
     @staticmethod
     def get_github_link(link: str) -> str:
         if not link:
         new_rows = []
         for _, row in df.iterrows():
             # Handle date_display as a clickable link
+            date_display = self.create_link(row.date, f"https://huggingface.co/papers?date={row.date}")
             new_row = {
                 "arxiv_id": row.get("arxiv_id", ""),                        # Include arxiv_id
                 "date_display": date_display,                               # For display
                 "date": row.get("date", datetime.datetime.now(timezone.utc).strftime("%Y-%m-%d")),  # For internal calculations
+                "paper_page": self.create_link(row.get("arxiv_id", ""), row.get("paper_page", "#")),
                 "title": row.get("title", "No title"),
+                "github": self.get_github_link(row.get("github", "")),
                 "👍": row.get("upvotes", 0),
                 "💬": row.get("num_comments", 0),
             }
             new_rows.append(new_row)
+        if not new_rows:
+            return pd.DataFrame(columns=self.expected_columns)
+        else:
+            return pd.DataFrame(new_rows)
 class PaperList:
             # Convert 'date' column to datetime
             df_sorted = df.copy()
+            df_sorted['date_parsed'] = pd.to_datetime(df_sorted['date'], errors='coerce').dt.tz_localize(timezone.utc, ambiguous='NaT', nonexistent='NaT')
+            # Handle NaT values by setting them to a very old date
+            df_sorted['date_parsed'] = df_sorted['date_parsed'].fillna(datetime.datetime.min.replace(tzinfo=timezone.utc))
             df_sorted = df_sorted[df_sorted['date_parsed'] >= time_threshold]
+            df_sorted = df_sorted.sort_values(by='👍', ascending=False).drop(columns=['date_parsed'])
         else:
             df_sorted = df
         """
         Sets the current search query and re-sorts the papers.
         """
+        sanitized_query = html.escape(query)  # Sanitize user input
+        print(f"Setting search query to: {sanitized_query}")
+        self.current_search_query = sanitized_query
         self.sort_papers()
         return True  # Assume success
     """
     Changes the sort method and, if 'top' is selected, sets the time frame.
     """
+    paper_manager.set_sort_method(method.lower(), time_frame if method.lower() == "top" else None)
     return paper_manager.get_current_page_papers()
         outputs=[paper_list]
     )
+    # Footer
+    gr.Markdown("""
+    Related useful Spaces:
+    - [Semantic Scholar Paper Recommender](https://huggingface.co/spaces/librarian-bots/recommend_similar_papers) by [davanstrien](https://huggingface.co/davanstrien)
+    - [ArXiv CS RAG](https://huggingface.co/spaces/bishmoy/Arxiv-CS-RAG) by [bishmoy](https://huggingface.co/bishmoy)
+    - [Paper Q&A](https://huggingface.co/spaces/chansung/paper_qa) by [chansung](https://huggingface.co/chansung)
+    """)
 # --- Launch the App ---