Spaces:

hysts
/

daily-papers

Running on CPU Upgrade

App Files Files Community

hysts HF Staff commited on Mar 12, 2024

Commit

5c4c264

1 Parent(s): 9db7887

Update

Browse files

Files changed (3) hide show

app.py +1 -1
papers.py +12 -21
requirements.txt +0 -1

app.py CHANGED Viewed

@@ -24,7 +24,7 @@ with gr.Blocks(css="style.css") as demo:
         with gr.Row():
             start_date = Calendar(label="Start date", type="datetime", value="2023-05-05")
             end_date = Calendar(label="End date", type="datetime")
-        search_title = gr.Textbox(label="Search by title")
     num_papers = gr.Textbox(label="Number of papers", value=update_num_papers(paper_list.df_raw), interactive=False)
     df = gr.Dataframe(

         with gr.Row():
             start_date = Calendar(label="Start date", type="datetime", value="2023-05-05")
             end_date = Calendar(label="End date", type="datetime")
+        search_title = gr.Textbox(label="Search title")
     num_papers = gr.Textbox(label="Number of papers", value=update_num_papers(paper_list.df_raw), interactive=False)
     df = gr.Dataframe(

papers.py CHANGED Viewed

@@ -4,7 +4,6 @@ import operator
 import datasets
 import pandas as pd
-import requests
 import tqdm.auto
@@ -16,31 +15,19 @@ class PaperInfo:
     title: str
     paper_page: str
     upvotes: int
-    published_at: str
-    def __post_init__(self):
-        object.__setattr__(self, "published_at", PaperInfo.convert_timestamp(self.published_at))
-    @staticmethod
-    def convert_timestamp(timestamp: str) -> str:
-        try:
-            return datetime.datetime.strptime(timestamp, "%Y-%m-%dT%H:%M:%S.%fZ").strftime("%Y/%m/%d %H:%M:%S")
-        except ValueError:
-            return timestamp
 def get_df() -> pd.DataFrame:
-    df = datasets.load_dataset("hysts-bot-data/daily-papers")["train"].to_pandas()
-    df = df.drop(columns=["title"])
     paper_info = []
     for _, row in tqdm.auto.tqdm(df.iterrows(), total=len(df)):
-        res = requests.get(f"https://huggingface.co/api/papers/{row.arxiv_id}").json()
         info = PaperInfo(
             **row,
-            title=res["title"],
             paper_page=f"https://huggingface.co/papers/{row.arxiv_id}",
-            upvotes=res["upvotes"],
-            published_at=res["publishedAt"],
         )
         paper_info.append(info)
     return pd.DataFrame([dataclasses.asdict(info) for info in paper_info])
@@ -65,7 +52,6 @@ class Prettifier:
         return f'<div class="{class_name}">{text}</div>'
     def __call__(self, df: pd.DataFrame) -> pd.DataFrame:
-        df = df.sort_values("arxiv_id", ascending=False).reset_index(drop=True)
         new_rows = []
         for _, row in df.iterrows():
             new_row = dict(row) | {
@@ -99,7 +85,12 @@ class PaperList:
     def column_datatype(self):
         return list(map(operator.itemgetter(1), self.COLUMN_INFO))
-    def search(self, start_date: datetime.datetime, end_date: datetime.datetime, title: str) -> pd.DataFrame:
         df = self.df_raw.copy()
         df["date"] = pd.to_datetime(df["date"])
@@ -108,7 +99,7 @@ class PaperList:
         df["date"] = df["date"].dt.strftime("%Y-%m-%d")
         # Filter by title
-        df = df[df["title"].str.contains(title, case=False)]
         df_prettified = self._prettifier(df).loc[:, self.column_names]
         return df_prettified

 import datasets
 import pandas as pd
 import tqdm.auto
     title: str
     paper_page: str
     upvotes: int
 def get_df() -> pd.DataFrame:
+    df = pd.merge(
+        left=datasets.load_dataset("hysts-bot-data/daily-papers")["train"].to_pandas(),
+        right=datasets.load_dataset("hysts-bot-data/daily-papers-upvotes")["train"].to_pandas(),
+        on="arxiv_id",
+    )
     paper_info = []
     for _, row in tqdm.auto.tqdm(df.iterrows(), total=len(df)):
         info = PaperInfo(
             **row,
             paper_page=f"https://huggingface.co/papers/{row.arxiv_id}",
         )
         paper_info.append(info)
     return pd.DataFrame([dataclasses.asdict(info) for info in paper_info])
         return f'<div class="{class_name}">{text}</div>'
     def __call__(self, df: pd.DataFrame) -> pd.DataFrame:
         new_rows = []
         for _, row in df.iterrows():
             new_row = dict(row) | {
     def column_datatype(self):
         return list(map(operator.itemgetter(1), self.COLUMN_INFO))
+    def search(
+        self,
+        start_date: datetime.datetime,
+        end_date: datetime.datetime,
+        title_search_query: str,
+    ) -> pd.DataFrame:
         df = self.df_raw.copy()
         df["date"] = pd.to_datetime(df["date"])
         df["date"] = df["date"].dt.strftime("%Y-%m-%d")
         # Filter by title
+        df = df[df["title"].str.contains(title_search_query, case=False)]
         df_prettified = self._prettifier(df).loc[:, self.column_names]
         return df_prettified

requirements.txt CHANGED Viewed

@@ -3,5 +3,4 @@ gradio==4.21.0
 gradio_calendar==0.0.4
 huggingface_hub==0.21.4
 pandas==2.2.0
-requests==2.31.0
 tqdm==4.66.1

 gradio_calendar==0.0.4
 huggingface_hub==0.21.4
 pandas==2.2.0
 tqdm==4.66.1