Spaces:

PaulMartrenchar
/

jobsearch

Sleeping

App Files Files Community

PaulMartrenchar commited on Jan 2

Commit

ce02035

1 Parent(s): 768c1ef

Move html formating and job filtering out of the job retrievers and into the app.py

Browse files

Files changed (5) hide show

WelcomeToTheJungle.py +2 -33
ai_manager.py +4 -4
app.py +48 -9
jobspy_indeed.py +2 -40
jobspy_linkedin.py +2 -38

WelcomeToTheJungle.py CHANGED Viewed

@@ -4,7 +4,6 @@ from datetime import datetime
 import warnings
 from bs4 import BeautifulSoup
 from markdownify import markdownify
-from ai_manager import get_offer_information
 from typing import List
 from JobDescription import JobDescription
@@ -29,25 +28,6 @@ def get_logo(job):
         return "https://e7.pngegg.com/pngimages/153/807/png-clipart-timer-clock-computer-icons-unknown-planet-digital-clock-time.png"
     return job["logo_photo_url"]
-def filterout_jobs(jobs, job_filter, job_filter_negative):
-    selected_jobs = []
-    for job in jobs:
-        if not any(item in job["name"].lower() for item in job_filter_negative) and any(item in job["name"].lower() for item in job_filter):
-            selected_jobs.append(job)
-    return selected_jobs
-def html_format_page(jobs):
-    result = ["<html><head><style>.job{display: flex;width:70%;margin: 5px auto;border: 1px solid;border-radius: 5px;}.logobox{flex: 1;display: flex;align-items: center;justify-content: center;}.logo{width:100px;height:100px}h4{margin: 2px;}</style></head><body>"]
-    if len(jobs) > 0:
-        for job in jobs:
-            if job.ai_result["is_an_internship"] == False:
-                result.append(job.to_html())
-    else:
-        result.append("No job found")
-    result.append("</body></html>")
-    return " ".join(result)
 def get_jobs(search_term):
     headers = {
     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/109.0",
@@ -110,17 +90,13 @@ def get_jobs(search_term):
     return jobs
-def get_filtered_jobs(search_term)-> List[JobDescription]:
     unique_objects = get_jobs(search_term)
     jobs = sorted(unique_objects, key=lambda x: x["published_at"], reverse=True)
     #filter on the job description
-    job_filter = ["marketing", "communication", "community", "business development", "experience", "social media", "brand", "ppc", "seo", "sea", "ads", "user acquisition", "adops", "consultant"]
-    job_filter_negative = ["stage", "stagiaire", "alternant", "alternance", "intern", "internship", "apprenti"]
-    selected_jobs = filterout_jobs(jobs, job_filter, job_filter_negative)
     result = []
     for job in selected_jobs:
@@ -132,10 +108,3 @@ def get_filtered_jobs(search_term)-> List[JobDescription]:
         result.append(job_desc)
     return result
-def wtoj_get_html(search_term):
-    jobs = get_filtered_jobs(search_term)
-    for job in jobs:
-        job.ai_result = get_offer_information(job.company, job.job_description)
-    return html_format_page(jobs)

 import warnings
 from bs4 import BeautifulSoup
 from markdownify import markdownify
 from typing import List
 from JobDescription import JobDescription
         return "https://e7.pngegg.com/pngimages/153/807/png-clipart-timer-clock-computer-icons-unknown-planet-digital-clock-time.png"
     return job["logo_photo_url"]
 def get_jobs(search_term):
     headers = {
     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/109.0",
     return jobs
+def wtoj_get_jobs(search_term)-> List[JobDescription]:
     unique_objects = get_jobs(search_term)
     jobs = sorted(unique_objects, key=lambda x: x["published_at"], reverse=True)
     #filter on the job description
     result = []
     for job in selected_jobs:
         result.append(job_desc)
     return result

ai_manager.py CHANGED Viewed

@@ -41,17 +41,17 @@ def _call_ai(prompt, json_mode):
     return chat_response.choices[0].message.content
-def get_offer_information(company, offer):
     try:
-        return _get_offer_information(company, offer)
     except json.decoder.JSONDecodeError as e:
         #try again once
-        return _get_offer_information(company, offer)
     except Exception as e:
         # Throw the error if it's not an SDKError
         raise
-def _get_offer_information(company, offer):
     prompt = """This is a job offer from the company '{}', make a JSON with this information:
 - company_description (string): a description of the company in less than 15 words.
 - position_summary (string): a summary of the role in 3 bullet points

     return chat_response.choices[0].message.content
+def get_extra_information(company, offer):
     try:
+        return _get_extra_information(company, offer)
     except json.decoder.JSONDecodeError as e:
         #try again once
+        return _get_extra_information(company, offer)
     except Exception as e:
         # Throw the error if it's not an SDKError
         raise
+def _get_extra_information(company, offer):
     prompt = """This is a job offer from the company '{}', make a JSON with this information:
 - company_description (string): a description of the company in less than 15 words.
 - position_summary (string): a summary of the role in 3 bullet points

app.py CHANGED Viewed

@@ -1,21 +1,60 @@
 import gradio as gr
 from datetime import datetime
-from jobspy_indeed import indeed_get_html
-from WelcomeToTheJungle import wtoj_get_html
-from jobspy_linkedin import linkedin_get_html
-def search_jobs(raw_search_term, platform):
     current_datetime = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
-    search_term = '"' + raw_search_term + '"'
     print(f"{current_datetime} - new search: {raw_search_term} on {platform}")
     if platform == "Indeed":
-        return indeed_get_html(search_term)
     elif platform == "Welcome to the jungle":
-        return wtoj_get_html(search_term)
     elif platform == "LinkedIn":
-        return linkedin_get_html(search_term)
-    raise gr.Error("No platform selected")
 search_textbox = gr.Radio(choices=["Content writer", "Digital Marketing", "Communication", "Business development", "SEO"], label="Search")

 import gradio as gr
 from datetime import datetime
+from typing import List
+from JobDescription import JobDescription
+from jobspy_indeed import indeed_get_jobs
+from WelcomeToTheJungle import wtoj_get_jobs
+from jobspy_linkedin import linkedin_get_jobs
+from ai_manager import get_extra_information
+def html_format_page(jobs : List[JobDescription]):
+    result = ["<html><head><style>.job{display: flex;width:70%;margin: 5px auto;border: 1px solid;border-radius: 5px;}.logobox{flex: 1;display: flex;align-items: center;justify-content: center;}.logo{width:100px;height:100px}h4{margin: 2px;}</style></head><body>"]
+    if len(jobs) > 0:
+        for job in jobs:
+            if job.ai_result["is_an_internship"] == False:
+                result.append(job.to_html())
+    else:
+        result.append("No job found")
+    result.append("</body></html>")
+    return " ".join(result)
+def log_start(raw_search_term, platform):
     current_datetime = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
     print(f"{current_datetime} - new search: {raw_search_term} on {platform}")
+def filterout_jobs(jobs, job_filter, job_filter_negative):
+    selected_jobs = []
+    for job in jobs:
+        if not any(item in job["name"].lower() for item in job_filter_negative) and any(item in job["name"].lower() for item in job_filter):
+            selected_jobs.append(job)
+    return selected_jobs
+def search_jobs(raw_search_term, platform):
+    log_start(raw_search_term, platform)
+    search_term = '"' + raw_search_term + '"'
+    jobs = []
     if platform == "Indeed":
+        jobs = indeed_get_jobs(search_term)
     elif platform == "Welcome to the jungle":
+        jobs = wtoj_get_jobs(search_term)
     elif platform == "LinkedIn":
+        jobs = linkedin_get_jobs(search_term)
+    else:
+        raise gr.Error("No platform selected")
+    job_filter = ["marketing", "communication", "community", "business development", "experience", "social media", "brand", "ppc", "seo", "sea", "ads", "user acquisition", "adops", "consultant"]
+    job_filter_negative = ["stage", "stagiaire", "alternant", "alternance", "intern", "internship", "apprenti"]
+    selected_jobs = filterout_jobs(jobs, job_filter, job_filter_negative)
+    for job in selected_jobs:
+        job.ai_result = get_extra_information(job.company, job.job_description)
+    return html_format_page(jobs)
 search_textbox = gr.Radio(choices=["Content writer", "Digital Marketing", "Communication", "Business development", "SEO"], label="Search")

jobspy_indeed.py CHANGED Viewed

@@ -1,10 +1,6 @@
-import warnings
 from jobspy import scrape_jobs
 from typing import List
-warnings.filterwarnings("ignore")
-from ai_manager import get_offer_information
 from JobDescription import JobDescription
 def get_job_url(job):
@@ -30,25 +26,6 @@ def get_logo(job):
     except:
         return "https://e7.pngegg.com/pngimages/153/807/png-clipart-timer-clock-computer-icons-unknown-planet-digital-clock-time.png"
-def filterout_jobs(jobs, job_filter, job_filter_negative):
-    selected_jobs = []
-    for index, job in jobs.iterrows():
-        if not any(item in job["title"].lower() for item in job_filter_negative) and any(item in job["title"].lower() for item in job_filter):
-            selected_jobs.append(job)
-    return selected_jobs
-def html_format_page(jobs : List[JobDescription]):
-    result = ["<html><head><style>.job{display: flex;width:70%;margin: 5px auto;border: 1px solid;border-radius: 5px;}.logobox{flex: 1;display: flex;align-items: center;justify-content: center;}.logo{width:100px;height:100px}h4{margin: 2px;}</style></head><body>"]
-    if len(jobs) > 0:
-        for job in jobs:
-            if job.ai_result["is_an_internship"] == False:
-                result.append(job.to_html())
-    else:
-        result.append("No job found")
-    result.append("</body></html>")
-    return " ".join(result)
 def get_jobs(search_term, results_wanted):
     return scrape_jobs(
         site_name=["indeed"],#, "linkedin", "glassdoor"],
@@ -63,17 +40,11 @@ def get_jobs(search_term, results_wanted):
         linkedin_fetch_description=False, # get more info such as full description, direct job url for linkedin (slower)
     )
-def get_filtered_jobs(search_term)-> List[JobDescription]:
     jobs = get_jobs(search_term, 50)
-    #filter on the job description
-    job_filter = ["marketing", "communication", "community", "business development", "experience", "social media", "brand", "ppc", "seo", "sea", "ads", "user acquisition", "adops", "consultant"]
-    job_filter_negative = ["stage", "stagiaire", "alternant", "alternance", "intern", "internship", "apprenti"]
-    selected_jobs = filterout_jobs(jobs, job_filter, job_filter_negative)
     result = []
-    for job in selected_jobs:
         job_desc = JobDescription(title=job["title"], company=job["company"], url=get_job_url(job), company_url=get_company_url(job),
                                   job_description=job["description"])
         job_desc.published_at=job["date_posted"]
@@ -83,12 +54,3 @@ def get_filtered_jobs(search_term)-> List[JobDescription]:
     return result
-def indeed_get_html(search_term):
-    jobs = get_filtered_jobs(search_term)
-    for job in jobs:
-        job.ai_result = get_offer_information(job.company, job.job_description)
-    return html_format_page(jobs)

 from jobspy import scrape_jobs
 from typing import List
 from JobDescription import JobDescription
 def get_job_url(job):
     except:
         return "https://e7.pngegg.com/pngimages/153/807/png-clipart-timer-clock-computer-icons-unknown-planet-digital-clock-time.png"
 def get_jobs(search_term, results_wanted):
     return scrape_jobs(
         site_name=["indeed"],#, "linkedin", "glassdoor"],
         linkedin_fetch_description=False, # get more info such as full description, direct job url for linkedin (slower)
     )
+def indeed_get_jobs(search_term)-> List[JobDescription]:
     jobs = get_jobs(search_term, 50)
     result = []
+    for job in jobs:
         job_desc = JobDescription(title=job["title"], company=job["company"], url=get_job_url(job), company_url=get_company_url(job),
                                   job_description=job["description"])
         job_desc.published_at=job["date_posted"]
     return result

jobspy_linkedin.py CHANGED Viewed

@@ -1,12 +1,8 @@
-import warnings
 from typing import List
 from JobDescription import JobDescription
 from jobspy import scrape_jobs
-warnings.filterwarnings("ignore")
-from ai_manager import get_offer_information
 def get_job_url(job):
     if "{}".format(job["job_url_direct"]) in ["null", "nan", "None"]:
         return job["job_url"]
@@ -30,26 +26,6 @@ def get_logo(job):
     except:
         return "https://e7.pngegg.com/pngimages/153/807/png-clipart-timer-clock-computer-icons-unknown-planet-digital-clock-time.png"
-def filterout_jobs(jobs, job_filter, job_filter_negative):
-    selected_jobs = []
-    for index, job in jobs.iterrows():
-        if not any(item in job["title"].lower() for item in job_filter_negative) and any(item in job["title"].lower() for item in job_filter) and "{}".format(job["description"]) not in ["null", "nan", "None"]:
-            selected_jobs.append(job)
-    return selected_jobs
-def html_format_page(jobs : List[JobDescription]):
-    result = ["<html><head><style>.job{display: flex;width:70%;margin: 5px auto;border: 1px solid;border-radius: 5px;}.logobox{flex: 1;display: flex;align-items: center;justify-content: center;}.logo{width:100px;height:100px}h4{margin: 2px;}</style></head><body>"]
-    if len(jobs) > 0:
-        for job in jobs:
-            if job.ai_result["is_an_internship"] == False:
-                result.append(job.to_html())
-    else:
-        result.append("No job found")
-    result.append("</body></html>")
-    return " ".join(result)
 def get_jobs(search_term, results_wanted):
     return scrape_jobs(
         site_name=["linkedin"],#, "linkedin", "glassdoor"],
@@ -62,17 +38,11 @@ def get_jobs(search_term, results_wanted):
         enforce_annual_salary=True,
     )
-def get_filtered_jobs(search_term)-> List[JobDescription]:
     jobs = get_jobs(search_term, 50)
-    #filter on the job description
-    job_filter = ["marketing", "communication", "community", "business development", "experience", "social media", "brand", "ppc", "seo", "sea", "ads", "user acquisition", "adops", "consultant"]
-    job_filter_negative = ["stage", "stagiaire", "alternant", "alternance", "intern", "internship", "apprenti"]
-    selected_jobs = filterout_jobs(jobs, job_filter, job_filter_negative)
     result = []
-    for job in selected_jobs:
         job_desc = JobDescription(title=job["title"], company=job["company"], url=get_job_url(job), company_url=get_company_url(job),
                                   job_description=job["description"])
         job_desc.published_at=job["date_posted"]
@@ -82,10 +52,4 @@ def get_filtered_jobs(search_term)-> List[JobDescription]:
     return result
-def linkedin_get_html(search_term):
-    jobs = get_filtered_jobs(search_term)
-    for job in jobs:
-        job.ai_result = get_offer_information(job.company, job.job_description)
-    return html_format_page(jobs)

 from typing import List
 from JobDescription import JobDescription
 from jobspy import scrape_jobs
 def get_job_url(job):
     if "{}".format(job["job_url_direct"]) in ["null", "nan", "None"]:
         return job["job_url"]
     except:
         return "https://e7.pngegg.com/pngimages/153/807/png-clipart-timer-clock-computer-icons-unknown-planet-digital-clock-time.png"
 def get_jobs(search_term, results_wanted):
     return scrape_jobs(
         site_name=["linkedin"],#, "linkedin", "glassdoor"],
         enforce_annual_salary=True,
     )
+def linkedin_get_jobs(search_term)-> List[JobDescription]:
     jobs = get_jobs(search_term, 50)
     result = []
+    for job in jobs:
         job_desc = JobDescription(title=job["title"], company=job["company"], url=get_job_url(job), company_url=get_company_url(job),
                                   job_description=job["description"])
         job_desc.published_at=job["date_posted"]
     return result