Spaces:

thechaiexperiment
/

TeaRAG

Sleeping

App Files Files Community

thechaiexperiment commited on Jan 19

Commit

4d9cbac

1 Parent(s): 26493ce

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -41

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ import torchvision
 import nltk
 import torch
 import pandas as pd
 from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
@@ -49,11 +50,8 @@ class QueryRequest(BaseModel):
     language_code: int = 1
 class MedicalProfile(BaseModel):
-    chronic_conditions: List[str]
-    symptoms: List[str]
-    food_restrictions: List[str]
-    mental_conditions: List[str]
-    daily_symptoms: List[str]
 class ChatQuery(BaseModel):
     query: str
@@ -250,6 +248,18 @@ def query_embeddings(query_embedding, embeddings_data=None, n_results=5):
         print(f"Error in query_embeddings: {e}")
         return []
 def retrieve_document_texts(doc_ids, folder_path='downloaded_articles/downloaded_articles'):
     texts = []
     for doc_id in doc_ids:
@@ -520,7 +530,6 @@ async def chat_endpoint(chat_query: ChatQuery):
         folder_path = 'downloaded_articles/downloaded_articles'
         initial_results = query_embeddings(query_embedding, embeddings_data, n_results=5)
         document_ids = [doc_id for doc_id, _ in initial_results]
-        document_ids = [doc_id for doc_id, _ in initial_results]
         document_texts = retrieve_document_texts(document_ids, folder_path)
         cross_encoder = models['cross_encoder']
         scores = cross_encoder.predict([(query_text, doc) for doc in document_texts])
@@ -557,46 +566,33 @@ async def chat_endpoint(chat_query: ChatQuery):
 @app.post("/api/resources")
 async def resources_endpoint(profile: MedicalProfile):
-    try:
-        # Validate profile input
-        if not profile.chronic_conditions or not profile.daily_symptoms or not profile.food_restrictions or not profile.mental_conditions:
-            raise ValueError("Incomplete profile data provided.")
-        # Build context
-        context = f"""
-        Medical conditions: {', '.join(profile.chronic_conditions)}
-        Current symptoms: {', '.join(profile.daily_symptoms)}
-        Restrictions: {', '.join(profile.food_restrictions)}
-        Mental health: {', '.join(profile.mental_conditions)}
-        """
-        query_text = context
-        # Embed query and fetch embeddings
-        query_embedding = embed_query_text(query_text)
-        if query_embedding is None:
-            raise ValueError("Query embedding generation failed.")
-        embeddings_data = load_embeddings()
-        if not embeddings_data:
-            raise ValueError("Failed to load embeddings data.")
         folder_path = 'downloaded_articles/downloaded_articles'
-        initial_results = query_embeddings(query_embedding, embeddings_data, n_results=5)
-        if not initial_results:
-            raise ValueError("No initial results found from query_embeddings.")
-        # Retrieve document texts
         document_ids = [doc_id for doc_id, _ in initial_results]
         document_texts = retrieve_document_texts(document_ids, folder_path)
-        if not document_texts or any(doc is None for doc in document_texts):
-            raise ValueError("Failed to retrieve valid document texts.")
-        # Perform reranking
         cross_encoder = models['cross_encoder']
         scores = cross_encoder.predict([(query_text, doc) for doc in document_texts])
         scored_documents = list(zip(scores, document_ids, document_texts))
         scored_documents.sort(key=lambda x: x[0], reverse=True)
         # Build resources response
         resources = []
         for score, doc_id, text in scored_documents[:10]:
@@ -610,9 +606,7 @@ async def resources_endpoint(profile: MedicalProfile):
                 "content": text[:200],
                 "score": float(score)
             })
         return {"resources": resources, "success": True}
     except ValueError as ve:
         # Handle expected errors gracefully
         raise HTTPException(status_code=400, detail=str(ve))

 import nltk
 import torch
 import pandas as pd
+import requests
 from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
     language_code: int = 1
 class MedicalProfile(BaseModel):
+    conditions: str
+    daily_symptoms: str
 class ChatQuery(BaseModel):
     query: str
         print(f"Error in query_embeddings: {e}")
         return []
+def get_page_title(url):
+    try:
+        response = requests.get(url)
+        if response.status_code == 200:
+            soup = BeautifulSoup(response.text, 'html.parser')
+            title = soup.find('title')
+            return title.get_text() if title else "No title found"
+        else:
+            return None
+    except requests.exceptions.RequestException:
+        return None
 def retrieve_document_texts(doc_ids, folder_path='downloaded_articles/downloaded_articles'):
     texts = []
     for doc_id in doc_ids:
         folder_path = 'downloaded_articles/downloaded_articles'
         initial_results = query_embeddings(query_embedding, embeddings_data, n_results=5)
         document_ids = [doc_id for doc_id, _ in initial_results]
         document_texts = retrieve_document_texts(document_ids, folder_path)
         cross_encoder = models['cross_encoder']
         scores = cross_encoder.predict([(query_text, doc) for doc in document_texts])
 @app.post("/api/resources")
 async def resources_endpoint(profile: MedicalProfile):
+        query_text = MedicalProfile.conditions + MedicalProfile.daily_symptoms
+        query_embedding = embed_query_text(query_text)  # Embed the query text
+        embeddings_data = load_embeddings ()
         folder_path = 'downloaded_articles/downloaded_articles'
+        initial_results = query_embeddings(query_embedding, embeddings_data, n_results=6)
+        file_path = 'finalcleaned_excel_file.xlsx'
+            df = pd.read_excel(file_path)
+            file_name_to_url = {f"article_{index}.html": url for index, url in enumerate(df['Unnamed: 0'])}
+            file_names = document_ids
+            # Retrieve original URLs
+            for file_name in file_names:
+                original_url = file_name_to_url.get(file_name, None)
+                if original_url:
+                    title = get_page_title(original_url)
+                    if title:
+                        print(f"Title: {title},URL: {original_url}")
+                    else:
+                        print(f"Name: {file_name}")
+                else:
+                    print(f"Name: {file_name}")
         document_ids = [doc_id for doc_id, _ in initial_results]
         document_texts = retrieve_document_texts(document_ids, folder_path)
         cross_encoder = models['cross_encoder']
         scores = cross_encoder.predict([(query_text, doc) for doc in document_texts])
         scored_documents = list(zip(scores, document_ids, document_texts))
         scored_documents.sort(key=lambda x: x[0], reverse=True)
         # Build resources response
         resources = []
         for score, doc_id, text in scored_documents[:10]:
                 "content": text[:200],
                 "score": float(score)
             })
         return {"resources": resources, "success": True}
     except ValueError as ve:
         # Handle expected errors gracefully
         raise HTTPException(status_code=400, detail=str(ve))