Sentinel-AI-Beta-Test

Build error

App Files Files Community

Shreyas094 commited on Aug 29, 2024

Commit

ac8a581

verified ·

1 Parent(s): 5554476

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -47

app.py CHANGED Viewed

@@ -352,38 +352,60 @@ def summarize_web_results(query: str, search_results: List[Dict[str, str]], conv
     except Exception as e:
         return f"An error occurred during summarization: {str(e)}"
-def get_response_from_excel(query, model, context, num_calls=3, temperature=0.2):
     logging.info(f"Getting response from Excel using model: {model}")
     messages = [
-        {"role": "system", "content": "You are a highly specialized data analyst with expertise in analyzing and summarizing Excel spreadsheets. Your goal is to provide accurate, detailed, and precise information on the data provided. Focus on identifying key metrics, trends, and significant details relevant to the query. Avoid making assumptions or adding information that is not explicitly supported by the data."},
-        {"role": "user", "content": f"Using the following data extracted from Excel spreadsheets:\n{context}\n\nPlease analyze this data and provide a comprehensive answer to the following question: '{query}'. If appropriate, suggest visualizations that could help illustrate the findings."}
     ]
     if model.startswith("duckduckgo/"):
-        # Use DuckDuckGo chat with context
-        return get_response_from_duckduckgo(query, model, context, num_calls, temperature)
     elif model == "@cf/meta/llama-3.1-8b-instruct":
-        # Use Cloudflare API
-        return get_response_from_cloudflare(prompt="", context=context, query=query, num_calls=num_calls, temperature=temperature, search_type="excel")
     else:
-        # Use Hugging Face API
         client = InferenceClient(model, token=huggingface_token)
-        response = ""
         for i in range(num_calls):
-            logging.info(f"API call {i+1}/{num_calls}")
             for message in client.chat_completion(
                 messages=messages,
-                max_tokens=20000,
                 temperature=temperature,
                 stream=True,
                 top_p=0.8,
             ):
                 if message.choices and message.choices[0].delta and message.choices[0].delta.content:
                     chunk = message.choices[0].delta.content
-                    response += chunk
-                    yield response  # Yield partial response
         logging.info("Finished generating response for Excel data")
@@ -418,7 +440,7 @@ def respond(message, history, model, temperature, num_calls, use_web_search, sel
             yield "Unable to generate a response. Please try a different query."
     else:
-        try:
             embed = get_embeddings()
             pdf_database = None
             office_database = None
@@ -433,40 +455,34 @@ def respond(message, history, model, temperature, num_calls, use_web_search, sel
                 yield "No documents available. Please upload documents to answer questions."
                 return
-            all_relevant_docs = []
-            if pdf_database:
-                pdf_retriever = pdf_database.as_retriever(search_kwargs={"k": 10})
-                all_relevant_docs.extend(pdf_retriever.get_relevant_documents(message))
-            if office_database:
-                office_retriever = office_database.as_retriever(search_kwargs={"k": 10})
-                all_relevant_docs.extend(office_retriever.get_relevant_documents(message))
-            relevant_docs = [doc for doc in all_relevant_docs if doc.metadata["source"] in selected_docs]
-            if not relevant_docs:
-                yield "No relevant information found in the selected documents. Please try selecting different documents or rephrasing your query."
-                return
-            # Separate Excel documents from others
-            excel_docs = [doc for doc in relevant_docs if doc.metadata["source"].lower().endswith(('.xlsx', '.xls'))]
-            other_docs = [doc for doc in relevant_docs if not doc.metadata["source"].lower().endswith(('.xlsx', '.xls'))]
-            excel_context = "\n".join([doc.page_content for doc in excel_docs])
-            other_context = "\n".join([doc.page_content for doc in other_docs])
-            logging.info(f"Excel context length: {len(excel_context)}")
-            logging.info(f"Other context length: {len(other_context)}")
-            # Process Excel documents
-            if excel_docs:
-                for response in get_response_from_excel(message, model, excel_context, num_calls, temperature):
                     yield response
-            # Process other documents (PDF, Word)
-            if other_docs:
                 if model == "@cf/meta/llama-3.1-8b-instruct":
-                    for response in get_response_from_cloudflare(prompt="", context=other_context, query=message, num_calls=num_calls, temperature=temperature, search_type="document"):
                         yield response
                 else:
                     for response in get_response_from_pdf(message, model, selected_docs, num_calls, temperature):

     except Exception as e:
         return f"An error occurred during summarization: {str(e)}"
+def get_response_from_excel(query, model, context, num_calls=1, temperature=0.2):
     logging.info(f"Getting response from Excel using model: {model}")
+    # Use embeddings to find the most relevant Excel data
+    embed = get_embeddings()
+    office_database = FAISS.load_local("office_faiss_database", embed, allow_dangerous_deserialization=True)
+    retriever = office_database.as_retriever(search_kwargs={"k": 5})
+    relevant_docs = retriever.get_relevant_documents(query)
+    # Prepare the context from relevant documents
+    excel_context = "\n".join([doc.page_content for doc in relevant_docs])
+    # Prepare the messages for the AI model
     messages = [
+        {"role": "system", "content": "You are an AI assistant specialized in analyzing Excel data. Your task is to provide accurate and detailed responses based solely on the given Excel data context. Do not make assumptions or add information beyond what is explicitly provided in the context."},
+        {"role": "user", "content": f"Based on the following Excel data:\n\n{excel_context}\n\nPlease answer this question: {query}\n\nProvide a step-by-step analysis if applicable, and ensure your response is factual and directly related to the provided Excel data."}
     ]
+    full_response = ""
     if model.startswith("duckduckgo/"):
+        for _ in range(num_calls):
+            try:
+                ddg_model = model.split('/')[-1]
+                results = DDGS().chat(messages[-1]["content"], model=ddg_model)
+                full_response += results + "\n"
+                logging.info(f"DuckDuckGo API response received for Excel query. Length: {len(results)}")
+            except Exception as e:
+                logging.error(f"Error in generating response from DuckDuckGo for Excel: {str(e)}")
+                yield f"An error occurred with the {model} model: {str(e)}. Please try again."
+                return
     elif model == "@cf/meta/llama-3.1-8b-instruct":
+        for response in get_response_from_cloudflare(prompt="", context=excel_context, query=query, num_calls=num_calls, temperature=temperature, search_type="excel"):
+            yield response
+        return
     else:
         client = InferenceClient(model, token=huggingface_token)
         for i in range(num_calls):
+            logging.info(f"API call {i+1}/{num_calls} for Excel query")
             for message in client.chat_completion(
                 messages=messages,
+                max_tokens=1000,
                 temperature=temperature,
                 stream=True,
                 top_p=0.8,
             ):
                 if message.choices and message.choices[0].delta and message.choices[0].delta.content:
                     chunk = message.choices[0].delta.content
+                    full_response += chunk
+                    yield full_response
+    if not full_response.strip():
+        yield "I couldn't generate a response based on the Excel data. Please try rephrasing your question or check if the relevant data is present in the uploaded Excel files."
+    else:
+        yield full_response.strip()
         logging.info("Finished generating response for Excel data")
             yield "Unable to generate a response. Please try a different query."
     else:
+         try:
             embed = get_embeddings()
             pdf_database = None
             office_database = None
                 yield "No documents available. Please upload documents to answer questions."
                 return
+            # Determine if the query is specifically for Excel data
+            excel_files = [doc for doc in selected_docs if doc.lower().endswith(('.xlsx', '.xls'))]
+            if excel_files:
+                # If Excel files are selected, use the Excel-specific function
+                for response in get_response_from_excel(message, model, "", num_calls, temperature):
                     yield response
+            else:
+                # Existing logic for PDF and other document types
+                all_relevant_docs = []
+                if pdf_database:
+                    pdf_retriever = pdf_database.as_retriever(search_kwargs={"k": 10})
+                    all_relevant_docs.extend(pdf_retriever.get_relevant_documents(message))
+                if office_database:
+                    office_retriever = office_database.as_retriever(search_kwargs={"k": 10})
+                    all_relevant_docs.extend(office_retriever.get_relevant_documents(message))
+                relevant_docs = [doc for doc in all_relevant_docs if doc.metadata["source"] in selected_docs]
+                if not relevant_docs:
+                    yield "No relevant information found in the selected documents. Please try selecting different documents or rephrasing your query."
+                    return
+                context_str = "\n".join([doc.page_content for doc in relevant_docs])
                 if model == "@cf/meta/llama-3.1-8b-instruct":
+                    for response in get_response_from_cloudflare(prompt="", context=context_str, query=message, num_calls=num_calls, temperature=temperature, search_type="document"):
                         yield response
                 else:
                     for response in get_response_from_pdf(message, model, selected_docs, num_calls, temperature):