Spaces:

thechaiexperiment
/

TeaRAG

Sleeping

App Files Files Community

thechaiexperiment commited on Jan 23

Commit

811a449

verified ·

1 Parent(s): 4d36e19

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -57

app.py CHANGED Viewed

@@ -536,63 +536,69 @@ def remove_incomplete_sentence(text):
     return text
-language_code = 1
-query_text = 'What are symptoms of heart attack ?'
-query_embedding = embed_query_text(query_text)  # Embed the query text
-embeddings_data = load_embeddings ()
-folder_path = 'downloaded_articles/downloaded_articles'
-initial_results = query_embeddings(query_embedding, embeddings_data, n_results=5)
-document_ids = [doc_id for doc_id, _ in initial_results]
-print(document_ids)
-document_ids = [doc_id for doc_id, _ in initial_results]
-document_texts = retrieve_document_texts(document_ids, folder_path)
-# Rerank the results using the CrossEncoder
-cross_encoder = models['cross_encoder']
-scores = cross_encoder.predict([(query_text, doc) for doc in document_texts])
-scored_documents = list(zip(scores, document_ids, document_texts))
-scored_documents.sort(key=lambda x: x[0], reverse=True)
-print("Reranked results:")
-for idx, (score, doc_id, doc) in enumerate(scored_documents):
-    print(f"Rank {idx + 1} (Score: {score:.4f}, Document ID: {doc_id}")
-relevant_portions = extract_relevant_portions(document_texts, query_text, max_portions=3, portion_size=1, min_query_words=1)
-for doc_id, portions in relevant_portions.items():
-    print(f"{doc_id}: {portions}")
-flattened_relevant_portions = []
-for doc_id, portions in relevant_portions.items():
-    flattened_relevant_portions.extend(portions)
-# Remove duplicate portions
-unique_selected_parts = remove_duplicates(flattened_relevant_portions)
-# Combine the unique parts into a single string of context
-combined_parts = " ".join(unique_selected_parts)
-# Construct context as a list: first the query, then the unique selected portions
-context = [query_text] + unique_selected_parts
-# Print the context (query + relevant portions)
-print(context)
-entities = extract_entities(query_text)
-passage = enhance_passage_with_entities(combined_parts, entities)
-# Generate answer with the enhanced passage
-prompt = create_prompt(query_text, passage)
-answer = generate_answer(prompt)
-#print(f"\nTime taken to generate the answer: {generation_time:.2f} seconds")
-answer_part = answer.split("Answer:")[-1].strip()
-cleaned_answer = remove_answer_prefix(answer_part)
-final_answer = remove_incomplete_sentence(cleaned_answer)
-if language_code == 0:
-    final_answer = translate_en_to_ar(final_answer)
-if final_answer:
-    print("Answer:")
-    print(final_answer)
-else:
-    print("Sorry, I can't help with that.")
 @app.get("/")
 async def root():

     return text
+        language_code = 1
+        query_text = "recipes and meals for vegan diabetes headache fatigue"
+        print(f"Generated query text: {query_text}")
+        # Generate the query embedding
+        query_embedding = embed_query_text(query_text)
+        if query_embedding is None:
+            raise ValueError("Failed to generate query embedding.")
+        # Load embeddings and retrieve initial results
+        embeddings_data = load_recipes_embeddings()
+        folder_path = 'downloaded_articles/downloaded_articles'
+        initial_results = query_recipes_embeddings(query_embedding, embeddings_data, n_results=10)
+        if not initial_results:
+            raise ValueError("No relevant recipes found.")
+        print(initial_results)
+        # Extract document IDs
+        document_ids = [doc_id for doc_id, _ in initial_results]
+        print(document_ids)
+        # Retrieve document texts
+        document_texts = retrieve_rec_texts(document_ids, folder_path)
+        if not document_texts:
+            raise ValueError("Failed to retrieve document texts.")
+        print(document_texts)
+        # Load recipe metadata from DataFrame
+        folder_path='downloaded_articles/downloaded_articles'
+        file_path = 'recipes_metadata.xlsx'
+        metadata_path = 'recipes_metadata.xlsx'
+        metadata_df = pd.read_excel(file_path)
+        relevant_portions = extract_relevant_portions(document_texts, query_text, max_portions=3, portion_size=1, min_query_words=1)
+        print(relevant_portions)
+        flattened_relevant_portions = []
+        for doc_id, portions in relevant_portions.items():
+            flattened_relevant_portions.extend(portions)
+        unique_selected_parts = remove_duplicates(flattened_relevant_portions)
+        print(unique_selected_parts)
+        combined_parts = " ".join(unique_selected_parts)
+        print(combined_parts)
+        context = [query_text] + unique_selected_parts
+        print(context)
+        entities = extract_entities(query_text)
+        print(entities)
+        passage = enhance_passage_with_entities(combined_parts, entities)
+        print(passage)
+        prompt = create_prompt(query_text, passage)
+        print(prompt)
+        answer = generate_answer(prompt)
+        print(answer)
+        answer_part = answer.split("Answer:")[-1].strip()
+        print(answer_part)
+        cleaned_answer = remove_answer_prefix(answer_part)
+        print(cleaned_answer)
+        final_answer = remove_incomplete_sentence(cleaned_answer)
+        print(final_answer )
+        if language_code == 0:
+            final_answer = translate_en_to_ar(final_answer)
+        if final_answer:
+            print("Answer:")
+            print(final_answer)
+        else:
+            print("Sorry, I can't help with that.")
 @app.get("/")
 async def root():