Spaces:

luanpoppe
/

vella-backend

Running

luanpoppe commited on Apr 6

Commit

93c6cb3

1 Parent(s): 451f8a3

fix: one chunks

Files changed (4) hide show

_utils/gerar_documento.py CHANGED Viewed

@@ -55,13 +55,11 @@ async def gerar_documento(
         # Initialize enhanced summarizer
         summarizer = GerarDocumento(serializer)
-        all_PDFs_chunks, full_text_as_array, full_text_as_string = (
-            await get_full_text_and_all_PDFs_chunks(
-                listaPDFs,
-                summarizer.splitter,
-                serializer.should_use_llama_parse,
-                isBubble,
-            )
         )
         is_contextualized_chunk = serializer.should_have_contextual_chunks
@@ -104,7 +102,7 @@ async def gerar_documento(
         # Create enhanced vector store and BM25 index
         vector_store, bm25, chunk_ids = (
             summarizer.vector_store.create_enhanced_vector_store(
-                chunks_processados, is_contextualized_chunk
             )
         )

         # Initialize enhanced summarizer
         summarizer = GerarDocumento(serializer)
+        all_PDFs_chunks, full_text_as_array = await get_full_text_and_all_PDFs_chunks(
+            listaPDFs,
+            summarizer.splitter,
+            serializer.should_use_llama_parse,
+            isBubble,
         )
         is_contextualized_chunk = serializer.should_have_contextual_chunks
         # Create enhanced vector store and BM25 index
         vector_store, bm25, chunk_ids = (
             summarizer.vector_store.create_enhanced_vector_store(
+                chunks_processados, is_contextualized_chunk, axiom_instance
             )
         )

_utils/gerar_relatorio_modelo_usuario/utils.py CHANGED Viewed

@@ -158,7 +158,7 @@ async def get_full_text_and_all_PDFs_chunks(
         )
         all_PDFs_chunks = all_PDFs_chunks + chunks
-    return all_PDFs_chunks, pages, full_text_as_string
 async def generate_document_title(resumo_para_gerar_titulo: str):

         )
         all_PDFs_chunks = all_PDFs_chunks + chunks
+    return all_PDFs_chunks, pages
 async def generate_document_title(resumo_para_gerar_titulo: str):

_utils/langchain_utils/Splitter_class.py CHANGED Viewed

@@ -41,7 +41,6 @@ class Splitter:
         #     pages = get_pdf_from_bubble(
         #         pdf_path
         #     )  # Gera uma lista de objetos Document, sendo cada item da lista referente a UMA PÁGINA inteira do PDF.
-        full_text_as_string = ""
         chunks_of_string_only: List[str] = []
@@ -137,7 +136,7 @@ class Splitter:
             # char_count += len(text)
         print("TERMINOU DE ORGANIZAR PDFS EM CHUNKS")
-        return chunks, chunks_of_string_only, full_text_as_string
     def load_and_split_text(self, text: str) -> List[DocumentChunk]:
         """Load Text and split into chunks with metadata - Criei essa função apenas para o ragas"""

         #     pages = get_pdf_from_bubble(
         #         pdf_path
         #     )  # Gera uma lista de objetos Document, sendo cada item da lista referente a UMA PÁGINA inteira do PDF.
         chunks_of_string_only: List[str] = []
             # char_count += len(text)
         print("TERMINOU DE ORGANIZAR PDFS EM CHUNKS")
+        return chunks, chunks_of_string_only
     def load_and_split_text(self, text: str) -> List[DocumentChunk]:
         """Load Text and split into chunks with metadata - Criei essa função apenas para o ragas"""

_utils/langchain_utils/Vector_store_class.py CHANGED Viewed

@@ -6,6 +6,8 @@ from _utils.models.gerar_relatorio import (
 from setup.easy_imports import Chroma, BM25Okapi, HuggingFaceEmbeddings
 import logging
 class VectorStore:
     def __init__(self, embedding_model):
@@ -14,7 +16,10 @@ class VectorStore:
         pass
     def create_enhanced_vector_store(
-        self, chunks: List[ContextualizedChunk], is_contextualized_chunk
     ) -> Tuple[Chroma, BM25Okapi, List[str]]:
         """Create vector store and BM25 index with contextualized chunks"""
         try:
@@ -23,7 +28,7 @@ class VectorStore:
                 texts = [
                     f"""<one_chunk>
     <document_id>{chunk.id_do_processo}</document_id>
-    <document_context_title>Document_context{chunk.context}</document_context_title>
     <document_contextual_summary>{chunk.contextual_summary}</document_contextual_summary>
     <document_content>Document_content: {chunk.content}</document_content>
 </one_chunk>
@@ -31,6 +36,7 @@ class VectorStore:
 """
                     for chunk in chunks
                 ]
             else:
                 texts = [f"{chunk.content}" for chunk in chunks]

 from setup.easy_imports import Chroma, BM25Okapi, HuggingFaceEmbeddings
 import logging
+from setup.logging import Axiom
 class VectorStore:
     def __init__(self, embedding_model):
         pass
     def create_enhanced_vector_store(
+        self,
+        chunks: List[ContextualizedChunk],
+        is_contextualized_chunk,
+        axiom_instance: Axiom,
     ) -> Tuple[Chroma, BM25Okapi, List[str]]:
         """Create vector store and BM25 index with contextualized chunks"""
         try:
                 texts = [
                     f"""<one_chunk>
     <document_id>{chunk.id_do_processo}</document_id>
+    <document_context_title>{chunk.context}</document_context_title>
     <document_contextual_summary>{chunk.contextual_summary}</document_contextual_summary>
     <document_content>Document_content: {chunk.content}</document_content>
 </one_chunk>
 """
                     for chunk in chunks
                 ]
+                axiom_instance.send_axiom(f"Chunks gerados: {texts}")
             else:
                 texts = [f"{chunk.content}" for chunk in chunks]