Spaces:

abhinand2
/

paul_graham_essays_rag

Runtime error

App Files Files Community

abhinand2 commited on Feb 11

Commit

66f2ba6

verified ·

1 Parent(s): 094d0e0

Update db.py

Browse files

Files changed (1) hide show

db.py +22 -5

db.py CHANGED Viewed

@@ -4,12 +4,16 @@ import torch
 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_chroma import Chroma
 file_path="./paul_graham_essays.csv"
 db_persist_directory = './docs/chroma/'
 def load_data():
     loader = CSVLoader(
         file_path=file_path,
         csv_args={
@@ -20,29 +24,38 @@ def load_data():
         metadata_columns=['date'],
         content_columns=['text'],
     )
     data = loader.load()
     return data[1:]
 def split_data(data, chunk_size, chunk_overlap):
     splitter = RecursiveCharacterTextSplitter(
         chunk_size=chunk_size,
         chunk_overlap=chunk_overlap,
         separators=['\n\n', '\n', '(?<=\. )', ' ', '']
     )
     return splitter.split_documents(data)
-def generate_embeddings(model_path):
     device = "cuda" if torch.cuda.is_available() else "cpu"
     model_kwargs = {'device': device}
     encode_kwargs = {'normalize_embeddings': False}
     return HuggingFaceEmbeddings(
-        model_name=model_path,
         model_kwargs=model_kwargs,
         encode_kwargs=encode_kwargs,
     )
@@ -51,14 +64,18 @@ def generate_embeddings(model_path):
 def get_db(
     chunk_size=1000,
     chunk_overlap=200,
-    model_path = 'intfloat/multilingual-e5-large-instruct',
 ):
     data = load_data()
     splits = split_data(data, chunk_size, chunk_overlap)
-    embedding = generate_embeddings(model_path)
     return Chroma.from_documents(
         documents=splits,
         embedding=embedding,

 from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_chroma import Chroma
+import logging
+logger = logging.getLogger(__name__)
 file_path="./paul_graham_essays.csv"
 db_persist_directory = './docs/chroma/'
 def load_data():
+    logger.info(f'Instantiating CSVLoader with file_path={file_path}')
     loader = CSVLoader(
         file_path=file_path,
         csv_args={
         metadata_columns=['date'],
         content_columns=['text'],
     )
+    logger.info('Instantiating CSVLoader complete')
+    logger.info('Loading data')
     data = loader.load()
+    logger.info('Loading data complete')
+    logger.info('Returning data')
     return data[1:]
 def split_data(data, chunk_size, chunk_overlap):
+    logger.info(f'Instantiating RecursiveCharacterTextSplitter with chunk_size={chunk_size} and chunk_overlap={chunk_overlap}')
     splitter = RecursiveCharacterTextSplitter(
         chunk_size=chunk_size,
         chunk_overlap=chunk_overlap,
         separators=['\n\n', '\n', '(?<=\. )', ' ', '']
     )
+    logger.info('Instantiating RecursiveCharacterTextSplitter complete')
+    logger.info('Generating and returning splits')
     return splitter.split_documents(data)
+def generate_embeddings(model_name):
     device = "cuda" if torch.cuda.is_available() else "cpu"
     model_kwargs = {'device': device}
     encode_kwargs = {'normalize_embeddings': False}
+    logger.info(f'Instantiating and returning HuggingFaceEmbeddings with model_name={model_name}, model_kwargs={model_kwargs} and encode_kwargs={encode_kwargs}')
     return HuggingFaceEmbeddings(
+        model_name=model_name,
         model_kwargs=model_kwargs,
         encode_kwargs=encode_kwargs,
     )
 def get_db(
     chunk_size=1000,
     chunk_overlap=200,
+    model_name = 'intfloat/multilingual-e5-large-instruct',
 ):
+    logger.info('Getting data')
     data = load_data()
+    logger.info('Getting splits')
     splits = split_data(data, chunk_size, chunk_overlap)
+    logger.info('Getting embedding')
+    embedding = generate_embeddings(model_name)
+    logger.info(f'Instantiating and returning Chroma DB with persist_directory={db_persist_directory}')
     return Chroma.from_documents(
         documents=splits,
         embedding=embedding,