Spaces:

abhinand2
/

paul_graham_essays_rag

Runtime error

App Files Files Community

paul_graham_essays_rag / db.py

abhinand2

Update db.py

66f2ba6 verified about 1 month ago

raw

history blame contribute delete

2.58 kB

	from langchain_community.document_loaders.csv_loader import CSVLoader
	from langchain_text_splitters import RecursiveCharacterTextSplitter
	import torch
	from langchain_huggingface import HuggingFaceEmbeddings
	from langchain_chroma import Chroma

	import logging
	logger = logging.getLogger(__name__)


	file_path="./paul_graham_essays.csv"
	db_persist_directory = './docs/chroma/'


	def load_data():
	logger.info(f'Instantiating CSVLoader with file_path={file_path}')
	loader = CSVLoader(
	file_path=file_path,
	csv_args={
	"delimiter": ",",
	"fieldnames": ['id', 'title', 'date', 'text'],
	},
	source_column='title',
	metadata_columns=['date'],
	content_columns=['text'],
	)
	logger.info('Instantiating CSVLoader complete')

	logger.info('Loading data')
	data = loader.load()
	logger.info('Loading data complete')

	logger.info('Returning data')
	return data[1:]


	def split_data(data, chunk_size, chunk_overlap):
	logger.info(f'Instantiating RecursiveCharacterTextSplitter with chunk_size={chunk_size} and chunk_overlap={chunk_overlap}')
	splitter = RecursiveCharacterTextSplitter(
	chunk_size=chunk_size,
	chunk_overlap=chunk_overlap,
	separators=['\n\n', '\n', '(?<=\. )', ' ', '']
	)
	logger.info('Instantiating RecursiveCharacterTextSplitter complete')

	logger.info('Generating and returning splits')
	return splitter.split_documents(data)


	def generate_embeddings(model_name):
	device = "cuda" if torch.cuda.is_available() else "cpu"
	model_kwargs = {'device': device}

	encode_kwargs = {'normalize_embeddings': False}

	logger.info(f'Instantiating and returning HuggingFaceEmbeddings with model_name={model_name}, model_kwargs={model_kwargs} and encode_kwargs={encode_kwargs}')
	return HuggingFaceEmbeddings(
	model_name=model_name,
	model_kwargs=model_kwargs,
	encode_kwargs=encode_kwargs,
	)


	def get_db(
	chunk_size=1000,
	chunk_overlap=200,
	model_name = 'intfloat/multilingual-e5-large-instruct',
	):
	logger.info('Getting data')
	data = load_data()

	logger.info('Getting splits')
	splits = split_data(data, chunk_size, chunk_overlap)

	logger.info('Getting embedding')
	embedding = generate_embeddings(model_name)

	logger.info(f'Instantiating and returning Chroma DB with persist_directory={db_persist_directory}')
	return Chroma.from_documents(
	documents=splits,
	embedding=embedding,
	persist_directory=db_persist_directory,
	)