Spaces:

ldhldh
/

langchain_gradio

Runtime error

App Files Files Community

ldhldh commited on Oct 12, 2023

Commit

2caab98

1 Parent(s): bef4b66

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -0

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 from threading import Thread
 from llama_cpp import Llama
 import torch
 import gradio as gr
@@ -14,11 +15,26 @@ from langchain.chains import RetrievalQA
 from langchain.vectorstores import FAISS
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.prompts import PromptTemplate
 torch_device = "cuda" if torch.cuda.is_available() else "cpu"
 print("Running on device:", torch_device)
 print("CPU threads:", torch.get_num_threads())
 llm = LlamaCpp(
     model_path='Llama-2-ko-7B-chat-gguf-q4_0.bin',
@@ -34,6 +50,14 @@ llm = LlamaCpp(
 # 임베딩 모델 로드
 embeddings = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")
 # faiss_db 로 로컬에 로드하기
 docsearch = FAISS.load_local("faiss_db", embeddings)

 from threading import Thread
+from huggingface_hub import hf_hub_download
 from llama_cpp import Llama
 import torch
 import gradio as gr
 from langchain.vectorstores import FAISS
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.prompts import PromptTemplate
+from langchain.text_splitter import CharacterTextSplitter
+from langchain.document_loaders import PyPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.vectorstores import FAISS
+from langchain.embeddings import HuggingFaceEmbeddings
 torch_device = "cuda" if torch.cuda.is_available() else "cpu"
 print("Running on device:", torch_device)
 print("CPU threads:", torch.get_num_threads())
+loader = PyPDFLoader("total.pdf")
+pages = loader.load()
+# 데이터를 불러와서 텍스트를 일정한 수로 나누고 구분자로 연결하는 작업
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
+texts = text_splitter.split_documents(pages)
+print(f"문서에 {len(texts)}개의 문서를 가지고 있습니다.")
+hf_hub_download(repo_id='StarFox7/Llama-2-ko-7B-chat-gguf', filename='Llama-2-ko-7B-chat-gguf-q4_0.bin', local_dir='./')
 llm = LlamaCpp(
     model_path='Llama-2-ko-7B-chat-gguf-q4_0.bin',
 # 임베딩 모델 로드
 embeddings = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")
+# 문서에 있는 텍스트를 임베딩하고 FAISS 에 인덱스를 구축함
+index = FAISS.from_documents(
+	documents=texts,
+	embedding=embeddings,
+	)
+# faiss_db 로 로컬에 저장하기
+index.save_local("faiss_db")
 # faiss_db 로 로컬에 로드하기
 docsearch = FAISS.load_local("faiss_db", embeddings)