Crustdata_Build_Challenge

Runtime error

wifix199 commited on Jan 5

Commit

df8ede4

verified ·

1 Parent(s): 899724f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,15 +1,18 @@
 import gradio as gr
-import openai
 from langchain.chains import RetrievalQA
-from langchain.embeddings import OpenAIEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.document_loaders import TextLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.llms import OpenAI
-import os
-OPENAI_API_KEYS = os.getenv("OPENAI_API_KEYS")
 # Knowledge base for Crustdata APIs
 docs = """
 # Crustdata Dataset API
@@ -154,13 +157,14 @@ The Crustdata Discovery and Enrichment API allows users to enrich their datasets
 text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
 doc_chunks = text_splitter.create_documents([docs])
-# Embed the documents using OpenAI embeddings
-embeddings = OpenAIEmbeddings()
 docsearch = FAISS.from_documents(doc_chunks, embeddings)
 # Create a QA chain
 qa_chain = RetrievalQA.from_chain_type(
-    llm=OpenAI(model="gpt-3.5-turbo"),
     retriever=docsearch.as_retriever(),
     return_source_documents=True
 )

 import gradio as gr
+from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
 from langchain.chains import RetrievalQA
 from langchain.vectorstores import FAISS
+from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.document_loaders import TextLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+# Load a Hugging Face model for Q&A
+model_name = "EleutherAI/gpt-neox-20b"  # You can choose a lighter model if needed
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(model_name)
+qa_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer, max_length=512)
+# Knowledge base for Crustdata APIs
 # Knowledge base for Crustdata APIs
 docs = """
 # Crustdata Dataset API
 text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
 doc_chunks = text_splitter.create_documents([docs])
+# Embed the documents using sentence-transformers
+embedding_model = "sentence-transformers/all-MiniLM-L6-v2"
+embeddings = HuggingFaceEmbeddings(model_name=embedding_model)
 docsearch = FAISS.from_documents(doc_chunks, embeddings)
 # Create a QA chain
 qa_chain = RetrievalQA.from_chain_type(
+    llm=qa_pipeline,
     retriever=docsearch.as_retriever(),
     return_source_documents=True
 )