Spaces:

dammy
/

chatPDF

Runtime error

File size: 3,987 Bytes

301614f
 
 
9035153
 
 
604b59c
 
 
 
 
6c36800
604b59c
9a664f0
725d485
2cd4e0a
 
 
 
058d9a5
 
2cd4e0a
 
 
604b59c
058d9a5
725d485
9035153
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
dffeb2d
725d485
b88b1f3
725d485
 
 
 
 
 
 
 
 
 
 
 
 
 
 
dffeb2d
725d485
 
 
 
 
 
868e2fc
 
725d485
 
868e2fc
 
 
9035153
868e2fc
dffeb2d
 
868e2fc
 
dffeb2d
9035153
 
b88b1f3
301614f
725d485
b88b1f3
 
301614f
b88b1f3
 
301614f
b88b1f3
301614f
b88b1f3
 
9035153
b88b1f3
9035153
b88b1f3
 
9035153
b88b1f3
 
 
 
 
9035153
b88b1f3
5573a68
2024184
dffeb2d
911a8be
5573a68
911a8be
868e2fc
725d485
 
911a8be
 
5573a68
911a8be
 
 
 
 
 
23d4171
2024184
dffeb2d
 
a610295
24464a6
dffeb2d
2024184
 
 
 
fc4d061
7471e3e
23d4171
7f9bf9b
2347d67
a610295
868e2fc
dffeb2d
 
7c1d20d
 
fc4d061

import gradio as gr
from langchain.document_loaders import PDFMinerLoader, PyMuPDFLoader
from langchain.text_splitter import CharacterTextSplitter
import chromadb
import chromadb.config
from chromadb.config import Settings
from transformers import T5ForConditionalGeneration, AutoTokenizer
import torch
import gradio as gr
import uuid
from sentence_transformers import SentenceTransformer
import os

global file_name

model_name = 'google/flan-t5-base'
model = T5ForConditionalGeneration.from_pretrained(model_name, device_map='auto', offload_folder="offload")
tokenizer = AutoTokenizer.from_pretrained(model_name)
print('flan read')


ST_name = 'sentence-transformers/sentence-t5-base'
st_model = SentenceTransformer(ST_name)
print('sentence read')


def get_context(query_text, collection):
    query_emb = st_model.encode(query_text)
    query_response = collection.query(query_embeddings=query_emb.tolist(), n_results=4)
    context = query_response['documents'][0][0]
    context = context.replace('\n', ' ').replace('  ', ' ')
    return context

def local_query(query, context):
    t5query = """Using the available context, please answer the question. 
    If you aren't sure please say i don't know.
    Context: {}
    Question: {}
    """.format(context, query)
    
    inputs = tokenizer(t5query, return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=20)
    
    return tokenizer.batch_decode(outputs, skip_special_tokens=True)

def run_query(history, query):

    # pdf file name input olarak verip, buraya upload event olarak gondermem gereki rmi
    loader = PDFMinerLoader(pdf_filename)
    doc = loader.load()

    text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
    texts = text_splitter.split_documents(doc)

    texts = [i.page_content for i in texts]

    doc_emb = st_model.encode(texts)
    doc_emb = doc_emb.tolist()

    ids = [str(uuid.uuid1()) for _ in doc_emb]

    client = chromadb.Client()
    collection = client.create_collection("test_db") 
    
    collection.add(
        embeddings=doc_emb,
        documents=texts,
        ids=ids
    )

    print('calling get contct function')
    print(collection)

    context = get_context(query, collection)

    print(context)
    print('calling local query')
    result = local_query(query, context)
    print(result)

    history = history.append(query)

    print(history)
    return history, result


# def load_document(pdf_filename):

    
#     loader = PDFMinerLoader(pdf_filename)
#     doc = loader.load()

#     text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
#     texts = text_splitter.split_documents(doc)

#     texts = [i.page_content for i in texts]

#     doc_emb = st_model.encode(texts)
#     doc_emb = doc_emb.tolist()

#     ids = [str(uuid.uuid1()) for _ in doc_emb]

#     client = chromadb.Client()
#     collection = client.create_collection("test_db") 
    
#     collection.add(
#         embeddings=doc_emb,
#         documents=texts,
#         ids=ids
#     )

#     return 'Success'




def upload_pdf(file):
    try:
        if file is not None: 
            file_name = file.name 
            return 'Successfully uploaded!'
        else:
            return "No file uploaded."

    except Exception as e:
        return f"An error occurred: {e}"



    
 
with gr.Blocks() as demo:  
    
    btn = gr.UploadButton("Upload a PDF", file_types=[".pdf"])
    output = gr.Textbox(label="Output Box")
    chatbot = gr.Chatbot(value=[], elem_id="chatbot")
    
    with gr.Row():
        with gr.Column(scale=0.70):
            txt = gr.Textbox(
                show_label=False,
                placeholder="Enter a question",
            ) 

 
    # Event handler for uploading a PDF
    btn.upload(fn=upload_pdf, inputs=[btn], outputs=[output])
    txt.submit(run_query, [chatbot, txt], [chatbot,])
    #.then(
            # generate_response, inputs =[chatbot,],outputs = chatbot,)

    

demo.launch()