Spaces:

ProjectBohutSaare
/

LLM-LLB

Sleeping

File size: 3,632 Bytes

676fec3
 
65c4b7f
676fec3
c802035
676fec3
65c4b7f
 
 
 
 
 
 
676fec3
65c4b7f
 
 
 
676fec3
65c4b7f
 
 
 
 
 
 
 
 
 
676fec3
65c4b7f
 
676fec3
65c4b7f
676fec3
 
 
 
 
 
 
 
 
65c4b7f
 
 
 
 
 
 
676fec3
65c4b7f
 
 
 
 
 
 
 
676fec3
 
 
65c4b7f
 
676fec3
65c4b7f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
676fec3
 
65c4b7f

import gradio as gr
from huggingface_hub import InferenceClient
import fitz  # PyMuPDF

client = InferenceClient("opennyaiorg/Aalap-Mistral-7B-v0.1-bf16")

def extract_text_from_pdf(pdf_file):
    document = fitz.open(pdf_file.name)
    text = ""
    for page_num in range(len(document)):
        page = document.load_page(page_num)
        text += page.get_text()
    return text

def summarize_pdf(pdf_file, max_tokens, temperature, top_p):
    text = extract_text_from_pdf(pdf_file)
    response = ""
    messages = [{"role": "user", "content": f"Summarize the following text: {text}"}]

    for message in client.chat_completion(
        messages,
        max_tokens=max_tokens,
        stream=True,
        temperature=temperature,
        top_p=top_p,
    ):
        token = message.choices[0].delta.content
        response += token
        yield response

def ner_pdf(pdf_file, max_tokens, temperature, top_p):
    text = extract_text_from_pdf(pdf_file)
    response = ""
    messages = [{"role": "user", "content": f"Extract named entities from the following text: {text}"}]

    for message in client.chat_completion(
        messages,
        max_tokens=max_tokens,
        stream=True,
        temperature=temperature,
        top_p=top_p,
    ):
        token = message.choices[0].delta.content
        response += token
        yield response

def qa_pdf(pdf_file, question, max_tokens, temperature, top_p):
    text = extract_text_from_pdf(pdf_file)
    response = ""
    messages = [{"role": "user", "content": f"Answer the question '{question}' based on the following text: {text}"}]

    for message in client.chat_completion(
        messages,
        max_tokens=max_tokens,
        stream=True,
        temperature=temperature,
        top_p=top_p,
    ):
        token = message.choices[0].delta.content
        response += token
        yield response

with gr.Blocks() as demo:
    gr.Markdown("# NLP Tasks on PDF Documents")

    with gr.Tab("Summarization"):
        pdf_file = gr.File(label="Upload PDF")
        summarize_button = gr.Button("Summarize")
        summary_output = gr.Textbox(label="Summary")
        summarize_button.click(summarize_pdf, inputs=[pdf_file, gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"), gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"), gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)")], outputs=summary_output)
    
    with gr.Tab("Named Entity Recognition (NER)"):
        pdf_file = gr.File(label="Upload PDF")
        ner_button = gr.Button("Extract Entities")
        ner_output = gr.JSON(label="Entities")
        ner_button.click(ner_pdf, inputs=[pdf_file, gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"), gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"), gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)")], outputs=ner_output)
    
    with gr.Tab("Question Answering"):
        pdf_file = gr.File(label="Upload PDF")
        question_input = gr.Textbox(label="Enter your question")
        qa_button = gr.Button("Get Answer")
        qa_output = gr.Textbox(label="Answer")
        qa_button.click(qa_pdf, inputs=[pdf_file, question_input, gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"), gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"), gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)")], outputs=qa_output)

if __name__ == "__main__":
    demo.launch()