Spaces:

Mauro24
/

sentence-transformer-demo

Sleeping

File size: 2,379 Bytes

38f8736
 
 
6c05acd
 
 
38f8736
351552e
38f8736
6c05acd
b4dba08
 
 
 
 
 
 
 
 
a56c804
 
 
b4dba08
 
 
 
 
a56c804
b746bb6
 
6748684
f77c0a8
7e17d32
6c05acd
f77c0a8
be65985
6c05acd
 
f77c0a8
 
 
6c05acd
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f77c0a8


import os
import spacy
import gradio as gr
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import zipfile


# Percorso del file ZIP
zip_path = '/home/user/app/en_core_web_sm-3.0.0.zip'  # Assicurati che il percorso sia corretto

# Verifica se il file esiste
if os.path.exists(zip_path):
    # Directory di estrazione
    extract_dir = '/home/user/app/en_core_web_sm'  # Dove vuoi estrarre il modello
    
    # Estrai il file ZIP
    with zipfile.ZipFile(zip_path, 'r') as zip_ref:
        zip_ref.extractall(extract_dir)

    # Carica il modello Spacy
    spacy.cli.link(extract_dir, 'en_core_web_sm')
else:
    print(f"Il file {zip_path} non è stato trovato!")

# Carica il modello
nlp = spacy.load(extract_dir)
#nlp = spacy.load('en_core_web_sm')

# Carica il modello SentenceTransformer
model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2', device='cpu')

# Preprocessamento manuale (carica il manuale da un file o base di dati)
with open('testo.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# Tokenizza il testo in frasi usando SpaCy
doc = nlp(text)
sentences = [sent.text for sent in doc.sents]  # Estrarre frasi dal testo

# Crea gli embedding per il manuale
embeddings = model.encode(sentences, batch_size=8, show_progress_bar=True)

# Funzione per ottenere le frasi più rilevanti
def find_relevant_sentences(query):
    query_embedding = model.encode([query])
    similarities = cosine_similarity(query_embedding, embeddings).flatten()

    # Filtra i risultati in base alla similitudine
    threshold = 0.5
    filtered_results = [(idx, sim) for idx, sim in enumerate(similarities) if sim >= threshold]

    # Ordina i risultati per similitudine
    filtered_results.sort(key=lambda x: x[1], reverse=True)

    # Ottieni le frasi più rilevanti
    top_n = 4
    relevant_sentences = [sentences[idx] for idx, _ in filtered_results[:top_n]]
    
    return relevant_sentences

# Interfaccia Gradio
iface = gr.Interface(
    fn=find_relevant_sentences, 
    inputs=gr.Textbox(label="Insert your query"), 
    outputs=gr.Textbox(label="Relevant sentences"),
    title="Manual Querying System",
    description="Enter a question about the machine, and this tool will find the most relevant sentences from the manual."
)

# Avvia l'app Gradio
iface.launch()