Spaces:

mostafa202025
/

Docx-FAISS

Sleeping

mostafa202025 commited on 13 days ago

Commit

3155e02

verified ·

1 Parent(s): 4f2a10b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,25 +1,33 @@
-from transformers import AutoConfig, AutoTokenizer, TFAutoModel
-# بارگذاری تنظیمات، توکنایزر و مدل
-config = AutoConfig.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
-tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
-model = TFAutoModel.from_pretrained("HooshvareLab/bert-fa-zwnj-base")
-# متن فارسی
-text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
-# توکنایز کردن متن
-tokens = tokenizer.tokenize(text)
-print("Tokens:", tokens)
-# تبدیل متن به ورودی مدل
-inputs = tokenizer(text, return_tensors="tf", padding=True, truncation=True)
-# عبور داده‌ها از مدل
-outputs = model(**inputs)
-# استخراج بردارهای embedding
-embeddings = outputs.last_hidden_state
-# نمایش اطلاعات
-print("Shape of embeddings:", embeddings.shape)

+import gradio as gr
+from transformers import AutoTokenizer, AutoModel
+# Load the tokenizer and model for Persian
+tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-fa-base-uncased")
+model = AutoModel.from_pretrained("HooshvareLab/bert-fa-base-uncased")
+def get_embedding(text):
+    # Tokenize the input text
+    tokens = tokenizer.tokenize(text)
+    # Encode the input text to get embeddings
+    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
+    outputs = model(**inputs)
+    # Extract the [CLS] token embedding (first token in output)
+    cls_embedding = outputs.last_hidden_state[:, 0, :].detach().numpy().tolist()
+    # Return embeddings and tokenized text
+    return {"embedding": cls_embedding, "tokens": tokens}
+# Create Gradio interface
+iface = gr.Interface(
+    fn=get_embedding,
+    inputs=gr.Textbox(lines=2, placeholder="متن خود را وارد کنید..."),
+    outputs="json",
+    title="مدل فارسی با Transformers",
+    description="متن فارسی را وارد کنید تا توکن‌ها و بردار embedding آن را دریافت کنید."
+)
+# Launch app
+if __name__ == "__main__":
+    iface.launch()