# import gradio as gr

# gr.load("models/Qwen/Qwen2.5-Coder-32B-Instruct").launch()

# import gradio as gr

# # تنظیمات برای استفاده از GPU (در صورت موجود بودن)
# device = "cuda" if torch.cuda.is_available() else "cpu"

# # بارگذاری مدل با استفاده از تنظیمات بهینه
# model = gr.load(
#     "models/Qwen/Qwen2.5-Coder-32B-Instruct", 
#     device=device,  # اجرا روی GPU (یا CPU در صورت نبود GPU)
#     low_cpu_mem_usage=True  # کاهش مصرف حافظه
# )

# # اجرای رابط کاربری با بهینه‌سازی برای بازدهی بهتر
# model.launch(
#     server_name="0.0.0.0",  # قابل دسترسی از شبکه
#     server_port=7860,       # پورت مناسب برای دسترسی
#     share=True,             # اشتراک‌گذاری لینک عمومی (در صورت نیاز)
#     enable_queue=True       # صف‌بندی درخواست‌ها برای مدیریت بار
# )


import gradio as gr

# بارگذاری مدل با تنظیمات پیشرفته
model = gr.load(
    "models/Qwen/Qwen2.5-Coder-32B-Instruct",
    api_key="your_huggingface_api_key",  # اگر نیاز است
    alias="Qwen_Coder",                 # نام مستعار برای مدل
)

# ایجاد رابط کاربری با قابلیت‌های سفارشی
def code_assistant(input_code):
    return model(input_code)

# تنظیمات رابط کاربری
interface = gr.Interface(
    fn=code_assistant,
    inputs=gr.Textbox(lines=10, label="Enter your code"),
    outputs=gr.Textbox(label="Model Output"),
    title="Code Assistant",
    description="This tool uses the Qwen 2.5 Coder to assist in coding tasks.",
)

# راه‌اندازی رابط
if __name__ == "__main__":
    interface.launch(share=True)