import os import re from http import HTTPStatus from typing import Dict, List, Optional, Tuple import base64 import mimetypes import PyPDF2 import docx import cv2 import numpy as np from PIL import Image import pytesseract import requests from urllib.parse import urlparse, urljoin from bs4 import BeautifulSoup import html2text import json import time import webbrowser import urllib.parse import gradio as gr # Load API keys from environment HF_TOKEN = os.getenv("HF_TOKEN") if not HF_TOKEN: raise RuntimeError("HF_TOKEN environment variable is not set. Please set it to your Hugging Face API token.") OPENAI_API_KEY = os.getenv("OPENAI_API_KEY") if not OPENAI_API_KEY: print("Warning: OPENAI_API_KEY not set; OpenAI provider will be unavailable.") GEMINI_API_KEY = os.getenv("GEMINI_API_KEY") if not GEMINI_API_KEY: print("Warning: GEMINI_API_KEY not set; Gemini provider will be unavailable.") # Gradio supported languages for syntax highlighting GRADIO_SUPPORTED_LANGUAGES = [ "python", "c", "cpp", "markdown", "latex", "json", "html", "css", "javascript", "jinja2", "typescript", "yaml", "dockerfile", "shell", "r", "sql", "sql-msSQL", "sql-mySQL", "sql-mariaDB", "sql-sqlite", "sql-cassandra", "sql-plSQL", "sql-hive", "sql-pgSQL", "sql-gql", "sql-gpSQL", "sql-sparkSQL", "sql-esper", None ] def get_gradio_language(language): return language if language in GRADIO_SUPPORTED_LANGUAGES else None # Search/Replace Constants SEARCH_START = "<<<<<<< SEARCH" DIVIDER = "=======" REPLACE_END = ">>>>>>> REPLACE" HTML_SYSTEM_PROMPT = """ You are an expert-level front-end web developer, renowned for creating modern, clean, and fully responsive web pages. Your task is to generate complete, single-file HTML documents based on user requests. **Your Guiding Principles:** 1. **Structure is Paramount:** Employ semantic HTML5 tags (`

`, `