HF_Agents_Final_Assignment

Build error

App Files Files Community

leofltt commited on Jun 17

Commit

4489283

1 Parent(s): b795696

qwen season

Browse files

Files changed (2) hide show

app.py +25 -40
requirements.txt +15 -11

app.py CHANGED Viewed

@@ -1,20 +1,16 @@
 import os
 import gradio as gr
 import requests
-import inspect
 import pandas as pd
-from llama_index import VectorStoreIndex, SimpleDirectoryReader, Document
-from llama_index.llms import HuggingFaceLLM
-from llama_index import ServiceContext
-from llama_index.embeddings import HuggingFaceEmbedding
 from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
-import torch
 from dotenv import load_dotenv
 from typing import Optional, Dict, Any
-import yt_dlp
-from transformers import AutoProcessor, AutoModelForVision2Seq
 from PIL import Image
 import re
 # (Keep Constants as is)
 # --- Constants ---
@@ -28,51 +24,40 @@ class BasicAgent:
         print("BasicAgent initialized.")
         load_dotenv()
-        # Use official Mistral model
-        model_name = "mistralai/Mixtral-8x7B-Instruct-v0.2"  # or "mistralai/Mistral-7B-Instruct-v0.2"
-        # Configure quantization for efficient CPU usage
         quantization_config = BitsAndBytesConfig(
-            load_in_8bit=True,  # 8-bit is more CPU friendly than 4-bit
-            bnb_4bit_compute_dtype=torch.float16,
         )
-        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
         self.model = AutoModelForCausalLM.from_pretrained(
             model_name,
-            low_cpu_mem_usage=True,
-            trust_remote_code=True,
-            quantization_config=quantization_config,
-        )
-        # Create HuggingFaceLLM instance
-        self.llm = HuggingFaceLLM(
-            context_window=4096,
-            max_new_tokens=512,
-            tokenizer=self.tokenizer,
-            model=self.model,
-            model_name=model_name,
             device_map="auto",
-            temperature=0.1,
         )
-        # Initialize vision model for image/video understanding
-        self.vision_processor = AutoProcessor.from_pretrained(
-            "microsoft/kosmos-2-patch14-224"
-        )
         self.vision_model = AutoModelForVision2Seq.from_pretrained(
-            "microsoft/kosmos-2-patch14-224"
         )
-        # Initialize tools
-        self.tools = {
-            "analyze_image": self.analyze_image,
-            "analyze_video": self.analyze_video,
-            "analyze_data": self.analyze_data,
-        }
         print("Agent initialized with multimodal capabilities.")
     def analyze_image(self, image_url: str) -> str:
         try:
             response = requests.get(image_url)
@@ -165,7 +150,7 @@ class BasicAgent:
                 return self.analyze_image(image_match.group(0))
             # General question
-            return self.generate_response(question)
         except Exception as e:
             print(f"Error processing question: {e}")

 import os
 import gradio as gr
 import requests
 import pandas as pd
 from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
+from transformers import AutoProcessor, AutoModelForVision2Seq
 from dotenv import load_dotenv
 from typing import Optional, Dict, Any
 from PIL import Image
+import yt_dlp
+import torch
 import re
+from io import BytesIO
 # (Keep Constants as is)
 # --- Constants ---
         print("BasicAgent initialized.")
         load_dotenv()
+        # Initialize model and tokenizer using Qwen
+        model_name = "Qwen/Qwen-7B-Chat"  # Changed to Qwen
+        # Configure quantization
         quantization_config = BitsAndBytesConfig(
+            load_in_8bit=True, bnb_4bit_compute_dtype=torch.float16
         )
+        self.tokenizer = AutoTokenizer.from_pretrained(
+            model_name, trust_remote_code=True  # Required for Qwen
+        )
         self.model = AutoModelForCausalLM.from_pretrained(
             model_name,
             device_map="auto",
+            quantization_config=quantization_config,
+            trust_remote_code=True,
         )
+        # Initialize vision model
+        vision_model_name = "microsoft/kosmos-2-patch14-224"
+        self.vision_processor = AutoProcessor.from_pretrained(vision_model_name)
         self.vision_model = AutoModelForVision2Seq.from_pretrained(
+            vision_model_name, device_map="auto", trust_remote_code=True
         )
         print("Agent initialized with multimodal capabilities.")
+    def generate_text(self, prompt: str) -> str:
+        inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)
+        outputs = self.model.generate(
+            **inputs, max_new_tokens=512, temperature=0.1, do_sample=True
+        )
+        return self.tokenizer.decode(outputs[0], skip_special_tokens=True)
     def analyze_image(self, image_url: str) -> str:
         try:
             response = requests.get(image_url)
                 return self.analyze_image(image_match.group(0))
             # General question
+            return self.generate_text(question)
         except Exception as e:
             print(f"Error processing question: {e}")

requirements.txt CHANGED Viewed

@@ -1,12 +1,16 @@
-gradio
-requests
-llama-index
-transformers>=4.36.0
-python-dotenv
-torch
-sentence-transformers
-nltk
-accelerate
-bitsandbytes>=0.41.0
 yt-dlp
-Pillow

+gradio~=4.44.0
+numpy<2.0.0
+requests==2.31.0
+transformers
+python-dotenv==1.0.0
+torch==2.2.0
+sentence-transformers==2.3.1
+nltk==3.8.1
+accelerate==0.27.2
+bitsandbytes==0.41.0
 yt-dlp
+Pillow==10.2.0
+pandas==2.1.4
+gradio[oauth]
+transformers_stream_generator
+einops