Spaces:

prithivMLmods
/

Gemma-3-Multimodal

Running on Zero

App Files Files Community

prithivMLmods commited on 14 days ago

Commit

a90631f

verified ·

1 Parent(s): ba4faf6

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -9

app.py CHANGED Viewed

@@ -53,7 +53,7 @@ def progress_bar_html(label: str) -> str:
 # TEXT & TTS MODELS
-model_id = "prithivMLmods/FastThink-0.5B-Tiny"
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
@@ -153,7 +153,7 @@ def save_image(img: Image.Image) -> str:
 # GEMMA3-4B MULTIMODAL MODEL
-gemma3_model_id = "google/gemma-3-12b-it" #alter google/gemma-3-4b-it
 gemma3_model = Gemma3ForConditionalGeneration.from_pretrained(
     gemma3_model_id, device_map="auto"
 ).eval()
@@ -233,13 +233,13 @@ def generate(
         return
     # GEMMA3-4B TEXT & MULTIMODAL (image) Branch
-    if lower_text.startswith("@gemma3-12b"):
         # If it is video, let the dedicated branch handle it.
         if lower_text.startswith("@video-infer"):
             pass  # video branch is handled below.
         else:
             # Remove the gemma3 flag from the prompt.
-            prompt_clean = re.sub(r"@gemma3-12b", "", text, flags=re.IGNORECASE).strip().strip('"')
             if files:
                 # If image files are provided, load them.
                 images = [load_image(f) for f in files]
@@ -275,7 +275,7 @@ def generate(
             thread = Thread(target=gemma3_model.generate, kwargs=generation_kwargs)
             thread.start()
             buffer = ""
-            yield progress_bar_html("Processing with Gemma3-12b")
             for new_text in streamer:
                 buffer += new_text
                 time.sleep(0.01)
@@ -326,7 +326,7 @@ def generate(
         thread = Thread(target=gemma3_model.generate, kwargs=generation_kwargs)
         thread.start()
         buffer = ""
-        yield progress_bar_html("Processing video with Gemma3-12b")
         for new_text in streamer:
             buffer += new_text
             time.sleep(0.01)
@@ -414,7 +414,7 @@ demo = gr.ChatInterface(
         gr.Slider(label="Repetition penalty", minimum=1.0, maximum=2.0, step=0.05, value=1.2),
     ],
     examples=[
-        [{"text": "@gemma3-12b Explain the Image", "files": ["examples/3.jpg"]}],
         [{"text": "@video-infer Explain the content of the Advertisement", "files": ["examples/videoplayback.mp4"]}],
         [{"text": "@video-infer Explain the content of the video in detail", "files": ["examples/breakfast.mp4"]}],
         [{"text": "@video-infer Describe the video", "files": ["examples/Missing.mp4"]}],
@@ -429,9 +429,9 @@ demo = gr.ChatInterface(
     ],
     cache_examples=False,
     type="messages",
-    description="# **Gemma 3 `@gemma3-12b, @video-infer for video understanding`**",
     fill_height=True,
-    textbox=gr.MultimodalTextbox(label="Query Input", file_types=["image", "video"], file_count="multiple", placeholder="@gemma3-12b for multimodal, @video-infer for video, @lightningv5 for image gen !"),
     stop_btn="Stop Generation",
     multimodal=True,
 )

 # TEXT & TTS MODELS
+model_id = "google/gemma-3-1b-it" #alter prithivMLmods/FastThink-0.5B-Tiny
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
 # GEMMA3-4B MULTIMODAL MODEL
+gemma3_model_id = "google/gemma-3-4b-it" #alter google/gemma-3-12b-it
 gemma3_model = Gemma3ForConditionalGeneration.from_pretrained(
     gemma3_model_id, device_map="auto"
 ).eval()
         return
     # GEMMA3-4B TEXT & MULTIMODAL (image) Branch
+    if lower_text.startswith("@gemma3"):
         # If it is video, let the dedicated branch handle it.
         if lower_text.startswith("@video-infer"):
             pass  # video branch is handled below.
         else:
             # Remove the gemma3 flag from the prompt.
+            prompt_clean = re.sub(r"@gemma3", "", text, flags=re.IGNORECASE).strip().strip('"')
             if files:
                 # If image files are provided, load them.
                 images = [load_image(f) for f in files]
             thread = Thread(target=gemma3_model.generate, kwargs=generation_kwargs)
             thread.start()
             buffer = ""
+            yield progress_bar_html("Processing with Gemma3")
             for new_text in streamer:
                 buffer += new_text
                 time.sleep(0.01)
         thread = Thread(target=gemma3_model.generate, kwargs=generation_kwargs)
         thread.start()
         buffer = ""
+        yield progress_bar_html("Processing video with Gemma3")
         for new_text in streamer:
             buffer += new_text
             time.sleep(0.01)
         gr.Slider(label="Repetition penalty", minimum=1.0, maximum=2.0, step=0.05, value=1.2),
     ],
     examples=[
+        [{"text": "@gemma3 Explain the Image", "files": ["examples/3.jpg"]}],
         [{"text": "@video-infer Explain the content of the Advertisement", "files": ["examples/videoplayback.mp4"]}],
         [{"text": "@video-infer Explain the content of the video in detail", "files": ["examples/breakfast.mp4"]}],
         [{"text": "@video-infer Describe the video", "files": ["examples/Missing.mp4"]}],
     ],
     cache_examples=False,
     type="messages",
+    description="# **Gemma 3 `@gemma3, @video-infer for video understanding`**",
     fill_height=True,
+    textbox=gr.MultimodalTextbox(label="Query Input", file_types=["image", "video"], file_count="multiple", placeholder="@gemma3 for multimodal, @video-infer for video, @lightningv5 for image gen !"),
     stop_btn="Stop Generation",
     multimodal=True,
 )