LanguageBind
/

UniWorld-V1

+{
+  "architectures": [
+    "UnivaQwen2p5VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "decay": 0.999,
+  "denoise_tower": {
+    "_attn_implementation_autoset": true,
+    "denoise_projector_type": "mlp2x_gelu",
+    "denoiser_config": {
+      "_class_name": "FluxTransformer2DModel",
+      "_diffusers_version": "0.30.0.dev0",
+      "_name_or_path": "../checkpoints/flux-dev/transformer",
+      "attention_head_dim": 128,
+      "guidance_embeds": true,
+      "in_channels": 64,
+      "joint_attention_dim": 4096,
+      "num_attention_heads": 24,
+      "num_layers": 19,
+      "num_single_layers": 38,
+      "patch_size": 1,
+      "pooled_projection_dim": 768
+    },
+    "denoiser_type": "flux",
+    "input_hidden_size": 3584,
+    "model_type": "univa_denoise_tower",
+    "output_hidden_size": 4096,
+    "torch_dtype": "float32",
+    "vae_input_hidden_size": 64,
+    "vae_projector_type": "mlp2x_gelu"
+  },
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_begin_token_id": 151652,
+  "image_end_token_id": 151653,
+  "image_token_id": 151655,
+  "image_token_length": null,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "inv_gamma": 1.0,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 28,
+  "min_decay": 0.0,
+  "model_type": "univa_qwen2p5vl",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "optimization_step": 40000,
+  "power": 0.6666666666666666,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "shortcut_image_embeds": false,
+  "shortcut_image_embeds_scale": 0.5,
+  "shortcut_projector_type": null,
+  "sliding_window": 32768,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.0",
+  "update_after_step": 0,
+  "use_cache": true,
+  "use_ema_warmup": false,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 3584,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "float32",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 152064
+}