tomg-group-umd
/

step-00006144-recurrence_full_512_0

@@ -11,7 +11,7 @@ from .raven_config_minimal import RavenConfig
 from transformers.cache_utils import Cache, DynamicCache
 ###################### Huggingface Glue code I ##################################################################
-from transformers import PreTrainedModel
 from transformers.utils import ModelOutput
 from transformers.generation.utils import GenerateDecoderOnlyOutput
@@ -32,7 +32,8 @@ class RavenPreTrainedModel(PreTrainedModel):
     _supports_static_cache = False
     def _init_weights(self, module):
-        print("Random Initialization not implemented.")
 @dataclass
@@ -309,7 +310,7 @@ class SandwichBlock(torch.nn.Module):
         return x, attn_map
-class RavenForCausalLM(RavenPreTrainedModel):
     def __init__(
         self,
         config: RavenConfig,
@@ -367,7 +368,7 @@ class RavenForCausalLM(RavenPreTrainedModel):
             "return_latents": True,
             "return_attention": False,
             "return_head": False,
-            "return_stats": True,
         },
         use_cache: bool = False,
         cache_position: Optional[torch.Tensor] = None,
@@ -395,7 +396,7 @@ class RavenForCausalLM(RavenPreTrainedModel):
         # Non-recurrent prelude
         for block_idx, block in enumerate(self.transformer.prelude):
             input_embeds, attn_map = block(
-                input_embeds, freqs_cis, block_idx, attention_mask, past_key_values, return_attn
             )
             attn_maps[block_idx] = attn_map
@@ -409,12 +410,13 @@ class RavenForCausalLM(RavenPreTrainedModel):
             past_key_values,
             num_steps,
             attn_maps,
         )
         latent_states = x.clone().detach()
         # Coda layers
         for block_idx, block in enumerate(self.transformer.coda, start=1):
-            x, attn_map = block(x, freqs_cis, -block_idx, attention_mask, past_key_values, return_attn)
             attn_maps[-block_idx] = attn_map
         x = self.transformer.ln_f(x)
@@ -451,6 +453,7 @@ class RavenForCausalLM(RavenPreTrainedModel):
         past_key_values: Optional[Cache] = None,
         num_steps: Optional[torch.Tensor] = None,
         attn_maps: dict = {},
     ):
         x = xk = self.initialize_state(input_embeds) if input_states is None else input_states.clone()
         if num_steps is None:
@@ -468,13 +471,13 @@ class RavenForCausalLM(RavenPreTrainedModel):
             for step in range(num_steps_no_grad):
                 xk = x
                 x, block_idx, attn_maps = self.core_block_forward(
-                    xk, input_embeds, freqs_cis, mask, past_key_values, block_idx, attn_maps
                 )
         for step in range(num_steps_with_grad):
             xk = x
             x, block_idx, attn_maps = self.core_block_forward(
-                xk, input_embeds, freqs_cis, mask, past_key_values, block_idx, attn_maps
             )
         return self.transformer.ln_f(x), num_steps_no_grad, num_steps_with_grad, xk.detach(), block_idx, attn_maps
@@ -487,10 +490,11 @@ class RavenForCausalLM(RavenPreTrainedModel):
         past_key_values,
         block_idx: Union[torch.Tensor, int],
         attn_maps: dict = {},
     ):
         x = self.transformer.adapter(torch.cat([x, input_embeds], dim=-1))
         for idx, block in enumerate(self.transformer.core_block, start=1):
-            x, attn_map = block(x, freqs_cis, block_idx + idx, mask, past_key_values, return_attn=len(attn_maps) > 0)
             attn_maps[block_idx + idx] = attn_map
         return x, block_idx + idx, attn_maps
@@ -623,7 +627,7 @@ class RavenForCausalLM(RavenPreTrainedModel):
         model_inputs["cache_position"] = cache_position
         current_input_length = input_ids.shape[1]
         if past_key_values is not None:
-            if type(past_key_values) == DynamicCache:
                 # Need to use custom cache, detect and replace HF dynamic cache if generate injects it
                 assert past_key_values.get_seq_length() == 0
                 past_key_values = HuginnDynamicCache()
@@ -643,6 +647,18 @@ class RavenForCausalLM(RavenPreTrainedModel):
                 model_inputs[key] = value
         return model_inputs
     @torch.no_grad()
     def generate_minimal(
         self,
@@ -788,37 +804,35 @@ class RavenForCausalLM(RavenPreTrainedModel):
                 raise ValueError("Invalid adaptive compute strategy.")
             all_latents = []
-            exit_value = float("NaN")
-            for compute_step in range(1, model_inputs["num_steps"]):
                 prev_latents = current_latents.clone()
                 current_latents, block_idx, _ = self.iterate_one_step(
                     embedded_inputs, current_latents, block_idx=block_idx, **aux_inputs
                 )
                 all_latents.append(current_latents if latent_dampening else None)
-                if compute_step > 1 and step > 0:  # do not exit in prefill:
                     if criterion == "entropy-diff":
                         prev_entropy = entropy.clone()
                         outputs = self.predict_from_latents(current_latents, **aux_inputs)
                         probs = F.softmax(outputs.logits[:, -1, :], dim=-1)  # type: ignore
                         entropy = -torch.sum(probs * torch.log(probs + 1e-10), dim=-1).mean()
-                        entropy_diff = exit_value = (entropy - prev_entropy).abs()
                         if entropy_diff < exit_threshold:
-                            compute_steps.append([compute_step, entropy_diff.item()])
                             break
                     elif criterion == "latent-diff":
-                        norm_diff = exit_value = (prev_latents - current_latents).norm() / current_latents.norm()
                         if norm_diff < exit_threshold:
-                            compute_steps.append([compute_step, norm_diff.item()])
                             break
                     elif criterion == "kl":
                         prev_log_probs = log_probs.clone()
                         outputs = self.predict_from_latents(current_latents, **aux_inputs)
                         log_probs = F.log_softmax(outputs.logits[:, -1, :], dim=-1)  # type: ignore
-                        kl = exit_value = F.kl_div(log_probs, prev_log_probs, reduction="none", log_target=True).sum(
-                            dim=-1
-                        )
                         if kl < exit_threshold:
-                            compute_steps.append([compute_step, kl.item()])
                             break
                     elif criterion == "minp-kl":
                         prev_log_probs = log_probs.clone()
@@ -827,33 +841,31 @@ class RavenForCausalLM(RavenPreTrainedModel):
                         probs[probs < 0.1 * probs.max()] = 1 / V
                         probs = probs / probs.sum()
                         log_probs = probs.log()
-                        kl = exit_value = F.kl_div(log_probs, prev_log_probs, reduction="none", log_target=True).sum(
-                            dim=-1
-                        )
                         if kl < exit_threshold:
-                            compute_steps.append([compute_step, kl.item()])
                             break
                     elif criterion == "argmax-stability":
                         prev_argmax = current_argmax.clone()
                         outputs = self.predict_from_latents(current_latents, **aux_inputs)
-                        current_argmax = exit_value = outputs.logits[0, -1, :].argmax(dim=-1)  # type: ignore
                         if current_argmax == prev_argmax:
                             stable_for_n_steps += 1
                         else:
                             stable_for_n_steps = 0
                         if stable_for_n_steps >= exit_threshold:
-                            compute_steps.append([compute_step, stable_for_n_steps])
                             break
                     elif criterion == "none":
                         pass
             else:
-                compute_steps.append([compute_step, exit_value])
                 if not latent_dampening:
                     outputs = self.predict_from_latents(current_latents, **aux_inputs)
                 else:
                     dampened_latents = torch.sum(torch.cat(all_latents, dim=0), dim=0, keepdim=True)
                     outputs = self.predict_from_latents(dampened_latents, **aux_inputs)
             next_token_logits = outputs.logits[0, -1, :]  # type: ignore
             if continuous_compute:  # Save last latent

 from transformers.cache_utils import Cache, DynamicCache
 ###################### Huggingface Glue code I ##################################################################
+from transformers import PreTrainedModel, GenerationMixin
 from transformers.utils import ModelOutput
 from transformers.generation.utils import GenerateDecoderOnlyOutput
     _supports_static_cache = False
     def _init_weights(self, module):
+        if not torch.rand((1,)).is_meta:
+            print("Random Initialization not implemented.")
 @dataclass
         return x, attn_map
+class RavenForCausalLM(RavenPreTrainedModel, GenerationMixin):
     def __init__(
         self,
         config: RavenConfig,
             "return_latents": True,
             "return_attention": False,
             "return_head": False,
+            "return_stats": False,
         },
         use_cache: bool = False,
         cache_position: Optional[torch.Tensor] = None,
         # Non-recurrent prelude
         for block_idx, block in enumerate(self.transformer.prelude):
             input_embeds, attn_map = block(
+                input_embeds, freqs_cis, block_idx, attention_mask, past_key_values, return_attn=return_attn
             )
             attn_maps[block_idx] = attn_map
             past_key_values,
             num_steps,
             attn_maps,
+            return_attn=return_attn,
         )
         latent_states = x.clone().detach()
         # Coda layers
         for block_idx, block in enumerate(self.transformer.coda, start=1):
+            x, attn_map = block(x, freqs_cis, -block_idx, attention_mask, past_key_values, return_attn=return_attn)
             attn_maps[-block_idx] = attn_map
         x = self.transformer.ln_f(x)
         past_key_values: Optional[Cache] = None,
         num_steps: Optional[torch.Tensor] = None,
         attn_maps: dict = {},
+        return_attn: bool = False,
     ):
         x = xk = self.initialize_state(input_embeds) if input_states is None else input_states.clone()
         if num_steps is None:
             for step in range(num_steps_no_grad):
                 xk = x
                 x, block_idx, attn_maps = self.core_block_forward(
+                    xk, input_embeds, freqs_cis, mask, past_key_values, block_idx, attn_maps, return_attn
                 )
         for step in range(num_steps_with_grad):
             xk = x
             x, block_idx, attn_maps = self.core_block_forward(
+                xk, input_embeds, freqs_cis, mask, past_key_values, block_idx, attn_maps, return_attn
             )
         return self.transformer.ln_f(x), num_steps_no_grad, num_steps_with_grad, xk.detach(), block_idx, attn_maps
         past_key_values,
         block_idx: Union[torch.Tensor, int],
         attn_maps: dict = {},
+        return_attn: bool = False,
     ):
         x = self.transformer.adapter(torch.cat([x, input_embeds], dim=-1))
         for idx, block in enumerate(self.transformer.core_block, start=1):
+            x, attn_map = block(x, freqs_cis, block_idx + idx, mask, past_key_values, return_attn=return_attn)
             attn_maps[block_idx + idx] = attn_map
         return x, block_idx + idx, attn_maps
         model_inputs["cache_position"] = cache_position
         current_input_length = input_ids.shape[1]
         if past_key_values is not None:
+            if type(past_key_values) != HuginnDynamicCache:
                 # Need to use custom cache, detect and replace HF dynamic cache if generate injects it
                 assert past_key_values.get_seq_length() == 0
                 past_key_values = HuginnDynamicCache()
                 model_inputs[key] = value
         return model_inputs
+    @torch.no_grad()
+    def generate(self, *args, **kwargs):
+        """Dispatcher - use HF generate in all normal cases."""
+        if any(
+            k in kwargs
+            for k in ("continuous_compute", "latent_dampening", "criterion", "exit_threshold", "cache_kwargs")
+        ):
+            print("Dispatching to custom generate function call")
+            return self.generate_with_adaptive_compute(*args, **kwargs)
+        else:
+            return super().generate(*args, **kwargs)
     @torch.no_grad()
     def generate_minimal(
         self,
                 raise ValueError("Invalid adaptive compute strategy.")
             all_latents = []
+            exit_values = []
+            for compute_step in range(model_inputs["num_steps"]):
                 prev_latents = current_latents.clone()
                 current_latents, block_idx, _ = self.iterate_one_step(
                     embedded_inputs, current_latents, block_idx=block_idx, **aux_inputs
                 )
                 all_latents.append(current_latents if latent_dampening else None)
+                if step > 0:  # do not exit in prefill:
                     if criterion == "entropy-diff":
                         prev_entropy = entropy.clone()
                         outputs = self.predict_from_latents(current_latents, **aux_inputs)
                         probs = F.softmax(outputs.logits[:, -1, :], dim=-1)  # type: ignore
                         entropy = -torch.sum(probs * torch.log(probs + 1e-10), dim=-1).mean()
+                        entropy_diff = (entropy - prev_entropy).abs()
+                        exit_values.append(entropy_diff.item())
                         if entropy_diff < exit_threshold:
                             break
                     elif criterion == "latent-diff":
+                        norm_diff = (prev_latents - current_latents).norm() / current_latents.norm()
+                        exit_values.append(norm_diff.item())
                         if norm_diff < exit_threshold:
                             break
                     elif criterion == "kl":
                         prev_log_probs = log_probs.clone()
                         outputs = self.predict_from_latents(current_latents, **aux_inputs)
                         log_probs = F.log_softmax(outputs.logits[:, -1, :], dim=-1)  # type: ignore
+                        kl = F.kl_div(log_probs, prev_log_probs, reduction="none", log_target=True).sum(dim=-1)
+                        exit_values.append(kl.item())
                         if kl < exit_threshold:
                             break
                     elif criterion == "minp-kl":
                         prev_log_probs = log_probs.clone()
                         probs[probs < 0.1 * probs.max()] = 1 / V
                         probs = probs / probs.sum()
                         log_probs = probs.log()
+                        kl = F.kl_div(log_probs, prev_log_probs, reduction="none", log_target=True).sum(dim=-1)
+                        exit_values.append(kl.item())
                         if kl < exit_threshold:
                             break
                     elif criterion == "argmax-stability":
                         prev_argmax = current_argmax.clone()
                         outputs = self.predict_from_latents(current_latents, **aux_inputs)
+                        current_argmax = outputs.logits[0, -1, :].argmax(dim=-1)  # type: ignore
                         if current_argmax == prev_argmax:
                             stable_for_n_steps += 1
                         else:
                             stable_for_n_steps = 0
+                        exit_values.append(stable_for_n_steps)
                         if stable_for_n_steps >= exit_threshold:
                             break
                     elif criterion == "none":
                         pass
             else:
                 if not latent_dampening:
                     outputs = self.predict_from_latents(current_latents, **aux_inputs)
                 else:
                     dampened_latents = torch.sum(torch.cat(all_latents, dim=0), dim=0, keepdim=True)
                     outputs = self.predict_from_latents(dampened_latents, **aux_inputs)
+            compute_steps.append([compute_step + 1, exit_values])
             next_token_logits = outputs.logits[0, -1, :]  # type: ignore
             if continuous_compute:  # Save last latent