Crystalcareai
/

Quiet-Star-Custom

Text Generation

Model card Files Files and versions Community

Crystalcareai commited on Mar 31, 2024

Commit

7530909

·

verified ·

1 Parent(s): da4fa77

Update modeling_quiet.py

Files changed (1) hide show

modeling_quiet.py +2 -1

modeling_quiet.py CHANGED Viewed

@@ -136,7 +136,6 @@ def save_tokens_with_rewards_to_pdf(input_ids, token_rewards, tokenizer, output_
     c.save()
-# Copied from transformers.models.llama.modeling_llama._get_unpad_data
 def _get_unpad_data(attention_mask):
     seqlens_in_batch = attention_mask.sum(dim=-1, dtype=torch.int32)
@@ -148,6 +147,8 @@ def _get_unpad_data(attention_mask):
     else:
         max_seqlen_in_batch = seqlens_in_batch.max().item()
     cu_seqlens = torch.cat([torch.zeros(1, dtype=torch.int32, device=attention_mask.device), seqlens_in_batch.cumsum(dim=0)])
     return indices, cu_seqlens, max_seqlen_in_batch

     c.save()
 def _get_unpad_data(attention_mask):
     seqlens_in_batch = attention_mask.sum(dim=-1, dtype=torch.int32)
     else:
         max_seqlen_in_batch = seqlens_in_batch.max().item()
+    # Ensure seqlens_in_batch has the correct shape before cumulative sum
+    seqlens_in_batch = seqlens_in_batch.view(-1)
     cu_seqlens = torch.cat([torch.zeros(1, dtype=torch.int32, device=attention_mask.device), seqlens_in_batch.cumsum(dim=0)])
     return indices, cu_seqlens, max_seqlen_in_batch