autoprogrammer
/

olmoe_densebackward0125_v1

autoprogrammer commited on Mar 24

Commit

22c8aa2

verified ·

1 Parent(s): 2258802

Update modeling_densebackward_olmoe0125.py

Files changed (1) hide show

modeling_densebackward_olmoe0125.py CHANGED Viewed

@@ -42,7 +42,7 @@ class DenseBackwardOlmoeSparseMoeBlock(OlmoeSparseMoeBlock):
         all_expert_outputs = torch.zeros((N_tokens, self.num_experts, hidden_dim),
                                          dtype=flat_hidden.dtype, device=flat_hidden.device)
-        for expert_idx in tqdm(range(self.num_experts), desc="密集计算-所有专家"):
             expert_layer = self.experts[expert_idx]
             # 对所有token都计算当前专家的输出
             expert_output = expert_layer(flat_hidden)  # (N_tokens, hidden_dim)

         all_expert_outputs = torch.zeros((N_tokens, self.num_experts, hidden_dim),
                                          dtype=flat_hidden.dtype, device=flat_hidden.device)
+        for expert_idx in range(self.num_experts):
             expert_layer = self.experts[expert_idx]
             # 对所有token都计算当前专家的输出
             expert_output = expert_layer(flat_hidden)  # (N_tokens, hidden_dim)