feat: support GLM 4.5 family of models

sammcj · sammcj · commit 9d6ea4123c64 · 2025-07-30T00:31:37.000+10:00
diff --git a/convert_hf_to_gguf.py b/convert_hf_to_gguf.py
@@ -6647,12 +6647,6 @@ def set_gguf_parameters(self):
     def modify_tensors(
         self, data_torch: Tensor, name: str, bid: int | None
     ) -> Iterable[tuple[str, Tensor]]:
-        # Handle layer 46 tensors - preserve all for future MTP support
-        if bid is not None and bid == 46:
-            # Convert layer 46 tensors to GGUF naming but don't try to map them
-            new_name = name.replace("model.layers.", "blk.")
-            return [(new_name, data_torch)]
-
         if name.startswith("model.visual."):  # ignore visual part
             return []
         elif name.startswith("model.language_model."):
@@ -6662,14 +6656,18 @@ def modify_tensors(
         if name == "model.embed_tokens.weight":
             return [(self.map_tensor_name("token_embd.weight"), data_torch)]
 
-        # Handle routed experts (skip for NextN layer 46)
-        if name.find("mlp.experts") != -1 and "shared_experts" not in name and bid != 46:
+        # Handle routed experts
+        if name.find("mlp.experts") != -1 and "shared_experts" not in name:
             n_experts = self.hparams["n_routed_experts"]
             assert bid is not None
 
             if self._experts is None:
                 self._experts = [{} for _ in range(self.block_count)]
 
+            # Extend experts array if needed (for models where actual layers > num_hidden_layers)
+            while len(self._experts) <= bid:
+                self._experts.append({})
+
             self._experts[bid][name] = data_torch
 
             if len(self._experts[bid]) >= n_experts * 3:
@@ -6705,11 +6703,22 @@ def modify_tensors(
             new_name = name.replace("model.layers.", "blk.").replace(
                 ".mlp.gate.e_score_correction_bias", ".ffn_gate_inp.bias"
             )
-            return [(self.map_tensor_name(new_name), data_torch)]
+            return [(new_name, data_torch)]
+        elif ".mlp.gate.weight" in name:
+            new_name = name.replace("model.layers.", "blk.").replace(
+                ".mlp.gate.weight", ".ffn_gate_inp.weight"
+            )
+            return [(new_name, data_torch)]
 
         # Handle shared expert tensors
-        if ".mlp.ffn_" in name and "_shexp" in name:
-            new_name = name.replace("model.layers.", "blk.")
+        if ".mlp.shared_experts." in name:
+            new_name = name.replace("model.layers.", "blk.").replace(".mlp.shared_experts.", ".ffn_")
+            if "gate_proj" in new_name:
+                new_name = new_name.replace("gate_proj", "gate_shexp")
+            elif "down_proj" in new_name:
+                new_name = new_name.replace("down_proj", "down_shexp")
+            elif "up_proj" in new_name:
+                new_name = new_name.replace("up_proj", "up_shexp")
             return [(new_name, data_torch)]
 
         # Handle regular dense FFN layers (for hybrid dense/MoE architecture)
@@ -6738,8 +6747,27 @@ def modify_tensors(
             or ".enorm." in name
             or ".hnorm." in name
         ):
-            # For NextN tensors, convert to GGUF naming convention
-            new_name = name.replace("model.layers.", "blk.").replace("model.", "")
+            new_name = name.replace("model.layers.", "blk.").replace("model.", "").replace(".weight", "")
+            return [(new_name, data_torch)]
+
+        # GLM tensor mapping - handle directly without map_tensor_name
+        if ".input_layernorm." in name:
+            new_name = name.replace("model.layers.", "blk.").replace(".input_layernorm.", ".attn_norm.")
+            return [(new_name, data_torch)]
+        elif ".post_attention_layernorm." in name:
+            new_name = name.replace("model.layers.", "blk.").replace(".post_attention_layernorm.", ".ffn_norm.")
+            return [(new_name, data_torch)]
+        elif ".self_attn." in name:
+            # Map GLM self_attn to standard attention naming
+            new_name = name.replace("model.layers.", "blk.").replace(".self_attn.", ".attn_")
+            if "q_proj" in new_name:
+                new_name = new_name.replace("q_proj", "q")
+            elif "k_proj" in new_name:
+                new_name = new_name.replace("k_proj", "k")
+            elif "v_proj" in new_name:
+                new_name = new_name.replace("v_proj", "v")
+            elif "o_proj" in new_name:
+                new_name = new_name.replace("o_proj", "output")
             return [(new_name, data_torch)]
 
         return super().modify_tensors(data_torch, name, bid)