Fix awq quant (#5072)

Jintao-Huang · web-flow · commit 6285ead8db45 · 2025-07-23T13:41:14.000+08:00
diff --git a/swift/llm/dataset/data/dataset_info.json b/swift/llm/dataset/data/dataset_info.json
@@ -716,5 +716,9 @@
             "prompt": "messages"
         },
         "tags": ["docqa", "rl", "long-sequence"]
+    },
+    {
+        "ms_dataset_id": "swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT",
+        "tags": ["🔥", "distill", "sft"]
     }
 ]
diff --git a/swift/llm/export/quant.py b/swift/llm/export/quant.py
@@ -161,8 +161,9 @@ def awq_model_quantize(self) -> None:
         quantizer.get_calib_dataset = _origin_get_calib_dataset  # recover
         if self.model.quant_config.modules_to_not_convert:
             model_arch = get_model_arch(args.model_meta.model_arch)
-            lm_head_key = model_arch.lm_head or 'lm_head'
-            self.model.quant_config.modules_to_not_convert.append(lm_head_key)
+            lm_head_key = getattr(model_arch, 'lm_head', None) or 'lm_head'
+            if lm_head_key not in self.model.quant_config.modules_to_not_convert:
+                self.model.quant_config.modules_to_not_convert.append(lm_head_key)
 
     @contextmanager
     def _patch_gptq(self):
diff --git a/swift/plugin/optimizer.py b/swift/plugin/optimizer.py
@@ -76,8 +76,8 @@ def create_muon_optimizer(args: 'TrainingArguments', model, dataset):
             optim_args[key] = value
 
     model_arch = get_model_arch(model.model_meta.model_arch)
-    embed_key = model_arch.embedding or 'embed_tokens'
-    lm_head_key = model_arch.lm_head or 'lm_head'
+    embed_key = getattr(model_arch, 'embedding', None) or 'embed_tokens'
+    lm_head_key = getattr(model_arch, 'lm_head', None) or 'lm_head'
     muon_params = [
         p for n, p in model.named_parameters()
         if p.requires_grad and p.ndim >= 2 and embed_key not in n and lm_head_key not in n

Original file line number	Diff line number	Diff line change
`@@ -716,5 +716,9 @@`
`716`	`716`	`"prompt": "messages"`
`717`	`717`	`},`
`718`	`718`	`"tags": ["docqa", "rl", "long-sequence"]`
	`719`	`+ },`
	`720`	`+ {`
	`721`	`+ "ms_dataset_id": "swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT",`
	`722`	`+ "tags": ["🔥", "distill", "sft"]`
`719`	`723`	`}`
`720`	`724`	`]`