feat: add deepseek-ai/DeepSeek-R1-0528-Qwen3-8B (#143)

yanbasic · web-flow · commit 4329fce52d0d · 2025-07-07T14:00:56.000+08:00
* feat: add deepseek-ai/DeepSeek-R1-0528-Qwen3-8B

* feat: update support models

* feat: update vllm versions
diff --git a/docs/en/supported_models.md b/docs/en/supported_models.md
@@ -48,6 +48,7 @@
 | deepseek-r1-671b-2.51bit_gguf        | deepseek reasoning model | llm         | g5.12xlarge,g5.16xlarge,g5.24xlarge,g5.48xlarge,g6.12xlarge,g6.16xlarge,g6.24xlarge,g6.48xlarge,g6e.8xlarge,g6e.12xlarge,g6e.16xlarge,g6e.24xlarge,g6e.48xlarge                                   | sagemaker_realtime,sagemaker_async,ecs | ✅                     |
 | DeepSeek-R1                          | deepseek reasoning model | llm         |                                                                                                                                                                                                   |                                        | ✅                     |
 | deepseek-r1-671b-4bit_gguf           | deepseek reasoning model | llm         | g5.24xlarge,g5.48xlarge,g6.24xlarge,g6.48xlarge,g6e.16xlarge,g6e.24xlarge,g6e.48xlarge                                                                                                            | sagemaker_realtime,sagemaker_async,ecs | ✅                     |
+| DeepSeek-R1-0528-Qwen3-8B            | deepseek reasoning model | llm         | g5.xlarge,g5.2xlarge,g5.4xlarge,g5.8xlarge                                                                                                                                                        | sagemaker_realtime,sagemaker_async,ecs | ✅                     |
 | deepseek-v3-UD-IQ1_M_ollama          | deepseek v3              | llm         | g5.48xlarge                                                                                                                                                                                       | sagemaker_realtime,sagemaker_async,ecs | ❎                     |
 | Baichuan-M1-14B-Instruct             | baichuan                 | llm         | g5.12xlarge,g5.24xlarge,g5.48xlarge                                                                                                                                                               | sagemaker_realtime,sagemaker_async,ecs | ✅                     |
 | ReaderLM-v2                          | jina                     | llm         | g4dn.2xlarge,g5.2xlarge,g5.4xlarge,g5.8xlarge,g5.16xlarge,inf2.8xlarge                                                                                                                            | sagemaker_realtime,sagemaker_async,ecs | ✅                     |
diff --git a/src/emd/models/engines.py b/src/emd/models/engines.py
@@ -118,6 +118,13 @@ class KtransformersEngine(OpenAICompitableEngine):
             "default_cli_args": "--max_num_seq 256 --max_model_len 16000 --chat-template emd/models/chat_templates/deepseek_r1_distill.jinja"
 })
 
+vllm_deepseek_r1_distill_qwen_engine085 = VllmEngine(**{
+            **vllm_engine064.model_dump(),
+            "engine_dockerfile_config": {"VERSION":"v0.8.5"},
+            "default_cli_args": "--max_num_seq 256 --max_model_len 16000 --chat-template emd/models/chat_templates/deepseek_r1_distill.jinja"
+})
+
+
 vllm_deepseek_r1_distill_llama_engine071 = vllm_deepseek_r1_distill_qwen_engine071
 
 vllm_deepseek_r1_engine084 = VllmEngine(**{
diff --git a/src/emd/models/llms/deepseek.py b/src/emd/models/llms/deepseek.py
@@ -1,6 +1,7 @@
 from .. import Model
 from ..engines import (
     vllm_deepseek_r1_distill_qwen_engine071,
+    vllm_deepseek_r1_distill_qwen_engine085,
     vllm_deepseek_r1_distill_llama_engine071,
     ollama_deepseek_r1_qwen2d5_1d5b_engine057,
     llama_cpp_deepseek_r1_1d58_bit_engine_b9ab0a4,
@@ -17,6 +18,7 @@
 )
 from ..frameworks import fastapi_framework
 from ..instances import (
+    g5dxlarge_instance,
     g5d2xlarge_instance,
     g5d4xlarge_instance,
     g5d8xlarge_instance,
@@ -303,6 +305,35 @@
     )
 )
 
+Model.register(
+    dict(
+        model_id = "DeepSeek-R1-0528-Qwen3-8B",
+        supported_engines=[vllm_deepseek_r1_distill_qwen_engine085],
+        supported_instances=[
+            g5dxlarge_instance,
+            g5d2xlarge_instance,
+            g5d4xlarge_instance,
+            local_instance
+        ],
+        supported_services=[
+            sagemaker_service,
+            sagemaker_async_service,
+            ecs_service,
+            local_service
+        ],
+        supported_frameworks=[
+            fastapi_framework
+        ],
+        allow_china_region=True,
+        huggingface_model_id="deepseek-ai/DeepSeek-R1-0528-Qwen3-8B",
+        modelscope_model_id="deepseek-ai/DeepSeek-R1-0528-Qwen3-8B",
+        require_huggingface_token=False,
+        application_scenario="Agent, tool use, translation, summary",
+        description="DeepSeek R1 got a minor upgrade (now DeepSeek-R1-0528). It does great in math, programming, and logic tests, almost as good as top models like O3 and Gemini 2.5 Pro.",
+        model_type=ModelType.LLM,
+        model_series=DEEPSEEK_REASONING_MODEL
+    )
+)
 
 Model.register(
     dict(