feat: add Qwen/Qwen3-Embedding and vllm to v0.9.1 (#146)

yanbasic · web-flow · commit 1ff5900c93fc · 2025-07-07T18:57:57.000+08:00
* feat: add Qwen/Qwen3-Embedding and vllm to v0.9.1

* chore: code cleanup
diff --git a/docs/en/supported_models.md b/docs/en/supported_models.md
@@ -72,6 +72,9 @@
 | bge-m3                               | bge                      | embedding   | g5.xlarge,g5.2xlarge,g5.4xlarge,g5.8xlarge,g5.16xlarge                                                                                                                                            | sagemaker_realtime,ecs                 | ✅                     |
 | jina-embeddings-v3                   | jina                     | embedding   | g5.xlarge,g5.2xlarge,g5.4xlarge,g5.8xlarge,g5.16xlarge                                                                                                                                            | sagemaker_realtime,ecs                 | ✅                     |
 | jina-embeddings-v4                   | jina                     | embedding   | g5.xlarge,g5.2xlarge,g5.4xlarge,g5.8xlarge,g5.16xlarge                                                                                                                                            | sagemaker_realtime,ecs                 | ✅                     |
+| Qwen3-Embedding-0.6B                 | qwen3                    | embedding   | g5.xlarge,g5.2xlarge,g5.4xlarge,g5.8xlarge,g5.16xlarge                                                                                                                                            | sagemaker_realtime,ecs                 | ✅                     |
+| Qwen3-Embedding-4B                   | qwen3                    | embedding   | g5.xlarge,g5.2xlarge,g5.4xlarge,g5.8xlarge,g5.16xlarge                                                                                                                                            | sagemaker_realtime,ecs                 | ✅                     |
+| Qwen3-Embedding-8B                   | qwen3                    | embedding   | g5.xlarge,g5.2xlarge,g5.4xlarge,g5.8xlarge,g5.16xlarge                                                                                                                                            | sagemaker_realtime,ecs                 | ✅                     |
 | bge-reranker-v2-m3                   | bge                      | rerank      | g4dn.2xlarge,g5.xlarge,g5.2xlarge,g5.4xlarge,g5.8xlarge,g5.16xlarge                                                                                                                               | sagemaker_realtime,ecs                 | ✅                     |
 | bge-reranker-large                   | bge                      | rerank      | g4dn.2xlarge,g5.xlarge,g5.2xlarge,g5.4xlarge,g5.8xlarge,g5.16xlarge                                                                                                                               | sagemaker_realtime,ecs                 | ✅                     |
 | jina-reranker-v2-base-multilingual   | jina                     | rerank      | g5.xlarge,g5.2xlarge,g5.4xlarge,g5.8xlarge,g5.16xlarge                                                                                                                                            | sagemaker_realtime,ecs                 | ✅                     |
diff --git a/src/emd/models/embeddings/__init__.py b/src/emd/models/embeddings/__init__.py
@@ -1,2 +1,3 @@
 from . import bert_embedding
 from . import jina
+from . import qwen
diff --git a/src/emd/models/embeddings/qwen.py b/src/emd/models/embeddings/qwen.py
@@ -0,0 +1,106 @@
+from .. import Model
+from ..engines import vllm_qwen3_engin091
+from ..services import sagemaker_service,local_service,ecs_service
+from ..frameworks import fastapi_framework
+from ..instances import (
+    g5dxlarge_instance,
+    g5d2xlarge_instance,
+    g5d4xlarge_instance,
+    g5d8xlarge_instance,
+    g5d16xlarge_instance,
+    local_instance
+)
+from emd.models.utils.constants import ModelType
+from emd.models import ModelSeries
+from ..model_series import QWEN3_SERIES
+
+
+Model.register(
+    dict(
+        model_id = "Qwen3-Embedding-0.6B",
+        supported_engines=[vllm_qwen3_engin091],
+        supported_instances=[
+            g5dxlarge_instance,
+            g5d2xlarge_instance,
+            g5d4xlarge_instance,
+            g5d8xlarge_instance,
+            g5d16xlarge_instance,
+            local_instance
+        ],
+        supported_services=[
+            sagemaker_service,
+            ecs_service,
+            local_service
+        ],
+        supported_frameworks=[
+            fastapi_framework
+        ],
+        allow_china_region=True,
+        huggingface_model_id="Qwen/Qwen3-Embedding-0.6B",
+        modelscope_model_id="Qwen/Qwen3-Embedding-0.6B",
+        require_huggingface_token=False,
+        application_scenario="RAG",
+        model_type=ModelType.EMBEDDING,
+        model_series=QWEN3_SERIES
+    )
+)
+
+Model.register(
+    dict(
+        model_id = "Qwen3-Embedding-4B",
+        supported_engines=[vllm_qwen3_engin091],
+        supported_instances=[
+            g5dxlarge_instance,
+            g5d2xlarge_instance,
+            g5d4xlarge_instance,
+            g5d8xlarge_instance,
+            g5d16xlarge_instance,
+            local_instance
+        ],
+        supported_services=[
+            sagemaker_service,
+            ecs_service,
+            local_service
+        ],
+        supported_frameworks=[
+            fastapi_framework
+        ],
+        allow_china_region=True,
+        huggingface_model_id="Qwen/Qwen3-Embedding-4B",
+        modelscope_model_id="Qwen/Qwen3-Embedding-4B",
+        require_huggingface_token=False,
+        application_scenario="RAG",
+        model_type=ModelType.EMBEDDING,
+        model_series=QWEN3_SERIES
+    )
+)
+
+Model.register(
+    dict(
+        model_id = "Qwen3-Embedding-8B",
+        supported_engines=[vllm_qwen3_engin091],
+        supported_instances=[
+            g5dxlarge_instance,
+            g5d2xlarge_instance,
+            g5d4xlarge_instance,
+            g5d8xlarge_instance,
+            g5d16xlarge_instance,
+            local_instance
+        ],
+        supported_services=[
+            sagemaker_service,
+            ecs_service,
+            local_service
+        ],
+        supported_frameworks=[
+            fastapi_framework
+        ],
+        allow_china_region=True,
+        huggingface_model_id="Qwen/Qwen3-Embedding-8B",
+        modelscope_model_id="Qwen/Qwen3-Embedding-8B",
+        require_huggingface_token=False,
+        application_scenario="RAG",
+        model_type=ModelType.EMBEDDING,
+        model_series=QWEN3_SERIES
+    )
+)
diff --git a/src/emd/models/engines.py b/src/emd/models/engines.py
@@ -169,6 +169,13 @@ class KtransformersEngine(OpenAICompitableEngine):
             "default_cli_args": " --max_model_len 16000 --max_num_seq 30 --disable-log-stats  --enable-reasoning --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser hermes --enable-prefix-caching"
 })
 
+vllm_qwen3_engin091 = VllmEngine(**{
+             **vllm_engine064.model_dump(),
+             "engine_dockerfile_config": {"VERSION":"v0.9.1"},
+            "environment_variables": "export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True",
+            "default_cli_args": " --max_model_len 16000 --max_num_seq 30 --disable-log-stats  --enable-reasoning --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser hermes --enable-prefix-caching"
+})
+
 
 vllm_qwen2vl72b_engine064 = VllmEngine(**{
              **vllm_engine064.model_dump(),
diff --git a/src/emd/models/model_series.py b/src/emd/models/model_series.py
@@ -53,6 +53,11 @@
     reference_link="https://huggingface.co/jinaai"
 )
 
+QWNE_EMBEDDING = ModelSeries(
+    model_series_name=ModelSeriesType.JINA,
+    description="Search foundation models: embeddings, rerankers, small LMs for better search",
+    reference_link="https://huggingface.co/jinaai"
+)
 
 QWEN2VL_SERIES = ModelSeries(
     model_series_name=ModelSeriesType.QWEN2VL,

Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,3 @@`
`1`	`1`	`from . import bert_embedding`
`2`	`2`	`from . import jina`
	`3`	`+from . import qwen`