fix: jina embedding v4 (#147)

11zhouxuan · web-flow · commit 399894fdb0e6 · 2025-07-09T11:14:34.000+08:00
* merge

* merge

* add Mistral-Small-3.1-24B-Instruct-2503

* modify qwq-32b deploy

* add txgemma model;

* modify model list command

* fix typo

* add some ecs parameters

* add glm4-z1 models

* modify vllm backend

* add qwen3

* fix cli bugs

* fix

* add deeseek r1/Qwen3-235B-A22B

* fix local deploy account bug

* add qwen 3 awq models

* fix serialize_utils bugs

* modify qwen3 deployment

* modify docs
diff --git a/src/emd/models/embeddings/jina.py b/src/emd/models/embeddings/jina.py
@@ -1,5 +1,5 @@
 from .. import Model
-from ..engines import huggingface_embedding_engine449
+from ..engines import huggingface_embedding_engine449,vllm_embedding_engine091
 from ..services import sagemaker_service,local_service,ecs_service
 from ..frameworks import fastapi_framework
 from ..instances import (
@@ -57,12 +57,13 @@
 Model.register(
     dict(
         model_id = "jina-embeddings-v4-vllm-retrieval",
-        supported_engines=[huggingface_embedding_engine449],
+        supported_engines=[vllm_embedding_engine091],
         supported_instances=[
             g5dxlarge_instance,
             g5d2xlarge_instance,
             g5d4xlarge_instance,
-            g5d8xlarge_instance
+            g5d8xlarge_instance,
+            local_instance,
         ],
         supported_services=[
             sagemaker_service,
diff --git a/src/emd/models/engines.py b/src/emd/models/engines.py
@@ -176,6 +176,13 @@ class KtransformersEngine(OpenAICompitableEngine):
             "default_cli_args": " --max_model_len 16000 --max_num_seq 30 --disable-log-stats  --enable-reasoning --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser hermes --enable-prefix-caching"
 })
 
+vllm_embedding_engine091 = VllmEngine(**{
+             **vllm_engine064.model_dump(),
+             "engine_dockerfile_config": {"VERSION":"v0.9.1"},
+            "environment_variables": "export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True",
+            "default_cli_args": " --max_num_seq 30 --disable-log-stats --trust-remote-code --task embed"
+})
+
 
 vllm_qwen2vl72b_engine064 = VllmEngine(**{
              **vllm_engine064.model_dump(),
diff --git a/tests/sdk_tests/client_tests/langchain_client_embedding_and_rerank_test.py b/tests/sdk_tests/client_tests/langchain_client_embedding_and_rerank_test.py
@@ -3,7 +3,7 @@
 from emd.integrations.langchain_clients import SageMakerVllmRerank
 
 embedding_model = SageMakerVllmEmbeddings(
-    model_id="bge-m3",
+    model_id="jina-embeddings-v4-vllm-retrieval",
     # model_tag='dev-2'
 )
 
diff --git a/tests/sdk_tests/client_tests/openai_embedding_local_test.py b/tests/sdk_tests/client_tests/openai_embedding_local_test.py
@@ -5,7 +5,7 @@
 import time
 # Modify OpenAI's API key and API base to use vLLM's API server.
 openai_api_key = "EMPTY"
-openai_api_base = "http://localhost:8000/v1"
+openai_api_base = "http://localhost:8080/v1"
 
 
 def run():
@@ -15,8 +15,8 @@ def run():
         base_url=openai_api_base,
     )
 
-    models = client.models.list()
-    model = models.data[0].id
+    # models = client.models.list()
+    # model = models.data[0].id
     t0 = time.time()
     responses = client.embeddings.create(
         # input=[
@@ -26,9 +26,11 @@ def run():
         input=[
          'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.'
         ],
-        model=model,
+        model="jina-embeddings-v4-vllm-retrieval",
     )
+
     print(f'elapsed time: {time.time()-t0}')
+    print(responses)
 
     # for data in responses.data:
     #     print(data.embedding)  # list of float of len 4096
@@ -38,12 +40,14 @@ def run():
     threads = []
     t0 = time.time()
 
-    for i in range(2000):
-        # time.sleep(0.01)
-        # t = Thread(target=task)
-        t = Thread(target=run)
-        threads.append(t)
-        t.start()
-    for t in threads:
-        t.join()
+    run()
+
+    # for i in range(2000):
+    #     # time.sleep(0.01)
+    #     # t = Thread(target=task)
+    #     t = Thread(target=run)
+    #     threads.append(t)
+    #     t.start()
+    # for t in threads:
+    #     t.join()
     print("done, all task elapsed time: ",time.time()-t0)

Original file line number	Diff line number	Diff line change
`@@ -3,7 +3,7 @@`
`3`	`3`	`from emd.integrations.langchain_clients import SageMakerVllmRerank`
`4`	`4`
`5`	`5`	`embedding_model = SageMakerVllmEmbeddings(`
`6`		`- model_id="bge-m3",`
	`6`	`+ model_id="jina-embeddings-v4-vllm-retrieval",`
`7`	`7`	`# model_tag='dev-2'`
`8`	`8`	`)`
`9`	`9`