Switch from field to Field

fangyuchu · fangyuchu · commit 3f3062528227 · 2025-11-29T16:27:28.000+08:00
Signed-off-by: fangyuchu &lt;fangyuchu@qq.com&gt;
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
@@ -9,7 +9,7 @@
 import threading
 import time
 from contextlib import contextmanager
-from dataclasses import is_dataclass, field, replace
+from dataclasses import is_dataclass, replace
 from datetime import datetime
 from enum import IntEnum
 from functools import lru_cache
@@ -206,7 +206,7 @@ class VllmConfig:
     """The configurations for event publishing."""
     ec_transfer_config: ECTransferConfig | None = None
     """The configurations for distributed EC cache transfer."""
-    fault_tolerance_config: FaultToleranceConfig = field(
+    fault_tolerance_config: FaultToleranceConfig = Field(
         default_factory=FaultToleranceConfig
     )
     """The configurations for fault tolerance."""
diff --git a/vllm/distributed/parallel_state.py b/vllm/distributed/parallel_state.py
@@ -346,9 +346,7 @@ def __init__(
             # processes through the CPU.
             with suppress_stdout():
                 if not enable_fault_tolerance:
-                    cpu_group = torch.distributed.new_group(
-                        ranks, backend="gloo"
-                    )
+                    cpu_group = torch.distributed.new_group(ranks, backend="gloo")
                 else:
                     cpu_group = torch.distributed.new_group(
                         ranks, backend="gloo", timeout=gloo_comm_timeout
@@ -1151,6 +1149,7 @@ def get_pcp_group() -> GroupCoordinator:
     assert _PCP is not None, "prefill context parallel group is not initialized"
     return _PCP
 
+
 def get_all_model_groups() -> list[GroupCoordinator]:
     group_list = []
     global _TP
@@ -1179,6 +1178,7 @@ def get_all_model_groups() -> list[GroupCoordinator]:
 
     return group_list
 
+
 @contextmanager
 def graph_capture(device: torch.device):
     """
diff --git a/vllm/v1/engine/utils.py b/vllm/v1/engine/utils.py
@@ -215,7 +215,7 @@ def close(self):
 
     def start_engine_core_monitor(self):
         sentinels = [proc.sentinel for proc in self.processes]
-        while self.processes:
+        while sentinels:
             died = multiprocessing.connection.wait(sentinels)
             for sentinel in died:
                 died_proc = next(
@@ -239,7 +239,7 @@ def start_engine_core_monitor(self):
                     sentinels.remove(sentinel)
                 logger.error(
                     "Engine core proc %s died unexpectedly",
-                    died_proc,
+                    died_proc.name,
                 )
 
     def join_first(self):
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
@@ -174,6 +174,7 @@ def _abort_nccl_comm(group: GroupCoordinator):
             if group.device_communicator is not None:
                 device_comm = cast(CudaCommunicator, group.device_communicator)
                 nccl_comm = device_comm.pynccl_comm
+                assert nccl_comm is not None
                 nccl_comm.nccl_abort_comm()
 
         def _abort_process_group(group: GroupCoordinator):
@@ -223,6 +224,7 @@ def _set_device_communicator_status(self, active: bool):
             if group.device_communicator is not None:
                 device_comm = cast(CudaCommunicator, group.device_communicator)
                 nccl_comm = device_comm.pynccl_comm
+                assert nccl_comm is not None
                 nccl_comm.available = active
                 nccl_comm.disabled = not active