jd-opensource
diff --git a/‎xllm/core/framework/parallel_state/collective_communicator.cpp‎
Lines changed: 54 additions & 3 deletions b/‎xllm/core/framework/parallel_state/collective_communicator.cpp‎
Lines changed: 54 additions & 3 deletions
diff --git a/‎xllm/core/framework/parallel_state/collective_communicator.h‎
Lines changed: 2 additions & 0 deletions b/‎xllm/core/framework/parallel_state/collective_communicator.h‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎xllm/core/framework/parallel_state/mlu_process_group.cpp‎
Lines changed: 25 additions & 5 deletions b/‎xllm/core/framework/parallel_state/mlu_process_group.cpp‎
Lines changed: 25 additions & 5 deletions
diff --git a/‎xllm/core/framework/parallel_state/mlu_process_group.h‎
Lines changed: 2 additions & 1 deletion b/‎xllm/core/framework/parallel_state/mlu_process_group.h‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎xllm/core/framework/parallel_state/npu_process_group.cpp‎
Lines changed: 1 addition & 1 deletion b/‎xllm/core/framework/parallel_state/npu_process_group.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎xllm/core/framework/parallel_state/npu_process_group.h‎
Lines changed: 1 addition & 1 deletion b/‎xllm/core/framework/parallel_state/npu_process_group.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎xllm/core/framework/parallel_state/parallel_state.cpp‎
Lines changed: 82 additions & 10 deletions b/‎xllm/core/framework/parallel_state/parallel_state.cpp‎
Lines changed: 82 additions & 10 deletions
diff --git a/‎xllm/core/framework/parallel_state/parallel_state.h‎
Lines changed: 11 additions & 3 deletions b/‎xllm/core/framework/parallel_state/parallel_state.h‎
Lines changed: 11 additions & 3 deletions
diff --git a/‎xllm/core/framework/parallel_state/process_group.h‎
Lines changed: 1 addition & 1 deletion b/‎xllm/core/framework/parallel_state/process_group.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎xllm/core/framework/sampling/CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions b/‎xllm/core/framework/sampling/CMakeLists.txt‎
Lines changed: 1 addition & 0 deletions
@@ -108,21 +108,72 @@ void CollectiveCommunicator::create_process_groups_cncl(
   int global_rank = parallel_args_->rank();
   int world_size = parallel_args_->world_size();
   int dp_size = parallel_args_->dp_size();
-  process_group_ = std::make_unique<ProcessGroupCncl>(
-      global_rank, world_size, world_size, ++port, host, "world_group", device);
+  int ep_size = parallel_args_->ep_size();
+  process_group_ = std::make_unique<ProcessGroupCncl>(global_rank,
+                                                      world_size,
+                                                      world_size,
+                                                      ++port,
+                                                      false,
+                                                      host,
+                                                      "world_group",
+                                                      device);
+  parallel_args_->process_group_ = process_group_.get();
+
   int tp_size = world_size / dp_size;
   CHECK_EQ(tp_size * dp_size, world_size);
   int port_offset = global_rank / tp_size + 1;
   tp_group_ = std::make_unique<ProcessGroupCncl>(global_rank,
                                                  world_size,
                                                  tp_size,
                                                  port + port_offset,
+                                                 false,
                                                  host,
                                                  "tp_group",
                                                  device);
-  parallel_args_->process_group_ = process_group_.get();
   parallel_args_->tp_group_ = tp_group_.get();
+  port += dp_size;
+
+  if (dp_size > 1) {
+    port_offset = global_rank % tp_size + 1;
+    dp_local_process_group_ =
+        std::make_unique<ProcessGroupCncl>(global_rank,
+                                           world_size,
+                                           dp_size,
+                                           port + port_offset,
+                                           true,
+                                           host,
+                                           "dp_group",
+                                           device);
+    parallel_args_->dp_local_process_group_ = dp_local_process_group_.get();
+    port += tp_size;
+  }
+
+  if (ep_size > 1) {
+    int moe_tp_size = world_size / ep_size;
+    port_offset = global_rank / moe_tp_size + 1;
+    moe_tp_group_ = std::make_unique<ProcessGroupCncl>(global_rank,
+                                                       world_size,
+                                                       moe_tp_size,
+                                                       port + port_offset,
+                                                       false,
+                                                       host,
+                                                       "moe_tp_group",
+                                                       device);
+    parallel_args_->moe_tp_group_ = moe_tp_group_.get();
+    port += ep_size;
+    port_offset = global_rank % moe_tp_size + 1;
+    moe_ep_group_ = std::make_unique<ProcessGroupCncl>(global_rank,
+                                                       world_size,
+                                                       ep_size,
+                                                       port + port_offset,
+                                                       true,
+                                                       host,
+                                                       "moe_ep_group",
+                                                       device);
+    parallel_args_->moe_ep_group_ = moe_ep_group_.get();
+  }
 }
+
 #endif
 
 const ParallelArgs* CollectiveCommunicator::parallel_args() {
 
@@ -45,6 +45,8 @@ class CollectiveCommunicator {
   std::unique_ptr<ProcessGroup> dp_local_process_group_;
 #if defined(USE_MLU)
   std::unique_ptr<ProcessGroup> tp_group_;
+  std::unique_ptr<ProcessGroup> moe_tp_group_;
+  std::unique_ptr<ProcessGroup> moe_ep_group_;
 #endif
 };
 
 
@@ -19,9 +19,29 @@ limitations under the License.
 
 namespace {
 
+std::pair<int, std::vector<uint64_t>> get_trans_group_rank(int world_size,
+                                                           int global_rank,
+                                                           int split_size) {
+  int trans_group_count = split_size;
+  int trans_group_size = world_size / split_size;
+  int trans_group_index = global_rank % trans_group_size;
+  int trans_index = global_rank / trans_group_size;
+  std::vector<uint64_t> trans_group_ranks;
+  for (int i = 0; i < trans_group_count; i++) {
+    uint64_t rank = i * trans_group_size + trans_group_index;
+    trans_group_ranks.push_back(rank);
+  }
+
+  return {trans_index, trans_group_ranks};
+}
+
 std::pair<int, std::vector<uint64_t>> get_group_rank(int world_size,
                                                      int global_rank,
-                                                     int split_size) {
+                                                     int split_size,
+                                                     bool trans) {
+  if (trans) {
+    return get_trans_group_rank(world_size, global_rank, split_size);
+  }
   int target_group_index = global_rank / split_size;
   uint64_t start_rank = target_group_index * split_size;
   uint64_t end_rank = start_rank + split_size;
@@ -41,6 +61,7 @@ ProcessGroupCncl::ProcessGroupCncl(int rank,
                                    int world_size,
                                    int rank_size,
                                    int port,
+                                   bool trans,
                                    const std::string& host,
                                    const std::string& group_name,
                                    const torch::Device& device)
@@ -52,19 +73,18 @@ ProcessGroupCncl::ProcessGroupCncl(int rank,
   cncl_pg_options->group_name = group_name;
   if (world_size != rank_size) {
     auto [local_rank, group_ranks] =
-        get_group_rank(world_size, rank, rank_size);
+        get_group_rank(world_size, rank, rank_size, trans);
     cncl_pg_options->global_ranks_in_group = group_ranks;
     rank_ = local_rank;
   }
 
   c10d::TCPStoreOptions tcp_options;
   tcp_options.isServer = (rank_ == 0);
   tcp_options.port = port;
-
   c10::intrusive_ptr<c10d::Store> store =
       c10::make_intrusive<c10d::TCPStore>(host, tcp_options);
   cncl_pg_ = std::make_unique<torch_mlu::ProcessGroupCNCL>(
-      store, rank, world_size, cncl_pg_options);
+      store, rank_, world_size_, cncl_pg_options);
 }
 
 // Destructor.
@@ -75,7 +95,7 @@ void ProcessGroupCncl::allreduce(torch::Tensor& input) {
   cncl_pg_->allreduce(input_tensors)->wait();
 }
 
-void ProcessGroupCncl::allgather(torch::Tensor input,
+void ProcessGroupCncl::allgather(const torch::Tensor& input,
                                  std::vector<torch::Tensor>& outputs) {
   std::vector<torch::Tensor> input_tensors = {input};
   std::vector<std::vector<torch::Tensor>> output_tensors = {outputs};
 
@@ -28,6 +28,7 @@ class ProcessGroupCncl : public ProcessGroup {
                    int world_size,
                    int rank_size,
                    int port,
+                   bool trans,
                    const std::string& host,
                    const std::string& group_name,
                    const torch::Device& device);
@@ -41,7 +42,7 @@ class ProcessGroupCncl : public ProcessGroup {
 
   void allreduce(torch::Tensor& input) override;
 
-  void allgather(torch::Tensor input,
+  void allgather(const torch::Tensor& input,
                  std::vector<torch::Tensor>& outputs) override;
 
  private:
 
@@ -109,7 +109,7 @@ void ProcessGroupHCCL::allreduce(torch::Tensor& input) {
   //     /*comm=*/comm_,
   //     /*stream=*/stream));
 }
-void ProcessGroupHCCL::allgather(torch::Tensor input,
+void ProcessGroupHCCL::allgather(const torch::Tensor& input,
                                  std::vector<torch::Tensor>& outputs) {
   check_input(input);
   // CHECK(outputs.size() == world_size())
 
@@ -33,7 +33,7 @@ class ProcessGroupHCCL : public ProcessGroup {
 
   void allreduce(torch::Tensor& input) override;
 
-  void allgather(torch::Tensor input,
+  void allgather(const torch::Tensor& input,
                  std::vector<torch::Tensor>& outputs) override;
 
  private:
 
@@ -15,11 +15,33 @@ limitations under the License.
 
 #include "parallel_state.h"
 
+#include "core/util/utils.h"
+
 #if defined(USE_NPU)
 #include "hccl/hccl.h"
 #include "npu_process_group.h"
 #endif
 
+namespace {
+
+torch::Tensor remove_paddings_after_all_gather(
+    const torch::Tensor& input,
+    int64_t padding_to_token_num,
+    const std::vector<int>& token_num_list) {
+  std::vector<torch::Tensor> group_tensors;
+  int64_t offset = 0;
+  for (const auto& token_num : token_num_list) {
+    if (token_num != 0) {
+      auto tensor_slice = input.slice(0, offset, offset + token_num);
+      group_tensors.push_back(tensor_slice);
+    }
+    offset += padding_to_token_num;
+  }
+
+  return torch::cat(group_tensors).contiguous();
+}
+}  // namespace
+
 namespace xllm {
 namespace parallel_state {
 
@@ -45,7 +67,9 @@ std::optional<ParallelArgs> get_dp_attn_parallel_args(
                       parallel_args.dp_size());
 }
 
-torch::Tensor gather(torch::Tensor input, ProcessGroup* process_group) {
+torch::Tensor gather(const torch::Tensor& input,
+                     ProcessGroup* process_group,
+                     int dim) {
   if (!process_group) {
     return input;
   }
@@ -61,10 +85,56 @@ torch::Tensor gather(torch::Tensor input, ProcessGroup* process_group) {
   }
   // blocking call
   process_group->allgather(input, tensors);
-  return torch::cat(tensors, /*dim=*/-1).contiguous();
+  return torch::cat(tensors, /*dim=*/dim).contiguous();
+}
+
+torch::Tensor gather(const torch::Tensor& input,
+                     ProcessGroup* process_group,
+                     const std::vector<int32_t>& token_num_list) {
+  if (!process_group) {
+    return input;
+  }
+  const auto world_size = process_group->world_size();
+  const auto rank = process_group->rank();
+  if (world_size == 1) {
+    return input;
+  }
+  if (token_num_list.empty()) {
+    return gather(input, process_group, 0);
+  }
+  CHECK_EQ(token_num_list.size(), world_size)
+      << "token_num_list size " << token_num_list.size()
+      << " does not match world_size " << world_size;
+
+  const bool num_tokens_equal =
+      std::all_of(token_num_list.begin(),
+                  token_num_list.end(),
+                  [first_token_num = token_num_list[0]](int64_t num) {
+                    return num == first_token_num;
+                  });
+  if (num_tokens_equal) {
+    return gather(input, process_group, 0);
+  }
+
+  int32_t max_num_tokens = xllm::util::max(token_num_list);
+  int32_t num_padding = max_num_tokens - token_num_list[rank];
+  auto padded_input = input;
+  if (token_num_list[rank] == 0) {
+    // If the current rank has zero tokens, create a padding tensor
+    padded_input =
+        torch::empty({max_num_tokens, input.size(-1)}, input.options());
+  } else if (num_padding > 0) {
+    std::vector<int64_t> pad = {0, 0, 0, num_padding};
+    padded_input = torch::nn::functional::pad(
+        input, torch::nn::functional::PadFuncOptions(pad));
+  }
+
+  auto gathered_input = gather(padded_input, process_group, 0);
+  return remove_paddings_after_all_gather(
+      gathered_input, max_num_tokens, token_num_list);
 }
 
-torch::Tensor reduce(torch::Tensor input, ProcessGroup* process_group) {
+torch::Tensor reduce(torch::Tensor& input, ProcessGroup* process_group) {
   if (!process_group) {
     return input;
   }
@@ -76,7 +146,9 @@ torch::Tensor reduce(torch::Tensor input, ProcessGroup* process_group) {
   return input;
 }
 
-torch::Tensor scatter(torch::Tensor input, ProcessGroup* process_group) {
+torch::Tensor scatter(torch::Tensor input,
+                      ProcessGroup* process_group,
+                      int dim) {
   if (!process_group) {
     return input;
   }
@@ -86,13 +158,13 @@ torch::Tensor scatter(torch::Tensor input, ProcessGroup* process_group) {
   }
 
   // get the size for last dimension
-  const auto last_dim_size = input.size(-1);
-  CHECK(last_dim_size % world_size == 0)
-      << "last_dim_size " << last_dim_size
-      << " cannot be divided by world_size " << world_size;
+  const auto dim_size = input.size(dim);
+  CHECK(dim_size % world_size == 0)
+      << "dim_size " << dim_size << " cannot be divided by world_size "
+      << world_size;
 
   // torch::split does not create contiguous tensors by default.
-  const auto tensor_list = input.split(last_dim_size / world_size, /*dim=*/-1);
+  const auto tensor_list = input.split(dim_size / world_size, dim);
   const auto rank = process_group->rank();
   return tensor_list[rank];
 }
@@ -126,4 +198,4 @@ std::vector<std::unique_ptr<ProcessGroup>> create_npu_process_groups(
 }
 
 }  // namespace parallel_state
-}  // namespace xllm
+}  // namespace xllm
@@ -25,11 +25,19 @@ namespace parallel_state {
 std::optional<ParallelArgs> get_dp_attn_parallel_args(
     const ParallelArgs& parallel_args);
 
-torch::Tensor gather(torch::Tensor input, ProcessGroup* process_group);
+torch::Tensor gather(const torch::Tensor& input,
+                     ProcessGroup* process_group,
+                     int dim = -1);
 
-torch::Tensor reduce(torch::Tensor input, ProcessGroup* process_group);
+torch::Tensor gather(const torch::Tensor& input,
+                     ProcessGroup* process_group,
+                     const std::vector<int32_t>& token_num_list);
 
-torch::Tensor scatter(torch::Tensor input, ProcessGroup* process_group);
+torch::Tensor reduce(torch::Tensor& input, ProcessGroup* process_group);
+
+torch::Tensor scatter(torch::Tensor input,
+                      ProcessGroup* process_group,
+                      int dim = -1);
 
 // Create a process group where each process has a single device
 // devices: list of devices to create process groups on.
 
@@ -37,7 +37,7 @@ class ProcessGroup {
   virtual void allreduce(torch::Tensor& input) = 0;
 
   // allgather: gather tensors from all processes and concatenate them.
-  virtual void allgather(torch::Tensor input,
+  virtual void allgather(const torch::Tensor& input,
                          std::vector<torch::Tensor>& outputs) = 0;
 
  private:
 
@@ -20,6 +20,7 @@ cc_library(
     glog::glog
     torch
     $<$<BOOL:${USE_NPU}>:xllm_ops>
+    $<$<BOOL:${USE_MLU}>:mlu_kernels>
 )
 
 cc_test(
Original file line number	Diff line number	Diff line change
`@@ -109,7 +109,7 @@ void ProcessGroupHCCL::allreduce(torch::Tensor& input) {`
`109`	`109`	`// /comm=/comm_,`
`110`	`110`	`// /stream=/stream));`
`111`	`111`	`}`
`112`		`-void ProcessGroupHCCL::allgather(torch::Tensor input,`
	`112`	`+void ProcessGroupHCCL::allgather(const torch::Tensor& input,`
`113`	`113`	`std::vector<torch::Tensor>& outputs) {`
`114`	`114`	`check_input(input);`
`115`	`115`	`// CHECK(outputs.size() == world_size())`
Original file line number	Diff line number	Diff line change
`@@ -20,6 +20,7 @@ cc_library(`
`20`	`20`	`glog::glog`
`21`	`21`	`torch`
`22`	`22`	`$<$<BOOL:${USE_NPU}>:xllm_ops>`
	`23`	`+ $<$<BOOL:${USE_MLU}>:mlu_kernels>`
`23`	`24`	`)`
`24`	`25`
`25`	`26`	`cc_test(`