vulkan: do 8 calculations per invocation instead of 32 in mul_mat_vecq, similar to mul_mat_vec

0cc4m · 0cc4m · commit fde494467b94 · 2025-08-17T13:26:57.000Z
diff --git a/ggml/src/ggml-vulkan/ggml-vulkan.cpp b/ggml/src/ggml-vulkan/ggml-vulkan.cpp
@@ -371,7 +371,7 @@ struct vk_device_struct {
     bool uma;
     bool prefer_host_memory;
     bool float_controls_rte_fp16;
-    bool subgroup_add;
+    bool subgroup_arithmetic;
     bool subgroup_shuffle;
     bool subgroup_clustered;
     bool multi_add;
@@ -2827,7 +2827,7 @@ static void ggml_vk_load_shaders(vk_device& device) {
 
 #if defined(GGML_VULKAN_INTEGER_DOT_GLSLC_SUPPORT)
         if (device->integer_dot_product) {
-            if (device->subgroup_clustered && device->subgroup_require_full_support && device->vendor_id != VK_VENDOR_ID_INTEL) {
+            if (device->subgroup_arithmetic && device->subgroup_require_full_support && device->vendor_id != VK_VENDOR_ID_INTEL) {
                 ggml_vk_create_pipeline(device, device->pipeline_dequant_mul_mat_vec_q8_1_f32[GGML_TYPE_Q4_0][i], "mul_mat_vec_q4_0_q8_1_f32_"+std::to_string(i+1), mul_mat_vec_q4_0_q8_1_f32_subgroup_len, mul_mat_vec_q4_0_q8_1_f32_subgroup_data, "main", 3, sizeof(vk_mat_vec_push_constants), {2*rm_stdq, 1, 1}, {device->subgroup_size, 2*rm_stdq, i+1}, 1, true, true);
                 ggml_vk_create_pipeline(device, device->pipeline_dequant_mul_mat_vec_q8_1_f32[GGML_TYPE_Q4_1][i], "mul_mat_vec_q4_1_q8_1_f32_"+std::to_string(i+1), mul_mat_vec_q4_1_q8_1_f32_subgroup_len, mul_mat_vec_q4_1_q8_1_f32_subgroup_data, "main", 3, sizeof(vk_mat_vec_push_constants), {2*rm_stdq, 1, 1}, {device->subgroup_size, 2*rm_stdq, i+1}, 1, true, true);
                 ggml_vk_create_pipeline(device, device->pipeline_dequant_mul_mat_vec_q8_1_f32[GGML_TYPE_Q5_0][i], "mul_mat_vec_q5_0_q8_1_f32_"+std::to_string(i+1), mul_mat_vec_q5_0_q8_1_f32_subgroup_len, mul_mat_vec_q5_0_q8_1_f32_subgroup_data, "main", 3, sizeof(vk_mat_vec_push_constants), {2*rm_stdq, 1, 1}, {device->subgroup_size, 2*rm_stdq, i+1}, 1, true, true);
@@ -2942,7 +2942,7 @@ static void ggml_vk_load_shaders(vk_device& device) {
     }
 
     for (uint32_t i = 0; i < p021_max_gqa_ratio; ++i) {
-        if (device->subgroup_add && device->subgroup_require_full_support) {
+        if (device->subgroup_arithmetic && device->subgroup_require_full_support) {
             ggml_vk_create_pipeline(device, device->pipeline_mul_mat_vec_p021_f16_f32[i], "mul_mat_vec_p021_f16_f32"+std::to_string(i+1), mul_mat_vec_p021_f16_f32_subgroup_add_len, mul_mat_vec_p021_f16_f32_subgroup_add_data, "main", 3, 6 * sizeof(uint32_t), {1, 1, 1}, {device->subgroup_size, i + 1}, 1, true, true);
         } else {
             ggml_vk_create_pipeline(device, device->pipeline_mul_mat_vec_p021_f16_f32[i], "mul_mat_vec_p021_f16_f32"+std::to_string(i+1), mul_mat_vec_p021_f16_f32_len,              mul_mat_vec_p021_f16_f32_data,              "main", 3, 6 * sizeof(uint32_t), {1, 1, 1}, {device->subgroup_size, i + 1}, 1, true);
@@ -3447,8 +3447,8 @@ static vk_device ggml_vk_get_device(size_t idx) {
         }
         device->float_controls_rte_fp16 = vk12_props.shaderRoundingModeRTEFloat16;
 
-        device->subgroup_add = (vk11_props.subgroupSupportedStages & vk::ShaderStageFlagBits::eCompute) &&
-                               (vk11_props.subgroupSupportedOperations & vk::SubgroupFeatureFlagBits::eArithmetic);
+        device->subgroup_arithmetic = (vk11_props.subgroupSupportedStages & vk::ShaderStageFlagBits::eCompute) &&
+                                      (vk11_props.subgroupSupportedOperations & vk::SubgroupFeatureFlagBits::eArithmetic);
         device->subgroup_shuffle = (vk11_props.subgroupSupportedStages & vk::ShaderStageFlagBits::eCompute) &&
                                    (vk11_props.subgroupSupportedOperations & vk::SubgroupFeatureFlagBits::eShuffle);
         device->subgroup_clustered = (vk11_props.subgroupSupportedStages & vk::ShaderStageFlagBits::eCompute) &&
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/mul_mat_vec_base.comp b/ggml/src/ggml-vulkan/vulkan-shaders/mul_mat_vec_base.comp
@@ -97,7 +97,23 @@ layout (constant_id = 0) const uint BLOCK_SIZE = 32;
 layout (constant_id = 1) const uint NUM_ROWS = 1;
 layout (constant_id = 2) const uint NUM_COLS = 1;
 
-#if !defined(MMQ) || !defined(USE_SUBGROUPS)
+#ifdef USE_SUBGROUPS
+void reduce_result(inout FLOAT_TYPE temp[NUM_COLS][NUM_ROWS], const in uint32_t d_offset, const in uint32_t first_row, const in uint32_t num_rows, const in uint32_t tid) {
+    [[unroll]] for (uint j = 0; j < NUM_COLS; ++j) {
+        [[unroll]] for (uint n = 0; n < num_rows; ++n) {
+            temp[j][n] = subgroupAdd(temp[j][n]);
+        }
+    }
+
+    if (tid == 0) {
+        [[unroll]] for (uint j = 0; j < NUM_COLS; ++j) {
+            [[unroll]] for (uint n = 0; n < num_rows; ++n) {
+                data_d[j*p.batch_stride_d + d_offset + first_row + n] = D_TYPE(temp[j][n]);
+            }
+        }
+    }
+}
+#else
 shared FLOAT_TYPE tmpsh[NUM_COLS][NUM_ROWS][BLOCK_SIZE];
 
 void reduce_result(const in FLOAT_TYPE temp[NUM_COLS][NUM_ROWS], const in uint32_t d_offset, const in uint32_t first_row, const in uint32_t num_rows, const in uint32_t tid) {
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/mul_mat_vecq.comp b/ggml/src/ggml-vulkan/vulkan-shaders/mul_mat_vecq.comp
@@ -5,95 +5,47 @@
 
 #ifdef USE_SUBGROUPS
 #extension GL_KHR_shader_subgroup_basic : require
-#extension GL_KHR_shader_subgroup_clustered : require
+#extension GL_KHR_shader_subgroup_arithmetic : require
 
 #define INVOCATION_ID gl_SubgroupInvocationID.x
 #else
 #define INVOCATION_ID gl_LocalInvocationID.x
 #endif
 
 #define MMQ
-#define B_TYPE block_q8_1_x4_packed128
+#define B_TYPE block_q8_1_x4
 
 #include "mul_mat_vec_base.comp"
 
 layout(local_size_x_id = 0, local_size_y = 1, local_size_z = 1) in;
 
-#define K_PER_ITER 32
-
-const uint GROUP_SIZE = 8;
-const uint GROUPS_PER_WARP = (BLOCK_SIZE / GROUP_SIZE);
+#define K_PER_ITER 8
 
 #include "mul_mmq_funcs.comp"
 
-uint a_offset, b_offset, d_offset, y_offset;
+uint a_offset, b_offset, d_offset;
 
-#ifdef USE_SUBGROUPS
-void reduce_result_grouped(inout FLOAT_TYPE temp[NUM_COLS][NUM_ROWS], const in uint32_t d_offset, const in uint32_t first_row, const in uint32_t num_rows, const in uint32_t tid_in_group) {
-    [[unroll]] for (uint j = 0; j < NUM_COLS; ++j) {
-        [[unroll]] for (uint n = 0; n < num_rows; ++n) {
-            temp[j][n] = subgroupClusteredAdd(temp[j][n], GROUP_SIZE);
-        }
-    }
-
-    if (tid_in_group == 0) {
-        [[unroll]] for (uint j = 0; j < NUM_COLS; ++j) {
-            [[unroll]] for (uint n = 0; n < num_rows; ++n) {
-                data_d[j*p.batch_stride_d + d_offset + first_row + n] = D_TYPE(temp[j][n]);
-            }
-        }
-    }
-}
-#else
-void reduce_result_grouped(const in FLOAT_TYPE temp[NUM_COLS][NUM_ROWS], const in uint32_t d_offset, const in uint32_t first_row, const in uint32_t num_rows, const in uint32_t tid_in_group) {
-    const uint tid = INVOCATION_ID;
-    // sum up partial sums and write back result
-    [[unroll]] for (uint j = 0; j < NUM_COLS; ++j) {
-        [[unroll]] for (uint n = 0; n < num_rows; ++n) {
-            tmpsh[j][n][tid] = temp[j][n];
-        }
-    }
-    barrier();
-    if (tid_in_group < 4) {
-        [[unroll]] for (uint j = 0; j < NUM_COLS; ++j) {
-            [[unroll]] for (uint n = 0; n < num_rows; ++n) {
-                tmpsh[j][n][tid] += tmpsh[j][n][tid + 4];
-            }
-        }
-    }
-    barrier();
-    if (tid_in_group < 2) {
-        [[unroll]] for (uint j = 0; j < NUM_COLS; ++j) {
-            [[unroll]] for (uint n = 0; n < num_rows; ++n) {
-                tmpsh[j][n][tid] += tmpsh[j][n][tid + 2];
-            }
-        }
-    }
-    barrier();
-    if (tid_in_group == 0) {
-        [[unroll]] for (uint j = 0; j < NUM_COLS; ++j) {
-            [[unroll]] for (uint n = 0; n < num_rows; ++n) {
-                data_d[j*p.batch_stride_d + d_offset + first_row + n] = D_TYPE(tmpsh[j][n][tid] + tmpsh[j][n][tid + 1]);
-            }
-        }
-    }
-}
-#endif
-
-ivec4 cache_b_qs[2];
+int32_t cache_b_qs[2];
 vec2 cache_b_ds;
 
-void iter(inout FLOAT_TYPE temp[NUM_COLS][NUM_ROWS], const uint first_row, const uint num_rows, const uint tid_in_group, const uint i) {
+void iter(inout FLOAT_TYPE temp[NUM_COLS][NUM_ROWS], const uint first_row, const uint num_rows, const uint tid, const uint i) {
     [[unroll]] for (uint j = 0; j < NUM_COLS; ++j) {
-        const uint col = i*GROUP_SIZE + K_PER_ITER*tid_in_group;
+        const uint col = i*BLOCK_SIZE + tid*K_PER_ITER;
 
         // Preload data_b block
         const uint b_block_idx = (j*p.batch_stride_b + col) / QUANT_K_Q8_1 + b_offset;
+        const uint b_qs_idx = tid % 4;
         const uint b_block_idx_outer = b_block_idx / 4;
         const uint b_block_idx_inner = b_block_idx % 4;
         cache_b_ds = vec2(data_b[b_block_idx_outer].ds[b_block_idx_inner]);
-        cache_b_qs[0] = data_b[b_block_idx_outer].qs[b_block_idx_inner * 2];
-        cache_b_qs[1] = data_b[b_block_idx_outer].qs[b_block_idx_inner * 2 + 1];
+
+#if QUANT_R == 2
+        cache_b_qs[0] = data_b[b_block_idx_outer].qs[b_block_idx_inner * 8 + b_qs_idx];
+        cache_b_qs[1] = data_b[b_block_idx_outer].qs[b_block_idx_inner * 8 + b_qs_idx + 4];
+#else
+        cache_b_qs[0] = data_b[b_block_idx_outer].qs[b_block_idx_inner * 8 + b_qs_idx * 2];
+        cache_b_qs[1] = data_b[b_block_idx_outer].qs[b_block_idx_inner * 8 + b_qs_idx * 2 + 1];
+#endif
 
         uint ibi = first_row*p.ncols;
         [[unroll]] for (uint n = 0; n < num_rows; ++n) {
@@ -102,71 +54,36 @@ void iter(inout FLOAT_TYPE temp[NUM_COLS][NUM_ROWS], const uint first_row, const
 
             int32_t q_sum = 0;
 #if QUANT_R == 2
-            i32vec2 data_a_qs = repack(a_block_idx, 0);
-            q_sum += dotPacked4x8EXT(data_a_qs.x,
-                                     cache_b_qs[0].x);
-            q_sum += dotPacked4x8EXT(data_a_qs.y,
-                                     cache_b_qs[1].x);
-            data_a_qs = repack(a_block_idx, 1);
-            q_sum += dotPacked4x8EXT(data_a_qs.x,
-                                     cache_b_qs[0].y);
-            q_sum += dotPacked4x8EXT(data_a_qs.y,
-                                     cache_b_qs[1].y);
-            data_a_qs = repack(a_block_idx, 2);
+            const i32vec2 data_a_qs = repack(a_block_idx, b_qs_idx);
             q_sum += dotPacked4x8EXT(data_a_qs.x,
-                                     cache_b_qs[0].z);
+                                     cache_b_qs[0]);
             q_sum += dotPacked4x8EXT(data_a_qs.y,
-                                     cache_b_qs[1].z);
-            data_a_qs = repack(a_block_idx, 3);
-            q_sum += dotPacked4x8EXT(data_a_qs.x,
-                                     cache_b_qs[0].w);
-            q_sum += dotPacked4x8EXT(data_a_qs.y,
-                                     cache_b_qs[1].w);
+                                     cache_b_qs[1]);
 #else
-            int32_t data_a_qs = repack(a_block_idx, 0);
-            q_sum += dotPacked4x8EXT(data_a_qs,
-                                     cache_b_qs[0].x);
-            data_a_qs = repack(a_block_idx, 1);
-            q_sum += dotPacked4x8EXT(data_a_qs,
-                                     cache_b_qs[0].y);
-            data_a_qs = repack(a_block_idx, 2);
-            q_sum += dotPacked4x8EXT(data_a_qs,
-                                     cache_b_qs[0].z);
-            data_a_qs = repack(a_block_idx, 3);
+            int32_t data_a_qs = repack(a_block_idx, b_qs_idx * 2);
             q_sum += dotPacked4x8EXT(data_a_qs,
-                                     cache_b_qs[0].w);
-            data_a_qs = repack(a_block_idx, 4);
+                                     cache_b_qs[0]);
+            data_a_qs = repack(a_block_idx, b_qs_idx * 2 + 1);
             q_sum += dotPacked4x8EXT(data_a_qs,
-                                     cache_b_qs[1].x);
-            data_a_qs = repack(a_block_idx, 5);
-            q_sum += dotPacked4x8EXT(data_a_qs,
-                                     cache_b_qs[1].y);
-            data_a_qs = repack(a_block_idx, 6);
-            q_sum += dotPacked4x8EXT(data_a_qs,
-                                     cache_b_qs[1].z);
-            data_a_qs = repack(a_block_idx, 7);
-            q_sum += dotPacked4x8EXT(data_a_qs,
-                                     cache_b_qs[1].w);
+                                     cache_b_qs[1]);
 #endif
 
 #if QUANT_AUXF == 1
-            temp[j][n] += mul_q8_1(q_sum,  get_d(a_block_idx), cache_b_ds);
+            temp[j][n] += mul_q8_1(q_sum,  get_d(a_block_idx), cache_b_ds, 4);
 #else
-            temp[j][n] += mul_q8_1(q_sum, get_dm(a_block_idx), cache_b_ds);
+            temp[j][n] += mul_q8_1(q_sum, get_dm(a_block_idx), cache_b_ds, 4);
 #endif
         }
     }
 }
 
 void compute_outputs(const uint32_t first_row, const uint32_t num_rows) {
-    const uint tid_in_group = INVOCATION_ID % GROUP_SIZE;
+    const uint tid = INVOCATION_ID;
 
     get_offsets(a_offset, b_offset, d_offset);
     a_offset /= QUANT_K;
     b_offset /= QUANT_K_Q8_1;
 
-    y_offset = QUANT_R == 1 ? 1 : QUANT_K/2;
-
     FLOAT_TYPE temp[NUM_COLS][NUM_ROWS];
 
     [[unroll]] for (uint j = 0; j < NUM_COLS; ++j) {
@@ -175,8 +92,8 @@ void compute_outputs(const uint32_t first_row, const uint32_t num_rows) {
         }
     }
 
-    uint num_iters = p.ncols / (K_PER_ITER * GROUP_SIZE);
-    if (num_iters * K_PER_ITER * GROUP_SIZE + K_PER_ITER*tid_in_group < p.ncols) {
+    uint num_iters = p.ncols / (K_PER_ITER * BLOCK_SIZE);
+    if (num_iters * K_PER_ITER * BLOCK_SIZE + K_PER_ITER*tid < p.ncols) {
         num_iters++;
     }
     int unroll_count = 4;
@@ -186,7 +103,7 @@ void compute_outputs(const uint32_t first_row, const uint32_t num_rows) {
     while (i < unrolled_iters) {
         // Manually partially unroll the loop
         [[unroll]] for (uint k = 0; k < unroll_count; ++k) {
-            iter(temp, first_row, num_rows, tid_in_group, i*K_PER_ITER);
+            iter(temp, first_row, num_rows, tid, i*K_PER_ITER);
             i++;
         }
     }
@@ -205,22 +122,20 @@ void compute_outputs(const uint32_t first_row, const uint32_t num_rows) {
     while (i < unrolled_iters) {
         // Manually partially unroll the loop
         [[unroll]] for (uint k = 0; k < unroll_count; ++k) {
-            iter(temp, first_row, num_rows, tid_in_group, i*K_PER_ITER);
+            iter(temp, first_row, num_rows, tid, i*K_PER_ITER);
             i++;
         }
     }
     while (i < num_iters) {
-        iter(temp, first_row, num_rows, tid_in_group, i*K_PER_ITER);
+        iter(temp, first_row, num_rows, tid, i*K_PER_ITER);
         i++;
     }
 
-    reduce_result_grouped(temp, d_offset, first_row, num_rows, tid_in_group);
+    reduce_result(temp, d_offset, first_row, num_rows, tid);
 }
 
 void main() {
-    const uint group_id = INVOCATION_ID / GROUP_SIZE;
-    // 8 threads work together on a NUM_ROWS * NUM_COLS block/slice
-    const uint first_row = NUM_ROWS * (GROUPS_PER_WARP * (gl_WorkGroupID.x + gl_NumWorkGroups.x * gl_WorkGroupID.z) + group_id);
+    const uint first_row = NUM_ROWS * (gl_WorkGroupID.x + gl_NumWorkGroups.x * gl_WorkGroupID.z);
 
     // do NUM_ROWS at a time, unless there aren't enough remaining rows
     if (first_row + NUM_ROWS <= p.stride_d) {
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/mul_mmq.comp b/ggml/src/ggml-vulkan/vulkan-shaders/mul_mmq.comp
@@ -356,7 +356,7 @@ void main() {
                                                      cache_b_qs[cc * (BK / 4) + idx_k]);
                         }
 
-                        sums[sums_idx] += mul_q8_1(q_sum, cache_a_dm[cache_a_idx], cache_b_ds[cc]);
+                        sums[sums_idx] += mul_q8_1(q_sum, cache_a_dm[cache_a_idx], cache_b_ds[cc], 1);
                     }
                 }
             }
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/mul_mmq_funcs.comp b/ggml/src/ggml-vulkan/vulkan-shaders/mul_mmq_funcs.comp
@@ -16,8 +16,8 @@ i32vec2 repack(uint ib, uint iqs) {
                    (vui >> 4) & 0x0F0F0F0F);
 }
 
-ACC_TYPE mul_q8_1(int32_t q_sum, float da, vec2 dsb) {
-    return ACC_TYPE(da * (float(q_sum) * dsb.x - 8.0f * dsb.y));
+ACC_TYPE mul_q8_1(const int32_t q_sum, const float da, const vec2 dsb, const int32_t sum_divisor) {
+    return ACC_TYPE(da * (float(q_sum) * dsb.x - (8 / sum_divisor) * dsb.y));
 }
 #endif
 
@@ -29,8 +29,8 @@ i32vec2 repack(uint ib, uint iqs) {
                    (vui >> 4) & 0x0F0F0F0F);
 }
 
-ACC_TYPE mul_q8_1(int32_t q_sum, vec2 dma, vec2 dsb) {
-    return ACC_TYPE(float(q_sum) * dma.x * dsb.x + dma.y * dsb.y);
+ACC_TYPE mul_q8_1(const int32_t q_sum, const vec2 dma, const vec2 dsb, const int32_t sum_divisor) {
+    return ACC_TYPE(float(q_sum) * dma.x * dsb.x + dma.y * dsb.y / sum_divisor);
 }
 #endif
 
@@ -50,8 +50,8 @@ i32vec2 repack(uint ib, uint iqs) {
     return i32vec2(v0, v1);
 }
 
-ACC_TYPE mul_q8_1(int32_t q_sum, float da, vec2 dsb) {
-    return ACC_TYPE(da * (float(q_sum) * dsb.x - 16.0f * dsb.y));
+ACC_TYPE mul_q8_1(const int32_t q_sum, const float da, const vec2 dsb, const int32_t sum_divisor) {
+    return ACC_TYPE(da * (float(q_sum) * dsb.x - (16 / sum_divisor) * dsb.y));
 }
 #endif
 
@@ -69,8 +69,8 @@ i32vec2 repack(uint ib, uint iqs) {
     return i32vec2(v0, v1);
 }
 
-ACC_TYPE mul_q8_1(int32_t q_sum, vec2 dma, vec2 dsb) {
-    return ACC_TYPE(float(q_sum) * dma.x * dsb.x + dma.y * dsb.y);
+ACC_TYPE mul_q8_1(const int32_t q_sum, const vec2 dma, const vec2 dsb, const int32_t sum_divisor) {
+    return ACC_TYPE(float(q_sum) * dma.x * dsb.x + dma.y * dsb.y / sum_divisor);
 }
 #endif
 
@@ -81,7 +81,7 @@ int32_t repack(uint ib, uint iqs) {
                           data_a[ib].qs[iqs * 2 + 1]));
 }
 
-ACC_TYPE mul_q8_1(int32_t q_sum, float da, vec2 dsb) {
+ACC_TYPE mul_q8_1(const int32_t q_sum, const float da, const vec2 dsb, const int32_t sum_divisor) {
     return ACC_TYPE(float(q_sum) * da * dsb.x);
 }
 #endif
diff --git a/ggml/src/ggml-vulkan/vulkan-shaders/quantize_q8_1.comp b/ggml/src/ggml-vulkan/vulkan-shaders/quantize_q8_1.comp
@@ -86,7 +86,9 @@ void quantize() {
     data_b[ibx4_outer].qs[ibx4_inner * 8 + iqs] = pack32(i8vec4(round(vals)));
 #endif
 
+#ifndef USE_SUBGROUPS
     barrier();
+#endif
 
     // Calculate the sum for each block
     const float thread_sum = vals.x + vals.y + vals.z + vals.w;

Original file line number	Diff line number	Diff line change
`@@ -356,7 +356,7 @@ void main() {`
`356`	`356`	`cache_b_qs[cc * (BK / 4) + idx_k]);`
`357`	`357`	`}`
`358`	`358`
`359`		`- sums[sums_idx] += mul_q8_1(q_sum, cache_a_dm[cache_a_idx], cache_b_ds[cc]);`
	`359`	`+ sums[sums_idx] += mul_q8_1(q_sum, cache_a_dm[cache_a_idx], cache_b_ds[cc], 1);`
`360`	`360`	`}`
`361`	`361`	`}`
`362`	`362`	`}`
Original file line number	Diff line number	Diff line change
`@@ -16,8 +16,8 @@ i32vec2 repack(uint ib, uint iqs) {`
`16`	`16`	`(vui >> 4) & 0x0F0F0F0F);`
`17`	`17`	`}`
`18`	`18`
`19`		`-ACC_TYPE mul_q8_1(int32_t q_sum, float da, vec2 dsb) {`
`20`		`- return ACC_TYPE(da * (float(q_sum) * dsb.x - 8.0f * dsb.y));`
	`19`	`+ACC_TYPE mul_q8_1(const int32_t q_sum, const float da, const vec2 dsb, const int32_t sum_divisor) {`
	`20`	`+ return ACC_TYPE(da * (float(q_sum) * dsb.x - (8 / sum_divisor) * dsb.y));`
`21`	`21`	`}`
`22`	`22`	`#endif`
`23`	`23`
`@@ -29,8 +29,8 @@ i32vec2 repack(uint ib, uint iqs) {`
`29`	`29`	`(vui >> 4) & 0x0F0F0F0F);`
`30`	`30`	`}`
`31`	`31`
`32`		`-ACC_TYPE mul_q8_1(int32_t q_sum, vec2 dma, vec2 dsb) {`
`33`		`- return ACC_TYPE(float(q_sum) * dma.x * dsb.x + dma.y * dsb.y);`
	`32`	`+ACC_TYPE mul_q8_1(const int32_t q_sum, const vec2 dma, const vec2 dsb, const int32_t sum_divisor) {`
	`33`	`+ return ACC_TYPE(float(q_sum) * dma.x * dsb.x + dma.y * dsb.y / sum_divisor);`
`34`	`34`	`}`
`35`	`35`	`#endif`
`36`	`36`
`@@ -50,8 +50,8 @@ i32vec2 repack(uint ib, uint iqs) {`
`50`	`50`	`return i32vec2(v0, v1);`
`51`	`51`	`}`
`52`	`52`
`53`		`-ACC_TYPE mul_q8_1(int32_t q_sum, float da, vec2 dsb) {`
`54`		`- return ACC_TYPE(da * (float(q_sum) * dsb.x - 16.0f * dsb.y));`
	`53`	`+ACC_TYPE mul_q8_1(const int32_t q_sum, const float da, const vec2 dsb, const int32_t sum_divisor) {`
	`54`	`+ return ACC_TYPE(da * (float(q_sum) * dsb.x - (16 / sum_divisor) * dsb.y));`
`55`	`55`	`}`
`56`	`56`	`#endif`
`57`	`57`
`@@ -69,8 +69,8 @@ i32vec2 repack(uint ib, uint iqs) {`
`69`	`69`	`return i32vec2(v0, v1);`
`70`	`70`	`}`
`71`	`71`
`72`		`-ACC_TYPE mul_q8_1(int32_t q_sum, vec2 dma, vec2 dsb) {`
`73`		`- return ACC_TYPE(float(q_sum) * dma.x * dsb.x + dma.y * dsb.y);`
	`72`	`+ACC_TYPE mul_q8_1(const int32_t q_sum, const vec2 dma, const vec2 dsb, const int32_t sum_divisor) {`
	`73`	`+ return ACC_TYPE(float(q_sum) * dma.x * dsb.x + dma.y * dsb.y / sum_divisor);`
`74`	`74`	`}`
`75`	`75`	`#endif`
`76`	`76`
`@@ -81,7 +81,7 @@ int32_t repack(uint ib, uint iqs) {`
`81`	`81`	`data_a[ib].qs[iqs * 2 + 1]));`
`82`	`82`	`}`
`83`	`83`
`84`		`-ACC_TYPE mul_q8_1(int32_t q_sum, float da, vec2 dsb) {`
	`84`	`+ACC_TYPE mul_q8_1(const int32_t q_sum, const float da, const vec2 dsb, const int32_t sum_divisor) {`
`85`	`85`	`return ACC_TYPE(float(q_sum) * da * dsb.x);`
`86`	`86`	`}`
`87`	`87`	`#endif`