<img width="674" alt="Image" src="https://github.com/user-attachments/assets/9922de93-ba89-42dc-8c78-7347f82ababa" /> <img width="649" alt="Image" src="https://github.com/user-attachments/assets/efc3a7fb-b32c-4fbb-b082-e3bc0700f6d9" /> 老师您好, 我不明白为什么 `d_NL[(count++) * N + n1]` 一定能保证合并内存访问? 每个 n1 的 count 增长不是同步的,也就是说每个线程对于 d_NL 的访存地址可能差距好几个 `N`。那为什么这样能实现合并访问呢? 还是说,只能保证 count = 0 时是合并的?