File: Codes/ch03/01_main-chapter-code/ch03.ipynb CausalAttention 类中的forward方法,对注意力分数进行softmax的部分有问题: <img width="639" alt="image" src="https://github.com/user-attachments/assets/1d59e703-a6ba-48a0-ba71-e52c61b6a058" /> 这里如果设置为dim=1,就不能处理批次情况了。在输入的形状为[batch_size, num_tokens, d_in] 时,attn_scores的形状为[batch_size, num_tokens, num_tokens],此时应该是在dim=2上进行softmax才是正确吧,所以应该为dim=-1。