default to one mem kv for compressed attn

lucidrains · lucidrains · commit 463963b91514 · 2025-02-21T17:31:52.000Z
diff --git a/native_sparse_attention_pytorch/native_sparse_attention.py b/native_sparse_attention_pytorch/native_sparse_attention.py
@@ -185,7 +185,7 @@ def __init__(
         selection_block_size,
         num_selected_blocks,
         kv_heads = None,
-        num_compressed_mem_kv = 4,
+        num_compressed_mem_kv = 1,
         norm = True,
         use_diff_topk = False,
         interpolated_importance_score = False,
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [project]
 name = "native-sparse-attention-pytorch"
-version = "0.0.42"
+version = "0.0.43"
 description = "Native Sparse Attention"
 authors = [
     { name = "Phil Wang", email = "lucidrains@gmail.com" }