Reduce KV cache data type support to f32, f16, q8_0 and q4_0

countzero · countzero · commit 3ba2f74e4245 · 2024-06-05T07:58:43.000+02:00
diff --git a/examples/server.ps1 b/examples/server.ps1
@@ -23,7 +23,7 @@ Specifies the number of layers offloaded into the GPU.
 Specifies the models context length it was trained on.
 
 .PARAMETER kvCacheDataType
-Specifies the KV cache data type (options: f32, f16, q8_0, q4_0, q4_1, iq4_nl, q5_0, or q5_1).
+Specifies the KV cache data type (options: f32, f16, q8_0, q4_0).
 
 .PARAMETER verbose
 Increases the verbosity of the llama.cpp server.
@@ -38,7 +38,7 @@ Increases the verbosity of the llama.cpp server.
 .\server.ps1 -model "C:\models\openchat-3.5-0106.Q5_K_M.gguf" -contextSize 4096 -numberOfGPULayers 10
 
 .EXAMPLE
-.\server.ps1 -model "C:\models\openchat-3.5-0106.Q5_K_M.gguf" -port 8081
+.\server.ps1 -model "C:\models\openchat-3.5-0106.Q5_K_M.gguf" -port 8081 -kvCacheDataType q8_0
 
 .EXAMPLE
 .\server.ps1 -model "..\vendor\llama.cpp\models\openchat-3.5-0106.Q5_K_M.gguf" -verbose
diff --git a/rebuild_llama.cpp.ps1 b/rebuild_llama.cpp.ps1
@@ -153,7 +153,6 @@ switch ($blasAccelerator) {
         cmake `
             -DLLAMA_CUDA=ON `
             -DLLAMA_CCACHE=OFF `
-            -DLLAMA_CUDA_FA_ALL_QUANTS=ON `
             ..
     }
 
diff --git a/vendor/llama.cpp b/vendor/llama.cpp
@@ -1 +1 @@
-Subproject commit 6d1616944d9efd342ed2a4fd318722adfc9febcd
+Subproject commit c90dbe026b456a233f8f0fbe752212e6a0503ca2