conf: Update model configurations

2025-01-31 13:20:40 +01:00 · 2025-01-31 13:20:40 +01:00 · aad9472372
commit aad9472372
parent 56ce7c5831
1 changed files with 37 additions and 1 deletions
--- a/llama_proxy_man/config.yaml
+++ b/llama_proxy_man/config.yaml
@ -53,7 +53,7 @@ models:
      # draft-max: 16
      # draft-min: 5
  - name: "bigger-chat"
-    port: 18083
+    port: 18085
    vram_usage: 29G
    ram_usage: 5G
    env:
@ -70,3 +70,39 @@ models:
      gpu-layers-draft: 0
      # draft-max: 16
      # draft-min: 5
+  - name: "bigger-chat-2"
+    port: 18083
+    vram_usage: 29G
+    ram_usage: 5G
+    env:
+      CUDA_VISIBLE_DEVICES: 0
+      HSA_OVERRIDE_GFX_VERSION: '11.0.0'
+    args:
+      ctx-size: 8192
+      flash-attn: true
+      cache-type-k: q8_0
+      cache-type-v: q8_0
+      model: /media/SanDisk/ai/models_live/Llama-3.3-70B-Instruct-IQ3_XXS.gguf
+      gpu-layers: 9999
+      # model-draft: /media/SanDisk/ai/models_live/Llama-3.2-1B-Instruct-Q8_0.gguf
+      # gpu-layers-draft: 0
+      # draft-max: 16
+      # draft-min: 5
+  - name: "deep-think"
+    port: 18084
+    vram_usage: 29G
+    ram_usage: 5G
+    env:
+      CUDA_VISIBLE_DEVICES: 0
+      HSA_OVERRIDE_GFX_VERSION: '11.0.0'
+    args:
+      ctx-size: 32768
+      flash-attn: true
+      # cache-type-k: q8_0
+      # cache-type-v: q8_0
+      model: /media/SanDisk/ai/models_live/QwQ-32B-Preview-IQ4_XS.gguf
+      gpu-layers: 9999
+      # model-draft: /media/SanDisk/ai/models_live/Llama-3.2-1B-Instruct-Q8_0.gguf
+      # gpu-layers-draft: 0
+      # draft-max: 16
+      # draft-min: 5