Spaces:

sugiv
/

LeetMonkey-8bit-GGUF-Inference

Sleeping

sugiv commited on Sep 12, 2024

Commit

cc60d5c

1 Parent(s): 0902e6c

Change of settings again for CPU, trying 16 CPU

Files changed (1) hide show

app.py CHANGED Viewed

@@ -45,8 +45,8 @@ REPO_ID = "sugiv/leetmonkey-peft-gguf"
 # Load the model
 model_path = hf_hub_download(repo_id=REPO_ID, filename=MODEL_NAME, cache_dir="./models")
 #llm = Llama(model_path=model_path, n_ctx=2048, n_threads=16, n_gpu_layers=-1, verbose=False, mlock=True) ## TPU
-#llm = Llama(model_path=model_path, n_ctx=1024, n_threads=8, n_gpu_layers=0, verbose=False, mlock=False) ## CPU only
-llm = Llama(model_path=model_path, n_ctx=1024, n_threads=8, n_gpu_layers=-1, verbose=False, mlock=False) ## Nvidia
 logger.info("8-bit model loaded successfully")
 # User data storage

 # Load the model
 model_path = hf_hub_download(repo_id=REPO_ID, filename=MODEL_NAME, cache_dir="./models")
 #llm = Llama(model_path=model_path, n_ctx=2048, n_threads=16, n_gpu_layers=-1, verbose=False, mlock=True) ## TPU
+llm = Llama(model_path=model_path, n_ctx=1024, n_threads=8, n_gpu_layers=0, verbose=False, mlock=False) ## CPU only
+#llm = Llama(model_path=model_path, n_ctx=1024, n_threads=8, n_gpu_layers=-1, verbose=False, mlock=False) ## Nvidia
 logger.info("8-bit model loaded successfully")
 # User data storage