我使用llama-server 启动的服务,--threads-http设置成10,从不同终端请求的时候发现只能将上一个请求处理完后才能处理下一个请求,如何才能同时处理不同的http请求?
首先,你的gpu 要处理得过来
· Sign up or log in to comment