最近,Ollama发布了一个重大更新,支持多请求并发,并同时加载多款模型。这个更新为Ollama的使用带来了更多的灵活性和效率。
当然这个功能还处在测试阶段,但是今天先带大家来提前看一下最新的 v0.1.33
版本。
在Release中可以看到:“
并发这个功能还是实验性的,我们可以看看他是如何支持的
在文档中可以看到Ollama中在最新版本中提供了两个参数:
OLLAMA_NUM_PARALLEL
:在单一模型上,可以支持的并发处理的请求数OLLAMA_MAX_LOADED_MODELS
:同时加载的模型数如果我们要使用这两个参数,就在 ollama serve
命令中启动ollama的时候来指定:
OLLAMA_NUM_PARALLEL=4 OLLAMA_MAX_LOADED_MODELS=4 ollama serve
在这个例子中可以看到,两个参数都给了4,就代表着:最大并发请求数是个同时四个并且可以同时加载四个模型。
powered by kaifamiao