小天管理 发表于 7月23日 Share 发表于 7月23日 在本地部署了 ollama 的 API 做生成任务,现在有 4 块 A800 的 GPU ,ollama 已经开启了并行任务。现在的问题是,模型速度提不上去,GPU 也没有跑满,占用在 80%左右,显存也只用了 1/2 。是其他什么硬件到了瓶颈吗?影响模型生成速度的内存带宽?如何能提升速度? 引用 意见的链接 分享到其他网站 More sharing options...
已推荐帖子
加入讨论
您现在可以发表并稍后注册. 如果您是会员,请现在登录来参与讨论.