小天管理 发表于 2024年7月19日 发表于 2024年7月19日 假设在一个 k8s 集群中每一个节点有 4 张 4090, 这些显卡可以分配给 Pod ,但目前一个 Pod 独占整数张 4090. 想要的效果是:2 个(or 多个) Pod 可以同时共享一张显卡。 看了一下 NVIDIA 官方的方案: MIG(把物理显卡划分成 7 个 GPU 实例), 缺点是 : 只能划分 7 个实例,且只有例如 blackwell 等架构显卡才能用。 vGPU(有分时方案和 MIG 方案),缺点是不免费,且一样挑显卡。 需求是: 支持同一张显卡在同一时间被多个容器使用 在消费级显卡上可用 免费 有在比较大规模集群上稳定跑过 请问站内有无大佬有相关的实践/思路/方案?
已推荐帖子