假设在一个 k8s 集群中每一个节点有 4 张 4090, 这些显卡可以分配给 Pod ,但目前一个 Pod 独占整数张 4090.
想要的效果是:2 个(or 多个) Pod 可以同时共享一张显卡。
看了一下 NVIDIA 官方的方案:
MIG(把物理显卡划分成 7 个 GPU 实例), 缺点是 : 只能划分 7 个实例,且只有例如 blackwell 等架构显卡才能用。
vGPU(有分时方案和 MIG 方案),缺点是不免费,且一样挑显卡。
需求是:
支持同一张显卡在同一时间被多个容器使用
在消费级显卡上可用
免费
有在比较大规模集群上稳定跑过
请问站内有无大佬有相关的实践/思路/方案?