qGPU on TKE-腾讯云发布下一代GPU容器共享技术

pexels-photo-2041623.jpg

背景

qGPU是腾讯云推出的GPU共享技术,支持在多个容器间共享GPU卡,并提供容器间显存、算力强隔离的能力,从而在更小粒度的使用GPU卡的基础上,保证业务安全,达到提高GPU使用率、降低客户成本的目的。

qGPU on TKE依托腾讯云TKE对外开源的Nano GPU调度框架[1],可实现对GPU算力与显存的细粒度调度,并支持多容器共享GPU与多容器跨GPU资源分配。同时依赖底层强大的qGPU隔离技术,可做到GPU显存和算力的强隔离,在通过共享使用GPU的同时,尽最大可能保证业务性能与资源不受干扰。

功能优势

qGPU方案通过对NVIDIA GPU卡上任务更有效的调度,达到给多个容器共享使用的目的,支持的功能如下:

灵活性:用户可以自由配置GPU的显存大小和算力占比

云原生:支持标准的Kubernetes,兼容NVIDIA Docker方案

兼容性:镜像不修改/CUDA库不替换/业务不重编,易部署,业务无感知

高性能:在底层对GPU设备进行操作,高效收敛,吞吐接近0损耗

强隔离:支持显存和算力的严格隔离,业务共享不受影响

技术架构

qGPU on TKE使用Nano GPU调度框架,通过Kubernetes扩展调度机制,同时支持GPU算力与显存资源调度。并且依赖Nano GPU的容器定位机制,支持精细化GPU卡调度,同时支持多容器GPU卡共享分配与多容器GPU跨卡分配。

qGPU直接采用英伟达GPU底层硬件特性进行调度,实现细粒度算力隔离,打破传统上CUDA API劫持方案的只能以CUDA Kernel为粒度进行算力隔离的限制,提供更好的QoS保证。

640.webp (3).jpg

客户收益

1.多任务灵活共享GPU,提升利用率

2.GPU资源强隔离,业务共享不受影响

3.完全面向Kubernetes,业务使用零成本

未来规划

1.支持细粒度资源监控:qGPU on TKE将支持对Pod和容器级的GPU使用率采集,实现更细粒度的资源监控和与GPU弹性能力的整合

2.支持在离线混部:qGPU on TKE将支持在线业务和离线业务的高低优先级混部,最大限度地提升GPU利用率

3.支持qGPU算力池化:基于qGPU的GPU算力池化,实现CPU、内存资源与异构计算资源解耦

参考资料

[1]Nano GPU调度框架:【https://github.com/nano-gpu】

我们是设计师、工程师、梦想者,是您扬帆出海的私人顾问专家


相关内容:
[亚马逊开店深圳办事处地址在哪里]
[亚马逊开店深圳办事处地址在哪里]
亚马逊开店深圳办事处地址揭秘:一站式开店服务,轻松拥抱财富!各位亲爱的创业者们,你们好!今天要给大家带来一个好消息——亚马逊开店深圳办事处地址终于揭开了神秘面纱!在这里,
亚马逊开店卖翡翠怎么样?
亚马逊开店卖翡翠怎么样?
亚马逊开店卖翡翠:珠宝行业的巨大商机等你来挖掘!在炎热的夏季,一杯清凉的饮料、一本好书和一个精美的翡翠饰品,想必是很多人的首选。翡翠作为中国传统文化中的瑰宝之一,以其晶莹

TG客服:@SSjiejie — 官方频道:@SSwangluo

三生网络 © 2009-2023 超15年出海经验,跨境项目专家