GPU 直通是指服务器的 GPU 以直通方式分配给虚拟机,并通过远程协议使得用户可以从远程进行接入。
GPU 直通方式,将承载虚拟机的云平台的物理节点上的 GPU 显卡绑定分配给用户虚拟机,终端用户通过终端远程接入用户虚拟机,这样虚拟机就可以使用 GPU 获取 3D 加速能力。
优势在于:支持多种类型的显卡,兼容性好,支持符合最新 DirectX、OpenGL 规范的 3D 应用。
GPU 直通的技术背景
当前图像分类,视频分析,语音识别以及自然语音处理等应用场景下,使用 GPU 能极大提高并发处理性能。
例如:人脸识别需要处理成千上万张高清图片,电脑游戏也需要处理大量炫丽的游戏界面。这些都是 GPU 典型的使用场景。
GPU 包含上千个计算单元,在并行计算方面展示出强大的优势,GPU 直通实例针对深度学习特殊优化,可在短时间内完成海量计算。
在科学计算领域,要求极强的双精度计算能力,在模拟仿真过程中,消耗大量计算资源的同时,会产生大量临时数据,对存储带宽与时延也有极高的要求。GPU 直通实例可以满足这些需求。
GPU 云服务器(GPU Cloud Computing)是基于 GPU 的应用于深度学习、科学计算等多种 GPU 计算场景的快速、稳定、弹性的计算服务。
GPU 直通实现方式:通过虚拟化平台的直通技术可以将 GPU 直接给虚拟机使用,与物理服务器使用 GPU 的效果基本一致,在虚拟机内上只要安装了对应 GPU 的驱动,GPU 就可以为这个虚拟机提供高性能的图形能力。
GPU 直通的技术方案
GPU 直通是也叫 GPU pass-through 直通,是将 PCI 插槽上的物理设备(这里指 GPU 设备)绕过 OS 层,直接提供给了 VM。一般情况下 PCI 设备提供到 VM,是需要经过 OS 层面的设备驱动,经过 OS 识别到该 PCI 设备,再将物理设备模拟提供给了 VM。
如图所示,pass-through 直通是直接把物理设备直通给虚拟机,在 VM 层面看到的该设备,就完全是一块物理卡。普通的设备模拟需要经过 HostOS 的物理驱动,然后经过 Qemu 的模拟驱动,再转发到 Guest OS 内的驱动上,在 VM 层面看到的设备实际上是模拟的设备。
GPU 直通的技术优势
1、 性能损失小。无论是 AI 应用,深度学习还是科学计算来说,对使用 GPU 直通实例就是要极致利用 GPU 的性能,GPU 直通技术由于没有设备模拟和转换的过程,性能损耗极小,如下表所示,GPU 直通虚拟机的 GPU 性能与裸机上的 GPU 相比性能损失小于 5%。GPU 包含上千个计算单元,在并行计算方面展示出强大的优势。
2、 功能兼容性好。相对于设备模拟或者 GPU 虚拟化技术,因为虚拟机里面直接安装的是 GPU 厂商的驱动,直通设备可无损使用 GPU 的各项特性和功能:3D 图形加速渲染,视频硬件编解码,人工智能,机器学习,以及最新的多 GPU 互联互通等。
3、 对 GPU 厂商无依赖。需要搬迁 GPU 服务器到云上非常简单,依赖于 GPU 直通技术,在几天之内就可完成。
在科学计算大多数领域中都可以使用GPU加速,包括化学研究,流体动力学分析,结构分析,环境建模,地球物理学,可视化/图像处理。在科学计算领域,要求极强的双精度计算能力。在模拟仿真过程中,消耗大量计算资源的同时,会产生大量临时数据,对存储带宽与时延也有极高的要求,这些场景通常采用 GPU 直通技术。