Как собирать «стек» из Tesla K80 / P100 / V100: топологии, максимум GPU, задачи

01.11.2025 Нет комментариев 4309 просмотра

Коротко по поколениям

Tesla K80 (Kepler, GK210) — 2 GPU на одной плате, фокус на HPC/численные расчёты, FP64/FP32, без Tensor Cores и без NVLink (PCIe-связь). Карта двухслотовая, пассивное охлаждение, 24 ГБ GDDR5 на плату (12 ГБ на каждый из двух GPU), питание до 300 Вт.
Tesla P100 (Pascal) — бывает в виде PCIe (обычно без NVLink) и SXM2 (с NVLink 1.0). Скачок производительности и энергоэффективности, хорош для DL-обучения и HPC с FP64.
Tesla V100 (Volta) — Tensor Cores, версии PCIe и SXM2 (NVLink 2.0), серьёзный рост в DL/AI и mixed precision.

Если цель — классический HPC и численные задачи (CFD, линалг, молекулярная динамика) — K80/P100 ещё «играют». Для DL-обучения сейчас разумнее как минимум V100, а лучше A100/H100, но V100 остаётся хорошим вариантом по цене/скорости.

«Стек» в одном сервере: сколько GPU реально объединить

Быстрый ориентир по шасси и форм-фактору

2U серверы: обычно до 4× двойной ширины PCIe (бывают топовые 2U на 6–8 GPU, но это специфические платформы).
4U серверы: до 8× двойной ширины PCIe — это наиболее частая «максимальная» конфигурация для стандартных платформ.
SXM2-системы (NVLink backplane): типично 4 или 8 GPU (класс DGX/«8-GPU mesh»).

Уточнение для K80

K80 — двухчиповая плата (2 GPU на одной карте), так что 8 плат = 16 GPU логически. Но упираемся в:

Энергопотребление: K80 ≈ до 300 Вт на плату → 8 плат = до 2.4 кВт только на GPU. Нужен БП 3–4 кВт суммарно и мощная линия 12 В.
Охлаждение: K80 только с пассивным радиатором — сервер обязан давать достаточный фронт-ту-бэк поток (high-CFM), иначе троттлинг/ошибки ECC.
Слоты/топология PCIe: двойная ширина, нужен полный x16 Gen3, достаточные PCIe-линии от CPU/PLX.

Вывод: в «обычном» 4U — до 8 PCIe-карт (K80/P100/V100), для K80 это 16 GPU логически; для P100/V100 — 8 GPU. SXM2-узлы — 4 или 8 GPU.

Топологии и меж-GPU связь

PCIe-только (K80, P100/V100 в PCIe): обмен идёт через PCIe. Важно, чтобы GPU в одном «корне» (через общий PLX/CPU сокет) имели хорошую PCIe видимость. Проверьте nvidia-smi topo -m и избегайте «PHB» между часто общающимися GPU.
NVLink (P100/V100 SXM2): физические мосты/бэкплейн дают кратно более высокую полосу и ниже задержки для all-reduce, tensor-fusion и т. п. Для обучения DL-моделей это ощутимо ускоряет масштабирование в пределах узла.

Питание и охлаждение (критично для K80)

K80 питание: карта использует EPS12V 8-pin на борту (NVIDIA кладёт переходник «2×PCIe 8-pin → 1×EPS 8-pin»; общая подводимая мощность к карте — до 300 Вт). Обязательно запитывать с одной линии/релейла БП, чтобы суммарно отдавал не менее 225–300 Вт на карту (см. таблицу power в спецификации).
Поток воздуха: K80 идёт только с пассивным радиатором → без сервера с сильными вентиляторами карта не выживет под нагрузкой. Расстановка плат «через слот» и шторки-направляющие потока сильно помогают.
P100/V100 PCIe: обычно 250–300 Вт на карту; требования к БП/охлаждению близкие к K80, но охлаждение часто активнее в новых шасси.
SXM2-системы: питание/охлаждение интегрированы в платформу (покупаются «как есть» у вендора).

Софт-стек: как правильно «склеивать» несколько GPU

Драйвер и CUDA Toolkit. Ставим актуальный драйвер под ваше поколение карт и CUDA. Для K80 подойдёт CUDA 11.x (последние версии 12.x уже зачастую «урезают» старые архитектуры).
NCCL (NVIDIA Collective Communications Library) — для all-reduce / all-gather между несколькими GPU (DL-тренинг). На PCIe работает, на NVLink быстрее.
Фреймворки: PyTorch/TF/DeepSpeed — используют NCCL «из коробки». Запуск: torchrun/torch.distributed, mpirun с NCCL_P2P_LEVEL, NCCL_SOCKET_IFNAME и т. п.
CUDA-MPS (Multi-Process Service) — если нужно делить один GPU между несколькими процессами HPC (аккуратно на K80/P100).
NUMA/CPU pinning: биндим процессы к сокетам, ближним к своим GPU/PLX, чтобы снизить межсокетные латентности.
Мониторинг: nvidia-smi dmon / nvtop / DCGM. На K80 помните про ECC по умолчанию включён (чуть меньше доступной памяти, но выше надёжность).

Для чего это всё: типовые нагрузки

DL/ИИ
- K80: базовое обучение/инференс старших моделей на FP32 или FP16 без Tensor Cores (медленнее современных карт). Хороший вариант для инференса классических CV-сетей, обучения небольших/средних моделей, fine-tuning с небольшими батчами.
- P100: быстрее K80; для обучения CNN/Seq2Seq уже адекватно, особенно в много-GPU.
- V100: Tensor Cores → отличный компромисс цена/скорость для BERT-класса, Vision-трансформеров, RL.
HPC/научные расчёты (CUDA-линалг, CFD, MD, FEM): K80/P100 ценны FP64-производительностью и ECC; масштабируются через MPI+CUDA.
Рендер/симуляции: V-Ray GPU/Octane/Redshift (лучше P100/V100), вычислительная графика.
Data Engineering/ETL/GPU-базы: RAPIDS (cuDF/cuML), Spark-плагины — от P100/V100 и выше.

Сколько GPU «объединять» в одном узле для DL

PCIe-только (без NVLink): sweet-spot — 4–8 GPU. Дальше прирост скромнее (узкое место — меж-GPU обмен и PCIe-топология).
NVLink-узлы (SXM2): 8 GPU — стандарт де-факто (mesh/fully-connected fabric под NCCL).
Кластеры: масштабируйтесь горизонтально (много узлов по 4–8 GPU) → InfiniBand + NCCL-RDMA. Балансируйте память модели (ZeRO/FSDP) и пропускную способность сети.

Чек-лист перед сборкой

Подсчитайте мощность: K80 до 300 Вт/карта, P100/V100 до 250–300 Вт/карта → БП с запасом и общая линия 12 В.
Охлаждение: для K80 обязателен сильный фронт-ту-бэк поток; в 4U на 8 плат — самые «жаркие» зоны экранируйте и ставьте шторки.
Топология PCIe: проверьте nvidia-smi topo -m; разгруппируйте задачи по «близким» GPU.
RAM/CPU: не экономьте — для DL часто нужен быстрый CPU и много RAM под даталоадеры/препроцессинг.
NCCL/драйверы: фиксируйте версии, тестируйте бенчмарком nccl-tests и p2pBandwidthLatencyTest.
ECC/надёжность: на K80 ECC включён по умолчанию — это хорошо для долгих HPC-прогонов.

Примеры конфигураций

Бюджетный DL/инференс: 4× P100 (PCIe), Ubuntu 22.04 + CUDA 11.8 + PyTorch LTS, NCCL; хранение на NVMe RAID-0.
Универсальный научный узел: 4× K80 (это 8 логических GPU), CUDA 11.x, OpenMPI + NCCL; задачи линалг/CFD/MD.
Тяжёлое обучение: 8× V100 (SXM2), NVLink 2.0, NCCL, Slurm; InfiniBand 100–200 Gb/s для межузлового масштабирования.