Hardware 13. května 2026 · 8 min čtení

Praktický průvodce nákupem GPU pro on-premise AI

VRAM, výkonnost, spotřeba a rozpočet: jak koupit správná GPU napoprvé.

Nákup GPU pro on-premise AI je jedním z nejdůležitějších infrastrukturních rozhodnutí, která může organizace učinit. Udělejte to správně a budete mít soběstačnou, nákladově efektivní platformu pro inferenci a doladění, která v průběhu času nabývá na hodnotě. Udělejte to špatně a strávíte měsíce ve frontách na vrácení GPU nebo, co je horší, budete spouštět modely, které se nevejdou do paměti. Tato příručka prochází každým rozměrem, který musíte zhodnotit — VRAM, výkonnost, spotřeba, chlazení a celkové náklady na vlastnictví — abyste mohli s jistotou vybrat napoprvé.

VRAM je první a nejtvrdší omezení

Před jakoukoli jinou specifikací se zeptejte: kolik gigabajtů VRAM vyžaduje můj cílový model? Model se 7 miliardami parametrů v 16-bitové přesnosti zabírá přibližně 14 GB; model se 70 miliardami parametrů potřebuje přibližně 140 GB. Kvantizace na 4-bity může tyto cifry snížit o 75 %, ale kvantizace zavádí kompromisy kvality, které je nutné ověřit pro váš případ použití. Kardinálním pravidlem je jednoduché: pokud se model nevejde do VRAM, GPU bude přelévat do systémové RAM a výkonnost se o jeden až dva řády zhroutí. Vždy dimenzujte VRAM s rezervou — alespoň 20 % volných — pro key-value cache, která roste s délkou kontextu.

Srovnání modelů GPU podle VRAM a paměťové šířky pásma — Kapacita VRAM a paměťová šířka pásma pro hlavní možnosti GPU v letech 2025–2026.

Spotřebitelská vs. datacentrová GPU

Trh GPU se dělí na spotřebitelské karty a datacentrové akcelerátory a toto rozlišení je pro on-premise AI důležité. Spotřebitelská GPU jako NVIDIA RTX 4090 nabízí 24 GB GDDR6X za mimořádné poměry cena-za-VRAM a mohou provozovat modely jako Llama 3 70B ve 4-bitech na dvou-kartovém nastavení. Jsou výborné pro malé týmy, výzkumné laboratoře a nasazení orientovaná na rozpočet. Postrádají však ECC paměť, nejsou navrženy pro 24/7 provoz v racku a v některých jurisdikcích mají omezení pro komerční inferenci. Datacentrová GPU — L4, L40S, A100 a H100/H200 — jsou postaveny pro nepřetržité pracovní cykly, mají ECC paměť pro numerickou integritu a jsou podporovány podnikovými SLA. L4 (24 GB) je nákladově efektivní pro inferenci; L40S (48 GB) dobře zvládá modely střední velikosti; A100 80 GB a H100/H200 (80 GB+) jsou standardem pro doladění velkých modelů a vysoce výkonné obsluze. Privonis navrhuje nasazení kolem datacentrových GPU právě proto, že evropští podnikoví klienti vyžadují tuto záruku spolehlivosti.

RTX 4090 — 24 GB GDDR6X, ~1 008 GB/s šířka pásma, nejlepší cena-za-VRAM pro vývojové pracovní zátěže.
L4 — 24 GB GDDR6, PCIe formát, nízká spotřeba (72 W), ideální pro inferenční zařízení.
L40S — 48 GB GDDR6, vysoká propustnost FP8, pracovní kůň pro modely střední velikosti ve velkém měřítku.
A100 80 GB — 80 GB HBM2e, podpora NVLink, osvědčený produkční standard pro velké modely.
H100 / H200 — 80–141 GB HBM3/3e, transformer engine s FP8, maximální dostupná propustnost.

Strategie jednoho vs. více GPU

Jedno GPU s vysokou VRAM udržuje zásobník jednoduchý: žádná konfigurace tensor-paralelismu, žádná NVLink fabric ke správě, menší povrch selhání. Začněte s jedním GPU, kdykoli se model vejde a váš cíl výkonnosti je dosažitelný. Když to není možné — buď proto, že model je příliš velký, nebo proto, že potřebujete obsluhovat desítky souběžných uživatelů — budete muset rozkládat přes více GPU. NVLink dramaticky předčí PCIe pro šířku pásma mezi GPU (900 GB/s vs ~64 GB/s obousměrně na PCIe 5.0), což je kritické pro tensor-paralelismus. Pokud váš rozpočet vynutí PCIe-only víceGPU, preferujte pipeline paralelismus před tensor-paralelismem, abyste minimalizovali provoz mezi zařízeními.

Spotřeba, chlazení a plánování racku

Datacentrová GPU odebírají mezi 72 W (L4) a 700 W (H100 SXM5). Osmičkový systém DGX H100 může při trvalé zátěži odebírat ze sítě 10 kW. Před objednáváním hardwaru ověřte, že vaše datové centrum nebo serverovna dokáže dodat potřebné elektrické obvody a zajistit odpovídající chlazení — typicky vzduch dodávaný při 12–15 °C nebo přímé kapalinové chlazení pro nejhustší konfigurace. Přehlédnutí hustoty výkonu je nejčastější příčinou zpoždění nasazení v on-premise AI projektech.

Křivky celkových nákladů na vlastnictví: on-premise vs. cloudový pronájem GPU v průběhu času — Analýza bodu zlomu TCO: vlastnictví on-premise GPU se stává levnějším než cloudový pronájem mezi 12 a 18 měsíci pro většinu inferenčních pracovních zátěží.

Koupit vs. pronajmout: výpočet TCO

Pronájem GPU v cloudu je operačně pohodlný, ale drahý ve velkém měřítku. Instance H100 u předního cloudového poskytovatele stojí přibližně 3–4 EUR za GPU-hodinu, což se při nepřetržitém využití rovná více než 26 000 EUR za GPU ročně. Stejné GPU zakoupené přímo stojí 25 000–35 000 EUR a má obvykle tříleté až pětileté funkční období. Bod zlomu pro vysoce využívané pracovní zátěže nastane mezi dvanácti a osmnácti měsíci — po nichž je on-premise přísně levnější. Privonis pomáhá klientům sestavit tento TCO model před závazkem k oběma cestám, protože správná odpověď závisí na míře využití, amortizačním období a hodnotě datové suverenity pro podnikání.

GPU, které si můžete dovolit provozovat nepřetržitě, vždy překoná GPU, které pronajímáte sporadicky. Využití je skutečný multiplikátor výkonu.

Praktický kontrolní seznam nákupu

Definujte svůj největší cílový model a vypočítejte požadavek na VRAM při požadované přesnosti.
Přidejte 20% rezervu VRAM pro KV cache a budoucí aktualizace modelů.
Ověřte kapacitu elektrického obvodu a chlazení před specifikací počtu GPU.
Preferujte ECC datacentrová GPU pro 24/7 produkci; spotřebitelské karty jsou přijatelné pro výzkum a vývoj.
Modelujte víceGPU propoje (NVLink vs. PCIe) před rozhodnutím o strategii paralelismu.
Sestavte 24-měsíční TCO porovnávající nákup, odpisy, spotřebu a údržbu s cloudovým pronájmem.
Zapojte dodavatele — jako je Privonis — který může ověřit celý zásobník: GPU, server, OS, inferenční runtime a monitoring.

Nákup GPU není jednorázový nákup; je to základ vašeho AI infrastrukturního plánu. Investice času do modelování požadavků na VRAM, omezení výkonu a celkových nákladů na vlastnictví před nákupem ušetří měsíce přepracování a desítky tisíc eur. Pokud byste uvítali bezplatné přezkoumání architektury pro váš on-premise AI projekt, tým Privonis je připraven pomoci.

Promluvme si o vašem AI projektu

Rezervovat hovor