Přeskočit na obsah
← Zpět na blog
Hardware 13. května 2026 · 8 min čtení

Praktický průvodce nákupem GPU pro on-premise AI

VRAM, výkonnost, spotřeba a rozpočet: jak koupit správná GPU napoprvé.

Praktický průvodce nákupem GPU pro on-premise AI

Nákup GPU pro on-premise AI je jedním z nejdůležitějších infrastrukturních rozhodnutí, která může organizace učinit. Udělejte to správně a budete mít soběstačnou, nákladově efektivní platformu pro inferenci a doladění, která v průběhu času nabývá na hodnotě. Udělejte to špatně a strávíte měsíce ve frontách na vrácení GPU nebo, co je horší, budete spouštět modely, které se nevejdou do paměti. Tato příručka prochází každým rozměrem, který musíte zhodnotit — VRAM, výkonnost, spotřeba, chlazení a celkové náklady na vlastnictví — abyste mohli s jistotou vybrat napoprvé.

VRAM je první a nejtvrdší omezení

Před jakoukoli jinou specifikací se zeptejte: kolik gigabajtů VRAM vyžaduje můj cílový model? Model se 7 miliardami parametrů v 16-bitové přesnosti zabírá přibližně 14 GB; model se 70 miliardami parametrů potřebuje přibližně 140 GB. Kvantizace na 4-bity může tyto cifry snížit o 75 %, ale kvantizace zavádí kompromisy kvality, které je nutné ověřit pro váš případ použití. Kardinálním pravidlem je jednoduché: pokud se model nevejde do VRAM, GPU bude přelévat do systémové RAM a výkonnost se o jeden až dva řády zhroutí. Vždy dimenzujte VRAM s rezervou — alespoň 20 % volných — pro key-value cache, která roste s délkou kontextu.

Srovnání modelů GPU podle VRAM a paměťové šířky pásma
Kapacita VRAM a paměťová šířka pásma pro hlavní možnosti GPU v letech 2025–2026.

Spotřebitelská vs. datacentrová GPU

Trh GPU se dělí na spotřebitelské karty a datacentrové akcelerátory a toto rozlišení je pro on-premise AI důležité. Spotřebitelská GPU jako NVIDIA RTX 4090 nabízí 24 GB GDDR6X za mimořádné poměry cena-za-VRAM a mohou provozovat modely jako Llama 3 70B ve 4-bitech na dvou-kartovém nastavení. Jsou výborné pro malé týmy, výzkumné laboratoře a nasazení orientovaná na rozpočet. Postrádají však ECC paměť, nejsou navrženy pro 24/7 provoz v racku a v některých jurisdikcích mají omezení pro komerční inferenci. Datacentrová GPU — L4, L40S, A100 a H100/H200 — jsou postaveny pro nepřetržité pracovní cykly, mají ECC paměť pro numerickou integritu a jsou podporovány podnikovými SLA. L4 (24 GB) je nákladově efektivní pro inferenci; L40S (48 GB) dobře zvládá modely střední velikosti; A100 80 GB a H100/H200 (80 GB+) jsou standardem pro doladění velkých modelů a vysoce výkonné obsluze. Privonis navrhuje nasazení kolem datacentrových GPU právě proto, že evropští podnikoví klienti vyžadují tuto záruku spolehlivosti.

  • RTX 4090 — 24 GB GDDR6X, ~1 008 GB/s šířka pásma, nejlepší cena-za-VRAM pro vývojové pracovní zátěže.
  • L4 — 24 GB GDDR6, PCIe formát, nízká spotřeba (72 W), ideální pro inferenční zařízení.
  • L40S — 48 GB GDDR6, vysoká propustnost FP8, pracovní kůň pro modely střední velikosti ve velkém měřítku.
  • A100 80 GB — 80 GB HBM2e, podpora NVLink, osvědčený produkční standard pro velké modely.
  • H100 / H200 — 80–141 GB HBM3/3e, transformer engine s FP8, maximální dostupná propustnost.

Strategie jednoho vs. více GPU

Jedno GPU s vysokou VRAM udržuje zásobník jednoduchý: žádná konfigurace tensor-paralelismu, žádná NVLink fabric ke správě, menší povrch selhání. Začněte s jedním GPU, kdykoli se model vejde a váš cíl výkonnosti je dosažitelný. Když to není možné — buď proto, že model je příliš velký, nebo proto, že potřebujete obsluhovat desítky souběžných uživatelů — budete muset rozkládat přes více GPU. NVLink dramaticky předčí PCIe pro šířku pásma mezi GPU (900 GB/s vs ~64 GB/s obousměrně na PCIe 5.0), což je kritické pro tensor-paralelismus. Pokud váš rozpočet vynutí PCIe-only víceGPU, preferujte pipeline paralelismus před tensor-paralelismem, abyste minimalizovali provoz mezi zařízeními.

Spotřeba, chlazení a plánování racku

Datacentrová GPU odebírají mezi 72 W (L4) a 700 W (H100 SXM5). Osmičkový systém DGX H100 může při trvalé zátěži odebírat ze sítě 10 kW. Před objednáváním hardwaru ověřte, že vaše datové centrum nebo serverovna dokáže dodat potřebné elektrické obvody a zajistit odpovídající chlazení — typicky vzduch dodávaný při 12–15 °C nebo přímé kapalinové chlazení pro nejhustší konfigurace. Přehlédnutí hustoty výkonu je nejčastější příčinou zpoždění nasazení v on-premise AI projektech.

Křivky celkových nákladů na vlastnictví: on-premise vs. cloudový pronájem GPU v průběhu času
Analýza bodu zlomu TCO: vlastnictví on-premise GPU se stává levnějším než cloudový pronájem mezi 12 a 18 měsíci pro většinu inferenčních pracovních zátěží.

Koupit vs. pronajmout: výpočet TCO

Pronájem GPU v cloudu je operačně pohodlný, ale drahý ve velkém měřítku. Instance H100 u předního cloudového poskytovatele stojí přibližně 3–4 EUR za GPU-hodinu, což se při nepřetržitém využití rovná více než 26 000 EUR za GPU ročně. Stejné GPU zakoupené přímo stojí 25 000–35 000 EUR a má obvykle tříleté až pětileté funkční období. Bod zlomu pro vysoce využívané pracovní zátěže nastane mezi dvanácti a osmnácti měsíci — po nichž je on-premise přísně levnější. Privonis pomáhá klientům sestavit tento TCO model před závazkem k oběma cestám, protože správná odpověď závisí na míře využití, amortizačním období a hodnotě datové suverenity pro podnikání.

GPU, které si můžete dovolit provozovat nepřetržitě, vždy překoná GPU, které pronajímáte sporadicky. Využití je skutečný multiplikátor výkonu.

Praktický kontrolní seznam nákupu

  • Definujte svůj největší cílový model a vypočítejte požadavek na VRAM při požadované přesnosti.
  • Přidejte 20% rezervu VRAM pro KV cache a budoucí aktualizace modelů.
  • Ověřte kapacitu elektrického obvodu a chlazení před specifikací počtu GPU.
  • Preferujte ECC datacentrová GPU pro 24/7 produkci; spotřebitelské karty jsou přijatelné pro výzkum a vývoj.
  • Modelujte víceGPU propoje (NVLink vs. PCIe) před rozhodnutím o strategii paralelismu.
  • Sestavte 24-měsíční TCO porovnávající nákup, odpisy, spotřebu a údržbu s cloudovým pronájmem.
  • Zapojte dodavatele — jako je Privonis — který může ověřit celý zásobník: GPU, server, OS, inferenční runtime a monitoring.

Nákup GPU není jednorázový nákup; je to základ vašeho AI infrastrukturního plánu. Investice času do modelování požadavků na VRAM, omezení výkonu a celkových nákladů na vlastnictví před nákupem ušetří měsíce přepracování a desítky tisíc eur. Pokud byste uvítali bezplatné přezkoumání architektury pro váš on-premise AI projekt, tým Privonis je připraven pomoci.

Promluvme si o vašem AI projektu

Rezervovat hovor