Preskočiť na obsah
← Späť na blog
Hardvér 13. mája 2026 · 8 min čítania

Praktický sprievodca nákupom GPU pre AI on-premise

VRAM, priepustnosť, napájanie a rozpočet: ako kúpiť správne GPU na prvý pokus.

Praktický sprievodca nákupom GPU pre AI on-premise

Nákup GPU pre AI on-premise je jedným z najdôslednejších rozhodnutí o infraštruktúre, ktoré organizácia môže urobiť. Urobte to správne a máte sebestačnú, nákladovo efektívnu platformu pre inferenciu a dolaďovanie, ktorá sa v priebehu času zhodnocuje. Urobte to zle a strávite mesiace vo fronte na vrátenie GPU alebo, čo je horšie, spúšťate modely, ktoré sú príliš veľké na umiestnenie do pamäte. Táto príručka prechádza každým rozmerom, ktorý potrebujete vyhodnotiť — VRAM, priepustnosť, napájanie, chladenie a celkové náklady na vlastníctvo — aby ste mohli vybrať s istotou na prvý pokus.

VRAM je prvé a najtvrdšie obmedzenie

Pred akoukoľvek inou špecifikáciou sa spýtajte: koľko gigabajtov VRAM môj cieľový model vyžaduje? Model so 7 miliardami parametrov v 16-bitovej presnosti zaberá zhruba 14 GB; model so 70 miliardami parametrov potrebuje asi 140 GB. Kvantovanie na 4 bity môže tieto čísla znížiť o 75 %, ale kvantovanie zavádza kompromisy kvality, ktoré musia byť overené pre váš prípad použitia. Kardinálne pravidlo je jednoduché: ak sa model nezmestí do VRAM, GPU sa preleje do systémovej RAM a priepustnosť sa zrúti o jeden až dva ráde veličiny. Vždy dimenzujte VRAM s rezervou — aspoň 20 % voľné — pre cache kľúč-hodnota, ktorá rastie s dĺžkou kontextu.

Porovnanie modelov GPU podľa VRAM a šírky pásma pamäte
Kapacita VRAM a šírka pásma pamäte pre hlavné možnosti GPU v roku 2025–2026.

Spotrebiteľské vs. dátovo-centrové GPU

Trh GPU sa rozdeľuje na spotrebiteľské karty a akcelerátory pre dátové centrá, pričom toto rozlíšenie je dôležité pre AI on-premise. Spotrebiteľské GPU, ako je NVIDIA RTX 4090, ponúkajú 24 GB GDDR6X pri mimoriadnych pomeroch ceny a VRAM a môžu spúšťať modely ako Llama 3 70B v 4-bitovom formáte na nastavení dvoch kariet. Sú výborné pre malé tímy, R&D laboratóriá a nasadenia zamerané na rozpočet. Chýba im však ECC pamäť, nie sú navrhnuté pre 24/7 prevádzku v ráme a nesú obmedzenia pri komerčnej inferencii v niektorých jurisdikciách. GPU pre dátové centrá — L4, L40S, A100 a H100/H200 — sú budované pre nepretržité prevádzkové cykly, nesú ECC pamäť pre numerickú integritu a sú podporované podnikovými SLA. L4 (24 GB) je nákladovo efektívny pre inferenciu; L40S (48 GB) dobre zvláda modely strednej veľkosti; A100 80 GB a H100/H200 (80 GB+) sú štandardom pre dolaďovanie veľkých modelov a vysokopriepustnostnú obsluhu. Privonis navrhuje nasadenia okolo GPU pre dátové centrá presne preto, že európski podnikoví klienti vyžadujú túto záruku spoľahlivosti.

  • RTX 4090 — 24 GB GDDR6X, ~1 008 GB/s šírka pásma, najlepší pomer ceny a VRAM pre vývojové záťaže.
  • L4 — 24 GB GDDR6, forma PCIe, nízky príkon (72 W), ideálny pre inferenčné zariadenia.
  • L40S — 48 GB GDDR6, vysoká priepustnosť FP8, ťažný kôň pre modely strednej veľkosti vo veľkom meradle.
  • A100 80 GB — 80 GB HBM2e, podpora NVLink, overený produkčný štandard pre veľké modely.
  • H100 / H200 — 80–141 GB HBM3/3e, transformer engine s FP8, maximálna dostupná priepustnosť.

Stratégie jedného GPU vs. viacerých GPU

Jedno high-VRAM GPU udržiava zásobník jednoduchý: žiadna konfigurácia tensor-parallelism, žiadna NVLink fabric na správu, nižší povrch zlyhania. Začnite s jedným GPU vždy, keď sa model zmestí a váš cieľ priepustnosti je dosiahnuteľný. Keď nie je — buď preto, že model je príliš veľký, alebo preto, že potrebujete obsluhovať desiatky súbežných používateľov — budete musieť rozšíriť na viacero GPU. NVLink dramaticky prekonáva PCIe pre šírku pásma medzi GPU (900 GB/s vs. ~64 GB/s obojsmerne na PCIe 5.0), čo je kritické pre tensor paralelizmus. Ak váš rozpočet núti k viac-GPU len cez PCIe, dajte prednosť pipeline paralelizmu pred tensor paralelizmom, aby ste minimalizovali prevádzku medzi zariadeniami.

Napájanie, chladenie a plánovanie stojana

GPU pre dátové centrá odoberajú medzi 72 W (L4) a 700 W (H100 SXM5). Systém s ôsmimi H100 DGX môže pri trvalej záťaži odoberať 10 kW zo zástrčky. Pred objednaním hardvéru potvrďte, že vaše dátové centrum alebo serverovňa môže dodávať potrebné elektrické obvody a poskytovať primerané chladenie — typicky 12–15 °C zásobovací vzduch alebo priame kvapalinové chladenie pre najhustejšie konfigurácie. Prehliadnutie hustoty napájania je najčastejšou príčinou oneskorení nasadenia v projektoch AI on-premise.

Krivky celkových nákladov na vlastníctvo: on-premise vs. prenájom GPU v cloude v priebehu času
Analýza TCO bodu zvratu: vlastníctvo GPU on-premise sa stáva lacnejšie ako prenájom v cloude medzi 12 a 18 mesiacmi pre väčšinu inferenčných záťaží.

Kúpa vs. prenájom: výpočet TCO

Prenájom GPU v cloude je prevádzkovo pohodlný, ale drahý vo veľkom meradle. Inštancia H100 na veľkom cloudovom poskytovateľovi stojí zhruba 3–4 € za GPU-hodinu, čo sa pri nepretržitom využívaní premieta na viac ako 26 000 € za GPU ročne. Rovnaký GPU zakúpený priamo stojí 25 000–35 000 € a typicky má životnosť tri až päť rokov. Bod zvratu pre záťaže s vysokým využívaním nastáva medzi dvanástimi a osemnástimi mesiacmi — po ktorom je on-premise striktne lacnejší. Privonis pomáha klientom vybudovať tento TCO model pred záväzkom k niektorej ceste, pretože správna odpoveď závisí od miery využívania, obdobia amortizácie a hodnoty dátovej suverenity pre podnikanie.

GPU, ktoré si môžete dovoliť prevádzkovať nepretržite, vždy prekoná GPU, ktoré si sporadicky prenajímate. Využívanie je skutočným multiplikátorom výkonu.

Praktický kontrolný zoznam nákupu

  • Definujte svoj najväčší cieľový model a vypočítajte požiadavku na VRAM pri požadovanej presnosti.
  • Pridajte 20 % rezervu VRAM pre KV cache a budúce aktualizácie modelu.
  • Pred špecifikovaním počtu GPU overte kapacitu elektrického obvodu a chladenie.
  • Dajte prednosť ECC GPU pre dátové centrá pre 24/7 produkciu; spotrebiteľské karty sú prijateľné pre R&D.
  • Modelujte viac-GPU prepojenie (NVLink vs. PCIe) pred rozhodnutím o stratégii paralelizmu.
  • Vytvorte 24-mesačné TCO porovnávajúce nákup, odpisy, napájanie a údržbu oproti prenájmu v cloude.
  • Zapojte dodávateľa — ako Privonis — ktorý môže overiť celý zásobník: GPU, server, OS, inferenčný runtime a monitorovanie.

Obstarávanie GPU nie je jednorazový nákup; je to základ vášho plánu AI infraštruktúry. Investícia času do modelovania požiadaviek na VRAM, obmedzení napájania a celkových nákladov na vlastníctvo pred kúpou vám ušetrí mesiace prepracovania a desiatky tisíc eur. Ak by ste chceli bezplatnú architektonickú kontrolu pre váš projekt AI on-premise, tím Privonis je pripravený pomôcť.

Porozprávajme sa o vašom AI projekte

Rezervovať hovor