Hardvér 13. mája 2026 · 8 min čítania

Praktický sprievodca nákupom GPU pre AI on-premise

VRAM, priepustnosť, napájanie a rozpočet: ako kúpiť správne GPU na prvý pokus.

Nákup GPU pre AI on-premise je jedným z najdôslednejších rozhodnutí o infraštruktúre, ktoré organizácia môže urobiť. Urobte to správne a máte sebestačnú, nákladovo efektívnu platformu pre inferenciu a dolaďovanie, ktorá sa v priebehu času zhodnocuje. Urobte to zle a strávite mesiace vo fronte na vrátenie GPU alebo, čo je horšie, spúšťate modely, ktoré sú príliš veľké na umiestnenie do pamäte. Táto príručka prechádza každým rozmerom, ktorý potrebujete vyhodnotiť — VRAM, priepustnosť, napájanie, chladenie a celkové náklady na vlastníctvo — aby ste mohli vybrať s istotou na prvý pokus.

VRAM je prvé a najtvrdšie obmedzenie

Pred akoukoľvek inou špecifikáciou sa spýtajte: koľko gigabajtov VRAM môj cieľový model vyžaduje? Model so 7 miliardami parametrov v 16-bitovej presnosti zaberá zhruba 14 GB; model so 70 miliardami parametrov potrebuje asi 140 GB. Kvantovanie na 4 bity môže tieto čísla znížiť o 75 %, ale kvantovanie zavádza kompromisy kvality, ktoré musia byť overené pre váš prípad použitia. Kardinálne pravidlo je jednoduché: ak sa model nezmestí do VRAM, GPU sa preleje do systémovej RAM a priepustnosť sa zrúti o jeden až dva ráde veličiny. Vždy dimenzujte VRAM s rezervou — aspoň 20 % voľné — pre cache kľúč-hodnota, ktorá rastie s dĺžkou kontextu.

Porovnanie modelov GPU podľa VRAM a šírky pásma pamäte — Kapacita VRAM a šírka pásma pamäte pre hlavné možnosti GPU v roku 2025–2026.

Spotrebiteľské vs. dátovo-centrové GPU

Trh GPU sa rozdeľuje na spotrebiteľské karty a akcelerátory pre dátové centrá, pričom toto rozlíšenie je dôležité pre AI on-premise. Spotrebiteľské GPU, ako je NVIDIA RTX 4090, ponúkajú 24 GB GDDR6X pri mimoriadnych pomeroch ceny a VRAM a môžu spúšťať modely ako Llama 3 70B v 4-bitovom formáte na nastavení dvoch kariet. Sú výborné pre malé tímy, R&D laboratóriá a nasadenia zamerané na rozpočet. Chýba im však ECC pamäť, nie sú navrhnuté pre 24/7 prevádzku v ráme a nesú obmedzenia pri komerčnej inferencii v niektorých jurisdikciách. GPU pre dátové centrá — L4, L40S, A100 a H100/H200 — sú budované pre nepretržité prevádzkové cykly, nesú ECC pamäť pre numerickú integritu a sú podporované podnikovými SLA. L4 (24 GB) je nákladovo efektívny pre inferenciu; L40S (48 GB) dobre zvláda modely strednej veľkosti; A100 80 GB a H100/H200 (80 GB+) sú štandardom pre dolaďovanie veľkých modelov a vysokopriepustnostnú obsluhu. Privonis navrhuje nasadenia okolo GPU pre dátové centrá presne preto, že európski podnikoví klienti vyžadujú túto záruku spoľahlivosti.

RTX 4090 — 24 GB GDDR6X, ~1 008 GB/s šírka pásma, najlepší pomer ceny a VRAM pre vývojové záťaže.
L4 — 24 GB GDDR6, forma PCIe, nízky príkon (72 W), ideálny pre inferenčné zariadenia.
L40S — 48 GB GDDR6, vysoká priepustnosť FP8, ťažný kôň pre modely strednej veľkosti vo veľkom meradle.
A100 80 GB — 80 GB HBM2e, podpora NVLink, overený produkčný štandard pre veľké modely.
H100 / H200 — 80–141 GB HBM3/3e, transformer engine s FP8, maximálna dostupná priepustnosť.

Stratégie jedného GPU vs. viacerých GPU

Jedno high-VRAM GPU udržiava zásobník jednoduchý: žiadna konfigurácia tensor-parallelism, žiadna NVLink fabric na správu, nižší povrch zlyhania. Začnite s jedným GPU vždy, keď sa model zmestí a váš cieľ priepustnosti je dosiahnuteľný. Keď nie je — buď preto, že model je príliš veľký, alebo preto, že potrebujete obsluhovať desiatky súbežných používateľov — budete musieť rozšíriť na viacero GPU. NVLink dramaticky prekonáva PCIe pre šírku pásma medzi GPU (900 GB/s vs. ~64 GB/s obojsmerne na PCIe 5.0), čo je kritické pre tensor paralelizmus. Ak váš rozpočet núti k viac-GPU len cez PCIe, dajte prednosť pipeline paralelizmu pred tensor paralelizmom, aby ste minimalizovali prevádzku medzi zariadeniami.

Napájanie, chladenie a plánovanie stojana

GPU pre dátové centrá odoberajú medzi 72 W (L4) a 700 W (H100 SXM5). Systém s ôsmimi H100 DGX môže pri trvalej záťaži odoberať 10 kW zo zástrčky. Pred objednaním hardvéru potvrďte, že vaše dátové centrum alebo serverovňa môže dodávať potrebné elektrické obvody a poskytovať primerané chladenie — typicky 12–15 °C zásobovací vzduch alebo priame kvapalinové chladenie pre najhustejšie konfigurácie. Prehliadnutie hustoty napájania je najčastejšou príčinou oneskorení nasadenia v projektoch AI on-premise.

Krivky celkových nákladov na vlastníctvo: on-premise vs. prenájom GPU v cloude v priebehu času — Analýza TCO bodu zvratu: vlastníctvo GPU on-premise sa stáva lacnejšie ako prenájom v cloude medzi 12 a 18 mesiacmi pre väčšinu inferenčných záťaží.

Kúpa vs. prenájom: výpočet TCO

Prenájom GPU v cloude je prevádzkovo pohodlný, ale drahý vo veľkom meradle. Inštancia H100 na veľkom cloudovom poskytovateľovi stojí zhruba 3–4 € za GPU-hodinu, čo sa pri nepretržitom využívaní premieta na viac ako 26 000 € za GPU ročne. Rovnaký GPU zakúpený priamo stojí 25 000–35 000 € a typicky má životnosť tri až päť rokov. Bod zvratu pre záťaže s vysokým využívaním nastáva medzi dvanástimi a osemnástimi mesiacmi — po ktorom je on-premise striktne lacnejší. Privonis pomáha klientom vybudovať tento TCO model pred záväzkom k niektorej ceste, pretože správna odpoveď závisí od miery využívania, obdobia amortizácie a hodnoty dátovej suverenity pre podnikanie.

GPU, ktoré si môžete dovoliť prevádzkovať nepretržite, vždy prekoná GPU, ktoré si sporadicky prenajímate. Využívanie je skutočným multiplikátorom výkonu.

Praktický kontrolný zoznam nákupu

Definujte svoj najväčší cieľový model a vypočítajte požiadavku na VRAM pri požadovanej presnosti.
Pridajte 20 % rezervu VRAM pre KV cache a budúce aktualizácie modelu.
Pred špecifikovaním počtu GPU overte kapacitu elektrického obvodu a chladenie.
Dajte prednosť ECC GPU pre dátové centrá pre 24/7 produkciu; spotrebiteľské karty sú prijateľné pre R&D.
Modelujte viac-GPU prepojenie (NVLink vs. PCIe) pred rozhodnutím o stratégii paralelizmu.
Vytvorte 24-mesačné TCO porovnávajúce nákup, odpisy, napájanie a údržbu oproti prenájmu v cloude.
Zapojte dodávateľa — ako Privonis — ktorý môže overiť celý zásobník: GPU, server, OS, inferenčný runtime a monitorovanie.

Obstarávanie GPU nie je jednorazový nákup; je to základ vášho plánu AI infraštruktúry. Investícia času do modelovania požiadaviek na VRAM, obmedzení napájania a celkových nákladov na vlastníctvo pred kúpou vám ušetrí mesiace prepracovania a desiatky tisíc eur. Ak by ste chceli bezplatnú architektonickú kontrolu pre váš projekt AI on-premise, tím Privonis je pripravený pomôcť.

Porozprávajme sa o vašom AI projekte

Rezervovať hovor