Hardver 13. svibnja 2026. · 8 min čitanja

Praktični vodič za kupnju GPU-a za on-premise AI

VRAM, propusnost, napajanje i proračun: kako kupiti prave GPU-ove prvi put.

Kupnja GPU-ova za on-premise AI jedna je od najkonzekvencijanijih infrastrukturnih odluka koje organizacija može donijeti. Učinite li to ispravno, imate samodostatnu, troškovno učinkovitu platformu za zaključivanje i fino podešavanje koja se s vremenom gomilira u vrijednosti. Učinite li to pogrešno, provodite mjesece u redovima za povrat GPU-a ili, što je gore, pokrenete modele koji su preveliki za smještanje u memoriju. Ovaj vodič prolazi kroz svaku dimenziju koju trebate procijeniti — VRAM, propusnost, napajanje, hlađenje i ukupni trošak vlasništva — kako biste mogli odabrati s pouzdanjem prvi put.

VRAM je prvo i najteže ograničenje

Prije svake druge specifikacije, pitajte: koliko gigabajta VRAM-a zahtijeva moj ciljni model? Model s 7 milijardi parametara u 16-bitnoj preciznosti zauzima otprilike 14 GB; model s 70 milijardi parametara treba otprilike 140 GB. Kvantizacija na 4-bita može smanjiti te brojke za 75%, ali kvantizacija uvodi kompromise kvalitete koji moraju biti validirani za vaš slučaj upotrebe. Kardinalno pravilo je jednostavno: ako model ne stane u VRAM, GPU će preliti u RAM sustava i propusnost se urušava za jedan do dva reda veličine. Uvijek dimenzionišite VRAM s praznim prostorom — najmanje 20% slobodnog — za KV cache koji raste s duljinom konteksta.

Usporedba GPU modela po VRAM-u i memorijskoj propusnosti — Kapacitet VRAM-a i memorijska propusnost za glavne GPU opcije u 2025–2026.

Potrošački nasuprot podatkovnocentarskim GPU-ovima

Tržište GPU-a se dijeli na potrošačke kartice i podatkovnocentarske akceleratore, a razlika je važna za on-premise AI. Potrošački GPU-ovi kao što je NVIDIA RTX 4090 nude 24 GB GDDR6X po izvanrednom omjeru cijene po VRAM-u i mogu pokrenuti modele kao što je Llama 3 70B u 4-bitu na postavljanju s dvije kartice. Odlični su za male timove, R&D laboratorije i implementacije kojima je proračun prva briga. Međutim, nedostaje im ECC memorija, nisu dizajnirani za 24/7 rack operaciju i nose ograničenja na komercijalnu upotrebu zaključivanja u nekim jurisdikcijama. Podatkovnocentarski GPU-ovi — L4, L40S, A100 i H100/H200 — izgrađeni su za kontinuirane radne cikluse, nose ECC memoriju za numerički integritet i podržani su SLA-ovima poslovne razine. L4 (24 GB) je troškovno učinkovit za zaključivanje; L40S (48 GB) dobro rukuje modelima srednje veličine; A100 80 GB i H100/H200 (80 GB+) su standard za fino podešavanje velikih modela i posluživanje visokog propusnosti. Privonis projektira implementacije oko podatkovnocentarskih GPU-ova upravo zato što europski poslovni klijenti zahtijevaju tu garanciju pouzdanosti.

RTX 4090 — 24 GB GDDR6X, ~1 008 GB/s propusnosti, najboljа cijena po VRAM-u za razvojne radne procese.
L4 — 24 GB GDDR6, PCIe format, malo napajanje (72 W), idealan za inference uređaje.
L40S — 48 GB GDDR6, visoka FP8 propusnost, radni konj za modele srednje veličine u velikom razmjeru.
A100 80 GB — 80 GB HBM2e, NVLink podrška, dokazani produkcijski standard za velike modele.
H100 / H200 — 80–141 GB HBM3/3e, transformer engine s FP8, maksimalna dostupna propusnost.

Strategije jednog GPU-a nasuprot više GPU-ova

Jedan GPU s visokim VRAM-om drži stog jednostavnim: bez konfiguracije tensor-paralelizma, bez upravljanja NVLink tkaninom, manji kvar površine. Počnite s jednim GPU-om kad god model stane i kada je vaš cilj propusnosti dostižan. Kada nije — bilo zato što je model prevelik ili jer trebate posluživati desetke istovremenih korisnika — morat ćete se proširiti na više GPU-ova. NVLink dramatično nadmašuje PCIe za međuGPU propusnost (900 GB/s vs ~64 GB/s dvosmjerno na PCIe 5.0), što je kritično za tensor paralelizam. Ako vaš proračun prisiljava na višeGPU samo s PCIe, preferirajte cjevovodni paralelizam nad tensor paralelizmom kako biste minimizirali međuuređajni promet.

Napajanje, hlađenje i planiranje rack-a

Podatkovnocentarski GPU-ovi vuče između 72 W (L4) i 700 W (H100 SXM5). Osam-H100 DGX sustav može povući 10 kW iz zida pod trajnim opterećenjem. Prije narudžbe hardvera, potvrdite da vaš podatkovni centar ili serverska soba može isporučiti potrebne strujne krugove i pružiti adekvatno hlađenje — tipično 12–15 °C zraka napajanja ili izravno tekuće hlađenje za najgušće konfiguracije. Previd gustoće napajanja je jedini najčešći uzrok kašnjenja implementacije u on-premise AI projektima.

Krivulje ukupnog troška vlasništva: on-premise vs cloud GPU najam s vremenom — TCO analiza isplativosti: vlasništvo nad on-premise GPU-om postaje jeftinije od cloud najma između 12 i 18 mjeseci za većinu inference radnih opterećenja.

Kupiti vs iznajmiti: TCO izračun

Cloud GPU najam je operativno zgodan ali skup u velikom razmjeru. H100 instanca na velikom cloud pružatelju košta otprilike 3–4 eura po GPU-satu, što se prevodi na više od 26 000 eura po GPU-u godišnje pri kontinuiranoj iskorištenosti. Isti GPU kupljen izravno košta 25 000–35 000 eura i tipično ima koristan vijek od tri do pet godina. Točka isplativosti za radna opterećenja visoke iskorištenosti pada između dvanaest i osamnaest mjeseci — nakon čega je on-premise strogo jeftiniji. Privonis pomaže klijentima izgraditi ovaj TCO model prije obvezivanja na bilo koji put, jer pravi odgovor ovisi o stopi iskorištenosti, periodu amortizacije i vrijednosti suvereniteta podataka za poslovanje.

GPU koji možete priuštiti pokretati kontinuirano uvijek će nadmašiti GPU koji iznajmljujete sporadično. Iskorištenost je pravi multiplikator performansi.

Praktični popis za kupnju

Definirajte vaš najveći ciljni model i izračunajte zahtjev za VRAM-om pri željenoj preciznosti.
Dodajte 20% slobodnog VRAM-a za KV cache i buduća ažuriranja modela.
Provjerite kapacitet strujnog kruga i hlađenje prije specificiranja broja GPU-ova.
Preferirajte ECC podatkovnocentarske GPU-ove za 24/7 produkciju; potrošačke kartice su prihvatljive za R&D.
Modelirajte višeGPU međuodnosivost (NVLink vs PCIe) prije odlučivanja o strategiji paralelizma.
Izgradite 24-mjesečni TCO uspoređujući kupnju, amortizaciju, napajanje i održavanje s cloud najmom.
Angažirajte dobavljača — kao što je Privonis — koji može validirati cijeli stog: GPU, poslužitelj, OS, inference runtime i praćenje.

Nabava GPU-a nije jednokratna kupnja; to je temelj vaše AI infrastrukturne mape puta. Investiranje vremena u modeliranje zahtjeva za VRAM-om, ograničenja napajanja i ukupnog troška vlasništva prije kupnje uštedit će mjesece prerađivanja i desetke tisuća eura. Ako biste željeli besplatni arhitekturni pregled vašeg on-premise AI projekta, tim Privonisa je spreman pomoći.

Razgovarajmo o vašem AI projektu

Zakažite poziv