Praktični vodič za kupnju GPU-a za on-premise AI
VRAM, propusnost, napajanje i proračun: kako kupiti prave GPU-ove prvi put.
Kupnja GPU-ova za on-premise AI jedna je od najkonzekvencijanijih infrastrukturnih odluka koje organizacija može donijeti. Učinite li to ispravno, imate samodostatnu, troškovno učinkovitu platformu za zaključivanje i fino podešavanje koja se s vremenom gomilira u vrijednosti. Učinite li to pogrešno, provodite mjesece u redovima za povrat GPU-a ili, što je gore, pokrenete modele koji su preveliki za smještanje u memoriju. Ovaj vodič prolazi kroz svaku dimenziju koju trebate procijeniti — VRAM, propusnost, napajanje, hlađenje i ukupni trošak vlasništva — kako biste mogli odabrati s pouzdanjem prvi put.
VRAM je prvo i najteže ograničenje
Prije svake druge specifikacije, pitajte: koliko gigabajta VRAM-a zahtijeva moj ciljni model? Model s 7 milijardi parametara u 16-bitnoj preciznosti zauzima otprilike 14 GB; model s 70 milijardi parametara treba otprilike 140 GB. Kvantizacija na 4-bita može smanjiti te brojke za 75%, ali kvantizacija uvodi kompromise kvalitete koji moraju biti validirani za vaš slučaj upotrebe. Kardinalno pravilo je jednostavno: ako model ne stane u VRAM, GPU će preliti u RAM sustava i propusnost se urušava za jedan do dva reda veličine. Uvijek dimenzionišite VRAM s praznim prostorom — najmanje 20% slobodnog — za KV cache koji raste s duljinom konteksta.
Potrošački nasuprot podatkovnocentarskim GPU-ovima
Tržište GPU-a se dijeli na potrošačke kartice i podatkovnocentarske akceleratore, a razlika je važna za on-premise AI. Potrošački GPU-ovi kao što je NVIDIA RTX 4090 nude 24 GB GDDR6X po izvanrednom omjeru cijene po VRAM-u i mogu pokrenuti modele kao što je Llama 3 70B u 4-bitu na postavljanju s dvije kartice. Odlični su za male timove, R&D laboratorije i implementacije kojima je proračun prva briga. Međutim, nedostaje im ECC memorija, nisu dizajnirani za 24/7 rack operaciju i nose ograničenja na komercijalnu upotrebu zaključivanja u nekim jurisdikcijama. Podatkovnocentarski GPU-ovi — L4, L40S, A100 i H100/H200 — izgrađeni su za kontinuirane radne cikluse, nose ECC memoriju za numerički integritet i podržani su SLA-ovima poslovne razine. L4 (24 GB) je troškovno učinkovit za zaključivanje; L40S (48 GB) dobro rukuje modelima srednje veličine; A100 80 GB i H100/H200 (80 GB+) su standard za fino podešavanje velikih modela i posluživanje visokog propusnosti. Privonis projektira implementacije oko podatkovnocentarskih GPU-ova upravo zato što europski poslovni klijenti zahtijevaju tu garanciju pouzdanosti.
- RTX 4090 — 24 GB GDDR6X, ~1 008 GB/s propusnosti, najboljа cijena po VRAM-u za razvojne radne procese.
- L4 — 24 GB GDDR6, PCIe format, malo napajanje (72 W), idealan za inference uređaje.
- L40S — 48 GB GDDR6, visoka FP8 propusnost, radni konj za modele srednje veličine u velikom razmjeru.
- A100 80 GB — 80 GB HBM2e, NVLink podrška, dokazani produkcijski standard za velike modele.
- H100 / H200 — 80–141 GB HBM3/3e, transformer engine s FP8, maksimalna dostupna propusnost.
Strategije jednog GPU-a nasuprot više GPU-ova
Jedan GPU s visokim VRAM-om drži stog jednostavnim: bez konfiguracije tensor-paralelizma, bez upravljanja NVLink tkaninom, manji kvar površine. Počnite s jednim GPU-om kad god model stane i kada je vaš cilj propusnosti dostižan. Kada nije — bilo zato što je model prevelik ili jer trebate posluživati desetke istovremenih korisnika — morat ćete se proširiti na više GPU-ova. NVLink dramatično nadmašuje PCIe za međuGPU propusnost (900 GB/s vs ~64 GB/s dvosmjerno na PCIe 5.0), što je kritično za tensor paralelizam. Ako vaš proračun prisiljava na višeGPU samo s PCIe, preferirajte cjevovodni paralelizam nad tensor paralelizmom kako biste minimizirali međuuređajni promet.
Napajanje, hlađenje i planiranje rack-a
Podatkovnocentarski GPU-ovi vuče između 72 W (L4) i 700 W (H100 SXM5). Osam-H100 DGX sustav može povući 10 kW iz zida pod trajnim opterećenjem. Prije narudžbe hardvera, potvrdite da vaš podatkovni centar ili serverska soba može isporučiti potrebne strujne krugove i pružiti adekvatno hlađenje — tipično 12–15 °C zraka napajanja ili izravno tekuće hlađenje za najgušće konfiguracije. Previd gustoće napajanja je jedini najčešći uzrok kašnjenja implementacije u on-premise AI projektima.
Kupiti vs iznajmiti: TCO izračun
Cloud GPU najam je operativno zgodan ali skup u velikom razmjeru. H100 instanca na velikom cloud pružatelju košta otprilike 3–4 eura po GPU-satu, što se prevodi na više od 26 000 eura po GPU-u godišnje pri kontinuiranoj iskorištenosti. Isti GPU kupljen izravno košta 25 000–35 000 eura i tipično ima koristan vijek od tri do pet godina. Točka isplativosti za radna opterećenja visoke iskorištenosti pada između dvanaest i osamnaest mjeseci — nakon čega je on-premise strogo jeftiniji. Privonis pomaže klijentima izgraditi ovaj TCO model prije obvezivanja na bilo koji put, jer pravi odgovor ovisi o stopi iskorištenosti, periodu amortizacije i vrijednosti suvereniteta podataka za poslovanje.
GPU koji možete priuštiti pokretati kontinuirano uvijek će nadmašiti GPU koji iznajmljujete sporadično. Iskorištenost je pravi multiplikator performansi.
Praktični popis za kupnju
- Definirajte vaš najveći ciljni model i izračunajte zahtjev za VRAM-om pri željenoj preciznosti.
- Dodajte 20% slobodnog VRAM-a za KV cache i buduća ažuriranja modela.
- Provjerite kapacitet strujnog kruga i hlađenje prije specificiranja broja GPU-ova.
- Preferirajte ECC podatkovnocentarske GPU-ove za 24/7 produkciju; potrošačke kartice su prihvatljive za R&D.
- Modelirajte višeGPU međuodnosivost (NVLink vs PCIe) prije odlučivanja o strategiji paralelizma.
- Izgradite 24-mjesečni TCO uspoređujući kupnju, amortizaciju, napajanje i održavanje s cloud najmom.
- Angažirajte dobavljača — kao što je Privonis — koji može validirati cijeli stog: GPU, poslužitelj, OS, inference runtime i praćenje.
Nabava GPU-a nije jednokratna kupnja; to je temelj vaše AI infrastrukturne mape puta. Investiranje vremena u modeliranje zahtjeva za VRAM-om, ograničenja napajanja i ukupnog troška vlasništva prije kupnje uštedit će mjesece prerađivanja i desetke tisuća eura. Ako biste željeli besplatni arhitekturni pregled vašeg on-premise AI projekta, tim Privonisa je spreman pomoći.
Razgovarajmo o vašem AI projektu
Zakažite poziv