Praktičen vodič za nakup GPE za AI na lastni infrastrukturi
VRAM, pretok, poraba energije in proračun: kako kupiti prave GPE prvič.
Nakup GPE za AI na lastni infrastrukturi je ena od najpomembnejših infrastrukturnih odločitev, ki jih organizacija lahko sprejme. Naredite jo pravilno in imate samozadostno, stroškovno učinkovito platformo za sklepanje in fino nastavljanje, ki sčasoma kopiči vrednost. Naredite jo napačno in mesece preживljate v čakalnih vrstah za vračilo GPE ali, kar je še slabše, poganjate modele, ki so preveliki za pomnilnik. Ta vodič podrobno razpravlja o vsaki dimenziji, ki jo morate ovrednotiti — VRAM, pretok, energija, hlajenje in skupni stroški lastništva — da boste prvič izbrali z gotovostjo.
VRAM je prva in najtežja omejitev
Pred katero koli drugo specifikacijo vprašajte: koliko gigabajtov VRAM zahteva moj ciljni model? Model z 7 milijardami parametrov pri 16-bitni natančnosti zasede gruba 14 GB; model z 70 milijardami parametrov potrebuje približno 140 GB. Kvantizacija na 4 bite lahko te številke zmanjša za 75 %, a kvantizacija uvaja kompromise kakovosti, ki jih je treba potrditi za vaš primer. Kardinalno pravilo je preprosto: če model ne ustreza v VRAM, bo GPE prelila v sistemski RAM in pretok se bo sesul za en do dve velikostni razred. Vedno dimenzionajte VRAM z rezervo — vsaj 20 % prosto — za predpomnilnik ključ-vrednost, ki raste z dolžino konteksta.
Potrošniške v primerjavi s podatkovnocentrskimi GPE
Trg GPE se razdvoji na potrošniške kartice in podatkovnocentrske pospeševalnike, in razlikovanje šteje za AI na lastni infrastrukturi. Potrošniške GPE, kot je NVIDIA RTX 4090, ponujajo 24 GB GDDR6X pri izrednih razmerjih cene po VRAM in lahko poganjajo modele, kot je Llama 3 70B v 4-bitni vrednosti na postavitvi dveh kartic. Odlične so za majhne ekipe, laboratorije R&D in prva uvajanja s proračunskim poudarkom. Vendar pa nimajo ECC pomnilnika, niso zasnovane za 24/7 delovanje v omari in v nekaterih jurisdikcijah imajo omejitve glede komercialne inferenčne uporabe. Podatkovnocentrske GPE — L4, L40S, A100 in H100/H200 — so zgrajene za neprekinjene cikle dolžnosti, imajo ECC pomnilnik za numerično integriteto in jih podpirajo podjetniška SLA. L4 (24 GB) je stroškovno učinkovita za sklepanje; L40S (48 GB) dobro obravnava srednje velike modele; A100 80 GB in H100/H200 (80 GB+) so standard za fino nastavljanje velikih modelov in visoko-prenosno postrežbo. Privonis načrtuje namestitve okoli podatkovnocentrskih GPE ravno zato, ker evropske poslovne stranke zahtevajo to zagotovilo zanesljivosti.
- RTX 4090 — 24 GB GDDR6X, ~1 008 GB/s pasovne širine, najboljša cena-na-VRAM za razvojne delovne obremenitve.
- L4 — 24 GB GDDR6, oblika PCIe, nizka poraba (72 W), idealna za naprave za sklepanje.
- L40S — 48 GB GDDR6, visok pretok FP8, delovni konj za srednje grote modele v obsegu.
- A100 80 GB — 80 GB HBM2e, podpora NVLink, preizkušeni produkcijski standard za velike modele.
- H100 / H200 — 80–141 GB HBM3/3e, transformerski motor s FP8, maksimalni razpoložljivi pretok.
Strategije z eno GPE v primerjavi z več GPE
Ena sama GPE z visokim VRAM ohranja sklad preprost: nobene konfiguracije tenzorske paralelnosti, nobene tkanine NVLink za upravljanje, manjša površina napak. Začnite z eno samo GPE, kadar se model ujema in je vaš ciljni pretok dosegljiv. Ko to ni — bodisi ker je model prevelik ali ker morate postrežti desetine souporb — boste morali razpon med več GPE. NVLink dramatično preseže PCIe za pasovno širino med GPE (900 GB/s v primerjavi z ~64 GB/s dvosmerno pri PCIe 5.0), kar je ključno za tenzorsko paralelnost. Če vaš proračun sili na večvozliščno GPE samo s PCIe, dajte prednost cevovodna paralelnost pred tenzorsko paralelnostjo, da minimizirate promet med napravami.
Energija, hlajenje in načrtovanje omar
Podatkovnocentrske GPE porabijo med 72 W (L4) in 700 W (H100 SXM5). Sistem osemH100 DGX lahko pri trajni obremenitvi porabi 10 kW iz omrežja. Preden naročite strojno opremo, potrdite, da vaš podatkovni center ali strežniška soba zmogata zagotoviti potrebna električna tokokroga in ustrezno hlajenje — tipično 12–15 °C dohodni zrak ali neposredno tekočinsko hlajenje za najgostejše konfiguracije. Spregledanje gostote energije je najpogostejši vzrok zamud pri namestitvi v projektih AI na lastni infrastrukturi.
Nakup v primerjavi z najetjem: izračun TCO
Najem oblačne GPE je operativno priročen, a drag v obsegu. Primer H100 pri večjem ponudniku oblaka stane gruba 3–4 € na uro GPE, kar se pri neprekinjeni izkoriščenosti prevede v več kot 26 000 € na GPE na leto. Ista GPE, kupljena v celoti, stane 25 000–35 000 € in ima tipično tri-do-petletno koristno življenjsko dobo. Točka preloma za delovne obremenitve z visoko izkoriščenostjo pade med dvanajstimi in osemnajstimi meseci — po katerih je lastna infrastruktura strogo cenejša. Privonis pomaga strankam zgraditi ta model TCO pred zavezanostjo kateri koli poti, ker pravi odgovor je odvisen od stopnje izkoriščenosti, amortizacijske dobe in vrednosti podatkovne suverenosti za podjetje.
GPE, ki si jo privoščite poganjati neprekinjeno, bo vedno presegla GPE, ki jo najemate sporadično. Izkoriščenost je pravi multiplikator zmogljivosti.
Praktičen nakupni kontrolni seznam
- Definirajte vaš največji ciljni model in izračunajte zahtevo VRAM pri željeni natančnosti.
- Dodajte 20 % rezerve VRAM za predpomnilnik KV in prihodnje posodobitve modela.
- Preverite zmogljivost tokokroga in hlajenje preden določite število GPE.
- Za 24/7 produkcijo dajte prednost ECC podatkovnocentrskim GPE; potrošniške kartice so sprejemljive za R&D.
- Modelirajte večvozliščno medsebojno povezanost GPE (NVLink v primerjavi s PCIe) preden se odločite za strategijo paralelnosti.
- Zgradite 24-mesečni TCO, ki primerja nakup, amortizacijo, energijo in vzdrževanje z najetjem oblaka.
- Vključite prodajalca — kot je Privonis — ki lahko potrdi celoten sklad: GPE, strežnik, OS, mehanizem za sklepanje in nadzor.
Nabava GPE ni enkratni nakup; je temelj vašega načrta za infrastrukturo AI. Vlaganje časa v modeliranje zahtev VRAM, energetskih omejitev in skupnih stroškov lastništva preden kupite, bo prihranilo mesece ponovnega dela in desetine tisoč evrov. Če bi radi brezplačen arhitekturni pregled za vaš projekt AI na lastni infrastrukturi, je Privonisova ekipa pripravljena pomagati.
Pogovorimo se o vašem projektu UI
Rezervirajte klic