En praktisk GPU-indkøbsguide til on-premise AI
VRAM, gennemstrømning, effekt og budget: hvordan du køber de rigtige GPU'er første gang.
At købe GPU'er til on-premise AI er en af de mest konsekvensrige infrastrukturbeslutninger, en organisation kan træffe. Gå rigtigt, og du har en selvbærende, omkostningseffektiv inferens- og finjusteringsplatform, der stiger i værdi over tid. Gå forkert, og du tilbringer måneder i GPU-returkøer eller, endnu værre, kører modeller, der er for store til at passe i hukommelsen. Denne guide gennemgår alle de dimensioner, du skal evaluere – VRAM, gennemstrømning, effekt, køling og total cost of ownership – så du kan vælge med tillid første gang.
VRAM er den første og sværeste begrænsning
Inden enhver anden specifikation, spørg: hvor mange gigabyte VRAM kræver min målmodel? En 7-milliards-parameter model i 16-bit præcision optager ca. 14 GB; en 70-milliards-parameter model kræver ca. 140 GB. Kvantisering til 4-bit kan skære disse tal med 75 %, men kvantisering introducerer kvalitetsafvejninger, der skal valideres for dit brugstilfælde. Den kardinale regel er enkel: hvis modellen ikke passer i VRAM, spildes der til system-RAM og gennemstrømningen kollapser med en til to størrelsesordener. Dimensioner altid VRAM med plads – mindst 20 % fri – til key-value-cachen, der vokser med kontekstlængde.
Forbruger- vs. datacenter-GPU'er
GPU-markedet deler sig i forbrugerkort og datacenter-acceleratorer, og sondringen har betydning for on-premise AI. Forbruger-GPU'er som NVIDIA RTX 4090 tilbyder 24 GB GDDR6X med ekstraordinære pris-pr.-VRAM-forhold og kan køre modeller som Llama 3 70B i 4-bit på en to-kort opsætning. De er fremragende til små teams, F&U-laboratorier og budget-første implementeringer. De mangler dog ECC-hukommelse, er ikke designet til 24/7 rack-drift og medfører begrænsninger på kommerciel inferensbrug i nogle jurisdiktioner. Datacenter-GPU'er – L4, L40S, A100 og H100/H200 – er bygget til kontinuerlige driftscyklusser, har ECC-hukommelse til numerisk integritet og understøttes af enterprise SLA'er. L4 (24 GB) er omkostningseffektiv til inferens; L40S (48 GB) håndterer mid-størrelses modeller godt; A100 80 GB og H100/H200 (80 GB+) er standarden til finjustering af store modeller og højt-gennemstrømmende serving. Privonis designer implementeringer omkring datacenter-GPU'er præcis fordi europæiske enterprise-klienter kræver den pålidelighedsgaranti.
- RTX 4090 — 24 GB GDDR6X, ~1.008 GB/s båndbredde, bedste pris-pr.-VRAM til dev-arbejdsbyrder.
- L4 — 24 GB GDDR6, PCIe-formfaktor, lav effekt (72 W), ideel til inferens-apparater.
- L40S — 48 GB GDDR6, høj FP8-gennemstrømning, arbejdshesten til mid-størrelses modeller i stor skala.
- A100 80 GB — 80 GB HBM2e, NVLink-support, den gennemprøvede produktionsstandard til store modeller.
- H100 / H200 — 80-141 GB HBM3/3e, transformer-motor med FP8, maksimal tilgængelig gennemstrømning.
Enkelt-GPU vs. multi-GPU-strategier
En enkelt high-VRAM GPU holder stakken enkel: ingen tensor-parallelisme-konfiguration, ingen NVLink-struktur at administrere, lavere fejloverflade. Start med en enkelt GPU, når modellen passer, og dit gennemstrømningsmål er nåbart. Når det ikke er det – enten fordi modellen er for stor eller fordi du skal betjene snesevis af samtidige brugere – skal du spænde over flere GPU'er. NVLink overgår langt PCIe til inter-GPU-båndbredde (900 GB/s vs. ~64 GB/s tovejs på PCIe 5.0), hvilket er afgørende for tensor-parallelisme. Hvis dit budget tvinger PCIe-kun multi-GPU, foretræk pipeline-parallelisme over tensor-parallelisme for at minimere trafik på tværs af enheder.
Effekt, køling og rack-planlægning
Datacenter-GPU'er bruger mellem 72 W (L4) og 700 W (H100 SXM5). Et otte-H100 DGX-system kan trække 10 kW fra væggen under vedvarende belastning. Inden du bestiller hardware, bekræft at dit datacenter eller serverrum kan levere de nødvendige strømkredsløb og tilvejebringe tilstrækkelig køling – typisk 12-15 °C forsyningsluft eller direkte flydende køling til de tætteste konfigurationer. At overse effekttæthed er den mest almindelige årsag til implementeringsforsinkelser i on-premise AI-projekter.
Køb vs. lej: TCO-beregningen
Cloud GPU-leje er operationelt bekvemt, men dyrt i stor skala. En H100-instans hos en stor cloud-udbyder koster ca. 3-4 € pr. GPU-time, hvilket svarer til over 26.000 € pr. GPU pr. år ved kontinuerlig udnyttelse. Den samme GPU købt direkte koster 25.000-35.000 € og har typisk en tre til fem år lang levetid. Break-even-punktet for arbejdsbyrder med høj udnyttelse falder mellem tolv og atten måneder – hvorefter on-premise er strengt billigere. Privonis hjælper klienter med at bygge denne TCO-model, inden de forpligter sig til nogen af tilgangene, fordi det rigtige svar afhænger af udnyttelsesrate, afskrivningsperiode og værdien af datasuverænitet for forretningen.
Den GPU, du har råd til at køre kontinuerligt, vil altid overgå den GPU, du lejer sporadisk. Udnyttelse er den sande præstationsmultiplikator.
Praktisk indkøbstjekliste
- Definer din største målmodel og beregn VRAM-krav ved din ønskede præcision.
- Tilføj 20 % VRAM-plads til KV-cachen og fremtidige modelopdateringer.
- Bekræft strømkredskapacitet og køling inden specificering af GPU-antal.
- Foretræk ECC datacenter-GPU'er til 24/7 produktion; forbrugerkort er acceptable til F&U.
- Model multi-GPU-sammenkoblings (NVLink vs. PCIe) inden beslutning om parallelisme-strategi.
- Byg en 24-måneders TCO, der sammenligner køb, afskrivning, strøm og vedligeholdelse mod cloud-leje.
- Engager en leverandør – såsom Privonis – der kan validere den fulde stak: GPU, server, OS, inferens-runtime og overvågning.
GPU-indkøb er ikke et engangsindkøb; det er grundlaget for din AI-infrastrukturroadmap. At investere tid i at modellere VRAM-krav, effektbegrænsninger og total cost of ownership inden du køber, vil spare måneder med genarbejde og titusindvis af euro. Hvis du gerne vil have en gratis arkitekturgennemgang til dit on-premise AI-projekt, er Privonis-teamet klar til at hjælpe.
Lad os tale om dit AI-projekt
Book et opkald