Ga naar inhoud
← Terug naar blog
Hardware 13 mei 2026 · 8 min lezen

Een praktische GPU-koopgids voor on-premise AI

VRAM, doorvoer, vermogen en budget: hoe u de juiste GPU's de eerste keer koopt.

Een praktische GPU-koopgids voor on-premise AI

GPU's kopen voor on-premise AI is een van de meest consequente infrastructuurbeslissingen die een organisatie kan nemen. Doe het goed en u heeft een zelfvoorzienend, kostenefficiënt inferentie- en fine-tuningsplatform dat in de loop van de tijd in waarde groeit. Doe het verkeerd en u spendeert maanden in GPU-retourrijen of, erger nog, draait modellen die te groot zijn om in het geheugen te passen. Deze gids behandelt elke dimensie die u moet evalueren — VRAM, doorvoer, vermogen, koeling en totale eigendomskosten — zodat u de eerste keer met vertrouwen kunt kiezen.

VRAM is de eerste en moeilijkste beperking

Vraag, voor elke andere specificatie, hoeveel gigabytes VRAM uw doelmodel vereist. Een model met 7 miljard parameters in 16-bit precisie neemt ongeveer 14 GB in beslag; een model met 70 miljard parameters heeft ongeveer 140 GB nodig. Kwantisatie naar 4-bit kan die cijfers met 75% verminderen, maar kwantisatie introduceert kwaliteitsafwegingen die moeten worden gevalideerd voor uw use case. De hoofdregel is eenvoudig: als het model niet in VRAM past, zal de GPU overlopen naar systeemgeheugen en zal de doorvoer instorten met een tot twee ordes van grootte. Dimensioneer VRAM altijd met voldoende ruimte — ten minste 20% vrij — voor de sleutel-waardecache die groeit met contextlengte.

Vergelijking van GPU-modellen op VRAM en geheugenbandbreedte
VRAM-capaciteit en geheugenbandbreedte voor de belangrijkste GPU-opties in 2025-2026.

Consumenten- versus datacenter-GPU's

De GPU-markt splitst zich op in consumentenkaarten en datacenter-acceleratoren, en het onderscheid is van belang voor on-premise AI. Consumenten-GPU's zoals de NVIDIA RTX 4090 bieden 24 GB GDDR6X tegen buitengewone prijs-per-VRAM-ratio's en kunnen modellen zoals Llama 3 70B in 4-bit draaien op een twee-kaart opstelling. Ze zijn uitstekend voor kleine teams, R&D-labs en implementaties waarbij budget vooropstaat. Ze missen echter ECC-geheugen, zijn niet ontworpen voor 24/7 rack-gebruik en hebben in sommige jurisdicties beperkingen op commercieel inferentiegebruik. Datacenter-GPU's — de L4, L40S, A100 en H100/H200 — zijn gebouwd voor continue werkcycli, hebben ECC-geheugen voor numerieke integriteit en worden ondersteund door zakelijke SLA's. De L4 (24 GB) is kostenefficiënt voor inferentie; de L40S (48 GB) verwerkt middelgrote modellen goed; de A100 80 GB en H100/H200 (80 GB+) zijn de standaard voor het fine-tunen van grote modellen en het serveren bij hoge doorvoer. Privonis ontwerpt implementaties rondom datacenter-GPU's precies omdat Europese zakelijke klanten die betrouwbaarheidsgarantie vereisen.

  • RTX 4090 — 24 GB GDDR6X, ~1 008 GB/s bandbreedte, beste prijs-per-VRAM voor ontwikkelworkloads.
  • L4 — 24 GB GDDR6, PCIe-vormfactor, laag vermogen (72 W), ideaal voor inferentieapparaten.
  • L40S — 48 GB GDDR6, hoge FP8-doorvoer, de werkezel voor middelgrote modellen op schaal.
  • A100 80 GB — 80 GB HBM2e, NVLink-ondersteuning, de bewezen productiestandaard voor grote modellen.
  • H100 / H200 — 80-141 GB HBM3/3e, transformer-engine met FP8, maximale beschikbare doorvoer.

Enkelvoudige GPU versus multi-GPU strategieën

Een enkelvoudige hoge-VRAM GPU houdt de stack eenvoudig: geen tensorrparallellisme-configuratie, geen NVLink-structuur te beheren, lager faaloppervlak. Begin met een enkelvoudige GPU wanneer het model past en uw doorvoerdoel haalbaar is. Wanneer dat niet het geval is — hetzij omdat het model te groot is, hetzij omdat u tientallen gelijktijdige gebruikers moet bedienen — moet u meerdere GPU's overspannen. NVLink overtreft PCIe dramatisch voor inter-GPU-bandbreedte (900 GB/s vs ~64 GB/s bidirectioneel op PCIe 5.0), wat cruciaal is voor tensorparallellisme. Als uw budget PCIe-only multi-GPU afdwingt, geef de voorkeur aan pijplijnparallellisme boven tensorparallellisme om inter-apparaatverkeer te minimaliseren.

Vermogen, koeling en rackplanning

Datacenter-GPU's verbruiken tussen 72 W (L4) en 700 W (H100 SXM5). Een acht-H100 DGX-systeem kan 10 kW van het net trekken bij aanhoudende belasting. Bevestig, voordat u hardware bestelt, dat uw datacenter of serverruimte de benodigde stroomcircuits kan leveren en voldoende koeling kan bieden — doorgaans 12-15°C toevoerlucht of directe vloeistofkoeling voor de dichtste configuraties. Het over het hoofd zien van vermogensdichtheid is de meest voorkomende oorzaak van implementatievertragingen in on-premise AI-projecten.

Totale eigendomskostencurves: on-premise versus cloud-GPU-huur over tijd
TCO break-evenanalyse: eigendom van on-premise GPU's wordt goedkoper dan cloud-huur tussen 12 en 18 maanden voor de meeste inferentie-workloads.

Kopen versus huren: de TCO-berekening

Cloud-GPU-huur is operationeel handig maar duur op schaal. Een H100-instantie bij een grote cloudprovider kost ruwweg 3 tot 4 euro per GPU-uur, wat zich vertaalt naar meer dan 26.000 euro per GPU per jaar bij continue benutting. Dezelfde GPU rechtstreeks gekocht kost 25.000 tot 35.000 euro en heeft doorgaans een levensduur van drie tot vijf jaar. Het break-evenpunt voor workloads met hoge benutting valt tussen twaalf en achttien maanden — waarna on-premise strikt goedkoper is. Privonis helpt klanten dit TCO-model te bouwen voordat ze zich vastleggen op een van beide paden, omdat het juiste antwoord afhangt van benutting, afschrijvingsperiode en de waarde van gegevenssoevereiniteit voor het bedrijf.

De GPU die u zich kunt veroorloven continu te draaien, zal altijd beter presteren dan de GPU die u sporadisch huurt. Benutting is de echte prestatiemultiplicator.

Praktische koopcheckllist

  • Definieer uw grootste doelmodel en bereken de VRAM-vereiste bij uw gewenste precisie.
  • Voeg 20% VRAM-ruimte toe voor de KV-cache en toekomstige modelupdates.
  • Controleer stroomcircuitcapaciteit en koeling voordat u het GPU-aantal specificeert.
  • Geef de voorkeur aan ECC-datacenter-GPU's voor 24/7-productie; consumentenkaarten zijn acceptabel voor R&D.
  • Modelleer multi-GPU-interconnect (NVLink versus PCIe) voordat u beslist over parallellismestrategie.
  • Bouw een 24-maanden TCO op waarbij aankoop, afschrijving, stroom en onderhoud worden vergeleken met cloud-huur.
  • Schakel een leverancier in — zoals Privonis — die de volledige stack kan valideren: GPU, server, OS, inferentieruntime en monitoring.

GPU-inkoop is geen eenmalige aankoop; het is de basis van uw AI-infrastructuurroutekaart. De tijd investeren om VRAM-vereisten, vermogensbeperkingen en totale eigendomskosten te modelleren voordat u koopt, bespaart maanden aan herwerk en tienduizenden euro's. Als u een gratis architectuurreview wilt voor uw on-premise AI-project, staat het Privonis-team klaar om te helpen.

Laten we praten over uw AI-project

Gesprek inplannen