En praktisk GPU-köpguide för lokal AI
VRAM, genomströmning, effektförbrukning och budget: hur du köper rätt GPU:er första gången.
Att köpa GPU:er för lokal AI är ett av de mest avgörande infrastrukturbesluten en organisation kan fatta. Gör rätt och du har en självförsörjande, kostnadseffektiv plattform för inferens och finjustering som ökar i värde över tid. Gör fel och du tillbringar månader i GPU-returköer eller, ännu värre, kör modeller som är för stora för att rymmas i minnet. Den här guiden går igenom varje dimension du behöver utvärdera – VRAM, genomströmning, effektförbrukning, kylning och total ägandekostnad – så att du kan välja med förtroende första gången.
VRAM är den första och svåraste begränsningen
Fråga innan någon annan specifikation: hur många gigabyte VRAM kräver min målmodell? En modell med 7 miljarder parametrar i 16-bitars precision upptar ungefär 14 GB; en modell med 70 miljarder parametrar behöver ungefär 140 GB. Kvantisering till 4-bitars kan minska dessa siffror med 75 %, men kvantisering introducerar kvalitetsavvägningar som måste valideras för ditt användningsfall. Den grundläggande regeln är enkel: om modellen inte ryms i VRAM, kommer GPU:n att spilla till systemets RAM och genomströmningen kollapsar med en till två storleksordningar. Dimensionera alltid VRAM med spelrum – minst 20 % fritt – för nyckel-värde-cachen som växer med kontextlängd.
Konsument- vs. datacenter-GPU:er
GPU-marknaden delar upp sig i konsumentkort och datacenteracceleratorer, och distinktionen spelar roll för lokal AI. Konsument-GPU:er som NVIDIA RTX 4090 erbjuder 24 GB GDDR6X till extraordinära pris-per-VRAM-förhållanden och kan köra modeller som Llama 3 70B i 4-bitars på en tvåkorts-setup. De är utmärkta för små team, R&D-laboratorier och budgetförst-driftsättningar. De saknar dock ECC-minne, är inte utformade för 24/7-rackdrift och bär begränsningar för kommersiell inferensanvändning i vissa jurisdiktioner. Datacenter-GPU:er – L4, L40S, A100 och H100/H200 – är byggda för kontinuerliga driftcykler, bär ECC-minne för numerisk integritet och stöds av enterprise-SLA:er. L4 (24 GB) är kostnadseffektiv för inferens; L40S (48 GB) hanterar mellanstoramodeller väl; A100 80 GB och H100/H200 (80 GB+) är standarden för finjustering av stora modeller och servering med hög genomströmning. Privonis utformar driftsättningar kring datacenter-GPU:er just för att europeiska företagsklienter kräver den tillförlitlighetsgarantin.
- RTX 4090 – 24 GB GDDR6X, ~1 008 GB/s bandbredd, bäst pris-per-VRAM för dev-arbetsbelastningar.
- L4 – 24 GB GDDR6, PCIe-formfaktor, låg effekt (72 W), idealisk för inferensapparater.
- L40S – 48 GB GDDR6, hög FP8-genomströmning, arbetshästen för mellanstoramodeller i stor skala.
- A100 80 GB – 80 GB HBM2e, NVLink-stöd, den beprövade produktionsstandarden för stora modeller.
- H100 / H200 – 80–141 GB HBM3/3e, transformermotor med FP8, maximal tillgänglig genomströmning.
Strategier för enstaka GPU vs. flera GPU:er
En enda GPU med hög VRAM håller stacken enkel: ingen konfiguration av tensorparallellism, ingen NVLink-fabric att hantera, lägre felyta. Börja med en enda GPU när modellen ryms och ditt genomströmningsmål är uppnåeligt. När det inte är det – antingen för att modellen är för stor eller för att du behöver betjäna dussintals simultana användare – behöver du spänna över flera GPU:er. NVLink överträffar dramatiskt PCIe för inter-GPU-bandbredd (900 GB/s vs. ~64 GB/s dubbelriktad på PCIe 5.0), vilket är kritiskt för tensorparallellism. Om din budget tvingar PCIe-only flerGPU, föredra pipeline-parallellism framför tensorparallellism för att minimera korsenhets-trafik.
Effektförbrukning, kylning och rackplanering
Datacenter-GPU:er drar mellan 72 W (L4) och 700 W (H100 SXM5). Ett åtta-H100 DGX-system kan dra 10 kW från elnätet under ihållande belastning. Innan du beställer hårdvara, bekräfta att ditt datacenter eller serverrum kan leverera nödvändiga strömkretsar och tillhandahålla tillräcklig kylning – vanligtvis 12–15 °C tilluft eller direkt vätskekylning för de tätaste konfigurationerna. Att förbise effekttäthet är den enskilt vanligaste orsaken till driftsättningsförseningar i lokala AI-projekt.
Köpa vs. hyra: TCO-beräkningen
Moln-GPU-hyra är operativt bekvämt men dyrt i stor skala. En H100-instans på en stor molnleverantör kostar ungefär 3–4 € per GPU-timme, vilket är mer än 26 000 € per GPU per år vid kontinuerlig användning. Samma GPU köpt direkt kostar 25 000–35 000 € och har vanligtvis en nyttjandetid på tre till fem år. Break-even-punkten för arbetsbelastningar med hög användning faller mellan tolv och arton månader – efter vilken lokal driftsättning är strikt billigare. Privonis hjälper klienter att bygga denna TCO-modell innan de åtar sig någon väg, eftersom det rätta svaret beror på användningsgrad, avskrivningsperiod och värdet av datasuveränitet för verksamheten.
Den GPU du har råd att köra kontinuerligt kommer alltid att överträffa den GPU du hyr sporadiskt. Utnyttjande är den sanna prestandamultiplikatorn.
Praktisk köpchecklista
- Definiera din största målmodell och beräkna VRAM-krav vid din önskade precision.
- Lägg till 20 % VRAM-spelrum för KV-cachen och framtida modelluppdateringar.
- Verifiera strömkretskapacitet och kylning innan du specificerar GPU-antal.
- Föredra ECC-datacenter-GPU:er för 24/7-produktion; konsumentkort är acceptabla för R&D.
- Modellera flerGPU-sammankoppling (NVLink vs. PCIe) innan du beslutar om parallellismstrategi.
- Bygg en 24-månaders TCO som jämför köp, avskrivning, el och underhåll mot molnhyra.
- Engagera en leverantör – som Privonis – som kan validera hela stacken: GPU, server, OS, inferensruntime och övervakning.
GPU-upphandling är inte ett engångsköp; det är grunden för din AI-infrastrukturvägkarta. Att investera tid i att modellera VRAM-krav, effektbegränsningar och total ägandekostnad innan du köper sparar månader av omarbetning och tiotusentals euro. Om du vill ha en gratis arkitekturrecension för ditt lokala AI-projekt är Privonis-teamet redo att hjälpa.
Låt oss prata om ditt AI-projekt
Boka ett samtal