Una guida pratica all'acquisto di GPU per AI on-premise
VRAM, throughput, consumo energetico e budget: come comprare le GPU giuste la prima volta.
Acquistare GPU per l'AI on-premise è una delle decisioni infrastrutturali più consequenziali che un'organizzazione possa prendere. Fatta bene, si ha una piattaforma di inferenza e fine-tuning autosufficiente ed economicamente efficiente che cresce in valore nel tempo. Fatta male, si passano mesi nelle code di reso GPU o, peggio ancora, si eseguono modelli troppo grandi per stare in memoria. Questa guida analizza ogni dimensione da valutare — VRAM, throughput, consumo energetico, raffreddamento e costo totale di proprietà — in modo da poter scegliere con sicurezza la prima volta.
La VRAM è il primo e più rigido vincolo
Prima di qualsiasi altra specifica, chiedi: quanti gigabyte di VRAM richiede il mio modello target? Un modello da 7 miliardi di parametri in precisione 16-bit occupa circa 14 GB; un modello da 70 miliardi di parametri ne ha bisogno di circa 140 GB. La quantizzazione a 4 bit può ridurre queste cifre del 75%, ma la quantizzazione introduce compromessi di qualità che devono essere validati per il proprio caso d'uso. La regola fondamentale è semplice: se il modello non sta nella VRAM, la GPU andrà in overflow sulla RAM di sistema e il throughput crolla di uno o due ordini di grandezza. Dimensiona sempre la VRAM con margine — almeno il 20% libero — per la cache chiave-valore che cresce con la lunghezza del contesto.
GPU consumer vs data center
Il mercato delle GPU si biforca in schede consumer e acceleratori per data center, e la distinzione conta per l'AI on-premise. Le GPU consumer come la NVIDIA RTX 4090 offrono 24 GB di GDDR6X a straordinari rapporti prezzo-VRAM e possono eseguire modelli come Llama 3 70B in 4-bit su una configurazione a due schede. Sono eccellenti per piccoli team, laboratori R&D e deployment con priorità al budget. Tuttavia, mancano di memoria ECC, non sono progettate per operazioni in rack 24/7 e portano limitazioni all'uso commerciale dell'inferenza in alcune giurisdizioni. Le GPU per data center — L4, L40S, A100 e H100/H200 — sono costruite per cicli di utilizzo continuo, hanno memoria ECC per l'integrità numerica e sono supportate da SLA enterprise. La L4 (24 GB) è efficiente in termini di costi per l'inferenza; la L40S (48 GB) gestisce bene i modelli di medie dimensioni; l'A100 da 80 GB e H100/H200 (80 GB+) sono lo standard per il fine-tuning di modelli grandi e il serving ad alto throughput. Privonis progetta i deployment attorno alle GPU per data center proprio perché i clienti enterprise europei richiedono quella garanzia di affidabilità.
- RTX 4090 — 24 GB GDDR6X, ~1.008 GB/s di larghezza di banda, miglior prezzo-VRAM per carichi di lavoro di sviluppo.
- L4 — 24 GB GDDR6, fattore di forma PCIe, basso consumo (72 W), ideale per appliance di inferenza.
- L40S — 48 GB GDDR6, alto throughput FP8, il cavallo di battaglia per modelli di medie dimensioni su scala.
- A100 80 GB — 80 GB HBM2e, supporto NVLink, lo standard di produzione collaudato per modelli grandi.
- H100 / H200 — 80–141 GB HBM3/3e, transformer engine con FP8, massimo throughput disponibile.
Strategie singola GPU vs multi-GPU
Una singola GPU ad alta VRAM mantiene lo stack semplice: nessuna configurazione di tensor-parallelism, nessun fabric NVLink da gestire, superficie di guasto inferiore. Inizia con una singola GPU ogni volta che il modello ci sta e il tuo target di throughput è raggiungibile. Quando non lo è — o perché il modello è troppo grande o perché devi servire decine di utenti concorrenti — dovrai espanderti su più GPU. NVLink supera di gran lunga PCIe per la larghezza di banda inter-GPU (900 GB/s vs ~64 GB/s bidirezionale su PCIe 5.0), il che è critico per il tensor parallelism. Se il tuo budget forza il multi-GPU solo PCIe, preferisci il pipeline parallelism al tensor parallelism per minimizzare il traffico tra dispositivi.
Consumo energetico, raffreddamento e pianificazione del rack
Le GPU per data center consumano tra 72 W (L4) e 700 W (H100 SXM5). Un sistema DGX con otto H100 può assorbire 10 kW dalla rete sotto carico sostenuto. Prima di ordinare hardware, verifica che il tuo data center o sala server possa fornire i circuiti di alimentazione necessari e un raffreddamento adeguato — tipicamente aria di mandata a 12–15 °C o raffreddamento a liquido diretto per le configurazioni più dense. Trascurare la densità di potenza è la singola causa più comune di ritardi nel deployment in progetti AI on-premise.
Acquisto vs noleggio: il calcolo TCO
Il noleggio GPU cloud è operativamente conveniente ma costoso su scala. Un'istanza H100 su un provider cloud principale costa circa €3–4 per ora GPU, il che si traduce in oltre €26.000 per GPU all'anno a utilizzo continuo. La stessa GPU acquistata direttamente costa €25.000–35.000 e tipicamente ha una vita utile di tre-cinque anni. Il punto di pareggio per carichi di lavoro ad alto utilizzo cade tra dodici e diciotto mesi — dopo i quali l'on-premise è strettamente più economico. Privonis aiuta i clienti a costruire questo modello TCO prima di impegnarsi in entrambi i percorsi, perché la risposta giusta dipende dal tasso di utilizzo, dal periodo di ammortamento e dal valore della sovranità dei dati per il business.
La GPU che puoi permetterti di eseguire continuamente supererà sempre la GPU che noleggi sporadicamente. L'utilizzo è il vero moltiplicatore di performance.
Checklist pratica per l'acquisto
- Definisci il tuo modello target più grande e calcola il requisito di VRAM alla precisione desiderata.
- Aggiungi il 20% di margine VRAM per la cache KV e i futuri aggiornamenti del modello.
- Verifica la capacità del circuito di alimentazione e il raffreddamento prima di specificare il numero di GPU.
- Preferisci GPU ECC per data center per la produzione 24/7; le schede consumer sono accettabili per R&D.
- Modella l'interconnessione multi-GPU (NVLink vs PCIe) prima di decidere la strategia di parallelism.
- Costruisci un TCO a 24 mesi confrontando acquisto, ammortamento, consumo energetico e manutenzione con il noleggio cloud.
- Coinvolgi un vendor — come Privonis — che possa validare l'intero stack: GPU, server, OS, runtime di inferenza e monitoraggio.
L'approvvigionamento GPU non è un acquisto una tantum; è la fondamenta del tuo roadmap infrastrutturale AI. Investire il tempo per modellare i requisiti di VRAM, i vincoli di potenza e il costo totale di proprietà prima dell'acquisto farà risparmiare mesi di rielaborazione e decine di migliaia di euro. Se desideri una revisione architettuale gratuita per il tuo progetto AI on-premise, il team Privonis è pronto ad aiutarti.
Parliamo del tuo progetto IA
Prenota una chiamata