Vai al contenuto
← Torna al blog
Hardware 13 maggio 2026 · 8 min di lettura

Una guida pratica all'acquisto di GPU per AI on-premise

VRAM, throughput, consumo energetico e budget: come comprare le GPU giuste la prima volta.

Una guida pratica all'acquisto di GPU per AI on-premise

Acquistare GPU per l'AI on-premise è una delle decisioni infrastrutturali più consequenziali che un'organizzazione possa prendere. Fatta bene, si ha una piattaforma di inferenza e fine-tuning autosufficiente ed economicamente efficiente che cresce in valore nel tempo. Fatta male, si passano mesi nelle code di reso GPU o, peggio ancora, si eseguono modelli troppo grandi per stare in memoria. Questa guida analizza ogni dimensione da valutare — VRAM, throughput, consumo energetico, raffreddamento e costo totale di proprietà — in modo da poter scegliere con sicurezza la prima volta.

La VRAM è il primo e più rigido vincolo

Prima di qualsiasi altra specifica, chiedi: quanti gigabyte di VRAM richiede il mio modello target? Un modello da 7 miliardi di parametri in precisione 16-bit occupa circa 14 GB; un modello da 70 miliardi di parametri ne ha bisogno di circa 140 GB. La quantizzazione a 4 bit può ridurre queste cifre del 75%, ma la quantizzazione introduce compromessi di qualità che devono essere validati per il proprio caso d'uso. La regola fondamentale è semplice: se il modello non sta nella VRAM, la GPU andrà in overflow sulla RAM di sistema e il throughput crolla di uno o due ordini di grandezza. Dimensiona sempre la VRAM con margine — almeno il 20% libero — per la cache chiave-valore che cresce con la lunghezza del contesto.

Confronto dei modelli GPU per VRAM e larghezza di banda della memoria
Capacità VRAM e larghezza di banda della memoria per le principali opzioni GPU nel 2025–2026.

GPU consumer vs data center

Il mercato delle GPU si biforca in schede consumer e acceleratori per data center, e la distinzione conta per l'AI on-premise. Le GPU consumer come la NVIDIA RTX 4090 offrono 24 GB di GDDR6X a straordinari rapporti prezzo-VRAM e possono eseguire modelli come Llama 3 70B in 4-bit su una configurazione a due schede. Sono eccellenti per piccoli team, laboratori R&D e deployment con priorità al budget. Tuttavia, mancano di memoria ECC, non sono progettate per operazioni in rack 24/7 e portano limitazioni all'uso commerciale dell'inferenza in alcune giurisdizioni. Le GPU per data center — L4, L40S, A100 e H100/H200 — sono costruite per cicli di utilizzo continuo, hanno memoria ECC per l'integrità numerica e sono supportate da SLA enterprise. La L4 (24 GB) è efficiente in termini di costi per l'inferenza; la L40S (48 GB) gestisce bene i modelli di medie dimensioni; l'A100 da 80 GB e H100/H200 (80 GB+) sono lo standard per il fine-tuning di modelli grandi e il serving ad alto throughput. Privonis progetta i deployment attorno alle GPU per data center proprio perché i clienti enterprise europei richiedono quella garanzia di affidabilità.

  • RTX 4090 — 24 GB GDDR6X, ~1.008 GB/s di larghezza di banda, miglior prezzo-VRAM per carichi di lavoro di sviluppo.
  • L4 — 24 GB GDDR6, fattore di forma PCIe, basso consumo (72 W), ideale per appliance di inferenza.
  • L40S — 48 GB GDDR6, alto throughput FP8, il cavallo di battaglia per modelli di medie dimensioni su scala.
  • A100 80 GB — 80 GB HBM2e, supporto NVLink, lo standard di produzione collaudato per modelli grandi.
  • H100 / H200 — 80–141 GB HBM3/3e, transformer engine con FP8, massimo throughput disponibile.

Strategie singola GPU vs multi-GPU

Una singola GPU ad alta VRAM mantiene lo stack semplice: nessuna configurazione di tensor-parallelism, nessun fabric NVLink da gestire, superficie di guasto inferiore. Inizia con una singola GPU ogni volta che il modello ci sta e il tuo target di throughput è raggiungibile. Quando non lo è — o perché il modello è troppo grande o perché devi servire decine di utenti concorrenti — dovrai espanderti su più GPU. NVLink supera di gran lunga PCIe per la larghezza di banda inter-GPU (900 GB/s vs ~64 GB/s bidirezionale su PCIe 5.0), il che è critico per il tensor parallelism. Se il tuo budget forza il multi-GPU solo PCIe, preferisci il pipeline parallelism al tensor parallelism per minimizzare il traffico tra dispositivi.

Consumo energetico, raffreddamento e pianificazione del rack

Le GPU per data center consumano tra 72 W (L4) e 700 W (H100 SXM5). Un sistema DGX con otto H100 può assorbire 10 kW dalla rete sotto carico sostenuto. Prima di ordinare hardware, verifica che il tuo data center o sala server possa fornire i circuiti di alimentazione necessari e un raffreddamento adeguato — tipicamente aria di mandata a 12–15 °C o raffreddamento a liquido diretto per le configurazioni più dense. Trascurare la densità di potenza è la singola causa più comune di ritardi nel deployment in progetti AI on-premise.

Curve del costo totale di proprietà: GPU on-premise vs noleggio cloud nel tempo
Analisi del break-even TCO: la proprietà di GPU on-premise diventa più economica del noleggio cloud tra i 12 e i 18 mesi per la maggior parte dei carichi di inferenza.

Acquisto vs noleggio: il calcolo TCO

Il noleggio GPU cloud è operativamente conveniente ma costoso su scala. Un'istanza H100 su un provider cloud principale costa circa €3–4 per ora GPU, il che si traduce in oltre €26.000 per GPU all'anno a utilizzo continuo. La stessa GPU acquistata direttamente costa €25.000–35.000 e tipicamente ha una vita utile di tre-cinque anni. Il punto di pareggio per carichi di lavoro ad alto utilizzo cade tra dodici e diciotto mesi — dopo i quali l'on-premise è strettamente più economico. Privonis aiuta i clienti a costruire questo modello TCO prima di impegnarsi in entrambi i percorsi, perché la risposta giusta dipende dal tasso di utilizzo, dal periodo di ammortamento e dal valore della sovranità dei dati per il business.

La GPU che puoi permetterti di eseguire continuamente supererà sempre la GPU che noleggi sporadicamente. L'utilizzo è il vero moltiplicatore di performance.

Checklist pratica per l'acquisto

  • Definisci il tuo modello target più grande e calcola il requisito di VRAM alla precisione desiderata.
  • Aggiungi il 20% di margine VRAM per la cache KV e i futuri aggiornamenti del modello.
  • Verifica la capacità del circuito di alimentazione e il raffreddamento prima di specificare il numero di GPU.
  • Preferisci GPU ECC per data center per la produzione 24/7; le schede consumer sono accettabili per R&D.
  • Modella l'interconnessione multi-GPU (NVLink vs PCIe) prima di decidere la strategia di parallelism.
  • Costruisci un TCO a 24 mesi confrontando acquisto, ammortamento, consumo energetico e manutenzione con il noleggio cloud.
  • Coinvolgi un vendor — come Privonis — che possa validare l'intero stack: GPU, server, OS, runtime di inferenza e monitoraggio.

L'approvvigionamento GPU non è un acquisto una tantum; è la fondamenta del tuo roadmap infrastrutturale AI. Investire il tempo per modellare i requisiti di VRAM, i vincoli di potenza e il costo totale di proprietà prima dell'acquisto farà risparmiare mesi di rielaborazione e decine di migliaia di euro. Se desideri una revisione architettuale gratuita per il tuo progetto AI on-premise, il team Privonis è pronto ad aiutarti.

Parliamo del tuo progetto IA

Prenota una chiamata