Guía práctica para comprar GPUs para IA on-premise
VRAM, rendimiento, consumo y presupuesto: cómo elegir las GPUs adecuadas a la primera.
Comprar GPUs para IA on-premise es una de las decisiones de infraestructura más determinantes que puede tomar una organización. Si se acierta, se dispone de una plataforma de inferencia y ajuste fino autosuficiente y eficiente en costes que genera valor de forma acumulativa. Si se falla, se pierden meses en colas de devolución de hardware o, lo que es peor, se intenta ejecutar modelos que no caben en memoria. Esta guía recorre todas las dimensiones que hay que evaluar — VRAM, rendimiento, consumo, refrigeración y coste total de propiedad — para elegir con confianza a la primera.
La VRAM es la primera restricción y la más difícil
Antes de cualquier otra especificación, hay que preguntarse: ¿cuántos gigabytes de VRAM requiere el modelo objetivo? Un modelo de 7.000 millones de parámetros en precisión de 16 bits ocupa aproximadamente 14 GB; uno de 70.000 millones necesita unos 140 GB. La cuantización a 4 bits puede reducir esas cifras un 75 %, pero introduce compromisos de calidad que deben validarse para cada caso de uso. La regla fundamental es sencilla: si el modelo no cabe en VRAM, la GPU volcará a la RAM del sistema y el rendimiento se desploma entre uno y dos órdenes de magnitud. Hay que dimensionar la VRAM siempre con margen — al menos un 20 % libre — para la caché de clave-valor, que crece con la longitud del contexto.
GPUs de consumo vs GPUs de centro de datos
El mercado de GPUs se bifurca en tarjetas de consumo y aceleradores de centro de datos, y la distinción importa para la IA on-premise. Las GPUs de consumo como la NVIDIA RTX 4090 ofrecen 24 GB de GDDR6X con una relación precio/VRAM extraordinaria y permiten ejecutar modelos como Llama 3 70B en 4 bits con una configuración de dos tarjetas. Son excelentes para equipos pequeños, laboratorios de I+D y despliegues con presupuesto ajustado. Sin embargo, carecen de memoria ECC, no están diseñadas para operación continua en rack y presentan restricciones en el uso de inferencia comercial en algunas jurisdicciones. Las GPUs de centro de datos — la L4, L40S, A100 y H100/H200 — están fabricadas para ciclos de funcionamiento continuo, cuentan con memoria ECC para integridad numérica y están respaldadas por SLAs empresariales. La L4 (24 GB) es eficiente en costes para inferencia; la L40S (48 GB) gestiona bien modelos de tamaño medio; la A100 80 GB y la H100/H200 (80 GB+) son el estándar para el ajuste fino de modelos grandes y el servicio de alta demanda. Privonis diseña los despliegues en torno a GPUs de centro de datos precisamente porque los clientes empresariales europeos exigen esa garantía de fiabilidad.
- RTX 4090 — 24 GB GDDR6X, ~1.008 GB/s de ancho de banda, mejor precio/VRAM para cargas de desarrollo.
- L4 — 24 GB GDDR6, factor de forma PCIe, bajo consumo (72 W), ideal para appliances de inferencia.
- L40S — 48 GB GDDR6, alto rendimiento FP8, el caballo de batalla para modelos de tamaño medio a escala.
- A100 80 GB — 80 GB HBM2e, soporte NVLink, el estándar de producción probado para modelos grandes.
- H100 / H200 — 80–141 GB HBM3/HBM3e, motor transformer con FP8, máximo rendimiento disponible.
Estrategias de una GPU vs múltiples GPUs
Una sola GPU con mucha VRAM mantiene el stack simple: sin configuración de paralelismo tensorial, sin tejido NVLink que gestionar, menor superficie de fallo. Hay que comenzar con una sola GPU siempre que el modelo quepa y el objetivo de rendimiento sea alcanzable. Cuando no es así — porque el modelo es demasiado grande o porque hay que servir a decenas de usuarios concurrentes — será necesario distribuir entre varias GPUs. NVLink supera con creces a PCIe en ancho de banda entre GPUs (900 GB/s vs ~64 GB/s bidireccionales en PCIe 5.0), lo que es crítico para el paralelismo tensorial. Si el presupuesto obliga a múltiples GPUs solo por PCIe, conviene preferir el paralelismo de pipeline al paralelismo tensorial para minimizar el tráfico entre dispositivos.
Consumo, refrigeración y planificación de rack
Las GPUs de centro de datos consumen entre 72 W (L4) y 700 W (H100 SXM5). Un sistema DGX con ocho H100 puede extraer 10 kW de la red bajo carga sostenida. Antes de encargar hardware, hay que confirmar que el centro de datos o sala de servidores puede suministrar los circuitos eléctricos necesarios y proporcionar refrigeración adecuada — típicamente aire de suministro a 12–15 °C o refrigeración líquida directa para las configuraciones más densas. Ignorar la densidad de potencia es la causa más común de retrasos en despliegues de IA on-premise.
Comprar vs alquilar: el cálculo del TCO
El alquiler de GPUs en la nube es operativamente cómodo, pero caro a escala. Una instancia H100 en un proveedor cloud importante cuesta aproximadamente 3–4 € por GPU-hora, lo que se traduce en más de 26.000 € por GPU y año a plena utilización. La misma GPU comprada directamente cuesta entre 25.000 y 35.000 € y tiene una vida útil típica de tres a cinco años. El punto de equilibrio para cargas de trabajo de alta utilización se sitúa entre doce y dieciocho meses — a partir de ese momento, on-premise es estrictamente más barato. Privonis ayuda a los clientes a construir este modelo de TCO antes de comprometerse con ninguna de las dos vías, porque la respuesta correcta depende de la tasa de utilización, el período de amortización y el valor de la soberanía de los datos para el negocio.
La GPU que puedes permitirte ejecutar de forma continua siempre superará a la GPU que alquilas de forma esporádica. La utilización es el verdadero multiplicador de rendimiento.
Lista de comprobación práctica para la compra
- Define el modelo objetivo más grande y calcula el requisito de VRAM en la precisión deseada.
- Añade un 20 % de margen de VRAM para la caché KV y actualizaciones futuras del modelo.
- Verifica la capacidad del circuito eléctrico y la refrigeración antes de especificar el número de GPUs.
- Prefiere GPUs de centro de datos con ECC para producción 24/7; las tarjetas de consumo son aceptables para I+D.
- Modela la interconexión multi-GPU (NVLink vs PCIe) antes de decidir la estrategia de paralelismo.
- Elabora un TCO a 24 meses comparando compra, amortización, consumo y mantenimiento frente al alquiler en la nube.
- Trabaja con un proveedor — como Privonis — que pueda validar el stack completo: GPU, servidor, SO, runtime de inferencia y monitorización.
La adquisición de GPUs no es una compra puntual; es el cimiento del plan de infraestructura de IA. Invertir tiempo en modelar los requisitos de VRAM, las restricciones de consumo y el coste total de propiedad antes de comprar ahorrará meses de trabajo rehecho y decenas de miles de euros. Si quieres una revisión de arquitectura gratuita para tu proyecto de IA on-premise, el equipo de Privonis está listo para ayudarte.
Hablemos de tu proyecto de IA
Reserva una llamada