Um guia prático de compra de GPUs para IA on-premise
VRAM, rendimento, energia e orçamento: como comprar as GPUs certas à primeira.
Comprar GPUs para IA on-premise é uma das decisões de infraestrutura mais consequentes que uma organização pode tomar. Acerte e terá uma plataforma de inferência e ajuste fino autossuficiente e eficiente em termos de custo que se valoriza ao longo do tempo. Erre e passará meses em filas de devolução de GPUs ou, pior, a executar modelos demasiado grandes para caber em memória. Este guia percorre todas as dimensões que precisa de avaliar — VRAM, rendimento, energia, arrefecimento e custo total de propriedade — para que possa escolher com confiança à primeira.
A VRAM é a primeira e mais difícil restrição
Antes de qualquer outra especificação, pergunte: quantos gigabytes de VRAM o meu modelo alvo requer? Um modelo de 7 mil milhões de parâmetros em precisão de 16 bits ocupa aproximadamente 14 GB; um modelo de 70 mil milhões de parâmetros precisa de aproximadamente 140 GB. A quantização para 4 bits pode reduzir essas cifras em 75 %, mas a quantização introduz compromissos de qualidade que devem ser validados para o seu caso de uso. A regra fundamental é simples: se o modelo não couber na VRAM, a GPU irá extravasar para a RAM do sistema e o rendimento cai uma a duas ordens de magnitude. Dimensione sempre a VRAM com margem — pelo menos 20% livre — para a cache de chave-valor que cresce com o comprimento do contexto.
GPUs de consumidor vs GPUs de centro de dados
O mercado de GPUs bifurca-se em placas de consumidor e aceleradores de centro de dados, e a distinção é importante para a IA on-premise. As GPUs de consumidor como a NVIDIA RTX 4090 oferecem 24 GB de GDDR6X com rácios extraordinários de preço por VRAM e podem executar modelos como o Llama 3 70B em 4 bits numa configuração de duas placas. São excelentes para pequenas equipas, laboratórios de I&D e implementações com prioridade no orçamento. No entanto, carecem de memória ECC, não são projetadas para operação em rack 24/7 e têm limitações de inferência comercial em algumas jurisdições. As GPUs de centro de dados — L4, L40S, A100 e H100/H200 — são construídas para ciclos de operação contínua, têm memória ECC para integridade numérica e são suportadas por SLAs empresariais. A L4 (24 GB) é eficiente em termos de custo para inferência; a L40S (48 GB) trata bem modelos de tamanho médio; a A100 80 GB e a H100/H200 (80 GB+) são o padrão para ajuste fino de modelos grandes e serviço de alto rendimento. A Privonis projeta implementações em torno de GPUs de centro de dados precisamente porque os clientes empresariais europeus requerem essa garantia de fiabilidade.
- RTX 4090 — 24 GB GDDR6X, ~1 008 GB/s de largura de banda, melhor preço por VRAM para cargas de trabalho de desenvolvimento.
- L4 — 24 GB GDDR6, fator de forma PCIe, baixo consumo (72 W), ideal para dispositivos de inferência.
- L40S — 48 GB GDDR6, alto rendimento FP8, o padrão de trabalho para modelos de tamanho médio em escala.
- A100 80 GB — 80 GB HBM2e, suporte NVLink, o padrão de produção comprovado para modelos grandes.
- H100 / H200 — 80–141 GB HBM3/3e, motor transformer com FP8, máximo rendimento disponível.
Estratégias de GPU única vs multi-GPU
Uma única GPU de alta VRAM mantém a infraestrutura simples: sem configuração de paralelismo tensorial, sem fabric NVLink para gerir, menor superfície de falha. Comece com uma única GPU sempre que o modelo couber e o seu objetivo de rendimento for alcançável. Quando não for — seja porque o modelo é demasiado grande ou porque precisa de servir dezenas de utilizadores simultâneos — terá de distribuir por várias GPUs. O NVLink supera dramaticamente o PCIe para largura de banda entre GPUs (900 GB/s vs ~64 GB/s bidirecional em PCIe 5.0), o que é crítico para o paralelismo tensorial. Se o seu orçamento forçar multi-GPU apenas com PCIe, prefira o paralelismo de pipeline em vez do paralelismo tensorial para minimizar o tráfego entre dispositivos.
Energia, arrefecimento e planeamento de rack
As GPUs de centro de dados consomem entre 72 W (L4) e 700 W (H100 SXM5). Um sistema DGX de oito H100 pode consumir 10 kW da rede elétrica sob carga sustentada. Antes de encomendar hardware, confirme que o seu centro de dados ou sala de servidores pode fornecer os circuitos de energia necessários e fornecer arrefecimento adequado — tipicamente ar de alimentação a 12–15°C ou arrefecimento líquido direto para as configurações mais densas. Ignorar a densidade de energia é a causa mais comum de atrasos na implementação em projetos de IA on-premise.
Comprar vs alugar: o cálculo TCO
O aluguer de GPUs na cloud é operacionalmente conveniente mas caro em escala. Uma instância H100 num grande fornecedor de cloud custa aproximadamente €3–4 por hora de GPU, o que se traduz em mais de €26 000 por GPU por ano com utilização contínua. A mesma GPU comprada custa €25 000–35 000 e tem tipicamente uma vida útil de três a cinco anos. O ponto de equilíbrio para cargas de trabalho de alta utilização situa-se entre doze e dezoito meses — após os quais o on-premise é estritamente mais barato. A Privonis ajuda os clientes a construir este modelo TCO antes de se comprometerem com qualquer um dos caminhos, porque a resposta certa depende da taxa de utilização, do período de amortização e do valor da soberania de dados para o negócio.
A GPU que pode executar continuamente sempre superará a GPU que aluga esporadicamente. A utilização é o verdadeiro multiplicador de desempenho.
Lista de verificação prática de compra
- Defina o seu maior modelo alvo e calcule o requisito de VRAM na precisão desejada.
- Acrescente 20 % de margem de VRAM para a cache KV e futuras atualizações de modelo.
- Verifique a capacidade do circuito de energia e o arrefecimento antes de especificar a contagem de GPUs.
- Prefira GPUs de centro de dados ECC para produção 24/7; as placas de consumidor são aceitáveis para I&D.
- Modele a interconexão multi-GPU (NVLink vs PCIe) antes de decidir sobre a estratégia de paralelismo.
- Construa um TCO de 24 meses comparando compra, depreciação, energia e manutenção com o aluguer na cloud.
- Contrate um fornecedor — como a Privonis — que possa validar toda a infraestrutura: GPU, servidor, sistema operativo, runtime de inferência e monitorização.
A aquisição de GPUs não é uma compra única; é a fundação do seu roteiro de infraestrutura de IA. Investir o tempo para modelar os requisitos de VRAM, as restrições de energia e o custo total de propriedade antes de comprar poupará meses de retrabalho e dezenas de milhares de euros. Se quiser uma revisão de arquitetura gratuita para o seu projeto de IA on-premise, a equipa Privonis está pronta para ajudar.
Vamos falar sobre o seu projeto de IA
Agendar uma chamada