Saltar para o conteúdo
← Voltar ao blog
Hardware 13 de maio de 2026 · 8 min de leitura

Um guia prático de compra de GPUs para IA on-premise

VRAM, rendimento, energia e orçamento: como comprar as GPUs certas à primeira.

Um guia prático de compra de GPUs para IA on-premise

Comprar GPUs para IA on-premise é uma das decisões de infraestrutura mais consequentes que uma organização pode tomar. Acerte e terá uma plataforma de inferência e ajuste fino autossuficiente e eficiente em termos de custo que se valoriza ao longo do tempo. Erre e passará meses em filas de devolução de GPUs ou, pior, a executar modelos demasiado grandes para caber em memória. Este guia percorre todas as dimensões que precisa de avaliar — VRAM, rendimento, energia, arrefecimento e custo total de propriedade — para que possa escolher com confiança à primeira.

A VRAM é a primeira e mais difícil restrição

Antes de qualquer outra especificação, pergunte: quantos gigabytes de VRAM o meu modelo alvo requer? Um modelo de 7 mil milhões de parâmetros em precisão de 16 bits ocupa aproximadamente 14 GB; um modelo de 70 mil milhões de parâmetros precisa de aproximadamente 140 GB. A quantização para 4 bits pode reduzir essas cifras em 75 %, mas a quantização introduz compromissos de qualidade que devem ser validados para o seu caso de uso. A regra fundamental é simples: se o modelo não couber na VRAM, a GPU irá extravasar para a RAM do sistema e o rendimento cai uma a duas ordens de magnitude. Dimensione sempre a VRAM com margem — pelo menos 20% livre — para a cache de chave-valor que cresce com o comprimento do contexto.

Comparação de modelos de GPU por VRAM e largura de banda de memória
Capacidade de VRAM e largura de banda de memória para as principais opções de GPU em 2025–2026.

GPUs de consumidor vs GPUs de centro de dados

O mercado de GPUs bifurca-se em placas de consumidor e aceleradores de centro de dados, e a distinção é importante para a IA on-premise. As GPUs de consumidor como a NVIDIA RTX 4090 oferecem 24 GB de GDDR6X com rácios extraordinários de preço por VRAM e podem executar modelos como o Llama 3 70B em 4 bits numa configuração de duas placas. São excelentes para pequenas equipas, laboratórios de I&D e implementações com prioridade no orçamento. No entanto, carecem de memória ECC, não são projetadas para operação em rack 24/7 e têm limitações de inferência comercial em algumas jurisdições. As GPUs de centro de dados — L4, L40S, A100 e H100/H200 — são construídas para ciclos de operação contínua, têm memória ECC para integridade numérica e são suportadas por SLAs empresariais. A L4 (24 GB) é eficiente em termos de custo para inferência; a L40S (48 GB) trata bem modelos de tamanho médio; a A100 80 GB e a H100/H200 (80 GB+) são o padrão para ajuste fino de modelos grandes e serviço de alto rendimento. A Privonis projeta implementações em torno de GPUs de centro de dados precisamente porque os clientes empresariais europeus requerem essa garantia de fiabilidade.

  • RTX 4090 — 24 GB GDDR6X, ~1 008 GB/s de largura de banda, melhor preço por VRAM para cargas de trabalho de desenvolvimento.
  • L4 — 24 GB GDDR6, fator de forma PCIe, baixo consumo (72 W), ideal para dispositivos de inferência.
  • L40S — 48 GB GDDR6, alto rendimento FP8, o padrão de trabalho para modelos de tamanho médio em escala.
  • A100 80 GB — 80 GB HBM2e, suporte NVLink, o padrão de produção comprovado para modelos grandes.
  • H100 / H200 — 80–141 GB HBM3/3e, motor transformer com FP8, máximo rendimento disponível.

Estratégias de GPU única vs multi-GPU

Uma única GPU de alta VRAM mantém a infraestrutura simples: sem configuração de paralelismo tensorial, sem fabric NVLink para gerir, menor superfície de falha. Comece com uma única GPU sempre que o modelo couber e o seu objetivo de rendimento for alcançável. Quando não for — seja porque o modelo é demasiado grande ou porque precisa de servir dezenas de utilizadores simultâneos — terá de distribuir por várias GPUs. O NVLink supera dramaticamente o PCIe para largura de banda entre GPUs (900 GB/s vs ~64 GB/s bidirecional em PCIe 5.0), o que é crítico para o paralelismo tensorial. Se o seu orçamento forçar multi-GPU apenas com PCIe, prefira o paralelismo de pipeline em vez do paralelismo tensorial para minimizar o tráfego entre dispositivos.

Energia, arrefecimento e planeamento de rack

As GPUs de centro de dados consomem entre 72 W (L4) e 700 W (H100 SXM5). Um sistema DGX de oito H100 pode consumir 10 kW da rede elétrica sob carga sustentada. Antes de encomendar hardware, confirme que o seu centro de dados ou sala de servidores pode fornecer os circuitos de energia necessários e fornecer arrefecimento adequado — tipicamente ar de alimentação a 12–15°C ou arrefecimento líquido direto para as configurações mais densas. Ignorar a densidade de energia é a causa mais comum de atrasos na implementação em projetos de IA on-premise.

Curvas de custo total de propriedade: GPU on-premise vs aluguer de GPU na cloud ao longo do tempo
Análise de equilíbrio TCO: a propriedade de GPUs on-premise torna-se mais barata do que o aluguer na cloud entre 12 e 18 meses para a maioria das cargas de trabalho de inferência.

Comprar vs alugar: o cálculo TCO

O aluguer de GPUs na cloud é operacionalmente conveniente mas caro em escala. Uma instância H100 num grande fornecedor de cloud custa aproximadamente €3–4 por hora de GPU, o que se traduz em mais de €26 000 por GPU por ano com utilização contínua. A mesma GPU comprada custa €25 000–35 000 e tem tipicamente uma vida útil de três a cinco anos. O ponto de equilíbrio para cargas de trabalho de alta utilização situa-se entre doze e dezoito meses — após os quais o on-premise é estritamente mais barato. A Privonis ajuda os clientes a construir este modelo TCO antes de se comprometerem com qualquer um dos caminhos, porque a resposta certa depende da taxa de utilização, do período de amortização e do valor da soberania de dados para o negócio.

A GPU que pode executar continuamente sempre superará a GPU que aluga esporadicamente. A utilização é o verdadeiro multiplicador de desempenho.

Lista de verificação prática de compra

  • Defina o seu maior modelo alvo e calcule o requisito de VRAM na precisão desejada.
  • Acrescente 20 % de margem de VRAM para a cache KV e futuras atualizações de modelo.
  • Verifique a capacidade do circuito de energia e o arrefecimento antes de especificar a contagem de GPUs.
  • Prefira GPUs de centro de dados ECC para produção 24/7; as placas de consumidor são aceitáveis para I&D.
  • Modele a interconexão multi-GPU (NVLink vs PCIe) antes de decidir sobre a estratégia de paralelismo.
  • Construa um TCO de 24 meses comparando compra, depreciação, energia e manutenção com o aluguer na cloud.
  • Contrate um fornecedor — como a Privonis — que possa validar toda a infraestrutura: GPU, servidor, sistema operativo, runtime de inferência e monitorização.

A aquisição de GPUs não é uma compra única; é a fundação do seu roteiro de infraestrutura de IA. Investir o tempo para modelar os requisitos de VRAM, as restrições de energia e o custo total de propriedade antes de comprar poupará meses de retrabalho e dezenas de milhares de euros. Se quiser uma revisão de arquitetura gratuita para o seu projeto de IA on-premise, a equipa Privonis está pronta para ajudar.

Vamos falar sobre o seu projeto de IA

Agendar uma chamada