Sprzęt 13 maja 2026 · 8 min czytania

Praktyczny przewodnik po zakupie GPU do AI on-premise

VRAM, przepustowość, zasilanie i budżet: jak kupić właściwe GPU za pierwszym razem.

Zakup GPU do AI on-premise to jedna z najbardziej przełomowych decyzji infrastrukturalnych, jakie może podjąć organizacja. Zrób to dobrze, a masz samodzielną, efektywną kosztowo platformę do wnioskowania i dostrajania, która z czasem kumuluje wartość. Zrób to źle, a spędzisz miesiące w kolejkach zwrotów GPU lub, co gorsza, uruchomisz modele, które są zbyt duże, aby zmieścić się w pamięci. Ten przewodnik przeprowadza przez każdy wymiar, który musisz ocenić — VRAM, przepustowość, zasilanie, chłodzenie i całkowity koszt posiadania — abyś mógł wybrać pewnie za pierwszym razem.

VRAM to pierwsze i najtwardsze ograniczenie

Przed jakąkolwiek inną specyfikacją zapytaj: ile gigabajtów VRAM wymaga mój docelowy model? Model z 7 miliardami parametrów w 16-bitowej precyzji zajmuje około 14 GB; model z 70 miliardami parametrów potrzebuje około 140 GB. Kwantyzacja do 4-bitów może obniżyć te wartości o 75%, ale kwantyzacja wprowadza kompromisy jakościowe, które należy zwalidować dla swojego przypadku użycia. Kardynalna zasada jest prosta: jeśli model nie mieści się w VRAM, GPU będzie się przelewać do pamięci systemowej, a przepustowość załamie się o jeden do dwóch rzędów wielkości. Zawsze dobieraj VRAM z marginesem — co najmniej 20% wolnych — na cache klucz-wartość, który rośnie wraz z długością kontekstu.

Porównanie modeli GPU według VRAM i przepustowości pamięci — Pojemność VRAM i przepustowość pamięci dla głównych opcji GPU w latach 2025–2026.

GPU konsumenckie a centrum danych

Rynek GPU dzieli się na karty konsumenckie i akceleratory centrum danych, a rozróżnienie ma znaczenie dla AI on-premise. Konsumenckie GPU, takie jak NVIDIA RTX 4090, oferują 24 GB GDDR6X przy niezwykłych stosunkach ceny do VRAM i mogą uruchamiać modele takie jak Llama 3 70B w 4-bitach na konfiguracji z dwiema kartami. Są doskonałe dla małych zespołów, laboratoriów R&D i wdrożeń z priorytetem budżetu. Jednak nie mają pamięci ECC, nie są zaprojektowane do ciągłej pracy w szafie rackowej i mają ograniczenia dotyczące komercyjnego wnioskowania w niektórych jurysdykcjach. GPU centrum danych — L4, L40S, A100 i H100/H200 — są zbudowane do ciągłych cykli pracy, mają pamięć ECC dla integralności numerycznej i są objęte korporacyjnymi umowami SLA. L4 (24 GB) jest efektywny kosztowo do wnioskowania; L40S (48 GB) dobrze obsługuje modele średniej wielkości; A100 80 GB i H100/H200 (80 GB+) to standard dla dostrajania dużych modeli i serwowania o wysokiej przepustowości. Privonis projektuje wdrożenia wokół GPU centrum danych właśnie dlatego, że europejscy klienci korporacyjni wymagają tej gwarancji niezawodności.

RTX 4090 — 24 GB GDDR6X, ~1 008 GB/s przepustowości, najlepszy stosunek ceny do VRAM dla obciążeń deweloperskich.
L4 — 24 GB GDDR6, postać PCIe, niskie zasilanie (72 W), idealne dla urządzeń do wnioskowania.
L40S — 48 GB GDDR6, wysoka przepustowość FP8, koń roboczy dla modeli średniej wielkości w skali.
A100 80 GB — 80 GB HBM2e, wsparcie NVLink, sprawdzony standard produkcji dla dużych modeli.
H100 / H200 — 80–141 GB HBM3/3e, transformer engine z FP8, maksymalna dostępna przepustowość.

Strategie jednego GPU kontra wielu GPU

Pojedynczy GPU z dużą ilością VRAM utrzymuje stos prosto: brak konfiguracji tensor-parallelism, brak sieci NVLink do zarządzania, mniejsza powierzchnia awarii. Zacznij od jednego GPU, gdy tylko model się mieści, a Twój cel przepustowości jest osiągalny. Gdy tak nie jest — albo dlatego, że model jest za duży, albo dlatego, że musisz obsługiwać dziesiątki jednoczesnych użytkowników — będziesz potrzebować wielu GPU. NVLink dramatycznie przewyższa PCIe pod względem przepustowości między GPU (900 GB/s vs ~64 GB/s dwukierunkowe na PCIe 5.0), co jest krytyczne dla tensor parallelism. Jeśli budżet wymusza wielordzeniowy PCIe, preferuj pipeline parallelism nad tensor parallelism, aby zminimalizować ruch między urządzeniami.

Zasilanie, chłodzenie i planowanie szafy rackowej

GPU centrum danych pobierają od 72 W (L4) do 700 W (H100 SXM5). System ośmiu H100 DGX może pobierać 10 kW ze ściany pod stałym obciążeniem. Przed zamówieniem sprzętu potwierdź, że Twoje centrum danych lub serwerownia może dostarczyć niezbędne obwody zasilania i zapewnić odpowiednie chłodzenie — zazwyczaj 12–15°C powietrza zasilającego lub bezpośrednie chłodzenie cieczą dla najgęstszych konfiguracji. Przeoczenie gęstości mocy to najczęstsza przyczyna opóźnień wdrożenia w projektach AI on-premise.

Krzywe całkowitego kosztu posiadania: on-premise vs wynajem GPU w chmurze w czasie — Analiza rentowności TCO: posiadanie GPU on-premise staje się tańsze niż wynajem chmurowy między 12 a 18 miesiącami dla większości obciążeń wnioskowania.

Kupno vs wynajem: obliczenie TCO

Wynajem GPU w chmurze jest operacyjnie wygodny, ale kosztowny w skali. Instancja H100 u głównego dostawcy chmury kosztuje około 3–4 euro za GPU-godzinę, co przekłada się na ponad 26 000 euro za GPU rocznie przy ciągłym wykorzystaniu. Ten sam GPU zakupiony bezpośrednio kosztuje 25 000–35 000 euro i zazwyczaj ma trzy do pięciu lat użytkowania. Punkt rentowności dla obciążeń o wysokim wykorzystaniu wypada między dwunastym a osiemnastym miesiącem — po którym on-premise jest ściśle tańszy. Privonis pomaga klientom zbudować ten model TCO przed podjęciem zobowiązania do którejkolwiek ze ścieżek, ponieważ właściwa odpowiedź zależy od wskaźnika wykorzystania, okresu amortyzacji i wartości suwerenności danych dla biznesu.

GPU, które możesz sobie pozwolić uruchamiać nieprzerwanie, zawsze będzie przewyższać GPU, które wynajmujesz sporadycznie. Wykorzystanie to prawdziwy mnożnik wydajności.

Praktyczna lista kontrolna zakupu

Zdefiniuj swój największy docelowy model i oblicz wymaganie VRAM przy żądanej precyzji.
Dodaj 20% marginesu VRAM na cache KV i przyszłe aktualizacje modelu.
Zweryfikuj pojemność obwodu zasilania i chłodzenia przed określeniem liczby GPU.
Preferuj GPU centrum danych z ECC do produkcji 24/7; karty konsumenckie są akceptowalne do R&D.
Modeluj połączenie wielordzeniowe GPU (NVLink vs PCIe) przed decyzją o strategii równoległości.
Zbuduj 24-miesięczne TCO porównując zakup, amortyzację, zasilanie i konserwację z wynajmem w chmurze.
Zaangażuj dostawcę — takiego jak Privonis — który może zwalidować pełny stos: GPU, serwer, OS, środowisko uruchomieniowe wnioskowania i monitorowanie.

Zakup GPU to nie jednorazowy zakup; to fundament mapy drogowej infrastruktury AI. Inwestycja czasu w modelowanie wymagań VRAM, ograniczeń zasilania i całkowitego kosztu posiadania przed zakupem zaoszczędzi miesiące przeróbek i dziesiątki tysięcy euro. Jeśli chciałbyś bezpłatnego przeglądu architektury dla swojego projektu AI on-premise, zespół Privonis jest gotowy pomóc.

Porozmawiajmy o Twoim projekcie AI

Umów rozmowę