Praktyczny przewodnik po zakupie GPU do AI on-premise
VRAM, przepustowość, zasilanie i budżet: jak kupić właściwe GPU za pierwszym razem.
Zakup GPU do AI on-premise to jedna z najbardziej przełomowych decyzji infrastrukturalnych, jakie może podjąć organizacja. Zrób to dobrze, a masz samodzielną, efektywną kosztowo platformę do wnioskowania i dostrajania, która z czasem kumuluje wartość. Zrób to źle, a spędzisz miesiące w kolejkach zwrotów GPU lub, co gorsza, uruchomisz modele, które są zbyt duże, aby zmieścić się w pamięci. Ten przewodnik przeprowadza przez każdy wymiar, który musisz ocenić — VRAM, przepustowość, zasilanie, chłodzenie i całkowity koszt posiadania — abyś mógł wybrać pewnie za pierwszym razem.
VRAM to pierwsze i najtwardsze ograniczenie
Przed jakąkolwiek inną specyfikacją zapytaj: ile gigabajtów VRAM wymaga mój docelowy model? Model z 7 miliardami parametrów w 16-bitowej precyzji zajmuje około 14 GB; model z 70 miliardami parametrów potrzebuje około 140 GB. Kwantyzacja do 4-bitów może obniżyć te wartości o 75%, ale kwantyzacja wprowadza kompromisy jakościowe, które należy zwalidować dla swojego przypadku użycia. Kardynalna zasada jest prosta: jeśli model nie mieści się w VRAM, GPU będzie się przelewać do pamięci systemowej, a przepustowość załamie się o jeden do dwóch rzędów wielkości. Zawsze dobieraj VRAM z marginesem — co najmniej 20% wolnych — na cache klucz-wartość, który rośnie wraz z długością kontekstu.
GPU konsumenckie a centrum danych
Rynek GPU dzieli się na karty konsumenckie i akceleratory centrum danych, a rozróżnienie ma znaczenie dla AI on-premise. Konsumenckie GPU, takie jak NVIDIA RTX 4090, oferują 24 GB GDDR6X przy niezwykłych stosunkach ceny do VRAM i mogą uruchamiać modele takie jak Llama 3 70B w 4-bitach na konfiguracji z dwiema kartami. Są doskonałe dla małych zespołów, laboratoriów R&D i wdrożeń z priorytetem budżetu. Jednak nie mają pamięci ECC, nie są zaprojektowane do ciągłej pracy w szafie rackowej i mają ograniczenia dotyczące komercyjnego wnioskowania w niektórych jurysdykcjach. GPU centrum danych — L4, L40S, A100 i H100/H200 — są zbudowane do ciągłych cykli pracy, mają pamięć ECC dla integralności numerycznej i są objęte korporacyjnymi umowami SLA. L4 (24 GB) jest efektywny kosztowo do wnioskowania; L40S (48 GB) dobrze obsługuje modele średniej wielkości; A100 80 GB i H100/H200 (80 GB+) to standard dla dostrajania dużych modeli i serwowania o wysokiej przepustowości. Privonis projektuje wdrożenia wokół GPU centrum danych właśnie dlatego, że europejscy klienci korporacyjni wymagają tej gwarancji niezawodności.
- RTX 4090 — 24 GB GDDR6X, ~1 008 GB/s przepustowości, najlepszy stosunek ceny do VRAM dla obciążeń deweloperskich.
- L4 — 24 GB GDDR6, postać PCIe, niskie zasilanie (72 W), idealne dla urządzeń do wnioskowania.
- L40S — 48 GB GDDR6, wysoka przepustowość FP8, koń roboczy dla modeli średniej wielkości w skali.
- A100 80 GB — 80 GB HBM2e, wsparcie NVLink, sprawdzony standard produkcji dla dużych modeli.
- H100 / H200 — 80–141 GB HBM3/3e, transformer engine z FP8, maksymalna dostępna przepustowość.
Strategie jednego GPU kontra wielu GPU
Pojedynczy GPU z dużą ilością VRAM utrzymuje stos prosto: brak konfiguracji tensor-parallelism, brak sieci NVLink do zarządzania, mniejsza powierzchnia awarii. Zacznij od jednego GPU, gdy tylko model się mieści, a Twój cel przepustowości jest osiągalny. Gdy tak nie jest — albo dlatego, że model jest za duży, albo dlatego, że musisz obsługiwać dziesiątki jednoczesnych użytkowników — będziesz potrzebować wielu GPU. NVLink dramatycznie przewyższa PCIe pod względem przepustowości między GPU (900 GB/s vs ~64 GB/s dwukierunkowe na PCIe 5.0), co jest krytyczne dla tensor parallelism. Jeśli budżet wymusza wielordzeniowy PCIe, preferuj pipeline parallelism nad tensor parallelism, aby zminimalizować ruch między urządzeniami.
Zasilanie, chłodzenie i planowanie szafy rackowej
GPU centrum danych pobierają od 72 W (L4) do 700 W (H100 SXM5). System ośmiu H100 DGX może pobierać 10 kW ze ściany pod stałym obciążeniem. Przed zamówieniem sprzętu potwierdź, że Twoje centrum danych lub serwerownia może dostarczyć niezbędne obwody zasilania i zapewnić odpowiednie chłodzenie — zazwyczaj 12–15°C powietrza zasilającego lub bezpośrednie chłodzenie cieczą dla najgęstszych konfiguracji. Przeoczenie gęstości mocy to najczęstsza przyczyna opóźnień wdrożenia w projektach AI on-premise.
Kupno vs wynajem: obliczenie TCO
Wynajem GPU w chmurze jest operacyjnie wygodny, ale kosztowny w skali. Instancja H100 u głównego dostawcy chmury kosztuje około 3–4 euro za GPU-godzinę, co przekłada się na ponad 26 000 euro za GPU rocznie przy ciągłym wykorzystaniu. Ten sam GPU zakupiony bezpośrednio kosztuje 25 000–35 000 euro i zazwyczaj ma trzy do pięciu lat użytkowania. Punkt rentowności dla obciążeń o wysokim wykorzystaniu wypada między dwunastym a osiemnastym miesiącem — po którym on-premise jest ściśle tańszy. Privonis pomaga klientom zbudować ten model TCO przed podjęciem zobowiązania do którejkolwiek ze ścieżek, ponieważ właściwa odpowiedź zależy od wskaźnika wykorzystania, okresu amortyzacji i wartości suwerenności danych dla biznesu.
GPU, które możesz sobie pozwolić uruchamiać nieprzerwanie, zawsze będzie przewyższać GPU, które wynajmujesz sporadycznie. Wykorzystanie to prawdziwy mnożnik wydajności.
Praktyczna lista kontrolna zakupu
- Zdefiniuj swój największy docelowy model i oblicz wymaganie VRAM przy żądanej precyzji.
- Dodaj 20% marginesu VRAM na cache KV i przyszłe aktualizacje modelu.
- Zweryfikuj pojemność obwodu zasilania i chłodzenia przed określeniem liczby GPU.
- Preferuj GPU centrum danych z ECC do produkcji 24/7; karty konsumenckie są akceptowalne do R&D.
- Modeluj połączenie wielordzeniowe GPU (NVLink vs PCIe) przed decyzją o strategii równoległości.
- Zbuduj 24-miesięczne TCO porównując zakup, amortyzację, zasilanie i konserwację z wynajmem w chmurze.
- Zaangażuj dostawcę — takiego jak Privonis — który może zwalidować pełny stos: GPU, serwer, OS, środowisko uruchomieniowe wnioskowania i monitorowanie.
Zakup GPU to nie jednorazowy zakup; to fundament mapy drogowej infrastruktury AI. Inwestycja czasu w modelowanie wymagań VRAM, ograniczeń zasilania i całkowitego kosztu posiadania przed zakupem zaoszczędzi miesiące przeróbek i dziesiątki tysięcy euro. Jeśli chciałbyś bezpłatnego przeglądu architektury dla swojego projektu AI on-premise, zespół Privonis jest gotowy pomóc.
Porozmawiajmy o Twoim projekcie AI
Umów rozmowę