Käytännöllinen GPU-ostoopas on-premise-tekoälylle
VRAM, suorituskyky, virrankulutus ja budjetti: miten ostaa oikeat GPU:t ensimmäisellä kerralla.
GPU:iden ostaminen on-premise-tekoälyä varten on yksi organisaation merkittävimmistä infrastruktuuripäätöksistä. Tee se oikein ja sinulla on omavarainen, kustannustehokas päättely- ja hienosäätöalusta, joka kasvaa arvoltaan ajan myötä. Tee se väärin ja vietät kuukausia GPU-palautusjonoissa tai, mikä pahempaa, ajetat malleja, jotka ovat liian suuria mahtuakseen muistiin. Tämä opas käy läpi jokaisen arvioitavan ulottuvuuden — VRAM, suorituskyky, virrankulutus, jäähdytys ja kokonaiselinkaaren kustannukset — jotta voit valita luottavaisesti ensimmäisellä kerralla.
VRAM on ensimmäinen ja kovimmista rajoitteista
Ennen mitään muuta spesifikaatiota, kysy: kuinka monta gigatavua VRAM:ia kohdemallini vaatii? Seitsemän miljardin parametrin malli 16-bittisellä tarkkuudella vie noin 14 GB; 70 miljardin parametrin malli tarvitsee noin 140 GB. Kvantisointi 4-bittiseksi voi leikata nämä luvut 75 %:lla, mutta kvantisointi tuo laadullisia kompromisseja, jotka on validoitava käyttötapaukseesi. Kardinaalinen sääntö on yksinkertainen: jos malli ei mahdu VRAM:iin, GPU pursuu järjestelmämuistiin ja suorituskyky romahtaa yhdestä kahteen kertaluokkaa. Mitoita aina VRAM:ia varalla — vähintään 20 % vapaana — avain-arvo-välimuistille, joka kasvaa asiayhteyden pituuden mukaan.
Kuluttaja- vs datakeskus-GPU:t
GPU-markkinat jakautuvat kuluttajakortteihin ja datakeskuksen kiihdyttimiin, ja ero on tärkeä on-premise-tekoälylle. Kuluttaja-GPU:t kuten NVIDIA RTX 4090 tarjoavat 24 GB GDDR6X:ää poikkeuksellisella hinta-VRAM-suhteella ja voivat ajaa malleja kuten Llama 3 70B 4-bittisesti kahden kortin asennuksella. Ne ovat erinomaisia pienille tiimeille, T&K-laboratorioille ja budjettipainotteisille käyttöönotoille. Ne kuitenkin puuttuvat ECC-muistista, eivät ole suunniteltu 24/7 räkkikäyttöön ja niillä on rajoituksia kaupallisessa päättelykäytössä joillakin lainkäyttöalueilla. Datakeskus-GPU:t — L4, L40S, A100 ja H100/H200 — on rakennettu jatkuvia käyttösyklejä varten, niissä on ECC-muisti numeerista eheyttä varten ja ne ovat yrityksen SLA-sopimusten tukemia. L4 (24 GB) on kustannustehokas päättelyyn; L40S (48 GB) käsittelee keskiluokan malleja hyvin; A100 80 GB ja H100/H200 (80 GB+) ovat standardi suurten mallien hienosäätöön ja korkean suorituskyvyn palveluun. Privonis suunnittelee käyttöönottoja datakeskus-GPU:iden ympärille juuri siksi, että eurooppalaiset yritysasiakkaat vaativat kyseistä luotettavuustakeita.
- RTX 4090 — 24 GB GDDR6X, ~1 008 GB/s kaistanleveys, paras hinta-VRAM-suhde kehitystyökuormille.
- L4 — 24 GB GDDR6, PCIe-muototekijä, alhainen virrankulutus (72 W), ihanteellinen päättelyteknisille laitteille.
- L40S — 48 GB GDDR6, korkea FP8-suorituskyky, työkevari keskiluokan malleille mittakaavassa.
- A100 80 GB — 80 GB HBM2e, NVLink-tuki, todistettu tuotantostandardi suurille malleille.
- H100 / H200 — 80–141 GB HBM3/3e, transformer engine FP8:lla, enimmäissuorituskyky saatavilla.
Yksittäinen GPU vs moni-GPU-strategiat
Yksittäinen korkea-VRAM-GPU pitää pinon yksinkertaisena: ei tensori-rinnakkaisuuden konfigurointia, ei NVLink-kangasta hallittavaksi, pienempi vikaantumispinta. Aloita yksittäisellä GPU:lla aina, kun malli mahtuu ja suorituskykytavoitteesi on saavutettavissa. Kun se ei ole — joko koska malli on liian suuri tai koska sinun täytyy palvella kymmeniä samanaikaisia käyttäjiä — sinun täytyy laajentua useisiin GPU:hin. NVLink ylittää dramaattisesti PCIe:n GPU-välisessä kaistanleveydessä (900 GB/s vs ~64 GB/s kaksisuuntaisesti PCIe 5.0:ssa), mikä on kriittistä tensori-rinnakkaisuudelle. Jos budjettisi pakottaa vain PCIe-moneen GPU:hun, suosi putkistorinnakkaisuutta tensori-rinnakkaisuuden sijaan minimoidaksesi laitteiden välisen liikenteen.
Virrankulutus, jäähdytys ja räkkisuunnittelu
Datakeskus-GPU:t kuluttavat 72 W (L4) ja 700 W (H100 SXM5) välillä. Kahdeksan H100:n DGX-järjestelmä voi vetää 10 kW seinästä jatkuvan kuorman alla. Ennen laitteiston tilaamista varmista, että datakeskuksesi tai palvelinhuoneesi pystyy toimittamaan tarvittavat virtapiirit ja tarjoamaan riittävän jäähdytyksen — tyypillisesti 12–15 °C:n tuloilman tai suoran nestetielähdytyksen tiheimmille konfiguraatioille. Virrantiheyden huomioimatta jättäminen on yleisin syy käyttöönottoviivästyksiin on-premise-tekoälyprojekteissa.
Osta vs vuokraa: TCO-laskenta
Pilvi-GPU-vuokraus on operatiivisesti kätevää mutta kallista mittakaavassa. H100-instanssi suurella pilvipalveluntarjoajalla maksaa noin 3–4 € GPU-tunnilta, mikä tarkoittaa yli 26 000 € GPU:ta kohden vuodessa jatkuvalla käytöllä. Sama GPU ostettuna maksaa 25 000–35 000 € ja sillä on tyypillisesti kolmesta viiteen vuoden käyttöikä. Korkean käyttöasteen työkuormissa tasapisteen saavuttaminen on kahdentoista ja kahdeksantoista kuukauden välillä — sen jälkeen on-premise on ehdottomasti halvempaa. Privonis auttaa asiakkaita rakentamaan tämän TCO-mallin ennen sitoutumista kumpaankaan polkuun, koska oikea vastaus riippuu käyttöasteesta, poistoajanjaksosta ja datasuvereniteetin arvosta liiketoiminnalle.
GPU, jota sinulla on varaa ajaa jatkuvasti, päihittää aina GPU:n, jonka vuokraat satunnaisesti. Käyttöaste on todellinen suorituskyvyn kerroin.
Käytännöllinen ostotarkistuslista
- Määritä suurin kohdemallisi ja laske VRAM-vaatimus haluamallasi tarkkuudella.
- Lisää 20 % VRAM-varaa KV-välimuistille ja tuleville mallin päivityksille.
- Tarkista virtapiirin kapasiteetti ja jäähdytys ennen GPU-määrän määrittämistä.
- Suosi ECC-datakeskus-GPU:ita 24/7-tuotannossa; kuluttajakortit ovat hyväksyttäviä T&K:lle.
- Mallinna moni-GPU-yhteysväline (NVLink vs PCIe) ennen rinnakkaisstrategian päättämistä.
- Rakenna 24 kuukauden TCO vertaillen ostoa, poistoja, sähköä ja ylläpitoa pilvi-GPU-vuokraukseen.
- Ota yhteyttä myyjään — kuten Privonisiin — joka pystyy validoimaan koko pinon: GPU, palvelin, käyttöjärjestelmä, päättelyajoympäristö ja seuranta.
GPU-hankinta ei ole kertaluonteinen ostos; se on tekoälyinfrastruktuuristrategiasi perusta. VRAM-vaatimusten, virtarajoitteiden ja kokonaiselinkaaren kustannusten mallintamiseen ennen ostamista käytetty aika säästää kuukausia jälleentyöltä ja kymmeniä tuhansia euroja. Jos haluaisit ilmaisen arkkitehtuurikatsauksen on-premise-tekoälyprojektillesi, Privonisin tiimi on valmis auttamaan.
Puhutaan tekoälyprojektistasi
Varaa puhelu