Preskoči na sadržaj
← Natrag na blog
Tehnologija 16. travnja 2026. · 7 min čitanja

Kvantizacija i brzo zaključivanje na vlastitom hardveru

Kako uguriti veće modele na manje GPU-ove i brzo ih posluživati.

Kvantizacija i brzo zaključivanje na vlastitom hardveru

Prva reakcija mnogih inženjera kada pogledaju hardverske zahtjeve za najsuvremenijim velikim jezičnim modelom je šok od cijene. Model s 70 milijardi parametara u svom izvornom FP32 formatu trebao bi otprilike 280 GB GPU memorije — više nego što većina organizacija ima u jednom poslužitelju i daleko više nego što žele provisijnirati samo za odgovaranje na upite zaposlenika. Kvantizacija je tehnika koja te brojke čini savladivim i razumijevanje je ključno za sve koji projektiraju on-premise AI stog.

Što kvantizacija zapravo radi

Neuronska mreža je u konačnici vrlo velika zbirka brojeva — težine naučene tijekom treniranja. Prema zadanim postavkama te se težine pohranjuju kao 32-bitne decimalne vrijednosti s pomičnim zarezom (FP32), svaka troši 4 bajta memorije. Kvantizacija zamjenjuje visocoprecizne brojeve reprezentacijama niske preciznosti: 16-bitni decimalni brojevi (FP16 ili BF16), 8-bitni cjelobrojni (INT8) ili čak 4-bitni cjelobrojni (INT4). Otisak memorije proporcionalno se smanjuje i na hardveru s izvornom podrškom za aritmetiku niže preciznosti, zaključivanje se i ubrzava.

  • FP16 / BF16 — decimalni brojevi polovične preciznosti. Gotovo bez gubitaka za većinu zadataka; preporučeni izbor za produkcijske implementacije gdje je točnost kritična. Uštedovina memorije: 2x naspram FP32.
  • INT8 — 8-bitni cjelobrojni, tipično proizveden metodama kvantizacije nakon treniranja (PTQ) kao što su GPTQ ili llm.int8(). Skromna degradacija kvalitete na složenom zaključivanju; značajna na većini praktičnih zadataka. Uštedovina memorije: 4x naspram FP32.
  • INT4 — 4-bitni cjelobrojni, granica agresivne kvantizacije. Alati kao GGUF Q4_K_M i AWQ isporučuju iznenađujuće dobru kvalitetu za svoju veličinu. Uštedovina memorije: 8x naspram FP32, s prihvatljivom degradacijom za chat i radna opterećenja sažimanja.

Kompromis između kvalitete i veličine

Kvantizacija nije besplatna. Svaki bit koji uklonite je odbačena informacija i u nekom trenutku to se pojavljuje kao degradirani izlaz — halucinacije, pogreške u zaključivanju ili gubitak nijansi. Praktičan nalaz iz Privonis implementacija je da je kompromis iznenađujuće povoljan za većinu poslovnih zadataka. Model 70B kvantiziran na INT4 tipično nadmašuje model 13B pri FP16, čak i ako oba stanu u sličnu GPU memoriju. U nedoumici, koristite najveći model koji stane pri najvišoj preciznosti koju vaš hardver podržava.

Usporedba upotrebe GPU memorije kroz razine kvantizacije za model s 70B parametara
Zahtjevi memorije za model 70B pri različitim razinama preciznosti — INT4 ga čini mogućim pokrenuti na jednom visokoklasnom GPU-u radne stanice.
Odabir prave kvantizacije manje je o broju bitova a više o usklađivanju kapaciteta modela sa zadatkom: dobro odabrani INT4 70B uvijek pobjeđuje nebrigu FP16 13B.

Inference serveri: odakle dolazi propusnost

Pokretanje kvantiziranog modela je samo polovica priče. Učinkovito posluživanje pod istovremenim opterećenjem zahtijeva inference server koji razumije strukturu transformator pažnje. Dominantna open-source opcija danas je vLLM, koji je uveo PagedAttention — tehniku upravljanja memorijom posuđenu iz virtualnog pamćenja operativnog sustava koja omogućuje serveru da istovremeno ispreplete mnoge zahtjeve bez rasipanja GPU memorije na unaprijed dodijeljene KV-cache blokove. Praktični učinak je poboljšanje propusnosti od 10–30x nad naivnom petljom s jednim zahtjevom.

Ostale značajne opcije uključuju llama.cpp (prijatelje CPU-u, odlično za manje modele na robnom hardveru), Ollama (razvojno prijatell omotač oko llama.cpp), TGI iz Hugging Facea (jaka podrška za Hugging Face formate modela) i TensorRT-LLM od NVIDIE (najviša propusnost na NVIDIA hardveru, po cijenu složenijeg cjevovoda kompilacije). Privonis procjenjuje i referentno testira sve to za svaku konfiguraciju klijenta.

Grupiranje i propusnost

GPU-ovi postižu vrhunsku učinkovitost kada obrađuju mnoge operacije istovremeno — to je ono za što su dizajnirani. Kontinuirano grupiranje (zvano i dinamičko grupiranje ili raspoređivanje na razini iteracije) omogućuje inference serveru da grupira tokene iz više istovremenih zahtjeva u jedan GPU kernel poziv, dramatično poboljšavajući iskorištenost. Bez grupiranja, jedan korisnički upit može koristiti 5% kapaciteta GPU-a; uz kontinuirano grupiranje, možete gurnuti iskorištenost na 70–80% pod stvarnim obrascima prometa. Za poduzeće s desetinama istovremenih korisnika, razlika između servera svjesnog grupiranja i naivnog može značiti razliku između potrebe za jednim GPU serverom ili četiri.

Trošak po tokenu kao funkcija istovremenih korisnika, uspoređujući grupiranje naspram zaključivanja bez grupiranja
Kontinuirano grupiranje izravnava krivulju troška po tokenu kako istovremeni korisnici rastu — kritičan čimbenik u on-premise TCO izračunima.

Odabir prave kvantizacije za vaš GPU

Stablo odluka je jednostavnije nego što izgleda. Počnite s vašim GPU memorijskim proračunom, oduzmite prostor za OS i inference server (tipično 4–8 GB), zatim pronađite najveći model koji stane pri najvišoj razini preciznosti. Nekoliko praktičnih referentnih točaka:

  • 24 GB VRAM (npr. RTX 4090, A5000) — udobno pokreće model 13B pri FP16 ili model 34B pri INT4.
  • 48 GB VRAM (npr. RTX 6000 Ada, A6000) — pokreće model 34B pri FP16 ili model 70B pri INT4.
  • 2 × 80 GB (npr. par A100 putem NVLink) — pokreće model 70B pri FP16 ili model 140B pri INT4 s tensor paralelizmom.
  • Samo CPU (bez GPU) — llama.cpp s modelom Q4_K_M 7B ili 13B je izvedivo za razvojne alate niskog istovremenog broja; očekujte 5–15 tokena/s.

Sve zajedno s Privonisom

Odabir formata kvantizacije i inference servera je inženjerski posao koji zahtijeva profiliranje na vašem specifičnom hardveru s vašim specifičnim radnim opterećenjem. Privonis rukuje tim referentnim testiranjem kao dijelom svake implementacije: provodimo testove propusnosti, mjerimo kvalitetu izlaza na reprezentativnom uzorku vaših stvarnih upita i isporučujemo konfiguraciju koja maksimizira performanse unutar vašeg hardverskog proračuna. Rezultat je produkcijski inference stog koji vaš tim može upravljati bez specijaliziranog ML inženjera na raspolaganju. Ako ste spremni istražiti što odgovara vašem okruženju, naš tim je sretan pokrenuti brojke s vama.

Razgovarajmo o vašem AI projektu

Zakažite poziv