Teknologi 16. april 2026 · 7 min læsning

Kvantisering og hurtig inferens på din egen hardware

Sådan passer du større modeller på mindre GPU'er og serverer dem hurtigt.

Den første reaktion, mange ingeniører har, når de ser hardwarekravene til en state-of-the-art stor sprogmodel, er chok over prisen. En 70-milliarders-parameter model i sit native FP32-format ville kræve ca. 280 GB GPU-hukommelse – mere end de fleste organisationer har i en enkelt server og langt mere end de ønsker at provisionere blot til at besvare medarbejderforespørgsler. Kvantisering er den teknik, der gør disse tal håndterbare, og at forstå den er essentielt for alle, der designer en on-premise AI-stak.

Hvad kvantisering faktisk gør

Et neuralt netværk er i sidste ende en meget stor samling af tal – de vægte, der er lært under træning. Som standard gemmes disse vægte som 32-bit floating-point-værdier (FP32), der hver forbruger 4 bytes hukommelse. Kvantisering erstatter høj-præcisions-tal med lavere-præcisions-repræsentationer: 16-bit float (FP16 eller BF16), 8-bit integers (INT8) eller endda 4-bit integers (INT4). Hukommelsesaftrykket skrumper proportionalt, og på hardware med native understøttelse til lavere-præcisions-aritmetik bliver inferens også hurtigere.

FP16 / BF16 — halvpræcisions-float. Næsten tabsfri til de fleste opgaver; foretrukket valg til produktionsimplementeringer, hvor nøjagtighed er afgørende. Hukommelsesbesparelser: 2x i forhold til FP32.
INT8 — 8-bit integers, typisk produceret af post-trænings-kvantiseringsmetoder (PTQ) som GPTQ eller llm.int8(). Beskeden kvalitetsforringelse ved kompleks ræsonnering; signifikant til de fleste praktiske opgaver. Hukommelsesbesparelser: 4x i forhold til FP32.
INT4 — 4-bit integers, frontlinjen af aggressiv kvantisering. Værktøjer som GGUF Q4_K_M og AWQ leverer overraskende god kvalitet for deres størrelse. Hukommelsesbesparelser: 8x i forhold til FP32, med acceptable forringelser til chat og opsummeringsopgaver.

Kvalitet vs. størrelse-afvejningen

Kvantisering er ikke gratis. Hvert bit, du fjerner, er information, der kasseres, og på et tidspunkt viser det sig som forringet output – hallucinationer, ræsonneringsfejl eller tab af nuance. Det praktiske fund fra Privonis-implementeringer er, at afvejningen er overraskende gunstig til de fleste enterprise-opgaver. En 70B-model kvantiseret til INT4 overgår typisk en 13B-model ved FP16, selv om begge passer i lignende GPU-hukommelse. I tvivl, brug den største model, der passer ved den højeste præcision, din hardware understøtter.

GPU-hukommelsesforbrug sammenligning på tværs af kvantiseringsniveauer for en 70B-parameter model — Hukommelseskrav til en 70B-model ved forskellige præcisionsniveauer – INT4 gør det muligt at køre på en enkelt high-end arbejdsstation-GPU.

At vælge den rigtige kvantisering handler mindre om antallet af bits og mere om at matche modelkapacitet til opgaven: en velvalgt INT4 70B slår en skødesløs FP16 13B hver gang.

Inferensservere: hvorfra gennemstrømningen kommer

At køre en kvantiseret model er kun halvdelen af historien. At serve den effektivt under samtidige belastninger kræver en inferensserver, der forstår strukturen af transformer-opmærksomhed. Den dominerende open source-mulighed i dag er vLLM, som introducerede PagedAttention – en hukommelseshåndteringsteknik lånt fra operativsystems virtuelle hukommelse, der giver serveren mulighed for at sammenflette mange forespørgsler simultant uden at spilde GPU-hukommelse på forud-allokerede KV-cache-blokke. Den praktiske effekt er en 10-30x forbedring i gennemstrømning over en naiv enkelt-forespørgsels-loop.

Andre bemærkelsesværdige muligheder inkluderer llama.cpp (CPU-venlig, fremragende til mindre modeller på commodity hardware), Ollama (udviklingsvenlig indpakning omkring llama.cpp), TGI fra Hugging Face (stærk understøttelse af Hugging Face-modelformater) og TensorRT-LLM fra NVIDIA (højeste gennemstrømning på NVIDIA-hardware, til prisen for en mere kompleks kompileringspipeline). Privonis evaluerer og benchmarker alle disse for hver kundekonfiguration.

Batching og gennemstrømning

GPU'er opnår peak-effektivitet, når de behandler mange operationer simultant – det er, hvad de er designet til. Kontinuerlig batching (også kaldet dynamisk batching eller iteration-niveau planlægning) giver en inferensserver mulighed for at gruppere tokens fra flere samtidige forespørgsler i et enkelt GPU-kernel-kald, hvilket dramatisk forbedrer udnyttelsen. Uden batching kan en enkelt brugerforespørgsel bruge 5 % af din GPU-kapacitet; med kontinuerlig batching kan du skubbe udnyttelsen til 70-80 % under virkelige trafikkens mønstre. For en virksomhed med snesevis af samtidige brugere kan forskellen mellem en batching-bevidst server og en naiv betyde forskellen mellem at have brug for én GPU-server eller fire.

Omkostning pr. token som funktion af samtidige brugere, der sammenligner batching versus ingen-batching inferens — Kontinuerlig batching fladner omkostning-pr.-token-kurven, efterhånden som samtidige brugere skalerer – en afgørende faktor i on-premise TCO-beregninger.

Valg af den rigtige kvantisering til din GPU

Beslutningsdiagrammet er enklere end det ser ud. Start med dit GPU-hukommelsesbudget, træk plads til OS og inferensserveren fra (typisk 4-8 GB), og find derefter den største model, der passer ved det højeste præcisionsniveau. Et par praktiske referencepunkter:

24 GB VRAM (f.eks. RTX 4090, A5000) — kører komfortabelt en 13B-model ved FP16 eller en 34B-model ved INT4.
48 GB VRAM (f.eks. RTX 6000 Ada, A6000) — kører en 34B-model ved FP16 eller en 70B-model ved INT4.
2 × 80 GB (f.eks. A100-par via NVLink) — kører en 70B-model ved FP16 eller en 140B-model ved INT4 med tensor-parallelisme.
CPU-only (ingen GPU) — llama.cpp med en Q4_K_M 7B eller 13B-model er brugbar til lav-samtidige udviklingsværktøjer; forvent 5-15 tokens/s.

Sammensætning med Privonis

Valg af et kvantiseringsformat og en inferensserver er ingeniørarbejde, der kræver profilering på din specifikke hardware med din specifikke arbejdsbyrde. Privonis håndterer den benchmarking som en del af enhver implementering: vi kører gennemstrømningstests, måler outputkvalitet på en repræsentativ prøve af dine rigtige prompts og leverer en konfiguration, der maksimerer ydeevne inden for dit hardwarebudget. Resultatet er en produktions-inferensstak, som dit team kan drive uden en specialiseret ML-ingeniør på opkald. Hvis du er klar til at udforske, hvad der passer til dit miljø, er vores team glade for at køre tallene med dig.

Lad os tale om dit AI-projekt

Book et opkald