Tehnologie 16 aprilie 2026 · 7 min de citire

Cuantizare și inferență rapidă pe propriul dvs. hardware

Cum să încadrați modele mai mari pe GPU-uri mai mici și să le serviți rapid.

Prima reacție pe care mulți ingineri o au când se uită la cerințele hardware pentru un model de limbaj mare de ultimă generație este șocul prețului. Un model cu 70 de miliarde de parametri în formatul său nativ FP32 ar necesita aproximativ 280 GB de memorie GPU — mai mult decât au cele mai multe organizații pe un singur server și mult mai mult decât vor să furnizeze doar pentru a răspunde la interogările angajaților. Cuantizarea este tehnica care face aceste numere tractabile și înțelegerea ei este esențială pentru oricine proiectează o stivă AI on-premise.

Ce face de fapt cuantizarea

O rețea neuronală este în cele din urmă o colecție foarte mare de numere — ponderile învățate în timpul antrenamentului. În mod implicit, acele ponderi sunt stocate ca valori float de 32 de biți (FP32), fiecare consumând 4 octeți de memorie. Cuantizarea înlocuiește numerele cu precizie ridicată cu reprezentări cu precizie mai scăzută: float-uri de 16 biți (FP16 sau BF16), întregi de 8 biți (INT8) sau chiar întregi de 4 biți (INT4). Amprenta de memorie se micșorează proporțional și pe hardware cu suport nativ pentru aritmetica cu precizie mai scăzută, inferența devine și mai rapidă.

FP16 / BF16 — float-uri cu jumătate de precizie. Aproape fără pierderi pentru cele mai multe sarcini; alegerea de bază pentru implementările de producție unde acuratețea este critică. Economii de memorie: 2x față de FP32.
INT8 — întregi de 8 biți, produsi de obicei prin metode de cuantizare post-antrenament (PTQ) precum GPTQ sau llm.int8(). Degradare modestă a calității pe raționament complex; semnificativă pe cele mai multe sarcini practice. Economii de memorie: 4x față de FP32.
INT4 — întregi de 4 biți, frontiera cuantizării agresive. Instrumente precum GGUF Q4_K_M și AWQ oferă calitate surprinzător de bună pentru dimensiunea lor. Economii de memorie: 8x față de FP32, cu degradare acceptabilă pentru sarcinile de chat și rezumare.

Compromisul calitate versus dimensiune

Cuantizarea nu este gratuită. Fiecare bit pe care îl eliminați este informație aruncată și la un moment dat aceasta apare ca ieșire degradată — halucinații, erori de raționament sau pierdere de nuanță. Constatarea practică din implementările Privonis este că compromisul este surprinzător de favorabil pentru cele mai multe sarcini enterprise. Un model 70B cuantizat la INT4 depășește de obicei un model 13B la FP16, chiar dacă ambele încap în memorie GPU similară. Când aveți îndoieli, utilizați cel mai mare model care încape la cea mai mare precizie pe care o suportă hardware-ul dvs.

Comparație a utilizării memoriei GPU pe niveluri de cuantizare pentru un model cu 70B parametri — Cerințele de memorie pentru un model 70B la diferite niveluri de precizie — INT4 face posibilă rularea pe un singur GPU de stație de lucru de top.

Alegerea cuantizării potrivite este mai puțin despre numărul de biți și mai mult despre potrivirea capacității modelului cu sarcina: un INT4 70B bine ales bate un FP16 13B neglijent de fiecare dată.

Servere de inferență: de unde vine debitul

Rularea unui model cuantizat este doar jumătate din poveste. Servirea lui eficient sub sarcină concurentă necesită un server de inferență care înțelege structura atenției transformer. Opțiunea dominantă open-source astăzi este vLLM, care a introdus PagedAttention — o tehnică de gestionare a memoriei împrumutată din memoria virtuală a sistemului de operare care permite serverului să intercaleze multe solicitări simultan fără a irosi memoria GPU pe blocuri de cache KV pre-alocate. Efectul practic este o îmbunătățire de 10–30x a debitului față de o buclă naivă cu o singură solicitare.

Alte opțiuni notabile includ llama.cpp (prietenos cu CPU, excelent pentru modele mai mici pe hardware de marfă), Ollama (wrapper prietenos cu dezvoltatorul în jurul llama.cpp), TGI de la Hugging Face (suport puternic pentru formatele de model Hugging Face) și TensorRT-LLM de la NVIDIA (cel mai mare debit pe hardware NVIDIA, la costul unui pipeline de compilare mai complex). Privonis evaluează și compară toate acestea pentru fiecare configurație de client.

Batching și debit

GPU-urile ating eficiența maximă atunci când procesează multe operații simultan — asta este pentru ce au fost proiectate. Batching-ul continuu (numit și batching dinamic sau programare la nivel de iterație) permite unui server de inferență să grupeze tokeni din mai multe solicitări concurente într-un singur apel de kernel GPU, îmbunătățind dramatic utilizarea. Fără batching, o singură interogare a utilizatorului ar putea folosi 5% din capacitatea GPU; cu batching continuu, puteți împinge utilizarea la 70–80% sub tiparele de trafic din lumea reală. Pentru o întreprindere cu zeci de utilizatori concurenți, diferența dintre un server conștient de batching și unul naiv poate însemna diferența dintre a avea nevoie de un server GPU sau de patru.

Cost per token ca funcție de utilizatori concurenți, comparând inferența cu batching față de fără batching — Batching-ul continuu aplatizează curba cost-per-token pe măsură ce utilizatorii concurenți scalează — un factor critic în calculele TCO on-premise.

Alegerea cuantizării potrivite pentru GPU-ul dvs.

Arborele de decizie este mai simplu decât pare. Începeți cu bugetul dvs. de memorie GPU, scădeți marja pentru OS și serverul de inferență (de obicei 4–8 GB), apoi găsiți cel mai mare model care încape la cel mai înalt nivel de precizie. Câteva puncte de referință practice:

24 GB VRAM (ex. RTX 4090, A5000) — rulează confortabil un model 13B la FP16 sau un model 34B la INT4.
48 GB VRAM (ex. RTX 6000 Ada, A6000) — rulează un model 34B la FP16 sau un model 70B la INT4.
2 × 80 GB (ex. pereche A100 prin NVLink) — rulează un model 70B la FP16 sau un model 140B la INT4 cu paralelism tensor.
Numai CPU (fără GPU) — llama.cpp cu un model Q4_K_M 7B sau 13B este viabil pentru instrumente de dezvoltator cu concurență scăzută; așteptați 5–15 tokeni/s.

Asamblarea cu Privonis

Selectarea unui format de cuantizare și a unui server de inferență este muncă de inginerie care necesită profilarea pe hardware-ul dvs. specific cu sarcina dvs. specifică de lucru. Privonis gestionează acel benchmarking ca parte a fiecărei implementări: rulăm teste de debit, măsurăm calitatea ieșirii pe un eșantion reprezentativ din prompturile dvs. reale și livrăm o configurație care maximizează performanța în cadrul bugetului dvs. de hardware. Rezultatul este o stivă de inferență de producție pe care echipa dvs. o poate opera fără un inginer ML specialist disponibil. Dacă sunteți gata să explorați ce se potrivește mediului dvs., echipa noastră este bucuroasă să ruleze numerele împreună cu dvs.

Să vorbim despre proiectul dvs. de IA

Programați un apel