Tehnoloģija 2026. gada 16. aprīlis · 7 min lasīšana

Kvantizācija un ātra secinājumu iegūšana jūsu paša aparatūrā

Kā ietilpināt lielākus modeļus mazākos GPU un tos ātri apkalpot.

Pirmā reakcija, ko daudzi inženieri piedzīvo, aplūkojot aparatūras prasības modernākajam lielajam valodas modelim, ir cenas šoks. 70 miljardu parametru modelis tā natīvajā FP32 formātā prasītu aptuveni 280 GB GPU atmiņas — vairāk nekā lielākajai daļai organizāciju ir vienā serverī, un daudz vairāk nekā viņi vēlas nodrošināt tikai, lai atbildētu uz darbinieku vaicājumiem. Kvantizācija ir tehnika, kas padara šos skaitļus izpildāmus, un tās izpratne ir būtiska ikvienam, kas projektē lokālā AI stangu.

Ko kvantizācija faktiski dara

Neironu tīkls galu galā ir ļoti liela skaitļu kolekcija — svari, kas apgūti apmācības laikā. Pēc noklusējuma šie svari tiek glabāti kā 32 bitu peldošā komata vērtības (FP32), katra patērē 4 baitus atmiņas. Kvantizācija aizstāj augstprecizitātes skaitļus ar zemākas precizitātes reprezentācijām: 16 bitu peldošā komata (FP16 vai BF16), 8 bitu veseli skaitļi (INT8) vai pat 4 bitu veseli skaitļi (INT4). Atmiņas nospiedums samazinās proporcionāli, un aparatūrā ar natīvu atbalstu zemākas precizitātes aritmētikai secinājumi arī paātrinās.

FP16 / BF16 — pusprecizitātes peldošais komats. Praktiski bez zudumiem lielākajai daļai uzdevumu; pirmā izvēle ražošanas izvietošanai, kur precizitāte ir kritiska. Atmiņas ietaupījumi: 2x salīdzinājumā ar FP32.
INT8 — 8 bitu veseli skaitļi, parasti ražoti ar pēcapmācību kvantizācijas (PTQ) metodēm, piemēram, GPTQ vai llm.int8(). Mērena kvalitātes pasliktināšanās sarežģītā loģikā; nozīmīga lielākajā daļā praktisko uzdevumu. Atmiņas ietaupījumi: 4x salīdzinājumā ar FP32.
INT4 — 4 bitu veseli skaitļi, agresīvas kvantizācijas robeža. Rīki kā GGUF Q4_K_M un AWQ nodrošina pārsteidzoši labu kvalitāti par savu izmēru. Atmiņas ietaupījumi: 8x salīdzinājumā ar FP32, ar pieņemamu pasliktināšanos tērzēšanas un apkopošanas darba slodzēm.

Kvalitātes pret izmēra kompromiss

Kvantizācija nav bez maksas. Katra bita noņemšana ir izmesta informācija, un kādā brīdī tā parādās kā pasliktināts izvads — halucinācijas, loģikas kļūdas vai niansēs zaudēšana. Praktiskais atklājums no Privonis izvietošanām ir tāds, ka kompromiss ir pārsteidzoši labvēlīgs lielākajai daļai uzņēmumu uzdevumu. 70 miljardu modelis, kas kvantizēts uz INT4, parasti pārspēj 13 miljardu modeli FP16, kaut arī abi ietilpst līdzīgā GPU atmiņā. Ja rodas šaubas, izmantojiet lielāko modeli, kas ietilpst augstākajā precizitātē, ko atbalsta jūsu aparatūra.

GPU atmiņas lietojuma salīdzinājums dažādos kvantizācijas līmeņos 70 miljardu parametru modelim — Atmiņas prasības 70 miljardu modelim dažādos precizitātes līmeņos — INT4 padara iespējamu tā darbināšanu uz vienas augstas klases darbstacijas GPU.

Pareizās kvantizācijas izvēle ir mazāk par bitu skaitu un vairāk par modeļa kapacitātes saskaņošanu ar uzdevumu: labi izvēlēts INT4 70 milj. vienmēr pārspēj neuzmanīgu FP16 13 milj.

Secinājumu serveri: no kurienes nāk caurlaidspēja

Kvantizēta modeļa darbināšana ir tikai puse stāsta. Tā efektīva apkalpošana zem vienlaicīgas slodzes prasa secinājumu serveri, kas saprot transformatoru uzmanības struktūru. Dominējošā atvērtā pirmkoda iespēja mūsdienās ir vLLM, kas ieviesa PagedAttention — atmiņas pārvaldības tehniku, kas aizgūta no operētājsistēmas virtuālās atmiņas, kas ļauj serverim sajaukt daudzus pieprasījumus vienlaicīgi, netērējot GPU atmiņu uz iepriekš piešķirtiem KV-kešatmiņas blokiem. Praktiskā ietekme ir 10–30 reižu caurlaidspējas uzlabojums salīdzinājumā ar naivāku viena pieprasījuma cilpu.

Citas ievērojamas iespējas ietver llama.cpp (procesora draudzīgs, lielisks mazākiem modeļiem uz parastas aparatūras), Ollama (izstrādātājam draudzīgs iesaiņojums ap llama.cpp), TGI no Hugging Face (spēcīgs atbalsts Hugging Face modeļu formātiem) un TensorRT-LLM no NVIDIA (augstākā caurlaidspēja uz NVIDIA aparatūras, kompilācijas konveijera sarežģītības cenas). Privonis novērtē un testē visus šos katram klienta konfigurācijā.

Partiju apstrāde un caurlaidspēja

GPU sasniedz maksimālo efektivitāti, apstrādājot daudzas operācijas vienlaicīgi — tas ir tas, kam tie tika projektēti. Nepārtraukta partiju apstrāde (ko sauc arī par dinamisko partiju apstrādi vai iterācijas līmeņa plānošanu) ļauj secinājumu serverim grupēt žetonus no vairākiem vienlaicīgiem pieprasījumiem vienā GPU kodola zvana, dramatiski uzlabojot izmantojumu. Bez partiju apstrādes viens lietotāja vaicājums var izmantot 5% no jūsu GPU kapacitātes; ar nepārtrauktu partiju apstrādi var paaugstināt izmantojumu līdz 70–80% zem reālas pasaules satiksmes modeļiem. Uzņēmumam ar desmitiem vienlaicīgu lietotāju atšķirība starp partiju apstrādi atbalstošu serveri un naivāku var nozīmēt atšķirību starp vajadzību pēc viena GPU servera vai četriem.

Izmaksa par žetonu kā vienlaicīgu lietotāju funkcija, salīdzinot partiju apstrādi ar secinājumiem bez partiju apstrādes — Nepārtraukta partiju apstrāde izlīdzina izmaksu par žetonu līkni, pieaugot vienlaicīgiem lietotājiem — kritisks faktors lokālajos TCO aprēķinos.

Pareizās kvantizācijas izvēle jūsu GPU

Lēmumu koks ir vienkāršāks nekā izskatās. Sāciet ar savu GPU atmiņas budžetu, atņemiet telpu OS un secinājumu serverim (parasti 4–8 GB), tad atrodiet lielāko modeli, kas ietilpst augstākajā precizitātes līmenī. Daži praktiski atsauces punkti:

24 GB VRAM (piemēram, RTX 4090, A5000) — ērti darbina 13 milj. modeli FP16 vai 34 milj. modeli INT4.
48 GB VRAM (piemēram, RTX 6000 Ada, A6000) — darbina 34 milj. modeli FP16 vai 70 milj. modeli INT4.
2 × 80 GB (piemēram, A100 pāris caur NVLink) — darbina 70 milj. modeli FP16 vai 140 milj. modeli INT4 ar tenzora paralēlismu.
Tikai CPU (nav GPU) — llama.cpp ar Q4_K_M 7 milj. vai 13 milj. modeli ir iespējams zemākas vienlaicīguma izstrādātāju rīkiem; gaidiet 5–15 žetonu/s.

Viss kopā ar Privonis

Kvantizācijas formāta un secinājumu servera izvēle ir inženieru darbs, kam nepieciešama profilēšana uz jūsu specifiskās aparatūras ar jūsu specifisko darba slodzi. Privonis veic šo testēšanu kā daļu no katras izvietošanas: mēs veicam caurlaidspējas testus, mēram izvades kvalitāti uz reprezentatīvu jūsu reālo uzvedņu paraugu un nodrošinām konfigurāciju, kas maksimizē veiktspēju jūsu aparatūras budžetā. Rezultāts ir ražošanas secinājumu stangula, ko jūsu komanda var vadīt bez speciāla ML inženiera aicināšanas. Ja esat gatavs izpētīt, kas atbilst jūsu videi, mūsu komanda labprāt izskatīs skaitļus kopā ar jums.

Parunāsim par jūsu AI projektu

Rezervēt zvanu