Tehnologija 19. svibnja 2026. · 7 min čitanja

Fino podešavanje open modela na vašim podacima

Kada promptanje nije dovoljno: kako specijalizirati open model za vašu domenu — privatno.

Veliki jezični modeli dolaze pretrenirani na ogromnim dijelovima javnog interneta. Ta širina čini ih impresivno opće namjenskim — ali opće namjenski nije isto što i stručan. Kada vaše poslovanje treba model koji razumije vašu internu taksonomiju, piše u vašem korporativnom stilu ili zaključuje o vlasničkim procesima, otvaraju se tri puta prilagodbe: inženjering prompta, generiranje augmentirano dohvatom (RAG) i fino podešavanje. Svaki ima svoje mjesto, a odabir pravog — ili prave kombinacije — može biti razlika između prototipa i produkcijskog sustava. Privonis pomaže europskim organizacijama kretati se tim izborom i izvršiti ga u potpunosti unutar vlastite infrastrukture.

Tri puta domenskoj prilagodbi

Inženjering prompta ne košta ništa osim pokušaja i pogrešaka, ali nailazi na tvrdi zid: možete samo toliko konteksta uguriti u prozor i model može jednostavno nedostajati domenskog znanja koje vam treba. RAG zaobilazi ograničenje konteksta dohvaćanjem relevantnih dijelova iz baze znanja u trenutku upita i predajući ih modelu. Moćan je i iznenađujuće jeftin, ali kvaliteta dohvata ograničava kvalitetu odgovora — ako pravi dio nije pronađen, model o tome ne može zaključivati.

Dijagram koji uspoređuje radne tokove inženjeringa prompta, RAG-a i finog podešavanja — Generiranje augmentirano dohvatom dodaje korak pretrage prije zaključivanja; fino podešavanje peče znanje u težine.

Fino podešavanje pristupa drugačije: ažurira težine modela na vašem kuriranom skupu podataka kako bi domensko znanje postalo intrinzično. Rezultat je model koji odgovara iz internaliziranog znanja, a ne iz dohvaćenih isječaka. Tipično se bolje ponaša na zadacima osjetljivim na stil, strukturiranim izlazima i latencijsko-kritičnim cjevovodima gdje ne možete priuštiti dodatno putovanje dohvata. Nedostatak je trošak — kako u GPU vremenu tako i u pripremi podataka — pa ga vrijedi koristiti kada su se druge dvije metode zamrznule.

Kada je fino podešavanje pravi izbor

Vaši izlazi moraju slijediti precizan format (kliničke bilješke, pravne klauzule, strukturirani JSON) koji predlošci prompta ne mogu pouzdano nametnuti.
Model dosljedno nedostaje domenskog rječnika, akronima ili naziva proizvoda koji se nikad nisu pojavili u njegovu korpusu pretreniranja.
Zahtjevi za latencijom isključuju skok dohvata na svaki zahtjev.
Željite komprimirati složeni, višestupanjski prompt u ponašanje bez ikakvih primjera radi troška i brzine.
Destilirate veći model u manji, jeftiniji za rubno ili on-premise implementaciju.

LoRA i QLoRA: fino podešavanje bez proračuna podatkovnog centra

Puno fino podešavanje ažurira svaku težinu u modelu, što je zabranjivo skupo za modele s desecima milijardi parametara. Niskorangirana prilagodba (LoRA) zaobilazi ovo ubacivanjem malih trenirajućih matrica u slojeve pažnje, dok zamrzava originalne težine. Broj trenirajućih parametara smanjuje se za faktor 100 ili više, ali rezultirajući model odgovara ili nadmašuje kvalitetu punog finog podešavanja na većini zadataka. QLoRA dodaje kvantizaciju mješavini — zamrznuti bazni model se učitava u 4-bitnoj preciznosti, drastično smanjujući zahtjeve za GPU memorijom, toliko dramatično da se model s 70 milijardi parametara može fino podesiti na jednom A100.

Ilustracija uštedovine GPU memorije od QLoRA u usporedbi s punim finim podešavanjem — QLoRA smanjuje vršnu GPU memoriju za do 75 %, čineći fino podešavanje dostupnim na jednom visokoklasnom GPU-u.

S QLoRA-om, tim koji posjeduje jedan A100 može fino podesiti vrhunski open model za poslijepodne — bez cloud računa, bez podataka koji napuštaju zgradu.

Priprema podataka: korak koji može biti presudan

Kvaliteta modela ograničena je kvalitetom podataka. Prije bilo kojeg treniranja, Privonis radi s klijentima na kuriranju nadziranog skupa podataka parova ulaz-izlaz koji predstavljaju točno ponašanje koje žele. Tipični izvori uključuju: pregledane interakcije kupaca, ispravljene izlaze modela, stručnjacima anonotiranim dokumente i sintetičke podatke generirane od strane jačeg modela učitelja i zatim filtrirane. Volumen je manje važan od raznolikosti i ispravnosti — tisuću pažljivo provjerenih primjera često nadmašuje deset tisuća bučnih. Cjevovodi čišćenja podataka rješavaju deduplikaciju, obrezivanje duljine i normalizaciju formata prije početka treniranja.

Evaluacija: znanje kada ste gotovi

Fino podešavanje bez stroge evaluacije je optimizacija u mraku. Skup evaluacije koji nije viđen — nikad viđen tijekom treniranja — mjeri je li model generalizirao ili tek zapamtio. Metrike ovise o zadatku: točno podudaranje i F1 za zadatke ekstrakcije, ROUGE za sažimanje, ocjene ljudske preferencije za otvoreno generiranje. Privonis pokreće automatske evaluacije nakon svakog kontrolnog točka i označava katastrofalno zaboravljanje — slučajeve gdje model dobiva domensku vještinu ali gubi opće zaključivanje — uključivanjem uzorka standardne referentne vrijednosti u svaki evaluacijski paket.

Težine su vaše

Ovo je točka koja se često gubi u raspravama o API-jima za fino podešavanje hostiranima u oblaku: kada fino podešavate putem usluge treće strane, rezultirajuće težine mogu biti zaključane kod tog pružatelja. S Privonisom, bazni model je open-weight, treniranja se odvijaju na hardveru kojim upravljate i LoRA adapter ili spojeni kontrolni točak je vaš za čuvanje, verzioniranje i implementaciju gdje god odaberete. To znači nema zaključanosti kod dobavljača, nema naknade po tokenu na modelu koji ste platili za treniranje i nema rizika da pružatelj pretreni na vašim podacima. Za europske tvrtke koje rukuju osjetljivim informacijama, čuvanje težina nije lijepo imati — to je zahtjev upravljanja.

Razgovarajmo o vašem AI projektu

Zakažite poziv