Technologie 19. května 2026 · 7 min čtení

Doladění open modelů na vlastních datech

Když nestačí promptování: jak soukromě specializovat open model na vaši doménu.

Velké jazykové modely přicházejí předtrénované na rozsáhlých úsecích veřejného internetu. Tato šíře je činí působivě víceúčelovými — ale víceúčelový neznamená totéž co odborný. Když vaše firma potřebuje model, který rozumí vaší interní taxonomii, píše ve vašem firemním stylu nebo uvažuje o proprietárních procesech, otevírají se tři cesty přizpůsobení: prompt engineering, generování s rozšířeným vyhledáváním (RAG) a doladění. Každá má své místo a výběr té správné — nebo správné kombinace — může rozhodovat mezi prototypem a produkčním systémem. Privonis pomáhá evropským organizacím tuto volbu zvládnout a provést ji zcela v rámci jejich vlastní infrastruktury.

Tři cesty k doménové adaptaci

Prompt engineering nestojí nic mimo pokus a omyl, ale narazí na tvrdou zeď: do okna se vejde jen tolik kontextu a model jednoduše postrádá doménové znalosti, které potřebujete. RAG obchází limit kontextu tím, že v době dotazu načítá relevantní úseky ze znalostní báze a předává je modelu. Je výkonný a překvapivě levný, ale kvalita načtení omezuje kvalitu odpovědi — pokud není nalezen správný úsek, model o něm nemůže uvažovat.

Diagram porovnávající pracovní postupy prompt engineeringu, RAG a doladění — Retrieval-augmented generation přidává krok vyhledávání před inferenci; doladění zabudovává znalosti přímo do vah.

Doladění používá jiný přístup: aktualizuje váhy modelu na vašem kurátorovaném datasetu tak, aby se doménové znalosti staly intrinsickými. Výsledkem je model, který odpovídá z internalizovaných odborných znalostí spíše než z načtených úseků. Obvykle podává lepší výkon u úkolů citlivých na styl, strukturovaných výstupů a pipeline s kritickými požadavky na latenci, kde si nemůžete dovolit extra zpáteční cestu načtení. Nevýhodou jsou náklady — jak v čase GPU, tak v přípravě dat — takže stojí za to sáhnout po tom, když ostatní dvě metody dosáhly svého stropu.

Kdy je doladění správnou volbou

Vaše výstupy musí dodržovat přesný formát (klinické poznámky, právní doložky, strukturovaný JSON), který šablony promptů nemohou spolehlivě vymáhat.
Model konzistentně postrádá doménový slovník, zkratky nebo názvy produktů, které se nikdy neobjevily v jeho předtrénovaném korpusu.
Požadavky na latenci vylučují krok načtení u každého požadavku.
Chcete zkomprimovat složitý multi-shot prompt do zero-shot chování pro úsporu nákladů a rychlost.
Destilujete větší model do menšího, levnějšího pro edge nebo on-premise nasazení.

LoRA a QLoRA: doladění bez rozpočtu na datové centrum

Plné doladění aktualizuje každý váhu v modelu, což je prohibitivně drahé pro modely s desítkami miliard parametrů. Low-rank adaptation (LoRA) to obchází tím, že injektuje malé trénovatelné matice do vrstev attention při zachování zmrazení původních vah. Počet trénovatelných parametrů klesá o faktor 100 nebo více, přičemž výsledný model odpovídá nebo překonává kvalitu plného doladění pro většinu úkolů. QLoRA přidává kvantizaci — zmrazený základní model je načten ve 4-bitové přesnosti, čímž se dramaticky snižují požadavky na paměť GPU natolik, že model se 70 miliardami parametrů lze doladit na jediném A100.

Ilustrace úspory paměti GPU z QLoRA ve srovnání s plným doladěním — QLoRA snižuje špičkovou paměť GPU až o 75 %, čímž zpřístupňuje doladění na jediném vysoce výkonném GPU.

S QLoRA může tým, který vlastní jedno A100, doladit špičkový open model za jedno odpoledne — žádný cloudový účet, žádná data opouštějí budovu.

Příprava dat: klíčový krok

Kvalita modelu je ohraničena kvalitou dat. Před jakýmkoli trénovacím chodem Privonis spolupracuje s klienty na kurátorování supervizovaného datasetu vstupně-výstupních párů představujících přesné chování, které chtějí. Typické zdroje zahrnují: přezkoumané zákaznické interakce, opravené výstupy modelu, dokumenty anotované odborníky a syntetická data generovaná silnějším učitelským modelem a poté filtrovaná. Objem je méně důležitý než rozmanitost a správnost — tisíc pečlivě ověřených příkladů often překonává deset tisíc zašuměných. Pipeline pro čištění dat řeší deduplikaci, ořezání délky a normalizaci formátu před zahájením trénování.

Hodnocení: vědět, kdy jste hotovi

Doladění bez důkladného hodnocení je optimalizace ve tmě. Vyhrazená hodnotící sada — nikdy neviděná během trénování — měří, zda model zobecnil nebo pouze zapamatoval. Metriky závisí na úkolu: přesná shoda a F1 pro extrakční úkoly, ROUGE pro sumarizaci, hodnocení lidských preferencí pro otevřené generování. Privonis spouští automatizovaná hodnocení po každém checkpointu a označuje katastrofické zapomínání — případy, kdy model získá doménové dovednosti, ale ztratí obecné uvažování — tím, že do každé hodnotící sady zahrnuje standardní ukázku benchmarku.

Váhy jsou vaše

Toto je bod, který se often ztrácí v diskusích o cloudově hostovaných API pro doladění: když doladíte prostřednictvím služby třetí strany, výsledné váhy mohou být uzamčeny u tohoto poskytovatele. S Privonis je základní model s otevřenými váhami, trénovací chod probíhá na hardwaru, který ovládáte, a adaptér LoRA nebo sloučený checkpoint je váš, abyste si jej uchovali, verzovali a nasadili kdekoli si přejete. To znamená žádnou závislost na dodavateli, žádné poplatky za token u modelu, který jste zaplatili za trénování, a žádné riziko, že poskytovatel bude trénovat na vašich datech. Pro evropské firmy zpracovávající citlivé informace není uchování vah hezký bonus — je to požadavek správy dat.

Promluvme si o vašem AI projektu

Rezervovat hovor