Regularizace pro zjednodušení: Obrázek 1: Regularizace L₂
On 28 prosince, 2021 by adminPodívejte se na následující generalizační křivku, která ukazuje ztrátu pro trénovací i validační množinu v závislosti na počtu iterací tréninku. Ztráta na trénovací a validační množině.
Obrázek 1 ukazuje model, u kterého ztráta při trénování postupně klesá,ale ztráta při validaci nakonec stoupá. Jinými slovy, tato generalizační křivkaukazuje, že model nadměrně vyhovuje datům v trénovací množině. Pokud bychom využili svého vnitřního Ockhama, možná bychom mohli nadměrnému přizpůsobení zabránit penalizací složitých modelů, což je princip zvaný regularizace.
Jinými slovy, místo toho, abychom se jednoduše snažili minimalizovat ztrátu (minimalizace empirického rizika):
, budeme nyní minimalizovat ztrátu+komplexnost, což se nazývá minimalizace strukturálního rizika:
Náš tréninkový optimalizační algoritmus je nyní funkcí dvou členů: členu ztráty, který měří, jak dobře model odpovídá datům, a členu regularizace, který měří složitost modelu.
Kurz strojového učení se zaměřuje na dva běžné (a do jisté míry související) způsoby, jak uvažovat o složitosti modelu:
- Složitost modelu jako funkce vah všech rysů v modelu.
- Složitost modelu jako funkce celkového počtu rysů s nenulovými váhami. (Tento přístup je popsán v pozdějším modulu.)
Je-li složitost modelu funkcí vah, je váha funkce s vysokou absolutní hodnotou složitější než váha funkce s nízkou absolutní hodnotou.
Složitost můžeme kvantifikovat pomocí regularizační formule L2, která definuje regularizační člen jako součet čtverců všechvah prvků:
V tomto vzorci mají váhy blízké nule malý vliv na složitost modelu, zatímco váhy odlehlých hodnot mohou mít obrovský vliv.
Například lineární model s následujícími váhami:
Napsat komentář