Regularisering for enkelhed: L₂-Regularisering
On december 28, 2021 by adminSe på følgende generaliseringskurve, som viser tabet for både trænings- og valideringssættet i forhold til antallet af træningsiterationer.
Figur 1. Tab på træningssæt og valideringssæt.
Figur 1 viser en model, hvor træningstabet gradvist falder, men valideringstabet til sidst stiger. Med andre ord viser denne generaliseringskurve, at modellen passer for godt til dataene i træningssættet. Hvis vi kanaliserer vores indre Ockham, kan vi måske forhindre overtilpasning ved at straffe komplekse modeller, et princip kaldet regularisering.
Med andre ord, i stedet for blot at sigte mod at minimere tabet (empirisk risikominimering):
vil vi nu minimere tab+kompleksitet, hvilket kaldes strukturel risikominimering:
Vores træningsoptimeringsalgoritme er nu en funktion af to termer: tabstermen, som måler, hvor godt modellen passer til dataene, og reguleringstermen, som måler modellens kompleksitet.
Machine Learning Crash Course fokuserer på to almindelige (og noget beslægtede) måder at tænke på modelkompleksitet på:
- Modelkompleksitet som en funktion af vægtene af alle karakteristika i modellen.
- Modelkompleksitet som en funktion af det samlede antal karakteristika med vægte, der ikke er nul. (Et senere modul behandler denne fremgangsmåde.)
Hvis modellens kompleksitet er en funktion af vægtene, er en featurevægt med en høj absolut værdi mere kompleks end en featurevægt med en lav absolut værdi.
Vi kan kvantificere kompleksiteten ved hjælp af L2-regulariseringsformlen, som definerer reguleringstermen som summen af kvadraterne af alle funktionsvægte:
I denne formel har vægte tæt på nul kun en lille effekt på modellens kompleksitet, mens vægte, der ligger tæt på nul, kan have en stor effekt.
For eksempel en lineær model med følgende vægte:
Skriv et svar