Reglering för enkelhet: L₂-regularisering
On december 28, 2021 by adminKonsultera följande generaliseringskurva, som visar förlusten för både träningsuppsättningen och valideringsuppsättningen i förhållande till antalet träningsiterationer.
Figur 1. Förlust för träningsuppsättning och valideringsuppsättning.
Figur 1 visar en modell där träningsförlusten gradvis minskar, men valideringsförlusten så småningom ökar. Med andra ord visar denna generaliseringskurva att modellen är överanpassad till uppgifterna i träningsuppsättningen. Genom att kanalisera vår inre Ockham kanske vi kan förhindra överanpassning genom att bestraffa komplexa modeller, en princip som kallas reglering.
Med andra ord, istället för att helt enkelt sträva efter att minimera förlusten (empirisk riskminimering):
ska vi nu minimera förlusten+komplexitet, vilket kallas strukturell riskminimering:
Vår utbildningsoptimeringsalgoritm är nu en funktion av två termer: förlusttermen, som mäter hur väl modellen passar in på data, och regulariseringstermen, som mäter modellens komplexitet.
Machine Learning Crash Course fokuserar på två vanliga (och något besläktade) sätt att tänka på modellkomplexitet:
- Modellkomplexitet som en funktion av vikterna för alla funktioner i modellen.
- Modellkomplexitet som en funktion av det totala antalet funktioner som har vikter som inte är noll. (Denna metod behandlas i en senare modul.)
Om modellens komplexitet är en funktion av vikterna, är en funktionsvikt med ett högt absolut värde mer komplex än en funktionsvikt med ett lågt absolut värde.
Vi kan kvantifiera komplexiteten med hjälp av L2-regulariseringsformeln, som definierar regulariseringstermen som summan av kvadraterna på alla funktionsvikter:
I denna formel har vikter nära noll liten effekt på modellens komplexitet, medan vikter som ligger nära noll kan ha en stor inverkan.
Till exempel en linjär modell med följande vikter:
Lämna ett svar