Regularisatie voor eenvoud: L₂-regularisatie
On december 28, 2021 by adminBeschouw de volgende generalisatiecurve, waarin het verlies voor zowel de trainingsset als de validatieset wordt afgezet tegen het aantal trainingsiteraties.
Figuur 1. Verlies op trainingsset en validatieset.
Figuur 1 toont een model waarin het trainingsverlies geleidelijk afneemt, maar het validatieverlies uiteindelijk toeneemt. Met andere woorden, deze generalisatiecurve laat zien dat het model te goed past bij de gegevens in de trainingsset. Als we onze innerlijke Ockham volgen, kunnen we overfitting misschien voorkomen door complexe modellen te bestraffen, een principe dat regularisatie wordt genoemd.
Met andere woorden, in plaats van eenvoudigweg verlies te minimaliseren (empirische risicominimalisatie):
gaan we nu verlies+complexiteit minimaliseren, wat structurele risicominimalisatie wordt genoemd:
Onze optimalisatie-algoritme voor training is nu een functie van twee termen: de verliesterm, die meet hoe goed het model bij de gegevens past, en de regularisatieterm, die de complexiteit van het model meet.
Machine Learning Crash Course richt zich op twee veel voorkomende (en enigszins verwante) manieren om na te denken over modelcomplexiteit:
- Modelcomplexiteit als functie van de gewichten van alle kenmerken in het model.
- Modelcomplexiteit als functie van het totale aantal kenmerken met niet-nul gewichten. (Een latere module behandelt deze aanpak.)
Als modelcomplexiteit een functie van gewichten is, is een kenmerkgewicht met een hoge absolute waarde complexer dan een kenmerkgewicht met een lage absolute waarde.
We kunnen de complexiteit kwantificeren met behulp van de L2-regularisatieformule, waarin de regularisatieterm wordt gedefinieerd als de som van de kwadraten van alle kenmerkgewichten:
In deze formule hebben gewichten dicht bij nul weinig effect op de complexiteit van het model, terwijl gewichten van uitschieters een enorme impact kunnen hebben.
Bijvoorbeeld, een lineair model met de volgende gewichten:
Geef een antwoord