Regularisierung zur Vereinfachung: L₂-Regularisierung
On Dezember 28, 2021 by adminBetrachten Sie die folgende Verallgemeinerungskurve, die den Verlust sowohl für die Trainingsmenge als auch für die Validierungsmenge in Abhängigkeit von der Anzahl der Trainingsiterationen zeigt.
Abbildung 1. Verlust in der Trainingsmenge und der Validierungsmenge.
Abbildung 1 zeigt ein Modell, bei dem der Trainingsverlust allmählich abnimmt, der Validierungsverlust aber schließlich ansteigt. Mit anderen Worten, diese Verallgemeinerungskurve zeigt, dass das Modell zu gut zu den Daten im Trainingsset passt. Um unseren inneren Ockham zu kanalisieren, könnten wir vielleicht eine Überanpassung verhindern, indem wir komplexe Modelle bestrafen, ein Prinzip, das als Regularisierung bezeichnet wird.
Mit anderen Worten, anstatt einfach nur den Verlust zu minimieren (empirische Risikominimierung):
werden wir nun Verlust+Komplexität minimieren, was als strukturelle Risikominimierung bezeichnet wird:
Unser Trainingsoptimierungsalgorithmus ist nun eine Funktion von zwei Termen: der Verlustterm, der misst, wie gut das Modell zu den Daten passt, und der Regularisierungsterm, der die Modellkomplexität misst.
Der Crashkurs Maschinelles Lernen konzentriert sich auf zwei gängige (und in gewisser Weise verwandte) Arten, die Modellkomplexität zu betrachten:
- Modellkomplexität als Funktion der Gewichte aller Merkmale im Modell.
- Modellkomplexität als Funktion der Gesamtzahl der Merkmale mit Gewichten ungleich Null. (Dieser Ansatz wird in einem späteren Modul behandelt.)
Wenn die Modellkomplexität eine Funktion der Gewichte ist, ist ein Merkmalsgewicht mit einem hohen Absolutwert komplexer als ein Merkmalsgewicht mit einem niedrigen Absolutwert.
Wir können die Komplexität mit Hilfe der L2-Regularisierungsformel quantifizieren, die den Regularisierungsterm als die Summe der Quadrate aller Merkmalsgewichte definiert:
In dieser Formel haben Gewichte nahe Null wenig Einfluss auf die Modellkomplexität, während Ausreißergewichte einen großen Einfluss haben können.
Beispielsweise ein lineares Modell mit den folgenden Gewichten:
Schreibe einen Kommentar