Einführungen zur L1- und L2-Regularisierung
On September 20, 2021 by admin0) Was ist L1 und L2?
L1- und L2-Regularisierung verdanken ihren Namen der L1- bzw. L2-Norm eines Vektors w. Hier ist eine Einführung in die Normierung:
<Änderungslog: Auslassen der Absolutwerte für 2-Norm und p-Norm>
Ein lineares Regressionsmodell, das die L1-Norm für die Regularisierung einsetzt, wird Lassoregression genannt, und eines, das die (quadrierte) L2-Norm für die Regularisierung einsetzt, heißt Ridge-Regression. Um diese beiden Modelle zu implementieren, ist zu beachten, dass das lineare Regressionsmodell dasselbe bleibt:
aber die Berechnung der Verlustfunktion beinhaltet diese Regularisierungsterme:
Anmerkung: Streng genommen handelt es sich bei der letzten Gleichung (Ridge-Regression) um eine Verlustfunktion mit quadrierter L2-Norm der Gewichte (man beachte das Fehlen der Quadratwurzel). (Vielen Dank an Max Pechyonkin für den Hinweis!)
Die Regularisierungsterme sind „Beschränkungen“, die ein Optimierungsalgorithmus bei der Minimierung der Verlustfunktion „einhalten“ muss, abgesehen davon, dass er den Fehler zwischen dem wahren y und dem vorhergesagten ŷ minimieren muss.
1) Modell
Lassen Sie uns ein Modell definieren, um zu sehen, wie L1 und L2 funktionieren. Der Einfachheit halber definieren wir ein einfaches lineares Regressionsmodell ŷ mit einer unabhängigen Variable.
Hier habe ich die Deep-Learning-Konventionen w („Gewicht“) und b („Bias“) verwendet.
In der Praxis sind einfache lineare Regressionsmodelle nicht anfällig für Overfitting. Wie in der Einleitung erwähnt, sind Deep-Learning-Modelle aufgrund ihrer Modellkomplexität anfälliger für solche Probleme.
Daher ist zu beachten, dass die in diesem Artikel verwendeten Ausdrücke leicht auf komplexere Modelle erweitert werden können, die nicht auf lineare Regression beschränkt sind.
2) Verlustfunktionen
Um die Wirkung der L1- und L2-Regularisierung zu demonstrieren, passen wir unser lineares Regressionsmodell mit 3 verschiedenen Verlustfunktionen/Zielen an:
- L
- L1
- L2
Unser Ziel ist es, diese verschiedenen Verluste zu minimieren.
2.1) Verlustfunktion ohne Regularisierung
Wir definieren die Verlustfunktion L als den quadrierten Fehler, wobei Fehler die Differenz zwischen y (dem wahren Wert) und ŷ (dem vorhergesagten Wert) ist.
Nehmen wir an, dass unser Modell mit dieser Verlustfunktion übererfüllt wird.
2.2) Verlustfunktion mit L1-Regularisierung
Ausgehend von der obigen Verlustfunktion sieht das Hinzufügen eines L1-Regularisierungsterms wie folgt aus:
wobei der Regularisierungsparameter λ > 0 manuell eingestellt wird. Nennen wir diese Verlustfunktion L1. Beachten Sie, dass |w| überall differenzierbar ist, außer wenn w=0, wie unten gezeigt. Wir werden dies später brauchen.
2.3) Verlustfunktion mit L2-Regularisierung
Ähnlich sieht es aus, wenn man einen L2-Regularisierungsterm zu L hinzufügt:
wobei wiederum λ > 0 ist.
3) Gradientenabstieg
Lösen wir nun das lineare Regressionsmodell mit Hilfe der Gradientenabstiegsoptimierung auf der Grundlage der drei oben definierten Verlustfunktionen. Erinnern wir uns daran, dass die Aktualisierung des Parameters w beim Gradientenabstieg wie folgt abläuft:
Ersetzen wir den letzten Term in der obigen Gleichung mit dem Gradienten von L, L1 und L2 w.r.t. w.
L:
L1:
L2:
Schreibe einen Kommentar