Régularisation pour la simplicité : L₂ Régularisation
On décembre 28, 2021 by adminConsidérez la courbe de généralisation suivante, qui montre la perte pour l’ensemble d’entraînement et l’ensemble de validation en fonction du nombre d’itérations d’entraînement.
Figure 1. Perte sur l’ensemble de formation et l’ensemble de validation.
La figure 1 montre un modèle dans lequel la perte de formation diminue progressivement,mais la perte de validation finit par augmenter. En d’autres termes, cette courbe de généralisation montre que le modèle est surajusté aux données de l’ensemble d’apprentissage. En canalisant notre Ockham intérieur, nous pourrions peut-être empêcher l’overfitting en pénalisant les modèles complexes, un principe appelé régularisation.
En d’autres termes, au lieu de simplement viser à minimiser la perte (minimisation du risque empirique):
nous allons maintenant minimiser la perte+complexité, ce qu’on appelle la minimisation du risque structurel :
Notre algorithme d’optimisation de la formation est maintenant fonction de deux termes : le terme de perte, qui mesure l’adéquation du modèle aux données, et le terme de régularisation, qui mesure la complexité du modèle.
Le cours accéléré d’apprentissage machine se concentre sur deux façons courantes (et quelque peu liées) de penser à la complexité du modèle :
- Complexité du modèle en fonction des poids de toutes les caractéristiques du modèle.
- Complexité du modèle en fonction du nombre total de caractéristiques ayant des poids non nuls. (Un module ultérieur couvre cette approche.)
Si la complexité du modèle est une fonction des poids, un poids de caractéristique avec une valeur absolue élevée est plus complexe qu’un poids de caractéristique avec une valeur absolue faible.
Nous pouvons quantifier la complexité en utilisant la formule de régularisation L2, qui définit le terme de régularisation comme la somme des carrés de tous les poids des caractéristiques :
Dans cette formule, les poids proches de zéro ont peu d’effet sur la complexité du modèle, tandis que les poids aberrants peuvent avoir un impact énorme.
Par exemple, un modèle linéaire avec les poids suivants:
.
Laisser un commentaire