Regularización para la simplicidad: L₂ Regularización
On diciembre 28, 2021 by adminConsidere la siguiente curva de generalización, que muestra la pérdida para el conjunto de entrenamiento y el conjunto de validación contra el número de iteraciones de entrenamiento.
Figura 1. Pérdida en el conjunto de entrenamiento y en el conjunto de validación.
La figura 1 muestra un modelo en el que la pérdida de entrenamiento disminuye gradualmente, pero la pérdida de validación finalmente aumenta. En otras palabras, esta curva de generalización muestra que el modelo se ajusta demasiado a los datos del conjunto de entrenamiento. Canalizando el Ockham que llevamos dentro, quizás podríamos evitar el sobreajuste penalizando los modelos complejos, un principio llamado regularización.
En otras palabras, en lugar de simplemente aspirar a minimizar la pérdida (minimización del riesgo empírico):
ahora minimizaremos la pérdida+complejidad, lo que se llama minimización del riesgo estructural:
Nuestro algoritmo de optimización del entrenamiento es ahora una función de dos términos: el término de pérdida, que mide lo bien que el modelo se ajusta a los datos, y el término de regularización, que mide la complejidad del modelo.
El Curso acelerado de aprendizaje automático se centra en dos formas comunes (y algo relacionadas) de pensar en la complejidad del modelo:
- La complejidad del modelo como una función de los pesos de todas las características en el modelo.
- La complejidad del modelo como una función del número total de características con pesos no nulos. (Un módulo posterior cubre este enfoque.)
Si la complejidad del modelo es una función de los pesos, un peso de característica con un valor absoluto alto es más complejo que un peso de característica con un valor absoluto bajo.
Podemos cuantificar la complejidad utilizando la fórmula de regularización L2, que define el término de regularización como la suma de los cuadrados de todos los pesos de las características:
En esta fórmula, las ponderaciones cercanas a cero tienen poco efecto en la complejidad del modelo, mientras que las ponderaciones atípicas pueden tener un gran impacto.
Por ejemplo, un modelo lineal con las siguientes ponderaciones:
Deja una respuesta