Regularização para Simplicidade: L₂ Regularização
On Dezembro 28, 2021 by adminConsiderar a seguinte curva de generalização, que mostra as perdas tanto para o conjunto de treinamento quanto para o conjunto de validação em relação ao número de iterações de treinamento.
Figure 1. Perda no conjunto de treinamento e validação.
Figure 1 mostra um modelo no qual a perda de treinamento diminui gradualmente, mas a perda de validação eventualmente sobe. Em outras palavras, esta generalização mostra que o modelo está se sobrepondo aos dados do conjunto de treinamento. Canalizando nosso Ockham interno,talvez pudéssemos evitar o sobreajuste penalizando modelos complexos,uma regularização baseada em princípios.
Em outras palavras, ao invés de simplesmente objetivar minimizar a perda (minimização empírica do risco):
agora vamos minimizar a perda+complexidade, o que é chamado de minimização estrutural do risco:
O nosso algoritmo de otimização de treinamento é agora uma função de dois termos: o termo de perda, que mede o quão bem o modelo se encaixa nos dados, e o termo de regularização, que mede a complexidade do modelo.
Machine Learning Crash Course foca em duas formas comuns (e um pouco relacionadas) de pensar a complexidade do modelo:
- Complexidade do modelo em função dos pesos de todas as características do modelo.
- Complexidade do modelo em função do número total de características com pesos não nulos. (Um modulecobre posteriormente esta abordagem.)
Se a complexidade do modelo é uma função dos pesos, um peso de característica com um valor absoluto alto é mais complexo do que um peso de característica com um valor absoluto baixo.
Podemos quantificar a complexidade usando a fórmula de regularização L2, que define o termo de regularização como a soma dos quadrados de todos os pesos de característica:
Nesta fórmula, pesos próximos de zero têm pouco efeito sobre a complexidade do modelo, enquanto pesos anteriores podem ter um enorme impacto.
Por exemplo, um modelo linear com os seguintes pesos:
Deixe uma resposta