Regolarizzazione per semplicità: L₂ Regolarizzazione
Il Dicembre 28, 2021 da adminConsiderate la seguente curva di generalizzazione, che mostra la perdita sia per l’insieme di allenamento che per l’insieme di convalida contro il numero di iterazioni di allenamento.
Figura 1. Perdita sul set di addestramento e sul set di convalida.
La figura 1 mostra un modello in cui la perdita di addestramento diminuisce gradualmente, ma la perdita di convalida alla fine sale. In altre parole, questa curva di generalizzazione mostra che il modello è troppo adatto ai dati del set di allenamento. Incanalando il nostro Ockham interiore, forse potremmo prevenire l’overfitting penalizzando i modelli complessi, un principio chiamato regolarizzazione.
In altre parole, invece di mirare semplicemente a minimizzare la perdita (minimizzazione del rischio empirico):
ora minimizzeremo la perdita+complessità, che è chiamata minimizzazione del rischio strutturale:
Il nostro algoritmo di ottimizzazione dell’allenamento è ora una funzione di due termini: il termine di perdita, che misura quanto bene il modello si adatti ai dati, e il termine di regolarizzazione, che misura la complessità del modello.
Machine Learning Crash Course si concentra su due modi comuni (e in qualche modo correlati) di pensare alla complessità del modello:
- La complessità del modello come funzione dei pesi di tutte le caratteristiche nel modello.
- La complessità del modello come funzione del numero totale di caratteristiche con pesi non nulli. (Se la complessità del modello è una funzione dei pesi, un peso di caratteristica con un alto valore assoluto è più complesso di un peso di caratteristica con un basso valore assoluto.
Possiamo quantificare la complessità usando la formula di regolarizzazione L2, che definisce il termine di regolarizzazione come la somma dei quadrati di tutti i pesi delle caratteristiche:
$$L_2\text{ termine di regolarizzazione} = ||boldsymbol w||_2^2 = {w_1^2 + w_2^2 + … + w_n^2}$In questa formula, i pesi vicini allo zero hanno poco effetto sulla complessità del modello, mentre i pesi anomali possono avere un impatto enorme.
Per esempio, un modello lineare con i seguenti pesi:
Lascia un commento