Regularizacja dla prostoty: L₂ Regularization
On 28 grudnia, 2021 by adminRozważmy następującą krzywą generalizacji, która pokazuje stratę zarówno dla zbioru treningowego, jak i walidacyjnego względem liczby iteracji treningowych.
Rysunek 1. Strata na zbiorze treningowym i walidacyjnym.
Rysunek 1 przedstawia model, w którym strata na treningu stopniowo maleje, ale strata na walidacji ostatecznie rośnie. Innymi słowy, ta krzywa generalizacji pokazuje, że model jest zbyt dopasowany do danych w zbiorze treningowym. Podążając za naszym wewnętrznym Ockhamem, być może moglibyśmy zapobiec nadmiernemu dopasowaniu poprzez karanie złożonych modeli, co jest zasadą zwaną regularnością.
Innymi słowy, zamiast dążyć do minimalizacji straty (empiryczna minimalizacja ryzyka):
będziemy teraz minimalizować stratę+złożoność, co nazywamy minimalizacją ryzyka strukturalnego:
Nasz algorytm optymalizacji szkolenia jest teraz funkcją dwóch terminów: terminu loss, który mierzy, jak dobrze model pasuje do danych, oraz terminu regularization, który mierzy złożoność modelu.
Machine Learning Crash Course skupia się na dwóch powszechnych (i nieco powiązanych) sposobach myślenia o złożoności modelu:
- Złożoność modelu jako funkcja wag wszystkich cech w modelu.
- Złożoność modelu jako funkcja całkowitej liczby cech z niezerowymi wagami. (Jeśli złożoność modelu jest funkcją wag, to waga cechy o wysokiej wartości bezwzględnej jest bardziej złożona niż waga cechy o niskiej wartości bezwzględnej.
Złożoność możemy określić ilościowo za pomocą formuły regularyzacji L2, która definiuje termin regularyzacji jako sumę kwadratów wszystkich wag cech:
$L_2}tekst{termin regularyzacji} = ||boldsymbol w||_2^2 = {w_1^2 + w_2^2 + … + w_n^2}$$W tym wzorze wagi bliskie zeru mają niewielki wpływ na złożoność modelu, podczas gdy wagi odstające mogą mieć ogromny wpływ.
Na przykład, model liniowy z następującymi wagami:
Dodaj komentarz