Skip to content

Archives

  • styczeń 2022
  • grudzień 2021
  • listopad 2021
  • październik 2021
  • wrzesień 2021

Categories

  • Brak kategorii
Trend RepositoryArticles and guides
Articles

Regularizacja dla prostoty: L₂ Regularization

On 28 grudnia, 2021 by admin

Rozważmy następującą krzywą generalizacji, która pokazuje stratę zarówno dla zbioru treningowego, jak i walidacyjnego względem liczby iteracji treningowych.

Rysunek 1. Strata na zbiorze treningowym i walidacyjnym.

Rysunek 1 przedstawia model, w którym strata na treningu stopniowo maleje, ale strata na walidacji ostatecznie rośnie. Innymi słowy, ta krzywa generalizacji pokazuje, że model jest zbyt dopasowany do danych w zbiorze treningowym. Podążając za naszym wewnętrznym Ockhamem, być może moglibyśmy zapobiec nadmiernemu dopasowaniu poprzez karanie złożonych modeli, co jest zasadą zwaną regularnością.

Innymi słowy, zamiast dążyć do minimalizacji straty (empiryczna minimalizacja ryzyka):

$}$ text{minimize(Loss(Data|Model))}$$

będziemy teraz minimalizować stratę+złożoność, co nazywamy minimalizacją ryzyka strukturalnego:

$text{minimize(Loss(Data|Model) + complexity(Model))}$$

Nasz algorytm optymalizacji szkolenia jest teraz funkcją dwóch terminów: terminu loss, który mierzy, jak dobrze model pasuje do danych, oraz terminu regularization, który mierzy złożoność modelu.

Machine Learning Crash Course skupia się na dwóch powszechnych (i nieco powiązanych) sposobach myślenia o złożoności modelu:

  • Złożoność modelu jako funkcja wag wszystkich cech w modelu.
  • Złożoność modelu jako funkcja całkowitej liczby cech z niezerowymi wagami. (Jeśli złożoność modelu jest funkcją wag, to waga cechy o wysokiej wartości bezwzględnej jest bardziej złożona niż waga cechy o niskiej wartości bezwzględnej.

    Złożoność możemy określić ilościowo za pomocą formuły regularyzacji L2, która definiuje termin regularyzacji jako sumę kwadratów wszystkich wag cech:

    $L_2}tekst{termin regularyzacji} = ||boldsymbol w||_2^2 = {w_1^2 + w_2^2 + … + w_n^2}$$

    W tym wzorze wagi bliskie zeru mają niewielki wpływ na złożoność modelu, podczas gdy wagi odstające mogą mieć ogromny wpływ.

    Na przykład, model liniowy z następującymi wagami:

Dodaj komentarz Anuluj pisanie odpowiedzi

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Archiwa

  • styczeń 2022
  • grudzień 2021
  • listopad 2021
  • październik 2021
  • wrzesień 2021

Meta

  • Zaloguj się
  • Kanał wpisów
  • Kanał komentarzy
  • WordPress.org
  • DeutschDeutsch
  • NederlandsNederlands
  • SvenskaSvenska
  • DanskDansk
  • EspañolEspañol
  • FrançaisFrançais
  • PortuguêsPortuguês
  • ItalianoItaliano
  • RomânăRomână
  • PolskiPolski
  • ČeštinaČeština
  • MagyarMagyar
  • SuomiSuomi
  • 日本語日本語

Copyright Trend Repository 2022 | Theme by ThemeinProgress | Proudly powered by WordPress