Skip to content

Archives

  • januari 2022
  • december 2021
  • november 2021
  • oktober 2021
  • september 2021

Categories

  • Geen categorieën
Trend RepositoryArticles and guides
Articles

Regularisatie voor eenvoud: L₂-regularisatie

On december 28, 2021 by admin

Beschouw de volgende generalisatiecurve, waarin het verlies voor zowel de trainingsset als de validatieset wordt afgezet tegen het aantal trainingsiteraties.

Figuur 1. Verlies op trainingsset en validatieset.

Figuur 1 toont een model waarin het trainingsverlies geleidelijk afneemt, maar het validatieverlies uiteindelijk toeneemt. Met andere woorden, deze generalisatiecurve laat zien dat het model te goed past bij de gegevens in de trainingsset. Als we onze innerlijke Ockham volgen, kunnen we overfitting misschien voorkomen door complexe modellen te bestraffen, een principe dat regularisatie wordt genoemd.

Met andere woorden, in plaats van eenvoudigweg verlies te minimaliseren (empirische risicominimalisatie):

$$\text{minimize(Loss(Data|Model))}$$

gaan we nu verlies+complexiteit minimaliseren, wat structurele risicominimalisatie wordt genoemd:

$$\text{minimaliseer(Verlies(Gegevens|Model) + complexiteit(Model))}$$

Onze optimalisatie-algoritme voor training is nu een functie van twee termen: de verliesterm, die meet hoe goed het model bij de gegevens past, en de regularisatieterm, die de complexiteit van het model meet.

Machine Learning Crash Course richt zich op twee veel voorkomende (en enigszins verwante) manieren om na te denken over modelcomplexiteit:

  • Modelcomplexiteit als functie van de gewichten van alle kenmerken in het model.
  • Modelcomplexiteit als functie van het totale aantal kenmerken met niet-nul gewichten. (Een latere module behandelt deze aanpak.)

Als modelcomplexiteit een functie van gewichten is, is een kenmerkgewicht met een hoge absolute waarde complexer dan een kenmerkgewicht met een lage absolute waarde.

We kunnen de complexiteit kwantificeren met behulp van de L2-regularisatieformule, waarin de regularisatieterm wordt gedefinieerd als de som van de kwadraten van alle kenmerkgewichten:

$$L_2{ regularisatieterm} = |||boldsymbol w||_2^2 = {w_1^2 + w_2^2 + … + w_n^2}$

In deze formule hebben gewichten dicht bij nul weinig effect op de complexiteit van het model, terwijl gewichten van uitschieters een enorme impact kunnen hebben.

Bijvoorbeeld, een lineair model met de volgende gewichten:

Geef een antwoord Antwoord annuleren

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Archieven

  • januari 2022
  • december 2021
  • november 2021
  • oktober 2021
  • september 2021

Meta

  • Inloggen
  • Berichten feed
  • Reacties feed
  • WordPress.org
  • DeutschDeutsch
  • NederlandsNederlands
  • SvenskaSvenska
  • DanskDansk
  • EspañolEspañol
  • FrançaisFrançais
  • PortuguêsPortuguês
  • ItalianoItaliano
  • RomânăRomână
  • PolskiPolski
  • ČeštinaČeština
  • MagyarMagyar
  • SuomiSuomi
  • 日本語日本語

Copyright Trend Repository 2022 | Theme by ThemeinProgress | Proudly powered by WordPress