Hoppa till innehåll

Archives

  • januari 2022
  • december 2021
  • november 2021
  • oktober 2021
  • september 2021

Categories

  • Inga kategorier
Trend RepositoryArticles and guides
Articles

Reglering för enkelhet: L₂-regularisering

On december 28, 2021 by admin

Konsultera följande generaliseringskurva, som visar förlusten för både träningsuppsättningen och valideringsuppsättningen i förhållande till antalet träningsiterationer.

Figur 1. Förlust för träningsuppsättning och valideringsuppsättning.

Figur 1 visar en modell där träningsförlusten gradvis minskar, men valideringsförlusten så småningom ökar. Med andra ord visar denna generaliseringskurva att modellen är överanpassad till uppgifterna i träningsuppsättningen. Genom att kanalisera vår inre Ockham kanske vi kan förhindra överanpassning genom att bestraffa komplexa modeller, en princip som kallas reglering.

Med andra ord, istället för att helt enkelt sträva efter att minimera förlusten (empirisk riskminimering):

$$\text{minimize(Loss(Data|Model))}}$$$

ska vi nu minimera förlusten+komplexitet, vilket kallas strukturell riskminimering:

$$$\text{minimize(Loss(Data|Model) + complexity(Model))}$$

Vår utbildningsoptimeringsalgoritm är nu en funktion av två termer: förlusttermen, som mäter hur väl modellen passar in på data, och regulariseringstermen, som mäter modellens komplexitet.

Machine Learning Crash Course fokuserar på två vanliga (och något besläktade) sätt att tänka på modellkomplexitet:

  • Modellkomplexitet som en funktion av vikterna för alla funktioner i modellen.
  • Modellkomplexitet som en funktion av det totala antalet funktioner som har vikter som inte är noll. (Denna metod behandlas i en senare modul.)

Om modellens komplexitet är en funktion av vikterna, är en funktionsvikt med ett högt absolut värde mer komplex än en funktionsvikt med ett lågt absolut värde.

Vi kan kvantifiera komplexiteten med hjälp av L2-regulariseringsformeln, som definierar regulariseringstermen som summan av kvadraterna på alla funktionsvikter:

$$$L_2\text{ regulariseringsterm} = ||\boldsymbol w|||_2^2 = {w_1^2 + w_2^2 + … + w_n^2}$$$

I denna formel har vikter nära noll liten effekt på modellens komplexitet, medan vikter som ligger nära noll kan ha en stor inverkan.

Till exempel en linjär modell med följande vikter:

Lämna ett svar Avbryt svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *

Arkiv

  • januari 2022
  • december 2021
  • november 2021
  • oktober 2021
  • september 2021

Meta

  • Logga in
  • Flöde för inlägg
  • Flöde för kommentarer
  • WordPress.org
  • DeutschDeutsch
  • NederlandsNederlands
  • SvenskaSvenska
  • DanskDansk
  • EspañolEspañol
  • FrançaisFrançais
  • PortuguêsPortuguês
  • ItalianoItaliano
  • RomânăRomână
  • PolskiPolski
  • ČeštinaČeština
  • MagyarMagyar
  • SuomiSuomi
  • 日本語日本語

Upphovsrätt Trend Repository 2022 | Tema av ThemeinProgress | Drivs med WordPress