Säännöstely yksinkertaisuuden vuoksi: Kuvio 1: L₂-säännöstely
On 28 joulukuun, 2021 by adminTarkastellaan seuraavaa yleistämiskäyrää, jossa näkyy sekä harjoitusjoukon että validointijoukon häviö suhteessa harjoitusiteraatioiden määrään.
Kuva 1. Koulutusjoukon ja validointijoukon tappio.
Kuviossa 1 näkyy malli, jossa koulutustappio vähitellen pienenee,mutta validointitappio lopulta kasvaa. Toisin sanoen tämä yleistämiskäyrä osoittaa, että malli soveltuu liian hyvin harjoitusjoukon tietoihin. Ehkä voisimme estää ylisovittamisen rankaisemalla monimutkaisia malleja, mitä kutsutaan regularisoinniksi.
Muulla sanoen, sen sijaan, että pyrkisimme yksinkertaisesti minimoimaan tappion (empiirinen riskin minimointi):
minimoimme nyt tappion+kompleksisuuden, jota kutsutaan rakenteelliseksi riskin minimoinniksi:
Koulutuksen optimointialgoritmimme on nyt kahden termin funktio: häviötermi, joka mittaa kuinka hyvin malli sopii dataan, ja regularisointitermi,joka mittaa mallin monimutkaisuutta.
Machine Learning Crash Course keskittyy kahteen yleiseen (ja hieman toisiinsa liittyvään) tapaan ajatella mallin monimutkaisuutta:
- Mallin monimutkaisuus kaikkien mallin piirteiden painojen funktiona.
- Mallin monimutkaisuus niiden piirteiden kokonaismäärän funktiona, joilla on nollasta poikkeavat painot. (Tätä lähestymistapaa käsitellään myöhemmässä moduulissa.)
Jos mallin monimutkaisuus on painojen funktio, ominaisuuden paino, jonka absoluuttinen arvo on suuri, on monimutkaisempi kuin ominaisuuden paino, jonka absoluuttinen arvo on pieni.
Voidaan kvantifioida monimutkaisuutta käyttämällä L2-regularisointikaavaa, jossa regularisointitermi määritellään kaikkien ominaispainojen neliöiden summana:
Tässä kaavassa lähellä nollaa olevilla painoilla ei ole juurikaan vaikutusta mallin monimutkaisuuteen, kun taas poikkeavilla painoilla voi olla valtava vaikutus.
Esimerkiksi lineaarinen malli, jossa on seuraavat painot:
Vastaa