Articles
正則化でシンプルに。 L₂正則化
On 12月 28, 2021 by admin次の汎化曲線を考えてみよう。これはトレーニングの反復回数に対するトレーニングセットと検証セットの両方の損失を示している。 図1は学習と検証の損失が徐々に減少し、検証の損失は増加するモデルである。 つまり、この汎化曲線はモデルが訓練集合のデータに過剰に適合していることを示している。 オッカムに倣って、複雑なモデルにペナルティを与えることで、オーバーフィットを防ぐことができるかもしれない。
つまり、単純に損失を最小化する(経験的リスク最小化)のではなく:
$text{minimize(Loss(Data|Model))}$$
今度は損失+複雑さを最小化する、これは構造的リスク最小化と呼ばれています。
$$text{minimize(Loss(Data|Model) + complexity(Model))}$
学習最適化アルゴリズムは、モデルがデータにどれだけフィットしているかを表す損失項と、モデルの複雑さを表す正則化項の2項を関数にしたものである。
機械学習クラッシュ コースでは、モデルの複雑さを考えるための 2 つの一般的な (そして多少関連する) 方法に焦点を当てます:
- モデル内のすべての特徴の重みの関数としてのモデルの複雑さ、
- ゼロ以外の重みを持つ特徴の総数の関数としてのモデルの複雑さ。 (後のモジュールでこのアプローチについて説明します。)
モデルの複雑さが重みの関数である場合、高い絶対値を持つ特徴の重みは低い絶対値を持つ特徴の重みより複雑である。
正則化項をすべての特徴重みの二乗の合計として定義する L2 正則化式を使用して、複雑さを定量化できる:
$L_2text{ 正則化項} = ||boldsymbol w|_2^2 = {w_1^2 + w_2^2 + …]。 + w_n^2}$$
この式では、ゼロに近い重みはモデルの複雑さにほとんど影響を与えませんが、異常値の重みは大きな影響を与える可能性があります。
コメントを残す