ここでは,ニューラルネットワーク (Neural Network) についてその概要を紹介していきます.画像認識などに用いられる Convolutional Neural Network (CNN) や,自然言語処理などに用いられる Recurrent Neural Network (RNN) といった手法は,ニューラルネットワークの一種です.
ここではまず,最もシンプルな全結合型と呼ばれるニューラルネットワークの構造について説明を行ったあと,複数の入力データと望ましい出力の組からなる学習用データセットを準備したとき,どうやってニューラルネットワークを学習させればよいのか(教師あり学習の仕組み)について解説を行います.
ニューラルネットワークによって表現される複雑な関数を,現実的な時間で学習するための誤差逆伝播法(バックプロパゲーション)と呼ばれるアルゴリズムについても紹介します.
まずはニューラルネットワークをブラックボックスとして扱ってしまうのではなく,一つ一つ内部で行われる計算を丁寧に調べます.そして,パラメータで特徴づけられた関数で表される線形変換とそれに続く非線形変換を組み合わせて,全体として微分可能な一つの関数を表していることを理解していきます.
ニューラルネットワークの構造
まずはニューラルネットワークの構造を図式化して見てみましょう.入力変数が{年数,アルコール度数,色合い,匂い}の4変数,出力変数が{白ワイン,赤ワイン}の2変数の場合を示します.
この図のひとつひとつの丸い部分のことをノード もしくはユニット と呼び,その縦方向の集まりを層 と呼びます.そして,一番初めの層を入力層(input layer) ,最後の層を出力層(output layer) ,そしてその間を**中間層(intermediate layer)もしくは 隠れ層(hidden layer)**と呼びます.このモデルは入力層,中間層,出力層の3層の構造となっていますが,中間層の数を増やすことでさらに多層のニューラルネットワークを定義することもできます.この例では各層間の全てのノードが互いに結合されているため,全結合型のニューラルネットワーク とも呼び,ニューラルネットワークの最も基礎的な構造です.
入力変数は前章までと同様ですが,出力変数の扱い方がこれまでと異なります.例えば,上図では出力層の各ノードがそれぞれ白ワインと赤ワインに対応しており,カテゴリの数だけ出力の変数があるということになります.なぜこのような構造となっているのでしょうか.
まず,最終層にどのような値が入るのか,具体例を見てみましょう.例えば,年数が3年物でアルコール度数が14度,色合いが0.2,匂いが0.8で表されるワインがあるとします.内部の計算は後述するとして,このようなデータをニューラルネットワークに与えたときに結果として得られる値に着目してみましょう.上図では,白ワイン
y 1 = 0.15 y_{1} = 0.15 y 1 = 0.15 , 赤ワイン
y 2 = 0.85 y_{2}= 0.85 y 2 = 0.85 となっています.このとき,出力値の中で最も大きな値となっている変数に対応するクラス,すなわち今回の例では「赤ワイン」をこの分類問題におけるこのニューラルネットワークの
予測結果 とすることができます.
ここで出力層の全ての値を合計してみると,1になっていることに気づきます.これは偶然ではなく,そうなるように出力層の値を計算しているためです* .つまり,出力層のそれぞれのノードが持つ数値は,入力がそれぞれのクラスに属している確率を表していたのでした.そのため,カテゴリ数と同じ数だけ出力層にはノードが必要となります.
それでは,ここからニューラルネットワークの内部で行われる計算を詳しく見ていきましょう.ニューラルネットワークの各層は,前の層の値に線形変換と非線形変換を順番に施すことで計算されています.まずは,ここで言う線形変換とは何を表すのか,から見ていきましょう.
* 具体的には,Softmax関数という活性化関数(これも後述します)をニューラルネットワークの出力ベクトルに適用することで,出力層における全ノードの値の合計が1になるようにします.
線形変換
ここでは,ニューラルネットワークの各層で行われる線形変換について説明します.
ここで言う線形変換* とは,重み行列 (
W {\bf W} W )
× \times × 入力ベクトル (
h {\bf h} h )
+ + + バイアスベクトル (
b {\bf b} b ) のような計算のことを指しています.このとき,この変換の入力が
h {\bf h} h ,パラメータが
W {\bf W} W と
b {\bf b} b となります.ここでの掛け算(
× \times × )は行列の掛け算であることに注意してください.また,これからは,
h h h が文字としてよく登場しますが,これは隠れ層 (hidden layer) の頭文字である
h h h から来ています.ただし,表記を簡潔にするため以下では入力層(上図における
x 1 , x 2 , x 3 , x 4 x_1, x_2, x_3, x_4 x 1 , x 2 , x 3 , x 4 )を
0層目の隠れ層と考える ことにして,
h 01 , h 02 , h 03 , h 04 h_{01}, h_{02}, h_{03}, h_{04} h 01 , h 02 , h 03 , h 04 と表記します.では上図で表される計算を数式で記述してみましょう.
(* 通常数学では線形変換とは
w × h {\bf w} \times {\bf h} w × h のことを指し,この変換は厳密には「アファイン変換(もしくは アフィン変換)」と呼ばれるものです.しかし,深層学習の文脈ではこの変換も線形変換と呼ぶことも多いです.)
u 11 = w 11 h 01 + w 12 h 02 + w 13 h 03 + w 14 h 04 + b 1 u 12 = w 21 h 01 + w 22 h 02 + w 23 h 03 + w 24 h 04 + b 2 u 13 = w 31 h 01 + w 32 h 02 + w 33 h 03 + w 34 h 04 + b 3
\begin{aligned}
u_{11}&=w_{11}h_{01}+w_{12}h_{02}+w_{13}h_{03}+w_{14}h_{04}+b_{1} \\
u_{12}&=w_{21}h_{01}+w_{22}h_{02}+w_{23}h_{03}+w_{24}h_{04}+b_{2} \\
u_{13}&=w_{31}h_{01}+w_{32}h_{02}+w_{33}h_{03}+w_{34}h_{04}+b_{3}
\end{aligned}
u 11 u 12 u 13 = w 11 h 01 + w 12 h 02 + w 13 h 03 + w 14 h 04 + b 1 = w 21 h 01 + w 22 h 02 + w 23 h 03 + w 24 h 04 + b 2 = w 31 h 01 + w 32 h 02 + w 33 h 03 + w 34 h 04 + b 3
バイアス(
b 1 , b 2 , b 3 b_1, b_2, b_3 b 1 , b 2 , b 3 )は上図では省略されていることに注意してください.さて,以上の4つの式は,ベクトルと行列の計算として以下のように書き直すことができます.
[ u 11 u 12 u 13 ] = [ w 11 w 12 w 13 w 14 w 21 w 22 w 23 w 24 w 31 w 32 w 33 w 34 ] [ h 01 h 02 h 03 h 04 ] + [ b 1 b 2 b 3 ] u 1 = W h 0 + b
\begin{aligned}
\begin{bmatrix}
u_{11} \\
u_{12} \\
u_{13}
\end{bmatrix}&=\begin{bmatrix}
w_{11} & w_{12} & w_{13} & w_{14} \\
w_{21} & w_{22} & w_{23} & w_{24} \\
w_{31} & w_{32} & w_{33} & w_{34}
\end{bmatrix}\begin{bmatrix}
h_{01} \\
h_{02} \\
h_{03} \\
h_{04}
\end{bmatrix}+\begin{bmatrix}
b_{1} \\
b_{2} \\
b_{3}
\end{bmatrix}\\
{\bf u}_{1}&={\bf W}{\bf h}_{0}+{\bf b}
\end{aligned}
u 11 u 12 u 13 u 1 = w 11 w 21 w 31 w 12 w 22 w 32 w 13 w 23 w 33 w 14 w 24 w 34 h 01 h 02 h 03 h 04 + b 1 b 2 b 3 = W h 0 + b
本来は
W {\bf W} W や
b {\bf b} b にも,どの層とどの層の間の計算に用いられるものなのかを表す添え字をつけるべきですが,ここでは簡単のため省略しています.
非線形変換
次に,非線形変換について説明します.線形変換のみでは,下図右のように入力と出力の間が非線形な関係である場合,両者の間の関係を適切に表現することができません.
そこで,ニューラルネットワークでは各層で線形変換に引き続いて非線形変換を施すことで,全体の関数が非線形性を持つようにしています.この非線形変換を行う関数を,ニューラルネットワークの文脈においては 活性化関数 と呼びます.
上図の線形変換の結果
u 11 , u 12 , u 13 u_{11}, u_{12}, u_{13} u 11 , u 12 , u 13 に活性化関数を使って非線形変換を行った結果を
h 11 , h 12 , h 13 h_{11}, h_{12}, h_{13} h 11 , h 12 , h 13 と書き,これらを活性値(activation)と呼びます(下図参照).これが次の層への入力となります.
活性化関数の具体例としては,下図に示す ロジスティックシグモイド関数 (以下シグモイド関数)
が従来,よく用いられてきました.しかし近年,層数が多いニューラルネットワークではシグモイド関数は活性化関数としてほとんど用いられていません.その理由の一つは,シグモイド関数を活性化関数に採用することで 勾配消失 という現象が起きやすくなり,学習が進行しなくなる問題が発生することがあったためです.これは後で詳述します.これを回避するために,Rectified Linear Unit (ReLU) という関数がよく用いられます.これは,以下のような形をした関数です.
ここで,
m a x ( 0 , u ) {\rm max}(0, u) max ( 0 , u ) は,
0 0 0 と
u u u を比べて大きな方を返す関数です.すなわち,ReLUは入力が負の値の場合には出力は0で一定であり,正の値の場合は入力をそのまま出力するという関数です.シグモイド関数では,入力が小さな,もしくは大きな値をとった際に,勾配がどんどん小さくなってしまうだろうことがプロットからも見て取れます.それに対し,ReLU関数は入力の値がいくら大きくなっても,一定の勾配が発生します.これがのちほど紹介する勾配消失という問題に有効に働きます.
数値を見ながら計算の流れを確認
ここで,下図に書き込まれた具体的な数値を使って,入力
x 1 , x 2 , x 3 x_1, x_2, x_3 x 1 , x 2 , x 3 から出力
y y y が計算される過程を確認してみましょう.今は計算を簡略化するためバイアス
b {\bf b} b の計算は省略します(バイアスが全て0であるとします).数値例として,
x = [ 2 3 1 ] T {\bf x} = \begin{bmatrix} 2 & 3 & 1 \end{bmatrix}^T x = [ 2 3 1 ] T が与えられた時の出力
y y y の計算手順を一つ一つ追いかけてみましょう.
前章で解説した重回帰分析では,目的関数のパラメータについての導関数を0とおいて解析的に最適なパラメータを計算できましたが,ニューラルネットワークでは一般的に,解析的にパラメータを解くことはできません.その代わり,この導関数の値(勾配)を利用した別の方法でパラメータを逐次的に最適化していきます.
このため,ニューラルネットワークの場合は,まずパラメータを乱数で初期化し,ひとまずデータを入力して目的関数の値を計算します .次にその関数の勾配を計算して,それを利用してパラメータを更新し,その更新後の新しいパラメータを使って再度入力データを処理して目的関数の値を計算し…といったことを繰り返し行っていくことになります.
今,パラメータを初期化した結果,上の図のグラフの枝に与えられているような数値になった状態で,入力層の値に線形変換を施すところまでを考えてみましょう.この計算は,以下のようになります.
u 11 = 3 × 2 + 1 × 3 + 2 × 1 = 11 u 12 = − 2 × 2 − 3 × 3 − 1 × 1 = − 14
\begin{aligned}
u_{11}&=3\times 2+1\times 3+2\times 1=11\\
u_{12}&=-2\times 2-3\times 3-1\times 1=-14
\end{aligned}
u 11 u 12 = 3 × 2 + 1 × 3 + 2 × 1 = 11 = − 2 × 2 − 3 × 3 − 1 × 1 = − 14
次に非線形変換を行う活性化関数としてReLU関数を採用し,以下のように中間層の値を計算してみましょう.
h 11 = max ( 0 , 11 ) = 11 h 12 = max ( 0 , − 14 ) = 0
\begin{aligned}
h_{11} &= \max(0, 11) = 11 \\
h_{12} &= \max(0, -14) = 0
\end{aligned}
h 11 h 12 = max ( 0 , 11 ) = 11 = max ( 0 , − 14 ) = 0
y = 3 × 11 + 2 × 0 = 33
y = 3 \times 11 + 2 \times 0 = 33
y = 3 × 11 + 2 × 0 = 33
となります.
さて,次節からは,パラメータを,どうやって更新していくかを見てみましょう.
目的関数
ニューラルネットワークでも,微分可能でさえあれば解きたいタスクに合わせて様々な目的関数を利用することができます.
平均二乗誤差
例えば,出力層に
N N N 個の値を持つニューラルネットワークで回帰問題を解く場合を考えてみましょう.
N N N 個の出力それぞれ(
y n ( n = 1 , 2 , … , N ) y_n (n=1, 2, \dots, N) y n ( n = 1 , 2 , … , N ) )に対して望ましい出力(
t n ( n = 1 , 2 , … , N ) t_n (n=1, 2, \dots, N) t n ( n = 1 , 2 , … , N ) )が与えられたとき,目的関数をそれぞれの出力(
y n y_n y n )と対応する正解(
t n t_n t n )の間の
平均二乗誤差(mean squared error) とすることで,回帰問題を解くことができます.
L = 1 N ∑ n = 1 N ( t n − y n ) 2
\mathcal{L} = \dfrac{1}{N} \sum_{n=1}^{N}(t_{n} - y_{n})^{2}
L = N 1 n = 1 ∑ N ( t n − y n ) 2
これを最小にするようにニューラルネットワーク中のパラメータを決定するわけです.例えば,上図の例で正解として
t = 20 t = 20 t = 20 が与えられたときの目的関数の値は,
L = 1 1 ( 20 − 33 ) 2 = 169
\mathcal{L} = \dfrac{1}{1} (20 - 33)^2 = 169
L = 1 1 ( 20 − 33 ) 2 = 169
です.これを小さくするような重み行列の値を探せばよいということです.
交差エントロピー
一方,分類問題の場合はしばしば 交差エントロピー(cross entropy) が目的関数として利用されます.
例として,
N N N クラスの分類問題を考えてみましょう.ある入力
x x x が与えられたとき,ニューラルネットワークの出力層に
N N N 個のノードがあり,それぞれがこの入力が
n n n 番目のクラスに属する確率
y n = p ( y = n ∣ x ) y_n = p(y=n|x) y n = p ( y = n ∣ x ) を表しているとします.これは,入力
x x x が与えられたという条件のもとで,予測クラスを意味する
y y y が
n n n であるような確率ということです.
ここで,
x x x が所属するクラスについての正解が,
t = [ t 1 t 2 … t N ] T {\bf t} = \begin{bmatrix} t_1 & t_2 & \dots & t_N \end{bmatrix}^T t = [ t 1 t 2 … t N ] T というベクトルで与えられているとします.ただし,このベクトルは
t n ( n = 1 , 2 , … , N ) t_n (n=1, 2, \dots, N) t n ( n = 1 , 2 , … , N ) のいずれか1つだけが1であり,それ以外は0であるようなベクトルであるとします. これを
1-hotベクトル と呼びます.そして,この1つだけ値が1となっている要素は,その要素のインデックスに対応したクラスが正解であることを意味します.例えば,
t 3 = 1 t_3 = 1 t 3 = 1 であれば3というインデックスに対応するクラスが正解であるということになります.
さて,このような準備を行うと,交差エントロピーは以下のように計算できるものとして記述することができます.
L = − 1 N ∑ n = 1 N t n log y n
\mathcal{L} = - \frac{1}{N} \sum_{n=1}^{N}t_{n}\log y_{n}
L = − N 1 n = 1 ∑ N t n log y n
補足:交差エントロピーについて
以下は,交差エントロピーの定義について知りたい方だけ参考にしてください.情報理論などで交差エントロピーの定義を知っている方は上の式で表されるものが交差エントロピーとは違うようにみえるかもしれません.しかしこれは,以下のように説明できます.今,
q ( y ∣ x ) q(y|x) q ( y ∣ x ) をニューラルネットワークのモデルが定義する条件付き確率とし,
p ( y ∣ x ) p(y|x) p ( y ∣ x ) を実データの条件付き確率とします.ここで,
p ( y ∣ x ) p(y|x) p ( y ∣ x ) は実際には未知であるため,代わりに学習データの経験分布
p ^ ( y ∣ x ) = 1 N ∑ n = 1 N I ( x = x n , y = y n )
\hat{p}(y|x) = \frac{1}{N} \sum_{n=1}^N I(x =x_n, y=y_n)
p ^ ( y ∣ x ) = N 1 n = 1 ∑ N I ( x = x n , y = y n )
を用いることとします.ただし
I I I はディラック関数とよばれ,その等号が成立する時,値が
∞ \infty ∞ ,それ以外では
0 0 0 であるような関数で,その定義域全体にわたる積分は1になるものです.この時,確率分布
p ^ ( y ∣ x ) \hat{p}(y|x) p ^ ( y ∣ x ) と
q ( y ∣ x ) q(y|x) q ( y ∣ x ) の間のKLダイバージェンス(確率分布間の距離を測り、確率分布が一致する時、またその時のみ
0 0 0 となり、それ以外は正の値をとる)は
K L ( p ∣ ∣ q ) = ∫ x , y p ^ ( y ∣ x ) log p ^ ( y ∣ x ) q ( y ∣ x ) d x d y
KL(p||q) = \int_{x, y} \hat{p}(y|x) \log \frac{\hat{p}(y|x)}{q(y|x)} dx dy
K L ( p ∣∣ q ) = ∫ x , y p ^ ( y ∣ x ) log q ( y ∣ x ) p ^ ( y ∣ x ) d x d y
と定義されます.ここでディラックのデルタ関数の定義を用い,また
q q q に依存する項だけを抜き出すと,先程の交差エントロピーの目的関数が導出されます.
ニューラルネットワークの最適化
目的関数の値を最小にするようなパラメータの値を決定することが,ニューラルネットワークの学習の目的であるとわかりました.では,どのようにしてそのパラメータを探し当てればよいのでしょうか.ある目的関数が与えられたもとで,その目的関数が望ましい値をとるようにニューラルネットワークのパラメータを決定することを,ニューラルネットワークの最適化といいます.
最適化の方法を考える前に,まず最適化の対象とはなんであったか,再度確認しましょう.「ニューラルネットワークを最適化する」とは,すなわち「ニューラルネットワークが内部で用いている全てのパラメータの値を適切に決定する」という意味です.では,ニューラルネットワークにおけるパラメータとは,何だったでしょうか.それは,ここまで紹介したシンプルな全結合型ニューラルネットワークの場合,各層の線形変換に用いられていた
W {\bf W} W と
b {\bf b} b のことを指します.
ニューラルネットワークの各パラメータを,目的関数に対する勾配を0とおいて解析的に解くことは,一般的には困難です.しかし,実データをニューラルネットワークに入力すれば,その入力の値における目的関数の勾配を数値的に求めることは可能です.この値が分かれば,パラメータをどのように変化させれば目的関数の値を小さくすることができるのかが分かります.そこで,この勾配を使ってパラメータを繰り返し少しずつ更新していくことで,ニューラルネットワークの最適化を行うことができるのです.この方法について順を追って考えていきましょう.
まず,以下の図を見てください.図中の点線は,パラメータ
w w w を変化させた際の目的関数
L \mathcal{L} L の値を表しています.この例では簡単のため二次関数の形になっていますが,ニューラルネットワークの目的関数は実際には多次元で,かつもっと複雑な形をしていることがほとんどでしょう.しかし,ここでは説明のためこのようにシンプルな形を想像してみましょう.さて,この目的関数が最小値を与えるような
w w w は,どのようにして発見できるでしょうか.
前節で説明したように,ニューラルネットワークのパラメータはまず乱数で初期化されます.ここでは,例として
w = 3 w=3 w = 3 という初期化が行われたと考えてみましょう.そうすると,
w = 3 w=3 w = 3 における
L \mathcal{L} L の勾配
∂ L ∂ w \frac{\partial \mathcal{L}}{\partial w} ∂ w ∂ L が求まります.ニューラルネットワークの目的関数は,全てのパラメータについて微分可能である* ためです.さて,ここでは仮に
w = 3 w=3 w = 3 における
∂ L ∂ w \frac{\partial \mathcal{L}}{\partial w} ∂ w ∂ L が
3 3 3 であったとしましょう(このことを
∂ L ∂ w ∣ w = 3 = 3 \frac{\partial \mathcal{L}}{\partial w} |_{w=3} = 3 ∂ w ∂ L ∣ w = 3 = 3 と書きます).すると,以下の図のように,この
3 3 3 という値は
w = 3 w=3 w = 3 における
L ( w ) \mathcal{L}(w) L ( w ) という関数の接線の傾き(勾配; gradient)を表しています.
(* 厳密には損失関数に微分不可能な点が存在する可能性はあります.例えばReLUは
x = 0 x=0 x = 0 の点で微分不可能なため,ReLUを含んだニューラルネットワークには微分不可能な点があります.しかし,通常使うニューラルネットワークの場合,そのような微分不可能な点はわずかしかないため,以下に説明する最適化の方法の中では,無視できます.)
傾きとは,
w w w を増加させた際に
L \mathcal{L} L が増加する方向を意味しているので,今は
L \mathcal{L} L の値を小さくしたいわけですから,この傾きの逆方向へ
w w w を変化させる,すなわち
w w w から ∂ L / ∂ w \partial \mathcal{L} / \partial w ∂ L / ∂ w を引けばよい ことになります.
これがニューラルネットワークのパラメータを目的関数の勾配を用いて更新していく際の基本的な考え方です.このときの
w w w のステップサイズ(更新量)のスケールを調整するために,勾配に
学習率 (learning rate) と呼ばれる値を乗じるのが一般的です.
例えば,今学習率を
0.5 0.5 0.5 に設定してみます.そうすると,
w w w の更新量は
学習率 × \times × 勾配 で決まるので,
0.5 × 3 = 1.5 0.5 \times 3 = 1.5 0.5 × 3 = 1.5 となります.現在
w = 3 w=3 w = 3 なので,
この値を引いて w ← w − 1.5 w \leftarrow w - 1.5 w ← w − 1.5 と更新した後は,
w = 1.5 w=1.5 w = 1.5 となります.上の図は,この1度の更新を行ったあとの状態を表しています.
1度目の更新を行って,
w w w が
w = 1.5 w = 1.5 w = 1.5 の位置に移動しました.そこで,再度この点においても勾配を求めてみます.今度は
− 1 -1 − 1 になっていたとしましょう.すると
学習率 × \times × 勾配 は
0.5 × − 1 = − 0.5 0.5 \times -1 = -0.5 0.5 × − 1 = − 0.5 となります.これを再び用いて,
w ← w − ( − 0.5 ) w \leftarrow w - (-0.5) w ← w − ( − 0.5 ) と2度目の更新を行うと,今度は
w = 2 w = 2 w = 2 の位置にくるでしょう.このようにして,2回更新したあとは,以下の図のようになります.
徐々に
L \mathcal{L} L が最小値をとるときの
w w w の値に近づいていっていることが見て取れます.
こうして,
学習率 × \times × 勾配 を更新量としてパラメータを変化させていくと,パラメータ
w w w を求めたい
L \mathcal{L} L の最小値を与える
w w w に徐々に近づけていくことができます.このような勾配を用いた目的関数の最小化手法を
勾配降下法 と呼びます.ニューラルネットワークは,基本的に
微分可能な関数のみを層間をつなぐ関数として用いて 設計されるため,登場する関数はすべて微分可能であり,学習データセットを用いて勾配降下法によってパラメータを最適化する方法が適用可能なのです.
ただし,通常ニューラルネットワークを勾配降下法で最適化する場合は,データを一つ一つ用いてパラメータを更新するのではなく,いくつかのデータをまとめて入力し,それぞれの勾配を計算したあと,その勾配の平均値を用いてパラメータの更新を行う方法がよく行われます.これを
ミニバッチ学習 と呼びます.これは,学習データセットから一様ランダムに
k ( > 0 ) k (>0) k ( > 0 ) 個のデータを抽出し,その
k k k 個のデータに対する目的関数の平均の値を小さくするようパラメータを更新することを,異なる
k k k 個のデータの組み合わせに対して繰り返し行う方法です.結果的にはデータセットに含まれる全てのデータを使用していきますが,1度の更新に用いるデータは
k k k 個ずつということになります.実際の実装では,データセット内のサンプルのインデックスをまずランダムにシャッフルして並べた配列を作り,その配列の先頭から
k k k 個ずつインデックスを取り出し,対応するデータを使ってミニバッチを構成します.こうして,全てのインデックスを使い切ること,すなわちデータセット内のデータを1度ずつ,すべてパラメータ更新に用い終えることを
1エポックの学習 と呼びます.そして,この
k k k をバッチサイズもしくはミニバッチサイズと呼び,このような学習方法を指して,
確率的勾配降下法 (SGD: Stocastic Gradient Descent) という名前が用いられます.現在ほとんど全てのニューラルネットワークの最適化手法はこのSGDをベースとした手法となっています.SGDを用いると,全体の計算時間が劇的に少なくできるだけでなく,下図のように目的関数が凸関数でなかったとしても,多くの場合うまくいくことが経験的に知られており,その理論的な裏付けをしようという試みが近年盛んに行われています.
パラメータ更新量の算出
それでは今,下図のような3層の全結合型ニューラルネットワークを考え,1層目と2層目の間の線形変換が
w 1 , b 1 {\bf w}_1, {\bf b}_1 w 1 , b 1 ,2層目と3層目の間の線形変換が
w 2 , b 2 {\bf w}_2, {\bf b}_2 w 2 , b 2 というパラメータによって表されているとします(図ではバイアス
b 1 , b 2 {\bf b}_1, {\bf b}_2 b 1 , b 2 は省略されています).また,これらをまとめて
Θ \boldsymbol{\Theta} Θ と表すことにします.
入力ベクトルは
x {\bf x} x ,ニューラルネットワークの出力は
y ∈ R N {\bf y} \in \mathbb{R}^N y ∈ R N (
N N N 次元実数ベクトルという意味)とし,入力
x {\bf x} x に対応した“望ましい出力”である教師ベクトルを
t {\bf t} t とします.ここで,目的関数には前述の平均二乗誤差関数を用いることとしましょう.
さて,パラメータをそれぞれ適当な乱数で初期化したあと,入力
x {\bf x} x が与えられたときの目的関数の各パラメータについての勾配を計算して,それぞれのパラメータについて更新量を算出してみましょう.
まず,目的関数を改めてベクトル表記を用いて書き下すと,以下のようになります.
L ( y , t ) = 1 N ∣ ∣ t − y ∣ ∣ 2 2
\mathcal{L}({\bf y}, {\bf t}) = \frac{1}{N} || {\bf t} - {\bf y} ||_2^2
L ( y , t ) = N 1 ∣∣ t − y ∣ ∣ 2 2
∣ ∣ t − y ∣ ∣ 2 2 || {\bf t} - {\bf y} ||_2^2 ∣∣ t − y ∣ ∣ 2 2 はここでは
( t − y ) T ( t − y ) ({\bf t} - {\bf y})^T({\bf t} - {\bf y}) ( t − y ) T ( t − y ) と同等の意味となります.さらに,ニューラルネットワーク全体を
f f f と書くことにすると,出力
y {\bf y} y は
y = f ( x ; Θ ) = a 2 ( w 2 a 1 ( w 1 x + b 1 ) + b 2 )
\begin{aligned}
{\bf y} &= f({\bf x}; \boldsymbol{\Theta}) \\
&= a_2 ( {\bf w}_2 a_1({\bf w}_1 {\bf x} + {\bf b}_1) + {\bf b}_2 )
\end{aligned}
y = f ( x ; Θ ) = a 2 ( w 2 a 1 ( w 1 x + b 1 ) + b 2 )
と書くことができます.ここで,
a 1 , a 2 a_1, a_2 a 1 , a 2 はそれぞれ,1層目と2層目の,および2層目と3層目の間で線形変換のあとに施される非線形変換(活性化関数)を意味しています.以下,簡単のために,各層間で行われた線形変換の結果を
u 1 , u 2 {\bf u}_1, {\bf u}_2 u 1 , u 2 とし,中間層の値,すなわち
u 1 {\bf u}_1 u 1 に活性化関数を適用した結果を
h 1 {\bf h}_1 h 1 と書きます.ただし,
u 2 {\bf u}_2 u 2 に活性化関数を適用した結果は
y {\bf y} y と表記します.すると,これらの関係は以下のように整理することができます.
y = a 2 ( u 2 ) u 2 = w 2 h 1 + b 2 h 1 = a 1 ( u 1 ) u 1 = w 1 x + b 1
\begin{aligned}
{\bf y} &= a_2({\bf u}_2) \\
{\bf u}_2 &= {\bf w}_2 {\bf h}_1 + {\bf b}_2 \\
{\bf h}_1 &= a_1({\bf u}_1) \\
{\bf u}_1 &= {\bf w}_1 {\bf x} + {\bf b}_1
\end{aligned}
y u 2 h 1 u 1 = a 2 ( u 2 ) = w 2 h 1 + b 2 = a 1 ( u 1 ) = w 1 x + b 1
パラメータ w 2 {\bf w}_2 w 2 の更新量
それではまず,出力層に近い方のパラメータ,
w 2 {\bf w}_2 w 2 についての
L \mathcal{L} L の勾配を求めてみましょう.これは,合成関数の偏微分なので,連鎖律(chain rule)を用いて以下のように展開できます.
∂ L ∂ w 2 = ∂ L ∂ y ∂ y ∂ w 2 = ∂ L ∂ y ∂ y ∂ u 2 ∂ u 2 ∂ w 2
\begin{aligned}
\frac{\partial \mathcal{L}}{\partial {\bf w}_2}
&= \frac{\partial \mathcal{L}}{\partial {\bf y}} \frac{\partial {\bf y}}{\partial {\bf w}_2} \\
&= \frac{\partial \mathcal{L}}{\partial {\bf y}} \frac{\partial {\bf y}}{\partial {\bf u}_2} \frac{\partial {\bf u}_2}{\partial {\bf w}_2}
\end{aligned}
∂ w 2 ∂ L = ∂ y ∂ L ∂ w 2 ∂ y = ∂ y ∂ L ∂ u 2 ∂ y ∂ w 2 ∂ u 2
この3つの偏微分はそれぞれ,
∂ L ∂ y = − 2 N ( t − y ) ∂ y ∂ u 2 = ∂ a 2 ( u 2 ) ∂ u 2 ∂ u 2 ∂ w 2 = h 1
\begin{aligned}
\frac{\partial \mathcal{L}}{\partial {\bf y}}
&= -\frac{2}{N} ({\bf t} - {\bf y}) \\
\frac{\partial {\bf y}}{\partial {\bf u}_2}
&= \frac{\partial a_2({\bf u}_2)}{\partial {\bf u}_2} \\
\frac{\partial {\bf u}_2}{\partial {\bf w}_2}
&= {\bf h}_1
\end{aligned}
∂ y ∂ L ∂ u 2 ∂ y ∂ w 2 ∂ u 2 = − N 2 ( t − y ) = ∂ u 2 ∂ a 2 ( u 2 ) = h 1
と求まります.ここで,活性化関数の入力に関する出力の勾配
∂ a 2 ( u 2 ) ∂ u 2
\frac{\partial a_2({\bf u}_2)}{\partial {\bf u}_2}
∂ u 2 ∂ a 2 ( u 2 )
が登場しました.これは,例えば活性化関数にシグモイド関数を用いる場合は,
a 2 ( u 2 ) = 1 1 + exp ( − u 2 )
a_2({\bf u}_2) = \frac{1}{1 + \exp(-{\bf u}_2)}
a 2 ( u 2 ) = 1 + exp ( − u 2 ) 1
の微分ですから,すなわち
∂ a 2 ( u 2 ) ∂ u 2 = − − ( exp ( − u 2 ) ) ( 1 + exp ( − u 2 ) ) 2 = 1 1 + exp ( − u 2 ) ⋅ exp ( − u 2 ) 1 + exp ( − u 2 ) = 1 1 + exp ( − u 2 ) ⋅ 1 + exp ( − u 2 ) − 1 1 + exp ( − u 2 ) = 1 1 + exp ( − u 2 ) ( 1 − 1 1 + exp ( − u 2 ) ) = a 2 ( u 2 ) ( 1 − a 2 ( u 2 ) )
\begin{aligned}
\frac{\partial a_2({\bf u}_2)}{\partial {\bf u}_2}
&= -\frac{-(\exp(-{\bf u}_2))}{(1 + \exp(-{\bf u}_2))^2} \\
&= \frac{1}{1 + \exp(-{\bf u}_2)} \cdot \frac{\exp(-{\bf u}_2)}{1 + \exp(-{\bf u}_2)} \\
&= \frac{1}{1 + \exp(-{\bf u}_2)} \cdot \frac{1 + \exp(-{\bf u}_2) - 1}{1 + \exp(-{\bf u}_2)} \\
&= \frac{1}{1 + \exp(-{\bf u}_2)} (1 - \frac{1}{1 + \exp(-{\bf u}_2)}) \\
&= a_2({\bf u}_2)(1 - a_2({\bf u}_2))
\end{aligned}
∂ u 2 ∂ a 2 ( u 2 ) = − ( 1 + exp ( − u 2 ) ) 2 − ( exp ( − u 2 )) = 1 + exp ( − u 2 ) 1 ⋅ 1 + exp ( − u 2 ) exp ( − u 2 ) = 1 + exp ( − u 2 ) 1 ⋅ 1 + exp ( − u 2 ) 1 + exp ( − u 2 ) − 1 = 1 + exp ( − u 2 ) 1 ( 1 − 1 + exp ( − u 2 ) 1 ) = a 2 ( u 2 ) ( 1 − a 2 ( u 2 ))
となります.シグモイド関数の勾配は,このようにシグモイド関数の出力値を使って簡単に計算することができます.
これで
w 2 {\bf w}_2 w 2 の勾配を計算するのに必要な値は全て出揃いました.では実際にNumPyを使ってこれらを計算してみましょう.ここでは簡単のために,バイアスベクトルはすべて0で初期化されているとします.