Ccmmutty logo
Commutty IT
0 pv34 min read

01 機械学習に必要な数学の基礎

https://picsum.photos/seed/7444a98986a04789b07d7a4161a7a1f1/1200/630
本章では,ディープラーニングを含めた機械学習に必要な数学の基礎である「微分」「線形代数」「確率・統計」の3つについて,簡潔に紹介していきます.

機械学習とは

機械学習は,コンピュータがデータから学習することで,そのデータに含まれる規則や判断基準などのパターンを抽出する関数を獲得し,その関数を用いて新たなデータについて予測を行う手法です.機械学習技術は現在では,画像認識,音声認識,文書分類,医療診断,迷惑メール検知,商品推薦など,幅広い分野に応用されています.
ここで,学習によって獲得される関数(モデルともよばれます)は多くの場合パラメータによって特徴づけられており,パラメータを決めればその関数の挙動が決まります.最も単純な例として直線の関数を考えると,これは傾きaaと切片bbの2つのパラメータで特徴づけられ,f(x;a,b)=ax+bf(x; a, b) = ax + bのように表記します.(ここでxxは関数の入力変数とよびます.またの後ろにパラメータを表記します).機械学習の目標は,データを使ってこれらのパラメータを決定することです.
機械学習は,目的関数とよばれる関数を最小化(または最大化)することで学習,つまり望ましい挙動をするようなパラメータを決定します.そのため,目的関数はモデルの出力値が望ましい場合には小さな(または大きな)値をとり,そうでない場合は大きな(または小さな)値をとるように設計します.
例えば,モデルの入力と出力のペアからなるデータセットD=((x1,y1),(x2,y2),,(xn,yn))D=\left((x_1, y_1), (x_2, y_2), \ldots, (x_n, y_n) \right)が与えられたとします.ここで,xix_{i}ii番目のサンプルの入力,yiy_{i}ii番目のサンプルの出力を表します.これらの点の近くをできる限り通るような直線f(x;a,b)=ax+bf(x; a, b) = ax + bを求めたいとします.出力が実数値の場合,パラメータθ=(a,b)\theta = (a, b)とおいて,次のような目的関数がよく利用されます.
L(θ)=i=1n(yif(xi;θ))2L( \theta) = \sum_{i=1}^n (y_i - f(x_i; \theta))^2
この関数を最小化することを考えます.上式では,モデルの予測値f(xi;θ)f(x_i; \theta)と正解yiy_iとの二乗誤差を求め,その合計値を計算しています.全てのデータで予測と正解が一致する時だけ00,それ以外は,大きく間違えるほど大きな正の値をとります.間違えた度合いを測る関数を,特に損失関数とよぶこともあります.また,与えられたデータセット全体に対するペナルティの合計値を求めるような目的関数はコスト関数ともよばれることもあります.目的関数の引数はθ\thetaとなっており,目的関数を最小化する最適なθ\thetaを求めることで,データセットDDを精度良く予測する関数f(x;θ)f(x; \theta)が得られることになります
目的関数の最小化問題を解くためには微分と線形代数の知識が必要になります.ただし,微分と線形代数の全ての知識は必要ありません.以降,機械学習の理解に必要な最低限の知識を説明します.

微分

関数のある入力値における微分は,その点におけるグラフの接線の傾きに相当し,下図のように関数に接する直線として表すことができます.
例えば上図の関数においては,aaの点における接線は赤い直線であり,その傾きは+3+3となっています.右肩上がりな直線の傾きは正の値になります.
それに対し,次の図のbbの点においては,傾きは1-1であり,接線は右肩下がりの直線となっています.
もし目的関数の値が全てのパラメータについて計算できているならば,その中から目的関数の最小値を選び出すのは可能ですが,そのようなことは通常不可能です.しかし,ある点でのパラメータに関する微分を計算できれば,接線の傾きを求めることができ,パラメータ全域のグラフ形状がわからなくても,パラメータを変化させた時に目的関数がどう変化するのかが分かります.この情報に基づいて,目的関数を小さくするようにパラメータを更新することができます.
再度,微分の説明に戻り,その定義や多変数入力,多変数出力の場合について詳しくみていきます.

2点間を通る直線の傾き

はじめに,微分の原理を理解していくために,下図に示す2点間を通る直線の傾きaaを求めてみましょう.
この時,傾きaaは,
a=f(x2)f(x1)x2x1 a = \dfrac{f(x_{2}) - f(x_{1})}{x_{2}-x_{1}}
と求まります.

1点での接線の傾き

次に,与えられた関数の接線の傾きを求めていきます.そのためには,極限の考えが必要になります.極限では,変数がある値に限りなく近づくとき,その変数によって記述される関数がどのような振る舞いをするか考えます.極限を表すために,lim\lim という記号が一般的に用いられます.例えば,
limx03x=3×0=0 \displaystyle \lim _{x\rightarrow 0}3x=3\times 0=0
は,xxという変数を00に近づけていったときに式の値がどのような値になるかを与えます.
それでは,下図のある点xxにおける接線の傾きaaを求めていきましょう.
さきほど考えた2点を通る直線と極限を組み合わせて,接線を求めることができます.
はじめに,xxからhhだけ離れた点x+hx+hを考え,2点を通る直線の傾きを求めてみます.次にhhh0h \rightarrow 0のように小さくしていけば,直線の開始点と終了点の2点が1点に収束し,1点での接線として考えることができます.これを式でみると
f(x)=limh0f(x+h)f(x)(x+h)x=limh0f(x+h)f(x)h \begin{aligned} f'(x) &=\lim _{h\rightarrow 0}\dfrac {f\left( x+h\right) -f\left( x\right) }{\left( x+h\right) -x}\\ &=\lim _{h\rightarrow 0}\dfrac {f\left( x+h\right) -f\left( x\right) }{h}\\ \end{aligned}
となります.上の式を導関数とよびます.また導関数を求めることを微分するといいます.また,記号の使い方として,
f(x)=ddxf(x) f'(x) = \dfrac{d}{dx} f(x)
のように表しても構いません.このddという記号はある変数における微小変化量を表しており,df(x)df(x)が対象の値の変化量,dxdxxxの変化量を表し,それらを小さくしていった時の極限を表します.この記法は煩雑ですが,変数がxxyyなど複数ある場合に,xxで微分しているか,yyで微分しているかが明確になるため,正確な表現をすることができます.

微分の公式

覚えておくと便利な微分の公式がありますので,以下に幾つか紹介していきます(ccは定数,xxは変数を表します).
(c)=0(x)=1(cf(x))=cf(x)(xn)=nxn1(f(x)+g(x))=f(x)+g(x)(f(x)g(x))=f(x)g(x)+f(x)g(x)(f(g(x)))=df(u)dududx=f(g(x))g(x) \begin{align} \left( c\right) ^{'}&=0 \\ \left( x\right)^{'}&=1\\ \left( cf(x) \right)^{'} &= c f'(x) \\ \left( x^{n} \right)^{'} &=nx^{n-1} \\ \left( f(x) + g(x) \right) ^{'} &=f^{'}(x)+g^{'}(x) \\ \left( f(x) g(x) \right) ^{'} &= f^{'}(x)g(x) + f(x)g^{'}(x) \\ \left( f(g(x)) \right) ^{'} &= \frac{df(u)}{du}\frac{du}{dx} = f^{'}(g(x)) \cdot g^{'}(x) \\ \end{align}
例えば,以下の微分を考えてみましょう.
(3x2+4x+5)=(3x2)+(4x)+(5)=3×(x2)+4×(x)+5×(1)=3×2x+4×1+5×0=6x+4 \begin{aligned} \left( 3x^{2} + 4x + 5 \right)' &= \left( 3x^{2} \right)' + \left( 4x \right)' + \left( 5 \right)' \\ &= 3 \times \left( x^{2} \right)' + 4 \times \left( x \right)' + 5 \times \left( 1 \right)' \\ &= 3 \times 2x + 4 \times 1 + 5 \times 0 \\ &= 6x + 4 \end{aligned}
このように,各項の和に対する微分の計算は,各項に対して微分した後に和をとるようにしても等式の関係が成立します.また,各項の微分を行う際に,定数の係数(変数にかかる数)は微分演算の外側に出すことができます.これらは微分の線形性とよばれる性質であり,この性質を使うことで,微分を簡単に計算できるようになります.

合成関数の微分

後の章で詳しく述べますが,一般的に機械学習においては複雑な合成関数の微分を考える必要が出てきます.簡単な例として,
{(3x+4)2} \left\{ (3x + 4)^{2} \right\}'
を計算することを考えます.この式は3x+43x+4という内側の部分と()2(\cdot)^{2}という外側の部分で構成されています.この式を(9x2+24x+16)(9x^2 + 24x + 16)'のように展開してから微分を計算してもよいのですが,3乗や4乗となってくると展開するのも大変になります.ここで役に立つ考え方が合成関数の微分です.先程紹介した微分の公式の最後に登場していた式です.合成関数の微分は,内側の微分と外側の微分をそれぞれ行い,その結果をかけ合わせることで求めることができます.外側の微分の際には関数の引数を入力とみなし,その入力について微分をとります.
それでは先程の(3x+4)2(3x+4)^2という関数の微分を考えてみます.
まず内側の関数をu=(3x+4)u = (3x+4)とおいて,
{(3x+4)2}=(u2) \left\{ (3x + 4)^{2} \right\}' = (u^{2})'
とします.ここで,()(\cdot)' をもう少し厳密に考える必要が出てきます.今はxxuuの2つの変数が登場しており,()(\cdot)'では,xxで微分しているのかuuで微分しているのかの区別がつきません.そこで,多少複雑に見えますが,先程紹介したddを使った記法で微分する変数を厳密に記述すると,
{(3x+4)2}=ddx{(3x+4)2}=dudxddu(u2)=ddu(u2)ddx(3x+4)=2u3=6u=6(3x+4)=18x+24 \begin{aligned} \left\{ (3x + 4)^{2} \right\}' &= \dfrac{d}{dx} \left\{ (3x + 4)^{2} \right\} \\ &= \dfrac{du}{dx} \dfrac{d}{du} (u^2) \\ &= \dfrac{d}{du} (u^{2}) \cdot \dfrac{d}{dx} (3x + 4) \\ &= 2u \cdot 3 \\ &= 6u = 6(3x + 4) = 18x + 24 \\ \end{aligned}
となります.
ニューラルネットワークを訓練する際には合成関数の微分を使用する場面が何度も登場するため,この計算方法をしっかりと覚えておきましょう.

偏微分

機械学習では,1つの入力変数xxから出力変数yyを予測するケースは稀であり,基本的には,複数の入力変数x1,x2,,xMx_{1}, x_{2}, \ldots, x_{M}を用いて出力変数yyを予測する多変数関数を扱います.例えば,家賃を予測する場合,部屋の広さだけではなく,駅からの距離や犯罪発生率なども考慮した方がより正確に予測できると期待されます.複数の入力x1,x2,,xMx_1, x_2, \ldots, x_Mを考慮した関数f(x1,x2,,xM)f(x_1, x_2, \ldots, x_M)を多変数関数とよびます.この多変数関数において,ある入力xmx_mにのみ注目して微分することを偏微分とよび,
xmf(x1,x2,,xM) \dfrac{\partial}{\partial x_{m}} f(x_{1}, x_{2}, \ldots, x_{M})
のように表します.微分を表す記号が,ddから\partialに変わり,計算としてはxm\dfrac{\partial}{\partial x_{m}}の場合はxmx_{m}以外は定数と考えxmx_{m}にのみ着目して微分を行います.(ただし,入力変数が他の入力変数と独立ではない場合は定数と考えることはできません.本講義ではそのようなケースは出てきません).
例題で具体的な計算の流れを確認していきましょう.
x1(3x1+4x2)=x1(3x1)+x1(4x2)=3×x1(x1)+4x2×x1(1)=3×1+4x2×0=3 \begin{aligned} \dfrac {\partial }{\partial x_{1}}\left( 3x_{1}+4x_{2}\right) &=\dfrac {\partial }{\partial x_{1}}\left( 3x_{1}\right) +\dfrac {\partial }{\partial x_{1}}\left( 4x_{2}\right) \\ &=3\times \dfrac {\partial }{\partial x_{1}}\left( x_{1}\right) +4x_{2}\times \dfrac {\partial }{\partial x_{1}}\left( 1\right) \\ &=3\times 1+4x_{2}\times 0\\ &= 3 \end{aligned}
偏微分でも微分と同じ公式を適用できます.今回のケースでは,x1x_{1}にだけ着目するため,x2x_{2}は定数として扱うことを把握しておけば上記の計算の流れが理解できるはずです.

線形代数

線形代数とは

次に,ベクトル,行列,逆行列などが登場する数学の一分野である線形代数について解説していきます.
線形代数を導入することで,複数の変数間の関係をシンプルに記述可能となるため,機械学習の中でも度々登場してきます.ぜひ身に着けていきましょう.

スカラー,ベクトル,行列,テンソル

最初に線形代数で使われるスカラー,ベクトル,行列,テンソルの4つを解説します.
スカラーは,1つの値もしくは変数のことです.例えば,
x, y, M, N x, \ y,\ M,\ N
のように表します.スカラーは例えば温度や身長といった単一の量を表すことに使われます.
ベクトルは,複数のスカラーを縦方向(もしくは横方向)に集めて並べたものであり,
x=[x1x2x3], y=[y1y2yN] \bf{x}=\begin{bmatrix} x_{1} \\ x_{2} \\ x_{3} \end{bmatrix}, \ \bf{y}=\begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{N} \end{bmatrix}
のように表します.ベクトルの表記は太文字とする場合が多く,スカラーかベクトルかを区別できるようにしています.ベクトルを表現する際,縦方向に並べたものを列ベクトル,横方向に並べたものを行ベクトルとよびます.数学や機械学習では列ベクトルを利用する論文や参考書が多いため,特に明示しない限り,単にベクトルと表現した場合には列ベクトルを指すこととします.
行列は複数の同じサイズのベクトルを並べたものであり,
X=[x11x12x21x22x31x32] \bf{X}=\begin{bmatrix} x_{11} & x_{12} \\ x_{21} & x_{22} \\ x_{31} & x_{32} \end{bmatrix}
のように表します.行列のサイズは行と列で表現します.例えば,このX\bf{X}は3行2列であり,サイズが(3, 2)の行列と言います.多くの場合,行列は大文字,または大文字の太文字で表記されます.
テンソルはベクトルや行列を一般化した概念であり,ベクトルは1階のテンソル,行列は2階のテンソルと表現することができます.また,図のように行列を奥行き方向にさらに並べたものは3階のテンソルとなります.例えば,カラー画像をデジタル表現する場合,画像を構成する各ピクセルはRGB (Red Green Blue) などの色空間を用いるのが一般的であり,(行番号,列番号,色)の3つの軸で1つの値を指定するため,3階のテンソルで表現されます.本講座を含めて,単にテンソルと表現されている場合には,3階以上のテンソルを指すことが多いので,注意してください.
線形代数では y\bf{y}X\bf{X} といった文字だけで式変形をしていくため,どのような形の数値が取り扱われているかわかりくいのですが,これはベクトルなどと常に意識しておくことでその形を見失わないように注意しましょう.
スカラー,ベクトル,行列,テンソルの一般的な記法をまとめると下表の通りです.本講座でもこの記法を用いています.
小文字大文字
細文字スカラーの変数スカラーの定数
太文字ベクトル行列,テンソル

足し算・引き算

行列やベクトルの演算について覚えていきましょう.足し算は同じサイズの行列,ベクトル間だけで成立し,次のように計算されます.
[123]+[456]=[1+42+53+6]=[579][123456]+[789101112]=[1+72+83+94+105+116+12]=[81012141618] \begin{aligned}&\begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}+\begin{bmatrix} 4 \\ 5 \\ 6 \end{bmatrix}=\begin{bmatrix} 1+4 \\ 2+5 \\ 3+6 \end{bmatrix}=\begin{bmatrix} 5 \\ 7 \\ 9 \end{bmatrix}\\ &\begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix}+\begin{bmatrix} 7 & 8 & 9 \\ 10 & 11 & 12 \end{bmatrix}=\begin{bmatrix} 1+7 & 2+8 & 3+9 \\ 4+10 & 5+11 & 6+12 \end{bmatrix}=\begin{bmatrix} 8 & 10 & 12 \\ 14 & 16 & 18 \end{bmatrix}\end{aligned}
このように行列やベクトルの中の要素で対応する場所を足し合わせます.引き算も同様です.同じサイズでないと計算が成立しないということを覚えておきましょう.

転置

ベクトルは縦向きの列ベクトルを基本としていましたが,横向きのベクトルを使いたい場合もあります.そこで縦向きのベクトルを横向きのベクトルに,横向きのベクトルを縦向きのベクトルに入れ替える演算を**転置(Transpose)**とよび,TTで表記します.例えば,
x=[123], xT=[123] \begin{aligned} \bf{x} &= \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix}, \ \bf{x}^{T}= \begin{bmatrix} 1 & 2 & 3 \\ \end{bmatrix} \end{aligned}
のようになります. 行列に対する転置では,サイズが(N,M)(N, M)から(M,N)(M, N)になり,iijj列目の値が転置後にはjjii列目の値になります.
X=[142536], XT=[123456] \begin{aligned} \bf{X} &= \begin{bmatrix} 1 & 4 \\ 2 & 5 \\ 3 & 6 \end{bmatrix}, \ \bf{X}^{T} = \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix} \end{aligned}
転置の公式として次を覚えておくとよいでしょう.
(1) (AT)T=A(2) (AB)T=BTAT(3) (ABC)T=CTBTAT \begin{aligned}& \left( 1 \right) \ \left( \bf{A}^{T} \right)^{T} = \bf{A}\\ &\left( 2 \right) \ \left( \bf{A} \bf{B} \right) ^{T}= \bf{B}^{T} \bf{A}^{T}\\ &\left( 3 \right) \ \left( \bf{A} \bf{B} \bf{C} \right) ^{T}= \bf{C}^{T} \bf{B}^{T} \bf{A}^{T} \end{aligned}

内積

同じサイズのベクトル間では内積が定義できます.内積は同じ位置の対応する値同士を掛けていき,それらを足し合わせたものです.
[123][456]=1×4+2×5+3×6=32 \begin{aligned}& \begin{bmatrix} 1 & 2 & 3 \end{bmatrix} \begin{bmatrix} 4 \\ 5 \\ 6 \end{bmatrix} = 1 \times 4 + 2 \times 5 + 3 \times 6 = 32 \end{aligned}

掛け算(行列積)

行列の掛け算には,行列積,外積,要素積(アダマール積)など複数種あります.ここではそのうち最もよく使われる行列積について説明します.以降では明示しない限り行列の掛け算は行列積を指すこととします.
行列AAと行列BBの行列積はAAの各行とBBの各列の内積を並べたものとして定義されます.例えば行列Aの2行目の行ベクトルと行列Bの3列目の列ベクトルの内積は結果の行列Cの2行3列目に対応します.
そして,内積が定義される条件はベクトルのサイズが等しいということでしたが,ここでもそれが成り立つために,Aの行のサイズ(=Aの列数)とBの列のサイズ(=Bの行数)が一致する必要があります.また,結果はAの行数とBの列数からなる行列となります.
また,行列積がスカラー積と大きく異なる性質のひとつとして,ABABBABAが等しいとは限らないということが挙げられます.
行列積は線形代数や機械学習の多くの問題で使われます.また,行列では割り算に相当する演算はありませんが,後述する逆行列を使って4/2=4×124 / 2 = 4 \times \dfrac{1}{2}のように割り算を逆数(逆行列)の掛け算として記述します.
それでは,計算条件の確認も踏まえて,下記の3つを練習問題として解いてください.
(1)[12][34](2)[1234][56](3)[12][3456][31] \begin{aligned} &\left( 1\right) \begin{bmatrix} 1 & 2 \end{bmatrix} \begin{bmatrix} 3 \\ 4 \end{bmatrix}\\ &\left( 2\right) \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}\begin{bmatrix} 5 \\ 6 \end{bmatrix}\\ &\left( 3\right) \begin{bmatrix} 1 & 2 \end{bmatrix}\begin{bmatrix} 3 & 4 \\ 5 & 6 \end{bmatrix}\begin{bmatrix} 3 \\ 1 \end{bmatrix} \end{aligned}
こちらが解答です.
(1)[12][34]=1×3+2×4=11(2)[1234][56]=[1×5+2×63×5+4×6]=[1739](3)[12][3456][31]=[12][3×3+4×15×3+6×1]=[12][1321]=1×13+2×21=55 \begin{aligned} &\left( 1\right) \begin{bmatrix} 1 & 2 \end{bmatrix}\begin{bmatrix} 3 \\ 4 \end{bmatrix} = 1\times 3 + 2 \times 4 = 11\\ &\left( 2\right) \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}\begin{bmatrix} 5 \\ 6 \end{bmatrix} = \begin{bmatrix} 1 \times 5 + 2 \times 6 \\ 3 \times 5 + 4 \times 6 \end{bmatrix} = \begin{bmatrix} 17 \\ 39 \end{bmatrix}\\ &\left( 3\right) \begin{bmatrix} 1 & 2 \end{bmatrix}\begin{bmatrix} 3 & 4 \\ 5 & 6 \end{bmatrix}\begin{bmatrix} 3 \\ 1 \end{bmatrix} =\begin{bmatrix} 1 & 2 \end{bmatrix}\begin{bmatrix} 3 \times 3 + 4 \times 1 \\ 5 \times 3 + 6 \times 1 \end{bmatrix} = \begin{bmatrix} 1 & 2 \end{bmatrix}\begin{bmatrix} 13 \\ 21 \end{bmatrix} = 1 \times 13 + 2 \times 21 =55 \end{aligned}
この形の計算は,機械学習においてよく登場してきます.行列積は,演算後に形が変わる場合があることを覚えておきましょう.

ベクトル,行列のサイズ

行列積を行った後は行列サイズが変わります.サイズが(L,M)(L, M)の行列と(M,N)(M ,N)の行列の行列積の結果は(L,N)(L, N)となります.例えば先ほどの3つの練習問題のサイズがどのように変化したかをまとめると,
となります.(3)は最初のベクトルと行列の結果が横方向のベクトルであり(1)に帰着することに注意してください.また,ある次元のサイズが1となった場合,その次元を削除しベクトルがスカラーに,行列がベクトルになる場合があります.

単位行列

スカラー値の11は,10×1=1010 \times 1 = 10といったように,その数を任意の数に乗じても変わらないという性質を持ちます.行列の演算において,これと同様の働きをする行列が単位行列です.
I=[100010001] \bf{I}=\begin{bmatrix} 1 & 0 & \ldots & 0 \\ 0 & 1 & \ldots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \ldots & 1 \end{bmatrix}
上記のような形をしており,記号I\bf{I}で表されるのが一般的です.行列の斜めの要素を対角要素とよび,それ以外の要素を非対角要素とよびます.単位行列は,対角要素が1で,非対角要素が0であるような正方行列(行要素の数と列要素の数が一致する行列)です.例えば, 2×22 \times 2行列の場合は,
I=[1001] \bf{I} =\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}
であり,3×33 \times 3行列の場合は,
I=[100010001] \bf{I}=\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix}
となります.行列のサイズを明示したい場合は,InI_{n} (n×nn \times n行列の場合)と添字を付けて区別します.
単位行列は任意の正方行列A\bf{A}に対し,以下が成立します.
AI=AIA=A \begin{aligned} \bf{A}\bf{I}&=\bf{A}\\ \bf{I}\bf{A}&=\bf{A} \end{aligned}
先程説明したように,行列の掛け算が成立するためには,IIのサイズはAAと同じである必要があります.
実際に計算して,元の行列と値が変わらないかを確認してみると,
[1234][1001]=[1×1+2×01×0+2×13×1+4×03×0+4×1]=[1234] \begin{aligned}\begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} &=\begin{bmatrix} 1\times 1+2\times 0 & 1\times 0+2\times 1 \\ 3\times 1+4\times 0 & 3\times 0+4\times 1 \end{bmatrix}\\ &= \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix} \end{aligned}
のように,元の値と一致することが確認できます.

逆行列

逆行列とは,元の正方行列にかけると単位行列になるような行列であり,スカラーにおける逆数(2×21=12 \times 2^{-1} = 1)に対応するような行列です.行列A\bf{A}に対し,その逆行列はA1\bf{A}^{-1}のように表記します.
逆行列の定義を数式で表すと,
AA1=IA1A=I \begin{aligned} \bf{A}\bf{A}^{-1}=\bf{I}\\ \bf{A}^{-1}\bf{A}=\bf{I} \end{aligned}
となります.ここで,I\bf{I} は先程の単位行列です.サイズが2×22 \times 23×33 \times 3といった小さな行列の場合には,逆行列計算に公式がありますが,機械学習ではより大きなサイズの行列(1000×10001000 \times 1000など)を扱う必要が出てくるため,逆行列を効率的に求める計算手法が提案されています.
逆行列は常に存在するとは限りません.逆行列が存在するような行列のことを正則行列とよびます(行列が正則であるための条件については今回は説明しません).

線形結合と二次形式

機械学習の式によく出てくる形式として,bTx\bf{b}^{T}\bf{x}xTAx\bf{x}^{T}\bf{A}\bf{x}の2つの形式があります.前者は線形結合もしくは一次結合,後者は二次形式とよばれています.スカラーの場合,一次式(ax+bax+b)や二次式(ax2+bx+cax^2+bx+c)がありますが,それをベクトルに拡張したものです.
線形結合の計算の中身を見てみると,
b=[12], x=[x1x2]bTx=[12][x1x2]=x1+2x2 \begin{aligned} \bf{b}&=\begin{bmatrix} 1 \\ 2 \end{bmatrix},\ \bf{x}=\begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix}\\ \bf{b}^{T}\bf{x}&=\begin{bmatrix} 1 & 2 \end{bmatrix}\begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix}=x_{1}+2x_{2}\end{aligned}
のようにx\bf{x}の要素であるx1x_{1}もしくはx2x_{2}に関して,一次式となっていることがわかります.
また,二次形式も同様に計算の中身を確認してみると,
A=[1234], x=[x1x2]xTAx=[x1x2][1234][x1x2]=[x1x2][x1+2x23x1+4x2]=x1(x1+2x2)+x2(3x1+4x2)=x12+5x1x2+4x22 \begin{aligned} \bf{A}&=\begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix},\ \bf{x}=\begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix}\\ \bf{x}^{T}\bf{A}\bf{x} &=\begin{bmatrix} x_{1} & x_{2}\end{bmatrix} \begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}\begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix}\\ &=\begin{bmatrix}x_{1} & x_{2}\end{bmatrix} \begin{bmatrix} x_{1}+2x_{2} \\ 3x_{1}+4x_{2} \end{bmatrix}\\ &=x_{1}\left( x_{1}+2x_{2}\right) +x_{2}\left( 3x_{1}+4x_{2}\right) \\ &=x^{2}_{1}+5x_{1}x_{2}+4x_{2}^{2}\end{aligned}
となり,各要素において二次式となっていることがわかります.
従って,任意の二次関数を
xTAx+bTx+c \bf{x}^{T}\bf{A}\bf{x} + \bf{b}^{T}\bf{x} + c
の形で表現できます.ここで,ccはスカラーの定数項です.

ベクトルによる微分と勾配

微分は入力を変えた場合の関数値の変化量と説明しました.同様に関数の入力がベクトルである場合,ベクトルによる微分を考えることができます.関数のそれぞれのベクトルの成分毎に偏微分を計算し,それらを並べてベクトルにしたものを勾配とよびます.
勾配の計算を紹介する前に,下記の例題を計算しましょう.
b=[34], x=[x1x2]bTx=[34][x1x2]=3x1+4x2 \begin{aligned} \bf{b}&=\begin{bmatrix} 3 \\ 4 \end{bmatrix}, \ \bf{x}=\begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix}\\ \bf{b}^{T}\bf{x}&=\begin{bmatrix} 3 & 4 \end{bmatrix}\begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix} =3x_{1}+4x_{2}\end{aligned}
このbTx\bf{b}^{T}\bf{x}を ベクトルx\bf{x}で微分したものを,
x(bTx) \dfrac {\partial }{\partial \bf{x}}\left( \bf{b}^{T}\bf{x}\right)
と表し.これをベクトルで微分すると言います.今回の例では,
x(bTx)=x(3x1+4x2)=[x1(3x1+4x2)x2(3x1+4x2)] \begin{aligned} \dfrac {\partial }{\partial \bf{x}}\left( \bf{b}^{T}\bf{x}\right) &=\dfrac {\partial }{\partial \bf{x}}\left( 3x_{1}+4x_{2}\right) \\ &=\begin{bmatrix} \dfrac {\partial }{\partial x_{1}} \left( 3x_{1}+4x_{2}\right) \\ \dfrac {\partial }{\partial x_{2}} \left( 3x_{1}+4x_{2}\right) \end{bmatrix} \end{aligned}
のようになり,計算を進めると
x1(3x1+4x2)=x1(3x1)+x1(4x2)=3×x1(x1)+4x2×x1(1)=3×1+4x2×0=3 \begin{aligned}\dfrac {\partial }{\partial x_{1}}\left( 3x_{1}+4x_{2}\right) &=\dfrac {\partial }{\partial x_{1}}\left( 3x_{1}\right) +\dfrac {\partial }{\partial x_{1}}\left( 4x_{2}\right) \\ &=3\times \dfrac {\partial }{\partial x_{1}}\left( x_{1}\right) +4x_{2}\times \dfrac {\partial }{\partial x_{1}}\left( 1\right) \\ &=3\times 1+4x_{2}\times 0\\ &=3\end{aligned}
x2(3x1+4x2)=x2(3x1)+x2(4x2)=3x1×x2(1)+4×ax2(x2)=3x1×0+4×1=4 \begin{aligned}\dfrac {\partial }{\partial x_{2}}\left( 3x_{1}+4x_{2}\right)&=\dfrac {\partial }{\partial x_{2}}\left( 3x_{1}\right) +\dfrac {\partial }{\partial x_{2}}\left( 4x_{2}\right) \\ &=3x_{1}\times \dfrac {\partial }{\partial x_{2}}\left( 1\right) +4\times \dfrac {\partial }{ax_{2}}\left( x_{2}\right) \\ &=3x_{1} \times 0 + 4 \times 1 \\ &= 4 \end{aligned}
となり,下記の計算結果が得られます.
x(bTx)=[x1(3x1+4x2)x2(3x1+4x2)]=[34]=b \begin{aligned} \dfrac {\partial }{\partial \bf{x}}\left( \bf{b}^{T}\bf{x}\right) &=\begin{bmatrix} \dfrac {\partial }{\partial x_{1}} \left( 3x_{1}+4x_{2}\right) \\ \dfrac {\partial }{\partial x_{2}} \left( 3x_{1}+4x_{2}\right) \end{bmatrix} =\begin{bmatrix} 3 \\ 4 \end{bmatrix} = \bf{b} \end{aligned}
もう一問,以下の例題を考えましょう.
b=[34], x=[x1x2]x(b)=[x1(3)x2(4)]=[00]=0 \begin{aligned} \bf{b}&=\begin{bmatrix} 3 \\ 4 \end{bmatrix}, \ \bf{x}=\begin{bmatrix} x_{1} \\ x_{2} \end{bmatrix}\\ \dfrac {\partial }{\partial \bf{x}}\left( \bf{b}\right) &=\begin{bmatrix} \dfrac {\partial }{\partial x_{1}}\left( 3 \right) \\ \dfrac {\partial }{\partial x_{2}}\left( 4 \right) \end{bmatrix} =\begin{bmatrix} 0 \\ 0 \end{bmatrix}=\bf{0}\end{aligned}
偏微分を行う対象の変数が含まれていない場合,その偏微分は00となります.要素が00のみで構成されたベクトルを零(ゼロ)ベクトルと言います.
これらを踏まえて,公式としてまとめておきましょう.
(1) x(c)=0(2) x(bTx)=b(3) x(xTAx)=(A+AT)x \begin{aligned} &\left( 1\right) \ \dfrac {\partial}{\partial \bf{x}}\left( \bf{c} \right) = \bf{0}\\ &\left( 2\right) \ \dfrac {\partial }{\partial \bf{x}}\left( \bf{b}^{T}\bf{x}\right) = \bf{b}\\ &\left( 3\right) \ \dfrac {\partial }{\partial \bf{x}}\left( \bf{x}^{T}\bf{A}\bf{x}\right) =\left( \bf{A}+\bf{A}^{T}\right) \bf{x}\end{aligned}
(1)と(2) はすでに導出済みです.(3) は導出が少し複雑なので省略しますが,数値を代入して確認してみてください.この3つの公式は機械学習を学んでいく上で非常に重要な公式となりますので,必ず覚えておきましょう.
こういった行列などにおける公式は他にもたくさんあり,論文などを読む際にはどういった公式があるのかを知っておくことも重要です.例えば,The Matrix Cookbookなどを参考にしてみてください.
また,今回は多入力単出力関数の微分として勾配まで紹介しましたが,多入力多出力関数の微分であるヤコビ行列(ヤコビアン)もニューラルネットワークの誤差逆伝播法を理解するために必要となります.さらに詳しく知りたい方は,例えばThe Matrix Calculus You Need For Deep Learningなどを参考にしてみてください.

確率・統計

確率や統計は何に使えるのか

機械学習といえば確率や統計といったイメージで勉強する人も多いと思いますが,簡単なアルゴリズムであれば,微分と線形代数を理解しておくだけで説明することができ,確率や統計が出てくることはありません.それでは,確率,統計はなぜ必要なのでしょうか?
機械学習の目的はそのデータの背後にある普遍性,法則を捉えることです.確率はデータの分布や不確実性といった概念を数式化することができます.また統計によって,ある集団に対する様々な統計量を得ることができ,それらを使ってデータを扱いやすいように正規化したり,モデルが妥当なのか,各データが外れ値ではないのかといった判断をすることができます.

確率

確率は様々な可能性がある事象に対し,その事象が起こることが期待される度合いを表します.パラメータ推定の文脈では確率はどれくらい起きそうだという信念を表す場合もあります.確率はp(x)p(x)のような関数の形で表し,xx確率変数とよびます.確率変数は起きうる事象のいずれかの値をとるような変数です.確率変数には離散型と連続型がありますが,本節では離散型の確率変数を扱います.確率変数xxの値がuuであった時の確率はp(x=u)p(x=u),もしくはp(u)p(u)と省略して表わされます.確率は,「全ての事象の確率の和が11になる」,「全ての事象の確率は00以上である」という2つの制約を満たします.これを式で書くと,
xp(x)=1p(x)0 \begin{align} \sum_{x } p(x) &= 1 \\ p(x) & \geq 0 \end{align}
となります.
2つの事象が同時に起きる確率を同時確率とよびp(x,y)p(x, y)のように表します.例えばサイコロを2回振り,1回目の目が11,2回目の目が55となる確率は同時確率で表すことができます.
同時確率のうち,特定の確率変数のみに注目し,それ以外の確率変数について和を取って消去する操作を周辺化とよびます(周辺化という言葉は,行を1つ目の確率変数,列を2つ目の確率変数に対応させて同時確率を表で書いた場合,その行の合計,列の合計を表の周辺に書いたことからそうよばれています).周辺化の結果は,注目した確率変数の確率に一致します.
p(x)=yp(x,y)p(y)=xp(x,y) p(x) = \sum_y p(x, y) \\ p(y) = \sum_x p(x, y)
片方の確率変数がある値で固定されている条件下で,もう片方の確率がどうなるのかを表した確率分布を条件付き確率とよび,p(yx)p(y|x)のように表します.例えばyyを外で雨が降っているかを表す確率変数,xxを部屋に入ってきた人が傘を持っていたかを表す確率変数とします(y=1y=1を雨が降っている,y=0y=0を雨が降っていない,のように割り当てます).この時p(yx)p(y|x)は,部屋に入ってきた人が傘をもっていた場合に外で雨が降っている条件付き確率を表します.
条件付き確率は,同時確率を条件の確率で割った値と一致します.
p(yx)=p(x,y)p(x) p(y|x) = \frac{p(x, y)}{p(x)}
ここで,条件付確率の式を変形させたp(yx)p(x)=p(x,y)p(y|x)p(x) = p(x, y)に注意すると,
p(xy)=p(x,y)p(y)=p(yx)p(x)p(y) p(x|y) = \frac{p(x, y)}{p(y)} = \frac{p(y | x)p(x)}{p(y)}
が得られます.これをベイズの定理とよびます.重要な定理なので,ぜひ覚えておきましょう.
例えば,ベイズの定理の応用事例として,スパム(迷惑)メールフィルターがあります.メールに単語iiが含まれるか否かを表す確率変数をxix_{i},メールがスパムであるか否かを表す確率変数をyyとおくと,p(xi=1)p(x_{i}=1)は「メールが単語iiを含む確率」,p(y=1)p(y=1)は「メールがスパムである確率」,p(xi=1y=1)p(x_{i}=1|y=1)は「メールがスパムであった場合に,その中に単語iiが含まれる確率」となります.受信済みの大量のメールからそれぞれの割合を集計して求め,ベイズの定理を適用することで,p(y=1xi=1)p(y=1|x_{i}=1)として,「メールに単語iiが出現した場合に,そのメールがスパムである確率」を求めることができます.

尤度と最尤推定

パラメータθ\thetaで特徴付けられた確率モデルをパラメトリックなモデルとよび,p(x;θ)p(x; \theta)のように表記します.確率モデルp(x)p(x)上で事象uuが観測される確率p(x=u;θ)p(x=u; \theta)を事象uu尤度とよびます.尤度の尤は「尤(もっと)もらしい」という意味であり,その事象の起きやすさを表します.
ここで,NN個のデータX=(x(1),x(2),,x(N))X = \left( x^{(1)}, x^{(2)}, \ldots, x^{(N)} \right)が与えられ,そのデータXXを生成するような確率分布を推定する問題を考えます.この場合,最尤(さいゆう)推定とよばれる手法がよく使われます.最尤推定は観測データXXを最も生成しそうなパラメータθ\thetaを推定する手法です.観測するデータがそれぞれ独立に生成されている場合,その尤度は
L(θ)=p(X;θ)=i=1Np(x(i);θ) L(\theta) = p(X; \theta) = \prod_{i=1}^N p(x^{(i)}; \theta)
のように表されます.この\prodという記号は\sumの掛け算版で全ての値を掛け合わせるという意味です.複数データに対する尤度は,11より小さな値の積となるため非常に小さな数になりコンピュータ上で扱うことが困難になります.また尤度を最大化したい場合,積の形の式の最大化は難しいことが知られています.そこで尤度の代わりにその対数をとった対数尤度を考えます.
logL(θ)=logp(X;θ)=i=1Nlogp(x(i);θ) \log L(\theta) = \log p(X; \theta) = \sum_{i=1}^N \log p(x^{(i)}; \theta)
この対数尤度を最大化するパラメータθ\thetaを求めることができれば,その値がデータXXを最も生成しそうな確率モデルのパラメータとなります.
ここで,わかりやすい具体例として,コインの表・裏が出る確率を推定する問題を考えてみます.コインの表・裏を表す確率変数をxxとおき,x=1x = 1であれば表,x=0x = 0であれば裏とします.また,表(x=1x = 1)となる確率を表すパラメータをθ\thetaとおきます.コインを1010回投げた結果,以下の観測結果XXが得られたとします.
X=(1,0,1,1,1,0,0,1,0,0) X = \left(1, 0, 1, 1, 1, 0, 0, 1, 0, 0 \right)
すると,その尤度は,
L(θ)=θ(1θ)θθθ(1θ)(1θ)θ(1θ)(1θ)=θ5(1θ)5 \begin{aligned} L(\theta) &= \theta \cdot (1 - \theta) \cdot \theta \cdot \theta \cdot \theta \cdot (1 - \theta) \cdot (1 - \theta) \cdot \theta \cdot (1 - \theta) \cdot (1 - \theta) \\ &= \theta^{5} \cdot (1 - \theta)^{5} \end{aligned}
と計算され,その対数尤度は,
logL(θ)=5logθ+5log(1θ) \log L(\theta) = 5 \log \theta + 5 \log \left( 1 - \theta \right)
となります.この関数は上に凸となっています.θ\thetalogL(θ)\log L(\theta)の関係を図示すると下図のようになります.
これをθ\thetaで微分して00になる条件を求めると,
5θ5(1θ)=0 \frac{5}{\theta} - \frac{5}{\left( 1 - \theta \right)} = 0
より,θ=0.5\theta = 0.5が最尤推定により得られます.
回帰モデルの目的関数として真値と予測値の二乗誤差の和を使う場合(最小二乗法とよばれています),モデルの出力値に正規分布(後述)の誤差を仮定した最尤推定を行っているのと等価であることが知られています.

事後確率最大化推定(MAP推定)

最尤推定は多くの場合有効ですが,求めるパラメータに何らかの事前情報がある場合,最尤推定ではその事前情報を扱うことができません.そのため,試行回数が少ない中でパラメータを推定しようとすると,最尤推定ではうまくいかない場合があります.
先程と同様に,コインの表・裏が出る確率を推定する例を考えてみましょう.コインを55回投げたところ,たまたま55回とも表(x=1x = 1)が出たとします.この場合,最尤推定では,表が出る確率が100100%(裏が出る確率が00%)であると推定してしまいます.しかし,明らかに裏が出る確率は00よりも大きいはずという事前情報があれば,より良い推定ができそうです.
このような場合に,事前情報も考慮しながら,観測データに基づいてパラメータを推定する方法が事後確率最大化(Maximum A Posteriori, MAP)推定です.MAP推定においては,パラメータθ\thetaも確率変数であり,その分布(事前確率ともよばれます)p(θ)p\left( \theta \right)が存在すると考えます.その上で,観測データXXが与えられた条件での,パラメータθ\thetaの条件付き確率(事後確率ともよばれます)p(θX)p\left( \theta|X\right)を最大化するようなθ\thetaを求めることになります.
ここでベイズの定理を思い出しましょう.ベイズの定理を用いると事後確率は,
p(θX)=p(Xθ)p(θ)p(X) p(\theta|X) = \frac{p(X|\theta)p(\theta)}{p(X)}
となります.これをパラメータについて最大化することを考えると,P(X)P(X)はパラメータとは関係が無いので無視することができ,
p(Xθ)p(θ) p(X|\theta) p(\theta)
を最大化するようなパラメータを求めることになります.p(Xθ)p(X|\theta)の部分は最尤推定と同じですが,MAP推定ではさらにパラメータの事前確率p(θ)p(\theta)を掛けた確率を最大化することになります.(ここではMAP推定の解を求める過程については説明しません.)
機械学習においてパラメータを最適化する際,正則化とよばれる,パラメータの値が大きいことに対する罰則項を設けたりしますが,これはパラメータの事前確率(の対数)とみなすことができ,パラメータをMAP推定していると解釈できます.

統計量

本節では,データ解析を行う際によく用いられる基本的な統計量を紹介していきます.
統計量を求める際には,母集団に対する解析か標本集団に対する解析かを意識することが重要です.母集団とは解析を行いたい想定の範囲に対して,すべてのデータが揃っている場合であり,標本集団はそのうちの一部を抽出する場合です.例えば,全国の小学生の身長と体重を集計する際,全国の小学生を一人の抜け漏れもなく集められれば母集団ですが,各都道府県で100人ずつ抜き出して集計すると,標本集団となります.母集団のデータを集めることは現実的に難しいことが多く,標本集団のデータから母集団の分布を推定することが一般的です.そうなると,基本的には母集団の統計量ではなく,標本集団向けの統計量を使用することになります.サンプル数NNが多い場合には,母集団の統計量と標本集団の統計量に差は殆どありませんが,サンプル数が小さい場合は大きな差となるので注意しましょう.
ここでは,代表的な統計量である平均,分散,標準偏差について紹介していきます.
最初は,平均を紹介します.たとえば,300円, 400円, 500円の平均は,
300+400+5003=400 \dfrac{300 + 400 + 500}{3} = 400
となり,すべてを足し合わせて対象の数で割ります.これを定式化すると,
x=x1+x2++xNN=1Nn=1Nxn \begin{aligned}\overline {x}=\dfrac {x_{1}+x_{2}+\ldots +x_{N}}{N} =\dfrac {1}{N}\sum ^{N}_{n=1}x_{n}\end{aligned}
のようになります.NNサンプルの数を表します.平均は,xˉ\bar{x}μ\muといった記号で表わされるのが一般的です.データ分布において,平均はその重心に相当する値です.
次に,分散を紹介します.分散はデータのばらつきを表す統計量であり,その定義は
σ2=1Nn=1N(xnx)2 \begin{aligned}\sigma ^{2}=\dfrac {1}{N}\sum ^{N}_{n=1}\left( x_{n}-\overline {x}\right) ^{2}\end{aligned}
となります.各サンプルの平均xˉ\bar{x}からの差分xxˉx - \bar{x}を計算し,それらの二乗誤差の平均の値を計算します.分散にはもう一つ定義があり,
σ2=1N1n=1N(xnx)2 \begin{aligned} \sigma ^{2}=\dfrac {1}{N-1}\sum ^{N}_{n=1}\left( x_{n}-\overline {x}\right) ^{2} \end{aligned}
と表す場合もあります.前者は標本分散といい,後者は不偏分散といいます.これらの式の導出は他書に譲ることにします.
例えば,実験を行った際に結果にばらつきが多ければ,各実験で再現性が確保できていない可能性が考えられるため,多数の試行結果がある値に集まっていることが望ましい状況において,分散を評価することが重要となってきます.他に,データのばらつき具合にもよりますが,分散を使えばスケールの違いも評価することができます.
最後に標準偏差を紹介します.分散は各サンプルの平均からの差の二乗の平均であり,単位は元の単位の二乗となっています.例えば元の単位がkgであれば,分散はkgの二乗という単位になります.そこで分散の平方根をとったσ\sigmaを用いることで,元の単位と等しくなり,解釈が容易になります.これを標準偏差とよびます.
練習問題で具体的な計算手順の確認を行いましょう.以下の①と②のデータに対して,平均,分散,標準偏差を求めてください.ただし,今回は標本分散を使用することとします.
①の解答は以下の通りです.
xˉ=15(21+0+1+2)=0σ2=15{(20)2+(10)2+(00)2+(10)2+(20)2}=15×10=2σ=2 \begin{aligned} \bar{x}&=\dfrac {1}{5}\left( -2-1+0+1+2\right) =0\\ \sigma ^{2}&=\dfrac {1}{5}\left\{ \left( -2-0\right) ^{2}+\left( -1-0\right) ^{2}+(0-0)^{2}+(1-0)^{2}+(2-0)^{2}\right\} \\ &=\dfrac {1}{5}\times 10=2\\ \sigma &=\sqrt {2} \end{aligned}
また,②の解答は以下の通りです.
x=15(42+0+2+4)=0σ2=15{(40)2+(20)2+(00)2+(20)2+(40)2}=15×40=8σ=8=22 \begin{aligned} \overline {x}&=\dfrac {1}{5}\left( -4-2+0+2+4\right) =0\\ \sigma ^{2}&=\dfrac {1}{5}\left\{ \left( -4-0\right) ^{2}+\left( -2-0\right) ^{2}+\left( 0-0\right) ^{2}+\left( 2-0\right) ^{2}+\left( 4-0\right) ^{2}\right\} \\ &=\dfrac {1}{5}\times 40=8\\ \sigma &=\sqrt {8}=2\sqrt {2} \end{aligned}
これより,②のケースの方が分散が大きく,データのばらつきが大きいことがわかります.

正規分布

ここでは,確率で度々登場する正規分布について紹介します.正規分布はガウス分布ともよばれます.横軸に確率変数,縦軸に確率密度をとって図示すると,平均μ\mu,標準偏差σ\sigmaを持つ正規分布は以下のような形をしています.
なぜこの正規分布がよく登場するのでしょうか.その理由として,以下のような物理的・数学的背景があります.
  • 多数の独立な因子の和で表される確率変数は正規分布に近似的に従う
  • 数式が扱いやすい
世の中でみられる多くのデータが正規分布に従うことが知られています(例えば,性年代別の身長,試験の点数,物理実験の測定誤差など).一方で必ずしもデータは正規分布に従うとは限りません.正規分布ではないような分布に対し正規分布にあてはめて考えてしまい誤った結論を導く場合も多々あります.データの分布は図示化するなどして正規分布として扱ってよいかは常に考えましょう.
正規分布では平均μ\muと標準偏差σ\sigmaに対して,何%がその分布に入っているかといった議論を良く行います.例えば,μ±3σ\mu \pm 3\sigmaの範囲内に,データの全体の99.7%が入るため,このμ±3σ\mu \pm 3 \sigmaに入らない領域を外れ値(他の値から大きく外れた値)として定義するといった使い方ができます.

標準偏差を利用したスケーリング

スケーリングは,大抵の機械学習手法における前処理として重要です,
なぜスケーリングが重要かを説明するために,2点間の距離を計算する例題を取りあげます.スケールが異なる変数x1x_{1}x2x_{2}があった場合に,下記の図のような状況になります.ここで,縦軸と横軸のスケールが大きく異なっていることに注意してください.
この2点間の距離ddを求めると,
d=(1001000)2+(0.11)2=9002+0.92=810000+0.81=810000.81 \begin{aligned} d&=\sqrt {\left( 100-1000\right) ^{2}+\left( 0.1-1\right) ^{2}}\\ &= \sqrt {900^{2}+0.9^{2}}\\ &= \sqrt {810000+0.81} \\ &= \sqrt {810000.81} \end{aligned}
のようになります.距離ddの中でx1x_{1}の影響量が大きくx2x_{2} に関しては,スケールが小さいが故にほとんど影響を与えていません.これではx2x_{2}がデータの意味として重要な場合においても考慮できません.こうした問題を解決する方法の一つが,ここで紹介するスケーリングです.代表的なスケーリングの方法としては2つあります.
1つ目が,サンプル集合を最小値0最大値1にスケーリングする方法です.これをMin-Max スケーリングとよびます.この方法では,各変数ごとに最小値xminx_{\min}と最大値xmaxx_{\max}を求めておき,すべてのデータに対して,
x~=xxminxmaxxmin \widetilde{x} = \dfrac{x - x_{\min}}{x_{\max} - x_{\min}}
の計算を行います.Min-Maxスケーリングには計算が単純というメリットがある反面,下図の例ようにx1x_1で外れ値を持つデータ点が存在するような場合,xmaxx_{\max}が外れ値に大きく引っ張られてしまうという弱点があります.
もうひとつのスケーリングの方法として,平均0標準偏差1にスケーリングする方法があります.これは一般的に**標準化(正規化)**とよばれています.全てのデータから平均を引くと平均00になり,標準偏差で割ると標準偏差は11になります.
x~=xxˉσ \widetilde{x} = \dfrac{x - \bar{x}}{\sigma}
分散を計算した例題の①に対して,このスケーリングを適用してみると,
x1=202=22x2=102=12x3=002=0x4=102=12x5=202=22 \begin{aligned} x_{1}&=\dfrac {-2-0}{\sqrt {2}}=-\dfrac {2}{\sqrt {2}}\\ x_{2}&=\dfrac {-1-0}{\sqrt {2}}=-\dfrac {1}{\sqrt {2}}\\ x_{3}&=\dfrac {0-0}{\sqrt {2}}=0\\ x_{4}&=\dfrac {1-0}{\sqrt {2}}=\dfrac {1}{\sqrt {2}}\\ x_{5}&=\dfrac {2-0}{\sqrt {2}}=\dfrac {2}{\sqrt {2}} \end{aligned}
のように,データが変換されます.この時の平均と標準偏差を求めてみると,
x=15(2212+0+12+22)=0σ2=15{(220)2+(120)2+(00)2+(120)2+(220)2}=1σ=σ2=1 \begin{aligned} \overline {x}&=\dfrac {1}{5}\left( -\dfrac {2}{\sqrt {2}}-\dfrac {1}{\sqrt {2}}+0+\dfrac {1}{\sqrt {2}}+\dfrac {2}{\sqrt {2}}\right) =0\\ \sigma ^{2}&=\dfrac {1}{5}\left\{ \left( -\dfrac {2}{\sqrt {2}}-0\right) ^{2}+\left( -\dfrac {1}{\sqrt {2}}-0\right) ^{2}+\left( 0-0\right) ^{2} +\left( \dfrac {1}{\sqrt {2}}-0\right) ^{2}+\left( \dfrac {2}{\sqrt {2}}-0\right) ^{2}\right\} =1\\ \sigma &=\sqrt {\sigma ^{2}}=1 \end{aligned}
のように,平均0,標準偏差1にスケーリングできていることがわかります.この方法であれば,Min-Maxスケーリングと比較して,少数の外れ値には強いスケーリングが実現できます.

外れ値除去

以下のように時間によって変動するようなデータを扱うとしましょう.例えば,横軸が時刻,縦軸が温度だとします.また,平均的な温度は一定であり,温度はランダムに変動しているものと仮定します.
このデータに対して,温度計の異常や不具合による温度の異常(外れ値)を検出したい場合,どのようにこの外れ値を定義して検出すれば良いでしょうか.一つの方法として,値の頻度に着目する方法があります.
上図のように,平均に対して線を引き,それぞれの値において頻度を算出してヒストグラムを描いてみると正規分布が現れます.ここでは,データが従う分布に正規性を仮定できるとします(データが正規分布に従うかどうかを統計的に確認したい場合は,正規性検定などの方法があります).外れ値を定義するために,データの平均μ\muと標準偏差σ\sigmaを計算し,μ±3σ\mu \pm 3\sigmaの値に線を引けば,外れ値除去を行うことができます.これを3σ法とよびます.ただし,外れ値の回数が多かったり,外れ値が極端な値を持つ場合には平均や標準偏差がその外れ値に引っ張られ,3σ法ではうまく対処できないことがあります.
その場合には,データを大きい順に並べて上位5%,下位5%を取り除くといった処理をすることもできます.

Discussion

コメントにはログインが必要です。