機械学習手法の概要

手法については、機械学習と称される以前からさまざまなものが知られています。確率統計解析の世界では、正規分布をメインにした2σ、3σの管理の考え方、相関関係、回帰分析などが適用されてきました。以下は代表的なところを示して見ました。もちろん、これらから派生して考案された手法がたくさんありますが、ここでは省略します。


基本は分類

機械学習が行なっていることの本質は何か、と言えばそれは分類を行うための数学的計算処理です。ここではできるだけ数式を用いずに解説してみます。

例えば今以下のようなデータがあったとします。X、Yは何でもいいのですがここでは、Xは血糖値、Yはコレステロール値だとします。黒いサンプルは何かの疾患がある人で、緑サンプル は健康な方だったとします。(もちろんこれは例示なので現実のデータではありません)


ここで今、新しいサンプル(赤)が追加されたとして、この人は健康かどうかを判定しようとします。

黒い点と緑の点の集合がそれぞれどのあたりの境界で分けられるのかによって、この赤い点の方がどうかが決まります。そこで、黒と緑の境界がどのあたりになるのかを 線引きしようとします。

この例では左右どちらでも、緑側つまり健康な人のように見えます。どんな分け方もできそうですが、より簡単な数式で表現できそうなのは左側のケースでしょうか。 よく見ると緑の側に分類されている領域の中にも、黒い点も入り込んでいます。実際のサンプルデータというのは往々にしてこのような状況であり、きれいな直線で分けることができるケースは多くありません。

ここで赤い線の方向を断面にしてみたとします。左は境界線できっちりと白黒をつけるような分け方で、右側は境界を境にある確率でどっち側に属しているということを示しています。この右側の曲線をシグモイド曲線といい、こういう 分析をロジスティクス回帰分析といい、1958年に考案された分類モデルです。


<<歴史と現状

異常検知>>