異常検知

機械学習がやっていることの本質は分類といいましたが、もう一つの役割としては、将来予測があります。最近のAIの話題で機械設備の故障予知 がありまた、セキュリティの攻撃検知にも応用が考えられています。両者に共通しているのは、異常状態の検知いいかえますと定常状態からの逸脱をいかに検出するかということになります。

そのためには、定常状態に関する情報をたくさん知っておかないと異常かどうかの判別がつかないことになります。また、はずれ値をどう定義するかは結構難しいこともあります。はずれ値なのか、ノイズによる外乱なのか の見極めが必要です。はずれ値を検知する手法には以下のようなものが知られています。

手法特徴
ホテリング観測値 x' より算出した異常度 a(x') を用いて外れ値検知を行うもの。データセットが正規分布に従うことが前提。
k-近傍法ある点から最も近い k 個の点を考慮して外れ値検知を行う。
LOF(Local Outlier Factor)局所密度 (Local density) という周辺の点との密度を用いた検知手法。

製造現場のニーズ

上記手法以外にも、One Class SVMのようにさまざまなものがありますが、最新の手法が必ずしも有効で優れているというわけでもありません。k-近傍法は歴史も古いオーソドックスなものですが、 今日もいろいろな場面で非常によく使われています。

ところで、このようなはずれ値の検知ということが、現状の設備では何もなされていないのかというと、プラントの運転監視では当然行われています。計装関係の方にはおなじみですが、反応槽 とかタンクの液位、圧力、温度などはセンサーで常時監視しています。そこでよく行われているのは、上下限値を逸脱していないか、中長期での変動傾向があるかといったトレンド把握です。

ですので、現場保守員の長年の経験も含め、状態把握ができていないわけではありません。が、見るべきポイントが数百、数千とあり多いということ、ベテランの経験・技に 依存してきたため、そうした知見が継承されていない、警報情報は多く記録されているが体系立てた整理もなされていないため、ムダも多いなどの現場サイドのニーズがあります。

また、機器の予防保守ということでは定期点検でチェックしていたり、一定時間経過した時点で交換するということも行われていますが、必要な時にだけ保守しないとコストがかさむという事情もあります。 機械学習がこれらの要望の全てに答えることができるわけではありませんが、一定の効果を得られる可能性はあります。

教師あり学習と教師なし学習

機械学習には大きく「教師あり学習」と「教師なし学習」に大別されます。機械学習が取り扱うべきデータには、これは犬の画像、これは猫の画像であるとか、この波形は正常時のもの、こっちは異常時の波形である、というように 何に分類されるかがあらかじめわかっている場合とそうではない場合があります。(この時、犬/猫、正常/異常のような知りたい情報を目的変数といい、その判定に用いた画像、波形 などを説明変数といいます)

前者を教師あり学習といい、そうしたデータをラベル付きデータと言います。一方、後者は教師なし学習といいます。どちらがよいとか悪いということではなく、世の中にはそうしたデータがあり、それぞれ得意・不得意な手法がありますし、どちらの場合でも使えるものもあります。

教師あり学習では、これまで説明しました「分類」という考え方で手法を用います。教師なし学習では、データのかたまり、集団としてくくる「クラスタリング」という発想で用います。例えば、ニューラルネットワークで猫や犬というラベル付き画像を学習させるような場合は、分類 になりますし、大量の購買履歴データから消費傾向別にグルーピングするようなのはクラスタリングに相当するでしょう。

教師ありなし目的変数特徴
分類教師ありあり分類精度は上々だが、ラベル付きデータ
をどのくらい集められるかに依存する
クラスタリング教師なしなしラベル付けデータは不要だが、分けられるクラスタの
有意性の吟味が必要

<<機械学習手法

ディープラーニング>>