【Coursera】「Machine Learning(機械学習)　Week 6」〜機械学習アルゴリズムの評価方法を学びたい〜

前回までは機械学習のアルゴリズムについて学んできました。

今回は、そのアルゴリズムの良し悪しを評価する方法と改善方法を学びます。

＜過去の記事＞

アンドリュー・エン（Andrew Ng）氏です。
人工知能研究の第一人者であり、Google Brainの共同設立者、 Baiduの元副社長兼チーフサイエンティスト、スタンフォード大学の教授という凄い経歴の持ち主です。

「Week 6」では、以下の内容が、約6時間程度で学べます。

講義の内訳は以下の通りです。

＜機械学習アルゴリズムの良し悪しを評価する方法＞
■Deciding What to Try Next

トレーニングデータとは別のテストデータで予測エラーが多発した場合、「トレーニングデータを増やす」、「説明変数を増減させる」、「多項変数を追加する」、「正則化パラメータλを調整する」という手段が考えられる。
どの手段を取るかをランダムに決めると時間が無駄になる可能性が高いため、まずは、機械学習アルゴリズムの評価をすべき。

■Evaluating a Hypothesis

■Model Selection and Train/Validation/Test Sets

テストデータでのパフォーマンスが悪かった場合は、テストデータでうまく予測できるように機械学習アルゴリズムの調整を行う。
しかし、これにより、テストデータに最適化されたアルゴリズムになってしまい、他の一般的なデータでの性能を評価できない。
この問題を回避するために、トレーニングデータ（60%）、Cross Validation set（20%）、テストデータ（20%）の３種類にデータセットを分けて評価を行う。

＜評価結果を踏まえた機械学習アルゴリズムの改善方法＞
■Diagnosing Bias vs. Variance

■Regularization and Bias/Variance

■Learning Curves

■Deciding What to Do Next Revisited

＜スパムフィルタの実装例＞
■Prioritizing What to Work On

スパムフィルタを実装する手順を説明。
良いスパムフィルタを作るために、「とにかく沢山データを集めるか」、「説明変数の精査をするか」、「機械学習アルゴリズムに磨きをかけるか」といった方法があるが、どの方法が一番有効か判断するのは難しい。

■Error Analysis

■Error Metrics for Skewed Classes

■Trading Off Precision and Recall

■Data For Machine Learning

「機械学習のアルゴリズムを実装してみたは良いが、思ったような予測精度が得られない」という課題を抱えた人が、「どのようなアプローチで対処すれば、効率的に予測精度を上げられるか」を学べる良い授業だと思います。
「Andrew Ng」氏の説明はとても分かりやすいため、是非動画を見てみてください。