ランダムフォレスト
Random Forest
多数の決定木を組み合わせ、多数決や平均で予測精度を高めるアンサンブル学習手法。安定性と精度を両立できる。
ランダムフォレストとは
ランダムフォレスト(Random Forest)は、多数の決定木を作り、その結果を多数決(分類)や平均(回帰)で統合する機械学習手法です。名前のとおり「決定木の森」で、個々の木の弱点を集団で補い合います。
代表的なアンサンブル学習の一つで、実務で最もよく使われる手法の一つです。
仕組み
- データのランダムサンプリング: 元データから何度もランダムに取り出し、複数のデータセットを作る
- 特徴のランダム選択: 各決定木で使う特徴量もランダムに絞る
- 集団での予測: 多数の決定木の結果を集計して最終予測とする
この「ランダム性」により、個々の木が異なる視点で学習し、過学習を抑えて安定した予測ができます。
特徴
- 精度と安定性のバランスが良い
- 前処理が比較的少なくてよい
- 特徴量の重要度を算出できる
- 決定木単体より過学習に強い
他手法との違い
XGBoostなどの勾配ブースティングが「木を順に積み上げて誤差を減らす」のに対し、ランダムフォレストは「多数の木を並列に作って平均する」という違いがあります。実装が簡単で扱いやすく、機械学習の入門でもよく登場する手法です。
