Glossary

調査・統計用語集

ランダムフォレスト

ランダムフォレスト(random forests)は機械学習のアルゴリズムのひとつで、決定木による複数の弱学習器を統合させて汎化能力を向上させる、アンサンブル学習アルゴリズムである[1]。おもに分類(判別)・回帰(予測)の用途で使用され、以下の特徴がある。

  • 学習方法は単純だが、一般的な決定木より性能のよい識別・予測ができる
  • CHAIDとは異なる接近法で多クラス問題に拡張した
  • 非線形関係も分析できることで、線形回帰・判別の限界を超える余地がある
  • 森の大きさを拡大しても過学習が生じない(数百以下で精度が収束する)

 
 具体的な学習方法は図1のように、クロス・ヴァリデーション(相互検証法・交差妥当化)をベースとするシミュレーション法として実施する。
 Step1では、全体の2/3の学習用データからM個のブーストラップ標本を抽出する。Mが森の大きさ[2]である。1個のブートストラップ標本の大きさ は、原則として学習用データ(全体の2/3)の大きさである。
 1/3は評価・検証用データとして残す。これを学習鞄の外に取りおくという意味からOOB(Out of Bag)と呼ぶ。
 Step2では、各ブートストラップ標本において、全変数のうちから 個の説明変数をランダムに選択したうえで、決定木を成長させる。最適な d の推奨値はあるが、分析者が問題を考慮した を与えることもできる。
 Step3では得られた各決定木の結果を統合する。分類・判別問題では多数決で、回帰・予測問題では平均値で統合し、学習器を構築する。
 OOBに対して、学習用データで構築したモデルを当てはめ推定誤差を求める。分類・判別問題では誤判別率、回帰・予測では平均二乗誤差を指標とする。この推定誤差から説明変数の重要度を求めることができる。

 

図1.ランダムフォレストのアルゴリズム



<使用例:Fisherのiris(あやめ)のデータ>
 判別分析の例として有名な「irisのデータ」を用いて、ランダムフォレストと一般的な決定木との予測精度の比較をした。
 「花びらの長さ」と「花びらの幅」の2変数からあやめの3種類(setosa、versicolaor、virginica)を分類する[3]。図2の分類結果では、決定木の正答率が83%に対し、ランダムフォレストの正答率は98%と高い。
 

図2.決定木の分類結果(左図)とランダムフォレストの分類結果(右図)


 マーケティングでは、特にWebサイト上での行動履歴や、登録された個人の属性情報を用いるデジタルマーケティングの分野で、ランダムフォレストが使用されることが多い。

  • 優良顧客になりそうか
  • 今後、離反しそうか
  • 商品を購入しやすいか

などさまざまな場面で、ユーザを分類して表示するメッセージの選別や、割引オファーの変更などが可能となる。このような分類・判別をするニーズに対してランダムフォレストは有用である。
 

 


[1] Leo Breimanによって2001年の論文(下記)で提案された。BreimanはCARTの開発者の一人である。CARTとは決定木のアルゴリズムの一つ。決定木はdecision treeの邦訳として定着しているが「けっていぎ」と重箱読みする人と、「けっていぼく」が正しいと主張する人がおり、国内での発音は曖昧に使われている。
Random forests, Machine Learning, Vol.45, No.1, pp.5-32, 2001.
[2] たくさんの( 個の)木を育て、それらの木々を集めた結果が森林になる--というイメージから、ランダムフォレストと命名したのであろう。
[3] Fisherの論文に示されたデータは4変数(花びらの長さと幅、萼の長さと幅)であるが、ここでは識別力の弱い2変数を使った。
ico_information

課題からお役立ち情報を探す

調査・データ分析に役立つ資料を
ご覧いただけます。

ico_contact

調査の相談・お問い合わせ

調査手法の内容や、
調査・データ分析のお悩みまで気軽に
お問い合わせください。

ico_mail_black

メルマガ登録

企業のリサーチ、データ分析に役立つ情報を
お届けします。