データマイニング
データマイニングは2000年前後に登場し、流行した潮流である。データ解析とは形容せずに「マイニング」という比喩を使ったビジネス用語だといえるが、統計的データ解析の制約から解放され、ビジネスに貢献するためのデータ解析という雰囲気があった。「マイニング」とは炭鉱から金鉱・宝を掘り出す、ということで、データから有益な知見を導いて商売に結び付ける--というセンスを持っている。データマイニングと同時に、KDD(Knowledge discovery in databases )という用語も並行して使われた。文字通りデータからの知識発見という意味で、データマイニングとほぼ同義である。
従来との相違は、データが大規模化したことと、コンピュータ性能の向上、ストレイジの拡大という環境変化に対応したことである。これまでのデータは調査あるいは実験によって良質の管理されたデータが重視された。しかし業務過程がデータ化・デジタル化されたことでデータベースが巨大化し、これを分析することでビジネスに活用しようという発想が登場した。たとえばマーケティングの分野では1990年前後から実用化されていたPOSデータが典型的である。
この潮流は10年後の2010年代からは「ビッグデータ」という衣装をまとって、再登場した。同様の環境変化がさらに高い次元で進んだことで、新しい名前によって、新しい現象を呼ぶ必要があったという解釈もできる。しかし、データマイニングからビッグデータの20年は一連の潮流である。
データマイニングの手法は、上述のようなデータの性質によって必然的に探索的手法・記述的手法となった。標本からの母集団の統計的推測というパラダイムの外に出てしまった。よく利用されたのはニューラルネットワーク、決定木、バスケット分析などである。いずれも大規模データが必要であり、大規模データであればこそ威力を発揮する手法であった。
データマイニングにも「自動的に宝が出てくる」という妄想が流布されたことがあったが、ビッグデータと同様にそのようなことはない。
ニューラルネットワークの予測モデルは下図のように書ける。
入力層と出力層の中間に隠れ層を入れる。学習を進めるには隠れ層と隠れユニットを増やせばよい。データが大規模だから可能である。データを完全に説明する予測モデルを構築することも可能である。しかし、それは不安定なモデルとなり、将来のデータを得て、モデルを当てはめた時に予測に失敗する。
隠れ層という用語はブラックボックスを連想させ、ニューラルネットはデータに合わせて自動的に非線形関数を選ぶという機械的印象を与える。実際、ニューラルネットによる予測では伝統的な重回帰分析で常識となっていた変数選択を考えなくてもよい。その代わりモデルの安定性はクロスバリデーション(交差妥当化・相互検証法)を使う。またパラメータに関して線形である必要はないので、分布の対称化や線形化のための再表現(変数変換)も特に実施しない。
しかし、実際にニューラルネットを応用する場面では、やはり分析者である人間が関与し、分析者の裁量・判断が重要となる点がいくつかある。少なくとも最初は、以下の主要な6項目が人間が考えることである。いったんモデルが完成すれば、チューニングは自動化する余地はあるだろうが。