SSブログ
[PR]本のベストセラー

数式を使わないデータマイニング入門 隠れた法則を発見する [ビジネス]

従来の統計では、まず集めるデータをきめて、収集からおこなったものだが、データ収集にかかわるコストが劇的に下がったことで、コンビニのPOSのようにさまざまなデータを収集し、蓄積しておくことが可能になった。

データマイニングとは、収集された膨大なデータから隠れた法則をみつけることで、手法としては
回帰分析・・・相関のありそうな項目(説明変数)みつけその関係をみていく、具体的にはデータの点から最小2乗のところに線をひいていく分析などをする、説明変数が多いと複雑化する
決定木分析・・・条件によって分岐をきめて、最終的にどの結果にたどりつくか効率的にしることができる
クラスタ分析・・・いろいろな条件でデータをわけ、それがグラフのどのあたりに集まっているかみる。あつまっているあたりが一つのクラスタと考えられる
自己組織化マップ・・・クラスタ分析をより階層的に複雑にしたもの?
関連分析・・・あることがおきたら別のなにかがおきていないか?コンピュータをつかって膨大なデータからそれを探る。しかし、役に立たないルール、既知のルールを探してしまうことが多い
ニューラルネットワーク・・・ある入力があると、閾値で判断がされ、特定の出力がある、これが神経一つ分の動作をまねたものである。それを複数くみあわせることで、ニューロンを学習させる
などがある。

しかし、肝心要は人間がなにかを発見しようと推論をたて、それを実証する、あるいは否定するにはどんなデータをどのように分析すればよいか、そのアプローチを考えるところにある。
収集したデータは膨大でも、どれをつかうか?どこまでを異常値と判断して切り捨てるかなど、人間が判断すべきところは多い。
コンピュータまかせでなんでも分析してくれる魔法の道具ではない。


数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

  • 作者: 岡嶋 裕史
  • 出版社/メーカー: 光文社
  • 発売日: 2006/05/17
  • メディア: 新書



nice!(0)  コメント(0)  トラックバック(0) 

nice! 0

コメント 0

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

トラックバック 0

[PR]Kindle ストア ベストセラー

この広告は前回の更新から一定期間経過したブログに表示されています。更新すると自動で解除されます。