SSブログ

『数式を使わないデータマイニング入門』 [読書日記]

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

数式を使わないデータマイニング入門 隠れた法則を発見する (光文社新書)

  • 作者: 岡嶋 裕史
  • 出版社/メーカー: 光文社
  • 発売日: 2006/05/17
  • メディア: 新書
内容紹介
グーグル、アマゾンWeb2.0時代に必須の技術を、本質から理解する。
データマイニングが従来の統計分析と一線を画して語られるのは、取り扱う情報が質と量の両面において異なるからです。(略)統計分析は情報が高コストであった時代に確立された学問体系です。それは、できるだけ小さい情報量から、世界の姿を知ろうとする試みだと換言できます。一方で現代は巷に情報があふれかえっています。その差が指し示すのは、分析対象が深度を増すことであり、従来は分析対象にしなかった/できなかった情報も対象にできる、すなわち、対象の幅が拡がることでもあります。このように質的にも量的にも変化した分析対象に対して、異なるアプローチ方法が用意されるのは、必然でもあるでしょう。(「まえがき」より)

最近、完全にスタックしている仕事が1つある。当初考えていたよりも分析の仕方が難しいテーマで、分析の枠組みの再構築が必要となっている。何かこの閉塞状況を打ち破れないものか。僕はそう考えて、「データマイニング」とか「テキストマイニング」と書かれた本を図書館で検索し、何冊か借りて読んでみることにした。一種の悪あがきである。今回紹介するのは、その第一弾である。

但し、読んでみてすぐに、僕が期待していた本とは違うことがわかった。内容紹介のところに若干言及があるが、アマゾンの利用者にとっては、「この本を購入した人は、この本もチェックしている」というお仕着せがましい情報提供をアマゾンが毎回やってくるのは既にお馴染みだ。そういう、過去の購入実績などの既存データを活用して、これからのマーケティングに生かす、そんな技術が「データマイニング」ということなのだろう。僕が知りたかったのは、テキスト情報をいかにデータ化して、それを今後の研修に生かすような手法だったので、その入口部分の話――過去の報告書にあるテキスト情報をキーワードでデータベース化し、それを分析する技術について、もっと知りたかった。

まあ、期待とはちょっと違う内容だったけれども、「データマイニング」の入門書としては、それなりにコストパーフォーマンすが良い本だというのは認める。各章とも記述が短く、あっという間に終わってしまうので、もうちょっと知りたかったのにと思う人は次の展開でもう少し難しい本を読んでみたらいい。

僕の職場には、「マイニング」という言葉を結構当たり前に使っている人々がいる。配属されて2年以上が経つが、そういう、研究職にとっては当然知っているに違いない用語すら使いこなせずに今の職場にいる僕は、適応障害が未だに払拭できない。

タグ:岡嶋裕史
nice!(1)  コメント(0)  トラックバック(0) 
共通テーマ:

nice! 1

コメント 0

コメントを書く

お名前:
URL:
コメント:
画像認証:
下の画像に表示されている文字を入力してください。

Facebook コメント

トラックバック 0