ITとDATAのあいだ

ITとデータ分析についてのブログです

データサイエンティストとは

データサイエンティストの定義について、しばしば話題になるので私見を述べます。

まずは現状についてぼんやりと考えてみると、データサイエンティストという仕事は2000年以降にできた比較的新しい仕事ということです。私が初めてデータサイエンスという言葉を聞いたのも2004年くらいのことです。そしてその「データサイエンス」という言葉が人々の心を惹きつけ、一部の人を魅了しブームにもなりました。「一部の人を魅了し」というのは私の実感で、、実態を正確には知らないのですが、データサイエンスが遠い世界の出来事になっている人も少なからずいるようです。ではそんなに新しい仕事なのかというと、実はそうでもないと思っています。

それは求人を見てみるとよくわかると思います。データサイエンティスト、データアナリスト、データエンジニア、機械学習エンジニアなどが広い意味でのデータサイエンティストの求人になると思うのですが、それらの仕事の中には昔からある仕事があります。

まずマーケティングに関する分析です。アンケートや市場調査の結果を統計でまとめる仕事というのは昔からありました。昔との違いといえば、ベイズなどの新しい統計手法を使ったり、機械学習を使うなど、新しい手法、技術を使うようになったことくらいです。またデータアナリストとして求人が出ることの多いタブローなどのBIツールを使ったアナリストですが、BIそのものは1990年代にはすでにIT市場に出回っていました。私が初めてBIツールを触ったのも2003年くらいのことです。そして何よりもデータエンジニア、つまりデータパイプラインを構築したり、データマートを構築するような仕事はIT業界ではかなり以前からあります。データをバッチ処理で加工してデータベースに流し込むようなソフトウエア開発がまさにそれだからです。使うツールやインフラが変わっただけです。

データサイエンティストをエンジニア寄りとアナリスト寄りの2種類に分けることに同意する人が多くいるとは思うのですが、実際にはさらに細かく分かれると思っています。なぜならより細かいところで一つの仕事として成立していると思うからです。逆にいろんなことを一度に一人でカバーする必要がないのです。例えばマーケティングの分析で、最新の統計的手法を使いながら、ニューラルネットワークで時系列の新規顧客獲得の予測をするということをできることは、悪いことではないのですが、一人でこの全てをカバーすることにビジネス上にどのような価値があるのでしょうか。おそらく統計的手法のみでビジネス上の価値のある分析を行うことができること、つまり統計をわかっていてビジネスでの価値の出し方をわかってる方が、統計、機械学習ニューラルネットワークの3つを深く知っていることよりも、大きな価値があり、またスキル獲得のハードルも低くなります。またBIツールを使ったアナリストをやりながら、BIツールが使いやすいようにデータベースの設計もできるのであれば、できることは良いことではあるのですが、BIツールを使えるだけでも十分仕事はありますし、データベースの設計ができるだけでも十分仕事になります。

データサイエンティストの定義を狭くすればいいのかもしれませんが、そうすると定義の中のスキルの取捨選択をする必要が発生します。統計と機械学習の両方を最先端の論文まで読みこなしつつ、自然言語処理にも詳しく、画像処理にも詳しくて、ファイナンスの分析ができて、自動車の自動運転のアルゴリズムなども対応できるという人材がいれば、それは間違いなくすごい人ではあるのですが、そのような人は世界にいるかもしれませんが、ほとんどいないと言ってよいでしょう。単純に全てをできなくても仕事として成立するし、場合によっては必要に応じて勉強すれば十分だからです。

結局のところデータサイエンティストというものは、今のところ定義が曖昧で、ただし名乗るという観点では明確でわかりやすく、自己紹介に使いやすいということだと思います。

しかしその実態は、いろいろな職種を含んでいるということだと思っています。