ITとDATAのあいだ

ITとデータ分析についてのブログです

ビジネスにおけるデータ活用の勘所(1)最初は情報セキュリティ

データを活用するためにはデータを蓄積していかなければなりません。その大前提として情報セキュリティがあります。情報セキュリティを確保するのは、当たり前のことのように思えますが、情報セキュリティがおそろかになっているがゆえに、起こるはずのない問題が起こり得ます。それは単にセキュリティ上の問題だけではなく、データ分析をする時に問題が起こります。では情報セキュリティの観点から、どのようなデータ分析の問題が起こるのでしょうか。情報セキュリティには基本的な3つの指標があります。機密性、完全性、可用性です。これらの観点から起こり得る問題を考えたいと思います。
まずは機密性です。誰がどのデータにアクセスできるかがコントロールされている状態を機密性がある状態といいいます。例えば分析に使用したデータは、特別な理由がない限り変更があってはいけません。なぜなら分析した結果を用いて経営判断をした場合に、元のデータが変わっていたら、一度決定した経営判断が正しいかどうかを再検討する可能性が出てくるからです。その時に誰がどんな理由でデータを変更したかがわからなければ、データが変わっているがゆえに、分析そのものの信用性がなくなります。もしもデータが変更された理由がわかれば、その理由によっては分析結果に影響がないと判断して、経営判断は正しいということになるかもしれません。
しかし、そもそも分析に使ったデータが分析した後で変わるということがあってはならないのです。それが完全性です。英語ではIntegrityといいます。英語が得意な人にとってはIntegrityという言葉の方がしっくりくるかもしれません。データが間違っていない正しい状態を完全性がある状態といいます。分析後にデータが変わることはあってはなりません。また商品別の売上や部門別の売上などは、合計が会計のデータと一致しているべきですが、しばしば会計データと一致していないケースがあります。その理由はデータ取得のタイミングや売上の定義の問題など様々ですが、いずれの理由にせよ、会計データと整合する理由がなければ、完全性があるとは言えません。
また個人向けのサービスでは顧客の性別や年齢や住んでいる地域による分析をしたい場合があります。しかしこれらは個人情報なので容易にアクセスできる状態は好ましくありません。個人情報へのアクセスは厳密に管理されなければいけません。しかし分析するためには簡単にアクセスできた方がいいと言えます。したがって、個人情報保護法に遵守しながら、実際に個人情報の漏洩が発生しないような仕組みを構築しつつ、分析するためにはアクセスが容易にできる状態にあるのが可用性がある状態です。
データを活用するためには、情報セキュリティが前提にあり、機密性、完全性、可用性の3つが満たされていることが必要ですが、データ分析にはさらなる条件が必要です。それは次回以降で。

データサイエンティストとは

データサイエンティストの定義について、しばしば話題になるので私見を述べます。

まずは現状についてぼんやりと考えてみると、データサイエンティストという仕事は2000年以降にできた比較的新しい仕事ということです。私が初めてデータサイエンスという言葉を聞いたのも2004年くらいのことです。そしてその「データサイエンス」という言葉が人々の心を惹きつけ、一部の人を魅了しブームにもなりました。「一部の人を魅了し」というのは私の実感で、、実態を正確には知らないのですが、データサイエンスが遠い世界の出来事になっている人も少なからずいるようです。ではそんなに新しい仕事なのかというと、実はそうでもないと思っています。

それは求人を見てみるとよくわかると思います。データサイエンティスト、データアナリスト、データエンジニア、機械学習エンジニアなどが広い意味でのデータサイエンティストの求人になると思うのですが、それらの仕事の中には昔からある仕事があります。

まずマーケティングに関する分析です。アンケートや市場調査の結果を統計でまとめる仕事というのは昔からありました。昔との違いといえば、ベイズなどの新しい統計手法を使ったり、機械学習を使うなど、新しい手法、技術を使うようになったことくらいです。またデータアナリストとして求人が出ることの多いタブローなどのBIツールを使ったアナリストですが、BIそのものは1990年代にはすでにIT市場に出回っていました。私が初めてBIツールを触ったのも2003年くらいのことです。そして何よりもデータエンジニア、つまりデータパイプラインを構築したり、データマートを構築するような仕事はIT業界ではかなり以前からあります。データをバッチ処理で加工してデータベースに流し込むようなソフトウエア開発がまさにそれだからです。使うツールやインフラが変わっただけです。

データサイエンティストをエンジニア寄りとアナリスト寄りの2種類に分けることに同意する人が多くいるとは思うのですが、実際にはさらに細かく分かれると思っています。なぜならより細かいところで一つの仕事として成立していると思うからです。逆にいろんなことを一度に一人でカバーする必要がないのです。例えばマーケティングの分析で、最新の統計的手法を使いながら、ニューラルネットワークで時系列の新規顧客獲得の予測をするということをできることは、悪いことではないのですが、一人でこの全てをカバーすることにビジネス上にどのような価値があるのでしょうか。おそらく統計的手法のみでビジネス上の価値のある分析を行うことができること、つまり統計をわかっていてビジネスでの価値の出し方をわかってる方が、統計、機械学習ニューラルネットワークの3つを深く知っていることよりも、大きな価値があり、またスキル獲得のハードルも低くなります。またBIツールを使ったアナリストをやりながら、BIツールが使いやすいようにデータベースの設計もできるのであれば、できることは良いことではあるのですが、BIツールを使えるだけでも十分仕事はありますし、データベースの設計ができるだけでも十分仕事になります。

データサイエンティストの定義を狭くすればいいのかもしれませんが、そうすると定義の中のスキルの取捨選択をする必要が発生します。統計と機械学習の両方を最先端の論文まで読みこなしつつ、自然言語処理にも詳しく、画像処理にも詳しくて、ファイナンスの分析ができて、自動車の自動運転のアルゴリズムなども対応できるという人材がいれば、それは間違いなくすごい人ではあるのですが、そのような人は世界にいるかもしれませんが、ほとんどいないと言ってよいでしょう。単純に全てをできなくても仕事として成立するし、場合によっては必要に応じて勉強すれば十分だからです。

結局のところデータサイエンティストというものは、今のところ定義が曖昧で、ただし名乗るという観点では明確でわかりやすく、自己紹介に使いやすいということだと思います。

しかしその実態は、いろいろな職種を含んでいるということだと思っています。

このブログについて

このブログではITやデータ分析について事実や意見や提案を書いていきます。事実に関しては正確であることを書くように努めますが、保証まではできません。もし間違いを見つけたらご指摘していただけると嬉しいです。

私はデータアナリストまたはデータエンジニアです。大学は数学科を卒業し、社会人になってから経営学修士号をとりました。銀行でバッチ処理システム開発を経験し、その後に信用リスク管理のアナリストになりました。他にもスタートアップで情報システムの立ち上げをやりました。その後にITコンサルタントをやってから、データサイエンティストとしてのキャリアをスタートしました。

このブログは私の知見を公開することを目的にしています。私自身は人より自分が優れていると思ったことはありませんが、それなりに長いビジネス経験によって、社会にお役に立てることもあると思っています。しかし自分が正しいと思っていることが全て本当に正しいかとなると、100%の自信はありません。それでも正しさを100%に近づけるには、社会に公開するのが良い方法だと思っています。したがいまして、記事の内容について、後から気がついて修正したり、人からの指摘で修正することもあろうかと思います。その修正を明示することもあれば、特に明示することをしないこともあり得ます。そのようなこともあると考慮いただけたら幸いです。