近年、ビッグデータ解析やデータを用いた意思決定に様々な企業が注目しており、それに伴いデータサイエンティストの需要が急速に高まっています。また、それと同時にデータサイエンス分野の書籍やサービスの流通も拡大を続けていて、学習を始めるにあたり利用できるものは日々増加しています。
本日は実際に私がこれまで独学でデータサイエンスを学ぶ中で感じた、理解しておいた方がよいこと・気をつけるべきことについてご紹介します。これからデータサイエンスを学ぶ方の参考となれば嬉しく思います。
データサイエンティストとして重要な2つの能力
データサイエンティストに求められる能力はいくつかありますが、さまざまなデータに向き合い、課題解決を行う上で私自身が重要だと考える2つの能力があります。
1. データを分析する力 2. 考える力 |
1つめは当たり前かもしれませんが、データサイエンティストになるにはデータを分析するための知識や技術が必要です。具体的には、PythonやRのプログラミングスキル、統計学の知識などが挙げられます。
しかし、それだけではデータサイエンティストとしては不十分です。企業や社会の課題を解決するためには、データを分析する中で気づいたことを言語化し、それが現場の意思決定にどのように応用できるのかを考えなくてはなりません。
また、データを分析する際にも考える力は重要です。やみくもにデータをいじるのではなく、現状の課題から自分で仮説を立て、それをデータで検証していくというプロセスを経て初めて意味のある分析ができます。
これまで学習を進める中で、このようなことに気づけたのは自分自身のある失敗がきっかけです。
失敗談:「精度の良いモデルを作る」に固執してしまった
実際に、私が学習を始めた当時は世の中的にデータサイエンスの学習ブームであり、無料で使うことができるさまざまな教材や分析環境が整っていました。これは学生にとって大変ありがたかったです。書籍や動画教材だけでなく、SIGNATEやKaggleといった、学んだことを実データを用いて実践することが可能なコンペティションプラットフォームも利用することができます。私自身、たくさんの書籍やサービスに触れ、スピード感をもって理解を深めることができました。
< “精度のいいモデルが作れれば良い” という思い込み>
独学していた半年間をあらためて振り返ってみると、あきらかに反省しなくてはならない時期があります。それは「とにかく精度のいいモデルを作ればいい」と思っていた 思い込み期 です。
先述の通り、データサイエンティストは分析だけできればいいわけではありません。そこから何を考え、どのように現場の行動に落とし込むかが課題解決の手段としてデータを扱う意味なんだと、学習を進めるうちに知りました。
当時の自分を振り返ると、ちょうど勉強を初めて3ヶ月ほどが経過した頃、基本的なデータの操作や機械学習の手続きをある程度理解した段階でした。そこで次のステップとしてSIGNATE(https://signate.jp/)やKaggle(https://www.kaggle.com/)を使い、さまざまなコンペに参加してみました。
最初のうちは「どうやったらスコアが上がるだろう?」ということばかり考え、データの前処理や特徴量の生成にかなりの時間を費やしました。毎日違った操作を試し、少しでも精度の良いモデルを作れると嬉しかったのを覚えています。
しかし、段々と日々のスコアの変動に一喜一憂するようになってしまい、「いかに良いスコアを出すか」だけが目的になってしまいました。
とにかくすぐに機械学習にかけられるよう、データの理解も十分ではないうちに処理し、パラメータだけをいじってスコアをあげることに時間を使うようになっていました。
結果として、その時期は新しいことにチャレンジしなかったため、知識がほとんど増えず分析の技術も進歩がありませんでした。時間を無駄にしてしまったことを今でも後悔しています…。
競い合うことはモチベーションにも繋がりますし、少しでも上の順位を目指すことは決して悪いことではありません。しかし、当時の私のようにスコアだけに固執してしまうと、データサイエンスで大切な「考える力」が置いてけぼりになり、分析スキルも向上しないという事態になりかねません。
< “仮説を立てることの重要性” を知る>
後悔した思い込み期の後、私はコンペで入賞している人の記事をたくさん読みました。どのような手順で分析を進めているのか、そしてその過程には自分とどのような違いがあるのかについて考えました。
すると、ほとんどの方がデータからわかることの言語化や、そこから仮説を立てることに時間を割いていることがわかりました。コンペでは実際のビジネスを想定したデータセットが用意されていることが多いので、やはりデータから考える力は重要なのだと気づかされました。
現在は、実務で企業のデータ分析に取り組む企業でインターンをしています。
データ利活用の現場に触れ、データサイエンスはあくまで手段であり、そこから何を考えるかが重要であるということを改めて実感しています。様々な経験から考える力を深めていくことが、社会に貢献できるデータサイエンティストになるための一つの目標です。
おわりに
データサイエンスの学習は、検証と失敗の繰り返しです。自分自身を振り返りながら、目まぐるしく変化するトレンドに対応することも必要です。
私の失敗談がこれからデータサイエンスを学び始める方にとって、少しでもこの経験が参考になれば幸いです。私もこれからも自問自答しながらデータサイエンスを学び続けていきたいです。
この記事を書いた人
名前:柳智也(ヤナギトモヤ)
所属:筑波大学理工学群社会工学類学部3年生(2021年4月)
大学では経営工学を専攻。2020年6月ごろに、データを用いて新型コロナウイルスの感染状況を理解する取り組みを見てデータ分析に興味を持つ。現在は数理最適化に興味を惹かれ、大学で学ぶ傍ら教育系のスタートアップに在籍しワークショップの運営も行っている。2021年4月よりデータ分析企業でのインターンシップも開始。