PICK UP!
2022.10.19
人の繋がりとデータサイエンス【データサイエンスの未来】
「データサイエンスの未来」という連載の第3回目は、データサイエンスの活用の現状と未来について私自身の経験を基に紹介しようと思います。(健康データサイエンス学部設置準備室 特任准教授 小泉 和之)
オバマ大統領(当時)が初めてデータサイエンスという言葉を使ってからすでに10年以上経ちました。その間データサイエンティストは最もセクシーな職業(魅力的な職業という意味)として形容されたりもしました。それでも現在、日本では10万人以上のデータサイエンティスト(先端IT人材)が不足していると言われています。それらの背後では様々な変化がありますが、変わらずこれからも必要というものもたくさんあります。大きく変化したものは、主に次のものになります。
大きく変化したもの
① 計算機(コンピュータ)の発展
② 蓄積されるデータの量
③ 測定機器の発展
容易に蓄積される膨大なデータから高速に解析を行い、行動に移すという流れが実際のデータサイエンスでは必要となります。それらを可能にするために上記の発展もかなりのスピードで進んでいます。データサイエンスというとデータが集まり、分析をすればこちらの意図していなかったものが発見できる魔法のような印象を持つ方もいらっしゃるようですが、実際にはそれぞれの段階で慎重に進めていかなくてはなりませんし、頑張って色々やってみても真新しいものではなく当たり前の結果しか得られなかったということも多くあります。
これには様々な原因がありますが、大事なのは分析の目的に合った適切な手法を選んだり、必要なデータを取得したりという事前の設計です。これは昔から変わっておらず、データを取得する前からどのようなデータを取得して、どういう結論が欲しいのかということを明らかにしておく必要があります。データサイエンスの中でも統計学においては母集団という言葉で整理され、データを追加で取得するということは母集団が変わるため、正しい分析にならない可能性が高いからです。ではそれらは今後どのように変化していくでしょうか?おそらくこれは根底にあるものは変化しない類のものになると思います。分析をするというのは主に主観的であると思われるからです。
その主観に対して客観的な証拠を作り出し、結論付けることができるのがデータサイエンスの強みです。すると、分析の目的はどこにあるのか?それはその分析をしたい人の主たる興味(医者であれば医学、アスリートであればスポーツなど)にあります。データサイエンティストはそれら各分野のスペシャリストの目的をデータサイエンスの言葉に言語化し、正しい分析手法の選定やそれにより得られる結果について共有することで行動へ導くということを行います。そのためには分析も独りよがりではなく、しっかりとしたコミュニケーションを継続的にとっていく必要があります。高度な知識や分析能力はもちろん必要ですが、それらコミュニケーションの上にデータサイエンスという学問は続いていくのだと思います。