SOCIAL
2023.10.30
統計的データ解析を行うことで現代の諸問題を解決に導く
現代に存在するあらゆるデータは、社会や人々の暮らしをより良くするために役立てられています。特に医療やスポーツの分野においてビッグデータを用いた解析技術が重要視されており、各種データを適切に扱い解析ができるデータサイエンティストの育成が急務とされています。そんな中、新薬の有効性や安全性を示すデータの審査業務に従事するなど、日本における統計的データ解析の第一人者として普及発信にも注力している順天堂大学健康データサイエンス学部特任教授の岩崎学先生にお話を伺いました。
統計的データ解析の手法を研究するとともに応用展開も
――岩崎先生が専門とする統計的データ解析の理論と応用とは、どのような研究分野ですか。
あらゆるデータを、統計的手法により分析し、その結果を解釈して次の行動につなげるようにするのが『統計的データ解析』です。そのときに“良いデータ”を作るための方法論もとても重要で、“良いデータ”とは何かを考え、そのようなデータを取る方法を検討し、取得したデータを分析するところまでの一連の流れを『統計的データ解析』だと捉えています。
私自身はデータ解析の方法論を専門としていますが、その応用として、研究してきた方法論をさまざまな分野に適用することもしています。厚生労働省に申請された新薬の有効性や安全性データの審査業務もそのうちのひとつで、20年以上携わってきました。薬のほかにも、経済データや製造業の品質管理など、現代社会ではあらゆるデータが重要な役割を果たしています。
―― “良いデータ”とはどのようなものですか。
例えば新薬開発では、1つのデータを取るにも大変な時間と手間とコストがかかります。5,000人分の症例データがほしいと思っても、100人分の時間と予算しかないという場合には、何を測定したデータを、どんな方法で集め、どれくらいの数あれば薬の有効性や安全性を確認できるのかを計画します。そのデータを解析することで確固たる結論を導くことができるのが“良いデータ”だといえます。
――医療のように、すでに存在しているビッグデータの場合はどうでしょうか。
おっしゃる通り、現代にはあらゆるデータが存在しています。しかし、膨大な量のデータがあっても、それが解析に適したデータであるとは限らないので、常に「“良いデータ”とは何か」を意識し続けなければいけません。
最近では、機械学習やディープラーニングといったAIの学習にビッグデータが欠かせませんが、賢いAIを育てるには“良いデータ”が必要で、“悪いデータ”を与えると賢くないAIになってしまいます。ビッグデータさえあればOKだと誤解している人も少なくないので、その点はかなり強く伝えたいところです。
教科書に書かれていることと現実のデータの溝を埋める
――“良いデータ”を生み出すために問題となることなどはありますか。
もっとも顕著なのは、先にも触れた『データ数が少ないこと』ですね。また、『データが予定通りに取れない』ということもよくあります。医療に関する統計データの場合、調査対象の患者さんが途中で転居してしまったり、何らかの理由で来院出来なくなってしまったりということが頻繁に起きます。
全ての統計手法の裏には数学的モデルがあり、それらの数学的モデルを理解したうえでデータを分析します。教科書にはさまざまな数学的モデルが掲載されており、どれもきちんとしたデータがあることが前提になっています。ところが、実際のデータはそんなに完璧な形で存在していませんから、教科書と実際のデータとの溝を埋めるスキルが必要になるわけです。「数学的モデルには限界がある」ことを前提として、大量のデータを分析や解析することはデータサイエンティストに不可欠な資質でもあります。
――統計的データ解析の中でも注目されている『統計的因果推論』とはどういうものですか。
因果推論とはある事象の原因と結果の関係(因果関係)を推定する考え方のことで、全ての科学的研究や実証的研究の基本だといえます。そして、因果関係を統計的に推定して立証していくのが『統計的因果推論』です。
例えば、「薬を飲んだ」という入力データに対して、「病気が治った」という出力データがあったとします。ここで「薬を飲んだから病気が治った」とする因果関係が成立するかどうかを証明する必要がありますが、それは容易ではありません。薬を飲まなくても自然に治ることはあるし、飲んでも治らないこともあるからです。その関係を明らかにするためにデータを集めて解析します。
――医療のようにさまざまな要素が複雑に絡んでくる場合は、因果関係を明らかにするのは難しそうです。
ですから、この場合も「できること/できないこと」を区別する必要が出てきます。そのうえで「できること」の範囲を広げるよう、企業や研究者たちは努力しているのです。
特に、Evidence Based Medicine(科学的根拠に基づく医療)が基本となっている今の医療では、新しく開発した薬や治療方法や手術の有効性についてデータを示して証明する必要があります。最近ではEvidence Based Policy Making(科学的根拠に基づく政策決定)という言葉も使われるようになり、政策立案の際に税金を投入する価値があるかどうかを立証することに加えて、施策後には政策の効果測定も求められています。
「変わるテクノロジー、変わらないプリンシプル」を念頭に
――AIの進歩やビッグデータの盛り上がりなど、近年のコンピュータサイエンスの変化を感じることはありますか。
私がよくいう言葉に「変わるテクノロジー(技術)、変わらないプリンシプル(原理原則)」というものがあります。基礎的な数学は数千年変わらずに続いていますが、一方で、テクノロジーは驚くべきスピードで変化しています。
テクノロジーの進歩にともなって、統計手法も変化しています。以前の統計的データ解析は数学ありきで、数学モデルを学ばせる学問でしたが、今は数学では解けなくても高速コンピュータで計算ができるようになりました。
――このような変化が教育に与えた影響はありますか。
10年前にNHKの『クローズアップ現代』という番組に出演させてもらったとき、番組の最後に「日本には統計学(データサイエンス)の学部学科がないので、あるといいですね」と話したことをよく覚えています。それからの10年間で、データサイエンスの名前を冠した学部学科が数多く設置されました。ということは、データ分析や解析の方法論が変化してきただけではなく、この分野に携わる人が増えているということになります。
彼らがみんな統計の専門家になる必要はありませんが、統計データ解析を正しく使える人材になり、我々はそのような人材を育てることが大切であると感じています。日本統計学会のように古くからこの分野に関わっていると、数学的な統計手法を掘り下げることを重視しがちですが、現実社会の課題解決を見据えた研究や社会実装を進めていくことを考えなければいけないでしょうね。
どんな分野でも活躍できるデータサイエンティストを育成
――2023年4月に開設されたばかりの健康データサイエンス学部では、どのような教育を行っていますか。
この学部は基礎作りをする場だと思っていますが、まずは統計的データ解析の基礎を学生が興味関心を維持しながら学べるような工夫をしていきます。基礎としての座学も行いつつ、先ほど話したデータの限界について実際のケースを示しながら教え、演習や実習で学生自身が手を動かして技術も身につける。そのような基礎固めと応用を見据えた教育を行うことで、将来的にはデータサイエンティストとしてさまざまな分野で活躍できる下地を身につけてほしいと思っています。
――順天堂大学で学ぶことのメリットはなんでしょうか。
順天堂大学は教育、研究環境がとても充実しています。2022年にできたばかりの浦安・日の出キャンパスは施設も整っていますし、統計学やデータサイエンスの研究者をはじめ、医学部やスポーツ健康科学部などには医療やスポーツの専門家も揃っていますから、学生の興味・意欲次第でさまざまな道に携わることが可能です。
医療やスポーツは“良いデータ”の宝庫ですから、いずれはそうしたデータを活用した統計解析なども行えることは、とても魅力的な環境であると言えるでしょう。
――統計というと数字やデータばかりを見ている印象でしたが、それだけではないとわかりました。
応用分野は多岐にわたりますが、それぞれのコアの部分をしっかりと抑えておくことが重要です。統計的データ解析の手法のひとつに「生存時間解析」というものがあります。これは病気の発生や治癒、死亡までの時間を解析する手法で、元々は機械部品の耐用年数を解析するためのものです。方法論としては同じでも機械の寿命と人間の寿命は明らかに違います。それぞれのコアにあるものを見極めて、その違いを一つ一つ定義していくことが大切なのです。
本学の学生たちには、ぜひそういったことを学んでほしいですね。この学部で学ぶ1年生たちがいずれは大学を巣立ち、どのような道に進むのかはわかりませんが、どんな分野や環境でも、問題の本質を見極められるような教育をしていきたいと思います。