データサイエンスって何?
皆さんは、データサイエンスという言葉を聞いてどんなことをイメージしますか?こんな難しそうな数式が出てきそうというイメージ?
あるいはコンピューターを使ってデータを分析するようなイメージですか?
データサイエンスやデータサイエンティストという言葉を聞いてイメージするものは人によって色々と異なるでしょう。あるいは、特にこれといったイメージは持っていないという人もいるかもしれません。しかし、これらの言葉を聞いたことがある人は少なくないと思います。
2013年5月に設立された「データサイエンティスト協会」では、データサイエンティストを「データサイエンス力、データエンジニアリング力をベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル」と定義しています。なお、ここでいう「ビジネス」とは、狭い意味でのビジネスではなく「社会に役立つ意味のある活動全般」(データサイエンティスト協会の定義)を指しています。
では、なぜ今データサイエンスが注目されているのでしょうか。現在のデータサイエンス・ブームとも呼べる状況を作るきっかけの一つとして、Harvard Business Reviewという世界的に有名なビジネス誌が2012年に、データサイエンティストが『21世紀で最もセクシー(魅力的)な職業』というタイトルの記事を載せたことが挙げられます。ここ数年の間に急速にデータサイエンスに注目が集まるようになった背景には、ビッグデータが活用できるようになってきたこと、従来の統計学に加えて機械学習やディープラーニングの技術が進歩してきたこと、クラウドコンピューティングの登場なども挙げられるでしょう。
近年、日本でもデータサイエンスに注目が集まるようになった別の理由の一つとして、2019年末に発生し、瞬く間に全世界に感染が拡大した新型コロナウイルスの感染予測モデルがメディアなどで大きく取り上げられ、データサイエンスの重要性が示されたことも挙げられると思います。例えば、2020年に京都大学(当時は北海道大学)の西浦教授のチームがそれまでのデータを元に今後の新型コロナウイルスの感染予測をし、感染拡大を抑えるためには人と人との接触を8割減らすべきという提言を行なったことは(賛否両論あったにせよ)データサイエンスを用いて課題に答えを出す具体例の一つと言えるでしょう。
このような例を出すと、やはりデータサイエンスは文系の自分には無縁のもの、と思うかもしれません。しかし、現在は数学科や物理学科などのバリバリの理系出身者だけではなく、文系出身者でデータサイエンスの知識がある人材も求められています(大学のデータサイエンス教育についてはこの記事などが参考になります)。文部科学省は2018年の報告書(「Society 5.0に向けた人材育成」)で「文理分断からの脱却」を掲げましたが、このような動きを受けて多くの大学で「文理分断」を脱して「文理横断・融合」教育へと転換する動きが広がっています。東京女子大学でもデータサイエンス教育に力を入れ始めていますが、データサイエンス教育は文理横断・融合の流れの一環と捉えることができます。
データサイエンス教育において問題解決型学習プログラム(PBL)が非常に有効な学習手法の一つで、PBLによって学習者は自ら考え、問題解決能力を高めることができ、より実践的なデータ分析能力を身につけることができると考えられます。東京女子大学のコミュニケーション専攻ではこのようなスキルも身につけることができます。東女の中でもコミュニケーション専攻は特にデータサイエンスと深い関わりを持っています。
2022年11月にOpenAI社が一般公開したChatGPTやそれに類する文章生成AI、あるいはStable Diffusionなどの画像生成AIの登場は、情報社会における我々の生活形態にも大きな影響を及ぼし始めています。今後、人々が日常生活でAIを活用していく場面はますます増えるでしょう。しかし、現在利用可能なAIには弱点もあり、完全無欠のものではありません。例えば、ChatGPTのような優れたAIでも、検索する内容によっては全く間違った答えを出してくることも珍しくありません。従って、利用者側は「AIリテラシー」と呼べるようなスキルを身につけていく必要があります。これもデータサイエンス教育の一部となるでしょう。
今、私たちは大きな歴史的転換点に立っています。このような時代を生き抜いていくためにも、データサイエンスに関する知識やスキルを身についておくことは必須のものになっています。