データの可視化について
東京女子大学では2022年度4月からデータサイエンス副専攻が新設されます。データサイエンスと聞くと、文系の学生には関係ないと思うかもしれませんが、データサイエンスに関する知識は、今や文系か理系かを問わずとても重要となっています。コミュニケーション専攻では、統計法や研究法といったデータサイエンスと親和性が高い科目を重視したカリキュラムを組んでいます。
例えば、コミュニケーション統計法2という授業では、SPSSやRを用いて実践的にデータ分析の手法を学んでいきます。高校生の時には数字を見るのは苦手であったという学生でも理解できるように授業では基礎から教えています。また、コミュニケーション研究法入門という授業では、質問紙調査法や(主に心理学的)実験法などの量的研究法やインタビューのような質的研究法と共に、テキストマイニングについても解説しています。この数年、KH Coder(立命館大学の樋口耕一教授が開発した非常に優れたテキストマイニング用ソフトで、近年卒論で使う学生も増えてきています)というツールを使った実習を行なっています。
授業時間の関係で、研究法入門ではテキストマイニングについてそれほど深掘りする余裕がないのですが、例えばKH Coderを使った嵐・AKB48・乃木坂46の3グループの歌詞分析(テキストマイニング)は履修者の間で興味を持ってくれる人も多いようです。研究法入門では、上記3グループの歌詞の特徴を知るために、共起ネットワークや対応分析というデータを可視化できる手法を扱っていますが、今回のブログでは授業ではまだ扱っていないWord Cloud(ワードクラウド)について簡単に解説しておきます(来年度の授業では扱う予定)。
ワードクラウドは、最近SNSやブログ、テレビの情報番組などで目にする機会も増えていますが、文字データを可視化できる非常に便利な手法です。簡単にいうと、ある文章の中で出現頻度が高い単語を抽出し、頻度に比例した大きさの雲(Cloud)のようなグラフにしたものです。
ここでは、嵐とAKB48の2つのグループの曲(オリコンヒットチャートで上位に入ったものが対象)の歌詞を、KH Coder とRのWord Cloud2というパッケージを用いて可視化した結果を示しておきます。なお、今回は便宜上、抽出する単語を名詞と動詞に絞って、さらに出現頻度が10回以上の単語に限定していますが、この条件を変えると(例えば、形容詞や副詞なども対象にする)と当然描かれるグラフは異なったものになります。二つのグラフ(図1と図2)を見比べると、嵐とAKB48の曲の中でどのような言葉が多く使われているか、2つのグループの歌詞の特徴の違いなどが視覚的にわかると思います。コミュニケーション専攻では、他にもいろいろデータの可視化方法を学ぶことが出来ます。
図1 嵐の曲のワードクラウド
図2 AKBの曲のワードクラウド