産業保健活動でデータ分析をはじめるのに役立つ5つのヒント
【目次】
1.はじめに
2.データ分析をはじめるための5つのヒント
【ヒント1】理想のデータ構造について知っておく
【ヒント2】何のデータが入っているのか把握する
【ヒント3】データを要約する
【ヒント4】グラフにする
【ヒント5】ストーリーを作る
3.まとめ
1. はじめに
本記事は、データ分析をはじめてみたいけど、どんな風にやっていけばよいか見当がつかない、という方に役立つ考え方を紹介します。みなさまは、雑然としたデータから何か知見を得られないかと依頼された経験はありますでしょうか?筆者はそのような現場が多かったので自分なりの生き残り術を模索してきました。本記事ではその経験を整理してお伝えします。
データ分析の重要性についてはこちらの記事をご覧ください。
データ分析と聞くと=統計解析?と思う方もいらっしゃるかもしれません。実は統計解析よりも先におさえておくべきポイントがいくつかあります。産業保健活動におけるデータ分析の主な目的は、データから得られた示唆に応じてよりよい対策を打ち出すことにあるでしょう。結果を社内で共有し、意思決定の材料にするために、まずはデータの特徴を丁寧に可視化することが役立つと思います。
学術研究と違い、注目すべき指標や明確な仮説がない場合は、まずは手元のデータをよく理解することから始めましょう。理解が深まると次のステップに進みやすくなります。最初は気まぐれでもかまいません。ブレインストーミングだと思っていろいろ試すことで、データにちょっと詳しくなってきます。
詳しくなれば、そのデータで何が主張できそうか、何が足りないのか、といった側面が見えてきます。データ利活用を進めるためにも、現状のデータで何が分かるのか、可視化することはとても有用です。それでは、データをよく理解するための5つのヒントについて解説していきます。
なお、プログラミング言語であるRやPythonを使えればとても効率的ですが、まずはExcelでできることを念頭に解説します。
2. データ分析をはじめるための5つのヒント
ヒント1. 理想のデータ構造について知っておく
最初から分析用に整った形式になっていればその後の作業の難易度は低いです。しかし、分析者目線で整ったデータがいつも得られるわけではありません。データをよく知るために、多くの場合はデータそのものを整える所から始めなければならないでしょう。
データを整える作業は、データを分析していく際の最も大変なプロセスになる場合があります。理想のデータ構造について知っておくことで、扱うデータの目指す姿が明らかになり、作業の道筋がイメージしやすくなります。
産業保健活動でデータを扱う際は、多くの場合構造化データになると思います。構造化データは別名テーブル(表形式)データとも呼ばれ、図1のような形のデータになっています。
図1 テーブルデータ
テーブルデータとは、行と列から構成される長方形構造のデータです。行は別名としてケース、オブザベーション、レコードとも呼ばれ、列は別名として変数;カラムとも呼ばれます。このデータ構造は、RやPythonではデータフレームと呼ばれ、データ分析を進める際の基本的な形です。
また、産業保健活動では年度ごとにデータがある縦断データを扱うことも多いため、変数が年度別に列に表示され横に長くなるwideデータ、同じ個人が年度別に複数行に登場して縦に長くなるlongデータを場合によって使い分ける必要もあります(図2)。
図2 wideデータとlongデータ
実務で遭遇するExcelファイルのデータは、構造化データと見せかけて、中途半端な構造化にとどまるケースも多いです。構造化データに整えていく作業は、Excelでたいていのことはできると思います。しかし、作業の再現可能性を高めることやミスの防止、繰り返し作業の効率化などの様々な面で、RやPythonなどの専用ソフトを使った方が長い目で見ると便利です。
ヒント2. 何のデータが入っているのか把握する
この先は構造化データが用意できたとして進めていきます。まず把握する情報は、どういった変数(=列名)がデータとしてあるのかについてです。変数名の一覧とその中身を見て、活用したい、もっと詳しく調べてみたい変数を拾い出します。
Excelの場合、列幅の狭さで変数名全体が見えないことがあります。その際は、例えば新しいシートを作り、縦に変数名を表示させると分かりやすいです。まず変数名の行全体をコピー > 一覧を表示させたい先の開始セルを選択して右クリック > 形式を選択して貼り付け > 行/列の入れ替えにチェック > OK、で確認しやすくなるでしょう(図3)。
図3 列名の一覧
変数が何を表しているのか情報がない場合も多くありますが、そうした場合はデータの提供元に確認する作業が発生することも工数の見積もりに含めておきましょう。
ここで意識しておきたいのは、変数の種類です。データは大きくカテゴリ変数と連続変数に区分できます。
カテゴリ変数は、データが主に文字で表され、数値の場合も文字としての扱いとなり計算には使いません。例えば、性別、部署、職位などがあります。当然ですが、数値としての意味はないので、平均値を計算することはできません。代わりに、カテゴリの水準ごとの人数を算出し、全体に対する割合として示します(例:男性40%、女性60%)。
連続変数は、データが主に数値で表され、計算に使えます。例えば、年齢、血圧などがあります。数値に意味があるので、平均値や標準偏差などを算出できます。なお、心理尺度の回答選択肢(例、ほとんどなかった、ときどきあった、しばしばあった、ほとんどいつもあった)はどちらかというとカテゴリ変数に近いですが、心理学では連続変数とみなして分析するケースが多いです。
これら2種類の変数を単独、または組み合わせて基本的な情報を確認していきます。データがどのような変数で構成されているのか把握したら、この先深堀りしていく変数をメモして整理しておくと検討忘れが防げるでしょう。
ヒント3. データを要約する
データをよく理解するためには、要約して集計する作業がかかせません。
たとえば、関心のある指標(変数)について以下の基本的な集計をするとよいと思います。ただし、実務上はこの要約の過程をとばして次のヒントで紹介する可視化作業で代用することも可能です(詳しくはヒント4)。
■各変数の平均値、割合などを計算する
■層別(性別、年齢層別、部署別、年度別など)に平均値、割合などを計算する
集計の方法として、Excelがあれば手軽にできるのがピボットテーブルです(図4、5)。しかし、データに入っている変数すべての結果を一気に出して見たい、といった時にはRやPythonなどで使える、便利な一括出力パッケージを使う方が簡単です(例:Rのexploreパッケージ;Pythonのydata-profilingなど)。
図4 ピボットテーブルのアイコン
図5 ピボットテーブルの概要
基本的な集計によって、平均年齢や男女比、健診指標の部署別平均値などがわかります。そして、これらを1つの表にまとめるだけで、データの特徴が見えてくると思います。数値の解釈のために、公的な調査等から基準値を参照できるようにしておくと、産業保健の専門家以外の関係者にも説明しやすいです。
一方、こんな指標があればいいのに、という洞察もここで生じてくるでしょう。たとえば、「健診指標の検査値の平均ではなくて、一定の基準を超えて問題あり・なしの二区分の変数にしたい」、「10歳ごとの年齢層に区分したい」といった発想です。このように、現在の変数から新しい変数を計算し、データに列として追加していくことがよく行われます。
また、現在扱っているデータにはない、他のデータと連結してクロス分析をしたらより豊かな知見が得られそうだ、というイメージも持ちやすくなるでしょう。ただし、連結するに当たっては、データ閲覧の権限や、連結に使うキー変数の用意、他部署との連携など難しい課題も多いです。社内のデータ管理体制が整っていれば、検討してみてもよいかもしれません。
ヒント4. グラフにする
基本的な集計は、グラフ化することでさらに理解がしやすくなります。加えて、集計していない生のデータの特徴をできるだけ残して可視化する方法も強力かつ簡単です。筆者の場合は、後者の方法を使う場面の方が多い気がします。
■基本的な集計のグラフ化
棒グラフ、円グラフ、折れ線グラフなど
■生のデータの特徴を残したグラフ化
ヒストグラム、箱ひげ図、散布図など
基本的な集計のグラフ作成の方法として、Excelがあれば手軽にできるのがピボットグラフです(図6)。ピボットグラフを使うと、グラフを描きながら基本的な集計の表も自動で作られるので、ヒント3の過程をここで一緒に進めることが可能です。
図6 ピボットグラフのアイコン
ヒント5. ストーリーを作る
データのグラフ化までできたら、たくさんあるデータ分析結果から、伝えたいメッセージに合わせて抽出し、整理することが必要です。調査内容について詳しくない者に説明する際、大量の結果をすべて見せていくと、得られた知見の重要性が伝わりにくくなってしまいます。そして、ストーリー性を持った情報の提示を意識することにより、分析結果の重要性がより伝わるようになるでしょう。
情報整理のポイントは2つです。
■会社として力を入れている指標や属性別での結果
例:喫煙、肥満、若年層など
■特に明確な差や関連が見られるグラフをピックアップ
例:全国平均と比べた不健康な飲酒者割合の高さなど
伝えたいポイントが定まったら、分析結果を説明するストーリーを考えます。その際、経済産業省が策定した「健康投資管理会計ガイドライン」にある戦略マップを参考にすると分かりやすいでしょう。自社の健康経営課題を念頭に置きながら、データ分析の結果が全体の戦略の内どの側面に該当するか意識して報告資料を作成します。
例えば、図7では従業員等の意識変容・行動変容に関する指標として「喫煙率の低下、喫煙本数の減少」がありますが、①経年でこれらの指標の変化を示す、②部署別、性・年齢別に指標の変化を検討し、特に変化が大きい属性を探す、③プレゼンティーイズムやフィジカルハイリスク者との関連を見て、喫煙率の低下により得られるメリットをまとめる、といった流れが考えられます。
もちろん、そうしたストーリーに沿った結果が常に出るとは限りませんが、どんな結果でもさらなる精査のヒントや、関係者との議論で新たな仮説生成に役立てることができるでしょう。
図7 戦略マップ
出典:経済産業省ウェブサイト 健康投資管理会計 実践ハンドブック(https://www.meti.go.jp/policy/mono_info_service/healthcare/kenkoutoushi_kanrikaikei_guideline.html )
3. まとめ
本記事では、データ分析をはじめるためにどのような考え方を持っておくと役立ちそうか、データを開くところから報告資料作成まで全般的にヒントを紹介しました。
データ分析は、どんな高度なことを行うにしても、最初のデータ理解のプロセスでやることは共通した部分があると思います。データ利活用を進めるために、現状のデータで何が分かるのか、可視化することはその代表的な作業の一つです。
今回紹介した5つのヒントが、皆様の産業保健活動の専門性をさらに示していけるきっかけになることを願っています。
執筆
土屋政雄 株式会社アドバンテッジリスクマネジメント 上級研究員
産業保健心理学を専門として職場メンタルヘルスに関わる調査や介入研究に多数携わる。日本産業衛生学会若手研究者の会が主催するデータ分析の研修回や、様々な学会のワークショップや教育講演にて統計や研究法の講演を行う。『産業保健の複雑データを集めてまとめて伝えるワザ : 社員も経営層も動かす!「最強」の活用術』(産業保健と看護, 2018年春季増刊 ; 通巻58号,メディカ出版)では、統計ソフトや統計解析の勉強法に関するコラムを執筆。