1. ホーム
  2. コラム
  3. 【第四回】統計・サイト解析コラム「デジタル・マーケターの為の“データ集計法”」(アンケート 集計 方法)

【第四回】統計・サイト解析コラム「デジタル・マーケターの為の“データ集計法”」(アンケート 集計 方法)

前回、第三回では、データの種類と性質についてまとめました。データには大きく定量データと定性データの2分類があり、定量データ側は第二階層分類として量的データと質的データ(定量データでありながら質的な)、更に最下層分類で「比率データ」「間隔データ」「順序データ」(以上3つが量的データ側)「名義データ」(質的データ側)の4つに細分されます。定量的に計測されたデータの中に、量的、質的という分類があってややこしいですが、あくまでデータの性質による分類ということでご理解ください。これらデータの分類によって、分析工程の段階で集計方法やグラフの種類、平均値等の統計演算の方法が変わってきます。

データの種類が分かったところで、データの集計方法について考えてみましょう。
アンケート調査の回答データに一件ずつ目を通して、個々の回答内容を把握することはとても重要です。しかし回答者集団全体の傾向を把握するには、個別回答を集計して全回答者ベースで回答の構成を俯瞰する作業が必要です。この集計作業には「単純集計」と「クロス集計」があります。

単純集計とは、例えばアンケート調査票が10問で構成されていた場合、全回答者の回答内容を問1、問2…、問10までの設問毎にそれぞれ数えて、回答選択肢の構成比を設問毎に把握する作業です。アンケートの設問毎に個別で集計することから「単純集計」と呼ばれます。アンケートデータが回収されてきたら、まず単純集計を見ることから分析を始めます。

■単純集計例:

Q1.○○○社のウェブサイトwww.○○○.co.jpにアクセスしたことはありますか。

  1. はい→450人(45%)
  2. いいえ→550人(55%)

回答者合計 1,000人(100%)

Q2.○○○社の製品に関する情報量は多いですか、少ないですか。

  1. 多すぎる→130人(13%)
  2. 多い→120人(12%)
  3. ちょうど良い→480人(48%)
  4. 少ない→200人(20%)
  5. 少なすぎる→70人(7%)

回答者合計 1,000人(100%)

…中略Q3~Q9

Q10.性別を答えてください。

  1. 男性→650人(65%)
  2. 女性→350人(35%)

回答者合計1,000人(100%)

次にクロス集計とは、2つの項目同士を組み合わせて集計した場合にどうなるかという分析です。10問の場合は同じ質問番号同士を除くとQ10×Q1~Q9、Q2×Q1,Q3~Q9…など、全部で45通りの組み合わせが有り得ます。まず、Q10の男女別にQ1のウェブサイトの訪問経験を分解して比べてみましょう。実際の分析でも全ての項目クロスを確認するのでなく、仮説に基づいて意味のある組み合わせを作ってゆきます。

■クロス集計例:

このクロス集計テーブルは行にQ10性別をとり、列にQ1サイト訪問経験を置きました。それぞれ男/女とはい/いいえの二択なので、1,000人の回答者が、2択×2択=計4つのセルに分けられています。更に、それぞれ横方向(行→)と縦方向(列↓)とに小計ができ、全体の総合計1,000人が右下隅のセルに入ります。このため選択肢2x2のクロス集計では全部で9つのセルが出来上がります。行と列にQ10性別またはQ1サイト訪問有無のどちらを入れても構わないのですが、男女別の違いでサイト訪問経験が変わるかという見方をする場合、要因の性別を行にとって、結果の訪問有無を列に並べて縦に比較すると説明しやすくなります。

人数では男性と女性でそれぞれ小計が違うため、どちらの訪問経験が高いのか直感的に分かりにくくなります。そこで百分率(%)に変換してセルの構成比を見てみましょう。すると、構成比は分子と分母の取り方により、実は3種類の作り方があることに気付きます。青い矢印「→」が分子と分母の関係、黄色セルの赤字が分母を指し示しています。赤い矢印「→」は解釈する時の比較方向です。

1.総和の%構成比(全ての個別セル÷右下の全回答者合計1,000人)(カド100)

2.性別毎のサイト訪問有無の%構成比(同一行の個別セル÷同一行の右端合計人数)(ヨコ100)

3.サイト訪問有無毎の性別%構成比(同一列の個別セル÷同一列の下段合計人数)(タテ100)

テーブル1の意味するところは、上記アンケート回答者1,000人全員を100%とした時、「男性でかつサイトを訪問したことのある人」が1,000人中20%、「男性でかつサイトを訪問したことのない人」が1,000人中45%、「女性でかつサイトを訪問したことのある人」が同25%、「女性でかつサイトを訪問したことのない人」が同10%で、45%になった男性で訪問していない人が回答者中で最も多かった、ということです。人数の異なる小計でなく100%に対しての比較なので、初見で結果を把握しやすくなりました。

クロス集計の目的であった「男女別でどちらの訪問経験が高いのか」を知るには、テーブル2.のヨコ100%構成比を上段の男性行と中段の女性行とで、上下に数字を比べて判断します。サイト訪問率(はい)は男性31%:女性71%ですから、女性の訪問率が高いサイトであるということが分かります。

テーブル3.は、サイト訪問をした人を100とした時、そしてサイト訪問していない人を100とした時の%構成比、つまりサイト訪問有無別の性別構成比を意味します。サイトを訪問した人には女性が56%でわずかに多く、サイトを訪問していない人は男性が82%で、約5人中4人が男性であるという解釈になります。

このようにクロス集計は、回答人数(=サンプル数=専門的には「観測値」と呼ぶ)だけの集計では1組だけですが、構成比%を見る際には全体(カド)、行(ヨコ)、列(タテ)方向の分子と分母の組み合わせにより3通りの%が作れるのです。それぞれ検証したい問いかけ(仮説)により、見るべき構成比が異なるのだということに注意してください。

カテゴリ: DMP, Webサイト運用運営
2014年07月18日

RSS