1. ホーム
  2. コラム
  3. 【第三回】統計・サイト解析コラム「デジタル・マーケターの為の“データの種類と性質”」

【第三回】統計・サイト解析コラム「デジタル・マーケターの為の“データの種類と性質”」

統計コラム第3回目はデータの種類についてまとめます。

まずデータの種類について書く前に、何故データの種類を知らねばならないのかを説明しましょう。

それはデータの種類と性質によりデータの取り扱い方、集計方法や統計処理の方法、解釈の仕方が異なるからです。
ひいてはステークホルダーへの分析結果の説明の仕方も変わってきます。
また、業務用の統計ソフトで解析を行う場合にも、Excelから取り込んだデータの列毎にどの種類のデータに該当するか、1つずつ定義しなければ適切な解析が出来ない場合が殆どなので、データの種類をきちんと理解しておくことが統計入門の第一歩です。

一番大きな区分で、データには「定量データ」と「定性データ」の2種類があります。

「定量データ」とは、売上金額やクリック数など数値化された演算可能な状態の測定データのことを意味し、事象や活動の度量衡の大小・多少・増減を把握するための数値の集まりです。

一方の「定性データ」とは、例えばアンケートフォームに記入されたコメント内容やブログの文章、ソーシャルメディア上でのコメントなど主にテキストの状態で保存されている情報です。

本コラムでは、デジタル・マーケターが統計解析を行うためのノウハウがテーマなので、主に統計処理が可能な定量データを取り扱います。

定量データは、更に4つのタイプに分類されます。

  1. 比率データ(比尺度)
  2. 間隔データ(間隔尺度)
  3. 順序データ(順序尺度)
  4. 名義データ(名義尺度)

このデータの種類と性質を一覧表にまとめました。

上から順に様々な計算が可能で、含まれる情報量が多く、より次元の高いデータです。
上位のデータタイプほど様々な演算処理が可能で、従って適用できる統計処理・解析手法も多くなります。

データの分類表

1. 「比率尺度(データ)」には、ウェブサイト訪問者数、バナーのクリック数、ECサイトのコンバージョン(成約)件数、コンバージョン率(成約率)、そして売上金額などが挙げられます。

完全な数量データなので、加減乗除の計算はもとより、標準偏差を出したり相関分析を行ったり様々な統計解析が適用できます。

成長率を表したグラフ

2. 「間隔尺度(データ)」は、ウェブ解析ではアクセス日時データが考えられます。
なぜアクセス日時データが間隔尺度データなのか、一般データ例の気温と暦データを先に考えてみると分かりやすいでしょう。
間隔尺度とは温度のように、絶対起点としての零(0)が無く、マイナス方向にもプラス方向にも変動するタイプのデータです。

地球の気温は高くて50度くらいまでですが、太陽の表面温度は5,700度にも達します。
理論的には更に上の温度も有り得ます。
摂氏30度は摂氏20度の1.5倍暑いとは言えませんが、気温に10度ほど高いとは言えます。
このように起点0が無く、倍率にも意味がなく、2点間の差分と相対的な高低のみに意味があるデータが間隔尺度データです。
暦の年代も未来は永劫、過去は宇宙が始まった200億年前まで遡ることも出来るので時間軸は間隔尺度です。
6月4日のビジットは6月1日のビジットより3日後とは言えますが、4倍遅いとは言いません。故にアクセス日時データも本質的には間隔尺度データです。

しかし、ウェブサイトを立上げたのが2014年1月1日で、そこから6月1日の訪問者まで5ヶ月間経過したという使い方であれば、起点零からの経過時間という比率尺度に見方が変わりえることに注意してください。
温度も絶対零度の−273.15 ℃を始点として考えれば比率尺度になります。

温度計の画像

3. 「順序尺度(データ)」は、そもそも単位の目盛がなく、便宜上優劣や大小、前後関係を表現するために1位、2位、3位…という順番に意味があるタイプのデータです。
分かりやすいのはオリンピックの金、銀、銅メダル。
銀より金が嬉しいことは分かりますが、金メダルが銀メダルの2、3倍良いとか5ポイント上という計算はできません。

デジタルマーケティングの世界で、順序データに該当するものは何だろうと考えた時、なかなか見当たらず思いついたのがFacebookの投稿に対する「アクションなし<いいね!<コメント<シェア」や、ウェブサイトの「直帰<閲覧<登録<購入」というユーザーとの関係性ステージです。

ただの「いいね!」よりもコメントを書いてもらったほうが共感度が高いことは分かりますが、2倍高いとか、4ポイント価値が高いという計算は出来ないので、順序尺度となるでしょう。

講演の様子を写した写真

定量データ 4. 「分類」のうち、比率尺度データから順序尺度データまでの3つを、(定量データ分類下の)量的データと呼びます。
便宜上順位には1、2、3という数値を振りつけることで数値が可能だからです。

4. 「名義尺度(データ)」は、例えば「男性訪問者」「女性訪問者」など同じ属性(性別)のグループに所属している人数や件数を数えて数値化したものです。

本質的に(属)性データなのだけれども、構成人数や出現頻度を数えることができるので(定量データ分類下の)質的データと呼ばれています。
名義尺度データ=質的な定量データ=英語ではCategorical Dataです。
どのカテゴリーに所属するかがポイントです。

ウェブサイト訪問者(ユニーク・ビジター)1,000人のアクセス元都道府県をIPアドレスから判別した場合、「東京からの訪問者」グループ、「大阪からの訪問者」グループといった分類(ラベル分け)が名義尺度です。

どちらが上か下か、優位かといった解釈はナンセンスですが、訪問者1,000人のうち東京都から700人 対 大阪府から200人 で、計300人であったという分類情報に意味があります。
グラフにすると700対200の棒グラフで比較をします。

同グループに所属する人数の集計(カウント)が可能です。

ウェブ解析分野では、オンライン広告メディアやウェブページに付けるタグによる分類情報も典型的な名義尺度(カテゴリカルデータ)と言えるでしょう。

タグが写った画像

以上、データの種類と性質のまとめでした。

今後、デジタル・マーケターの為の統計コラムを書き進めていく上で、データの加工や統計処理の説明でどうしても使わざるを得ない基本的専門用語なので覚えておいてください。

カテゴリ: DMP
2014年06月11日

RSS