1. ホーム
  2. コラム
  3. 【第二回】統計・サイト解析コラム「デジタル・マーケターが陥るA/Bテストの罠」(2)

【第二回】統計・サイト解析コラム「デジタル・マーケターが陥るA/Bテストの罠」(2)

第一回 は7つの罠のうち1つだけ触れました。後半は残りを説明します。

デジタルマーケターが陥るA/Bテスト7つの罠

  1. CTR(クリックスルーレート)やCVR(コンバージョンレート)など比率のみに着目し実数を考慮しない。
  2. 有意差検定を行わず、得られたテスト結果の値の差だけで判断してしまう。
  3. 必要十分なサンプル数やテスト期間を統計的に検討せず、プロモーション・スケジュールと費用の都合だけで決めてしまう。
  4. ターゲット=被験者(ウェブサイトを訪れる見込客)の属性を考慮していない。
  5. テスト対象のバナーや改定対象のウェブページ・デザインのみに囚われてしまい、外部要因を考慮しない。結果、個別最適化、部分最適化に陥り、より大きな因果関係を見落としてしまう。
  6. 個別に異なるA/Bテスト勝った要素を組み合わせてゆけば、ベストになると思い込む。
  7. 実験計画法を適用しない。

2.有意差検定を行わず、得られたテスト結果の値差だけで判断する。

前回1で述べた余計な不安を生みださないための統計的手法とは、有意差検定のことです。

ケースサイトの合計7,000人、A/B各グループ3,500人のテスト期間訪問者から5.5%対6.0%、B-Aの登録率差分0.5%が得られた時、これはただの偶然か(無意味なたまたま得られた差であった)、それとも統計的に必然であった(意味のある有意差であった)のかを科学的、数学的に確認するのが「有意差検定」です。

有意な差でなかった場合は、まさにA/Bテストの動機である、「テスト結果の本改修後における再現性」が統計的に裏付けられない、ということになります。

img01

3.必要十分なサンプル数やテスト期間を統計的に検討せずに、プロモーション・スケジュールと費用の都合だけで決定してしまう。

有意差検定手法を用いて何%の差が出れば有意差と判定されるか、そのために必要なサンプル数を事前に試算することもできます。

自社サイトの一日当たり平均ユニークユーザー数を知っていれば、統計的に必要なサンプル数を回収するまでにテスト期間が何日必要かを計算できるでしょう。では、A/Bページ間でどれくらい大きなテスト差が出るだろうか、テスト結果の事前予測は、正にデジタル・マーケターのこれまでの経験からある程度の範囲で推定しておかねばなりません。

プロモーション・スケジュールの要件は、統計的有意差検定の必要性を分かっているデジタル・マーケターであっても、それを省略してしまう最大の理由かも知れません。

どうしても年間のマーケティング計画、プロモーション計画を予定通りに遂行することに重きがおかれ、手間のかかる統計的設計フェーズをスキップしがちです。

しかし、折角時間を割いて行ったA/Bテスト結果が、統計的に裏付けられないままに本改修を行い、改修後パフォーマンスが芳しくなく、事前A/Bテストの信憑性が問題になった時、苦しい状況に追い込まれるのはあなた自身です。会社への貢献、適正な判断、自己防衛のためにも統計的検証は行われるべきです。

4.ターゲット=被験者(ウェブサイトを訪れる見込客)の属性を考慮していない。ターゲット=被験者(ウェブサイトを訪れる見込客)の属性を考慮していない。

テスト結果の再現性が成り立つ条件の一つに、テスト前後のビジターが同じタイプの訪問者でなければならないということが挙げられます。ここでいうタイプ=属性とは、訪問体験属性のことを指します。

インターネット上に限らず、オフラインの買い物でも消費者の購買行動は、個人の価値観や行動様式により様々です。A/Bテスト期間中にメールアドレスを登録していたのが、実は既存のユーザーのほうが多かったとか、未購入客だとしても実は以前から購入を検討していて、何度も訪れていたリピート・ビジターの複数回登録のお陰で得られたA/Bテスト結果であったなど。このように訪問者タイプが異なるせいで、本改修後、テスト結果の良かったページ案を採用したにも関わらず、本番ではCVRが落ちてしまったといった事が起こり得ます。

なぜなら本改修後に行ったプロモーションのバナー広告で全く購買意向の低い初回訪問客のほうが大勢であったから..といった悲劇が起きるのです。この例の場合、初回訪問客だけに対してテストページが表示されるようフィルターをかけ、本番後にパフォーマンスを上げたいターゲットの訪問体験条件をテスト前後で揃えておいてから、A/Bテストを実施すべきでしょう。

img02

5.テスト対象のバナーや改定対象のウェブページ・デザインのみに囚われてしまい、外部要因を考慮しない。結果、個別最適化、部分最適化に陥り、より大きな因果関係を見落としてしまう。

テスト前後でパフォーマンスを上げたいターゲットの属性をなるべく揃えるという話が出た時点で、ウェブサイト訪問者のコンバージョン直前の心理状態に影響を与える要素が実は多岐に渡っているのではと思われたでしょうか。

テスト前後のビジターの属性を合わせる2つ目の条件は、テスト対象ページまで閲覧体験です。例えば、上述のようにA/Bテスト期間中にバナー広告を出していたとか、極端な例えですが広報部から重大なリリースが発表されていた、社長の記者会見で炎上していまっていたなどなど。ウェブサイト訪問客の心理状態が全く通常と異なる時に行われてしまったA/Bテストの結果を一般化して採用するのはかなりの誤診リスクを伴うでしょう。

テスト対象のクリエイティブや、ページデザインのみに囚われてしまい、テストが行われるタイミングや季節性、その他外部環境要因への配慮を失念したままA/Bテストを実施しても、適切な意思決定は出来なくなってしまいます。

外部要因とは、テスト対象から見た外部要因なので、バナー広告の有無などウェブサイト外のことだけではなく、テストしたいページまでの経路などウェブサイトの内部構造にも注意する必要があります。

img03

6.個別に異なるA/Bテストで勝った要素を組み合わせてゆけば、ベストになると思い込む。

要素3~5の説明を読んでいただいた方は、もうお分りでしょう。複数の異なるA/Bテスト結果の勝者のみを組み合わせても、ベストなウェブサイトは既にテストした時とは似て非なるものになっています。

成果を上げたいページまでのビジターの閲覧体験が、各テスト実施時とは異なるものになっており、統計的に個別A/Bテストの検証結果を完全な裏付けとするわけにはゆきません。このような現象を統計学用語では実験因子の「交互作用」と呼びます。

2つの要因の影響を知るためには、A因子のみの効果、B因子のみの効果、AとBの相互作用の効果を分解して評価しなければなりません。過去のA/Bテストの勝者のみを採用し続けて、パフォーマンスが上がった経験をお持ちのデジタル・マーケターは、たまたま幸運だっただけなのかもしれません。

img04

7.実験計画法を適用しない。

本連載コラムで詳しく説明する予定ですが、6で述べたテストにかける要素の組み合わせをきちんと整理して、テストを設計することを総称して「実験計画法」と言います。

専門的にはテストしたい仮説と考えられる因子の数と組み合わせからテストにかける要素を設計する手法のことです。

ウェブサイトの成果向上をA/Bテストに頼ろうとするデジタル・マーケターは、A/Bテストが様々な統計的仮説検証法の派生形の一つであり、実験計画法というスタンダードな手法がマス・マーケティングの時代から存在しているということを学んでおくべきでしょう。

以上、「デジタル・マーケターが陥るA/Bテストの罠」と題して、安易な判断を犯してしまう7つのリスク要素をまとめ、何故デジタル・マーケターが統計的視点と知識を活用しなければならないか、その重要性を述べました。

2013年はビッグデータ元年として、新しいデータ・マネジメント・プラットフォームやデータ・サイエンティストという新しい職業名称のニュースで賑わいました。

全数データの分析を想定するビッグデータに対して、上記のA/Bテストのようなサンプル(標本)の値を用いて統計的仮説検証を行い、全体(母集団)の値を推定する従来アプローチがスモールデータと呼ばれることがあります。

しかし、ビッグデータの時代が到来したことでスモールデータ、上記のような統計的検証法やアンケート調査が代替されてしまうわけではありません。特にマーケティング分野においては、ビッグデータによる大掛かりなデータ・マイニングよりも、スモールデータによる小回りの効く仮説検証を繰り返してナレッジを蓄えるアプローチの利便性と重要性が改めて再認識されてくると思います。

A/Bテストは、デジタル・マーケターが馴染みやすい一例として、初回のテーマに挙げました。本統計コラムでは週一回の頻度(目標)で、A/Bテストに限らず、デジタル・マーケターがデータ重視の時代に流行に惑わされず、常に心におくべき統計とデータ分析のノウハウをシリーズで紹介してゆきたいと思います。

カテゴリ: DMP
2014年05月01日

RSS