adtech studio

経済学の新たな方向性—EC’18 (19th ACM Conference on Economics and Computation)参加報告—

By moriwaki

参加報告

AILabの森脇です。

6月18〜22日にコーネル大学(ニューヨーク州イサカ)で開催された、経済学とコンピュータサイエンスの学際研究に関するEC’18というカンファレンスに参加してきました。

このECというタイトルは、1999年の初回から2013年までは電子商取引(E-Commerce)、2014年以降は経済学と計算(Economics and Compuation)の略とされています。もともとACMの電子商取引分野のグループ(SIGecom)が開催していたことから自然とE-Commerceのカンファレンスとしていたところ、SIGecomが公表しているように、経済学と計算機科学の学際的な研究を呼び込むことを目的として名称変更を行ったようです。名前は変わったものの初回から最新の2018年まで、一貫してオークションやメカニズムデザインの理論、インターネットを通した経済活動に焦点を当てた論文が多く採択されています。

カンファレンスはメインの発表が3日間にわたり20セッション、1セッションで3〜4本発表というスタイルで進行していました。全体を聞く中でデジタルエコノミーが経済学の新たな実験場として急速に浮かび上がっているという印象を受けました。以下では印象深かった発表をいくつか取り上げつつ今後の経済学について少し考えたいと思います。

発表の様子

最初に取り上げたいのは自然実験を利用した2つの論文です。まず、Uber社のAlice LuらによるSurge Pricing Moves Uber’s Driver-Partners.は、Uberがドライバーを需要の少ない地域から需要が多い地域に移動させるために地域別の料金を可視化しているサージヒートマップというUIが、実際にUberドライバーの行動変化に結びついているかを分析しています。この論文の特徴は、iOSユーザーだけサージヒートマップが見えなくなるというシステム障害というイベントを利用して、擬似的な実験(自然実験)を用いている点です。本来ネガティブなはずの障害を論文のネタにしてしまう発想は見事。また、ドライバーの効用最大化行動を現在いる地点からどの方向に行くかという選択としてモデル化している点も、空間データを経済学に適応している点で参考になりました。

ホテルなどのレビューサイトTrip Advisorのデータを用いたHollenbeckらのAdvertising Strategy in the Presence of Reviews: An Empirical Analysis.も自然実験を利用した論文です。ユーザーはレビューサイト上の「星」の数からホテルの評価を知りますが、数字の丸めの関係で、ほとんど差がない3.49点のホテルと3.50点のホテルが、それぞれ星3つと星4つになってしまいます。いわゆるRDD (Regression Discontinuity Design)の手法ですが、x.5点付近のホテルは星の数が「ランダム」に決められことを利用して、評価の良いホテルと悪いホテルのマーケティング戦略の違いを分析しています。この研究では、Trip Advisorからクロールしてきたウェブデータと、広告費に関するデータをマッチングしているのですが、その際、fuzzy string matchingでプログラマティックにホテルを紐づけたあとAmazon Mechanical Turkを用いてクラウドワーカーたちにそのマッチングがうまくいっているかどうかチェックをさせています。MTurkは研究ツールとしてEC’18を通して随所で活用されており、デジタル・エコノミーの台頭が人海戦術を誘発するというアイロニーを肌で感じることができました。

明示的に実験が行われた論文としては、ハーバード・ビジネス・スクールの二人組による The Costs of Entering through Tying: Experimental Evidence.があります。下のスナップショットをご覧いただくとわかりますが、Googleでレストランなどを検索すると、レストランレビューサイトなどのリンクの表示の上に、Google独自のレビューサイト、Google Localの結果が囲みで示されます。これは、圧倒的な競争力を持つ検索エンジンGoogle Searchに、Google Localという別のコンテンツをくっつけて売る、いわゆる抱合せ商法(tying)です。

「渋谷 レストラン」の検索結果。上の囲みにGoogle Localの結果が表示されている

抱き合わせ商法が消費者にとってどのような意味を持つのか分析するために、Kimらは以下のような実験をしました。まず、MTurkで集めてきた15,000人の被験者に、「ある場所で良さげなレストランを検索している」という設定で、スナップショットのようなGoogleの検索結果画面をみせます。このとき、被験者が画面のどこをクリックしたかを記録します。

実はこの検索結果画面は創作されたもので、実際のものと少し違います。何が違うかというと、被験者毎にページトップの囲みの中のコンテンツが、Google Localのレビューだったり、YelpやTrip Advisorなどの外部サイトから抽出されたレビューだったりします。もし、囲みの中をクリックする確率が、中身のコンテンツに関係なく一定であれば、抱き合わせ商法は特にユーザーにとって影響がないとみなせます。反対に、囲みの中身によってクリックする確率が変わる場合、抱き合わせ商法がユーザー経験的に何らかの影響があるといえます。

この研究の面白いところは、Googleを題材にしているのにGoogle社の協力を得ていないということです。彼らが勝手にGoogleの画面を制作し、改変を加え、必ずしもGoogleユーザーではない、MTurkのワーカーたち相手に実験を行っているのです。この、第三者が協力しない研究方式には結果のバイアスの存在を容易に棄却できるという利点があります。欠点としては、実験環境の整備のコストや、実際の環境との相違が挙げられます。

敷地内に吊り橋がある野性味溢れるコーネルキャンパス

テック企業をはじめとして企業における実験が普及してきたことを反映して、EC’18では実験そのものに関する研究も発表されていました。AB Testing.は、Microsoft社の実験プラットフォームExPに蓄積された大量の実験結果から、効果的な実験デザインのあり方について議論しています。この論文では、企業が複数の効果が不明なイノベーション(例えば、サーチエンジンBingの新たなアルゴリズム)を実験によって選別するというテック企業らしい課題設定のもと、イノベーションの真の効果を実験によって測定する場合に、どれくらいの数のイノベーションを実験すべきか、また、実験に用いるサンプルサイズをどれくらいにすべきかという検討をしています。

サンプルサイズが大きいほど推定誤差は小さくなるので、「良い」イノベーションを見極める力が高くなるのですが、たくさんのユーザーを実験に動員するのでコストが掛かり、いろんなイノベーションを試すことが不可能になります。逆に、サンプルサイズが小さい場合は、いろんなイノベーションを試行できますが、推定誤差が大きくなり、ちょっとした改善効果は見逃されることになります。

結論は、イノベーションはファットテール、つまり効果がとてもよいイノベーションがけっこうあるので、思いついたイノベーションは小さいサンプルサイズでも片っ端から実験したほうがいいということです。イノベーションの真の改善効果が高ければ、多少誤差があっても十分識別できるというわけです。また、現実的なビジネスの現場のことを考えても、利益を生み出すのは少数の効果の高いイノベーションであるため、ちょっとした改善を模索するよりはどんどん新しいイノベーションを試して大きな成果を探すほうがよいということもあります。

毎日用意される朝食。発表前から参加者が和気藹々と議論している姿が見られました

この、「実験のコスト」や「推定誤差」は、現実的に大きな問題で、小さいサンプルサイズで小さな推定誤差が得られれば、というのが現場のデータ分析者の共通の想いだと思います。A Personalized BDM Mechanism for Efficient Market Intervention Experiments.(Arrieta-Ibarra-Ugander, 2018)は、BDMメカニズムという実験手法の拡張によって、より少ないコストで小さい推定誤差を達成するパーソナライズドBDMを提案しています。

BDMメカニズムというのは、1960年代に提案された人々の「効用」を計測する実験手法です(Becker et al., 1964)。まず、被験者に宝くじのようなくじを与えます。その上で、実験者は被験者に、くじを買い戻したいので最低これなら売ってもいいという価格(最低価格)を提示するよう求めます。最低価格が示されたら実験者はくじに対する入札金額を提示します。入札金額は適当な確率分布からランダムに抽出されます。金額が最低価格より高ければくじは買い戻され、被験者は入札金額をもらえます。最低価格が入札より低ければ買い戻しは起きず、被験者はくじを引きます。被験者は、くじと期待効用の上で「等価」になる金額を最低価格とすることが最善となるので、実験によってくじの被験者にとっての等価価値がわかることになります。

Arrieta-IbarraらはこのBDMメカニズムのくじの買い戻し入札の部分に注目し、改良を加えました。被験者の提示する最低価格は、くじの条件(当たった場合の金額や当たりくじの割合)だけでなく被験者の性格にも依存するはずです。入札金額を決定する確率分布を被験者の性格などから推定して確率分布のパラメータを被験者ごとに変更すること(=パーソナライズ)ができれば、できる限り安い金額で効率的に買い戻しができます。また、こうすることで買い戻しを受けるか受けないかの確率が調整され、推定誤差も縮小できます。

くじの買い戻し自体は特に経済的意味はありませんが、例えば、開発経済学の文脈ではリアルな実験の場面でBDMが使われています。Berry et al. (2018)は、くじの買い戻しの代わりに飲料水の濾過器について、被験者に支払ってもいい最高価格を提示させ、ランダムに濾過器の価格を選び、価格が最高価格を下回ればその価格で購入できるという実験を行なっています。こうした文脈では、被験者の提示する最高価格付近で価格が選択されることはコストの抑制に働きます(濾過器の本来の価格は原則として被験者の最高価格より高いため差額が実験のコストになる)。

さて、元論文に戻ります。論文では、MTurk上でワーカーにメールの文章からスパムを見抜くというタスクを与え、正解ごとに報酬を与えるという環境下で、通常は設定されている時間制限をなくす時間無制限チケットをオファーします。この時、ワーカーにこのチケットに払ってもいい最高価格を提示させます。最高価格が提示されたら、「時間無制限チケット」の価格がランダムに決定されます。このとき、チケットの価格の確率分布は、ワーカーの属性に応じて個別に設定されています。この実験の結果、著者らはパーソナライズドBDMはこれまでのBDMに比べコスト面でも推定誤差の面でも改善が見られたとしています。論文では、MTurk上での実験にとどまっていますが、実プロダクトでもさまざまな応用が考えられる研究です。

これまで経済学者の主な実験場は開発経済や教育現場でしたが、こうした分野の知見をデジタル経済の実験に活用する事例が今後増えていくでしょう。

参加者みんなでディナー

このほか、不動産価格とAirbnbの関係を分析したThe Sharing Economy and Housing Affordability: Evidence from Airbnb.(Barron et al., 2018)は、Googleトレンドを操作変数に利用した現代らしい研究として印象深かったです。

また、シェアリングサービスでほぼ必須となっている「レビュー」を題材にしたReputation in the Long-Run.も、とても興味深い論文です。オークションや中古品売買のようなCtoCのプラットフォームをよく利用する方は実感があるかもしれませんが、出品者や購入者を評価するレビューは、5段階評価のうちほとんどが5であるというプラットフォームは珍しくなく、星5つであることは当たり前で、4や3がつくユーザーは警戒すべきというのが利用者の一般的な見解になっているプラットフォームもあるようです。

この論文では、インターネット上で労働契約を結べるプラットフォームのデータを用いて、なぜ星が偏っているかを分析しています。著者らは、レビュアーである雇用主が、契約したワーカーからのなんらかの仕返しを受けることを警戒して、あえて実際の仕事の出来栄えより高い評価をしているという仮説をもとにモデルを構築しました。そして、実データを用いて、「真の評価」と「実際の評価」の差をみることで、実態を伴わない星のインフレが起きていることを示しています。

その際、「真の評価」として非公開のレビューのデータを用いています。ワーカーも見ることができる公開のレビューでは高い評価をしていても、非公開のレビューではボロクソ書くという現象があるそうです。著者らの結論は、レビューのインフレのうち半分は実体上のサービスの改善ではなく雇用主の忖度によるインフレであるということです。

Statler Hotelのレストラン。クラシカルなアメリカンブレックファストが美味しかったです。

最後に、これらの論文を通して、自分なりに今後の経済学について考えたことをまとめておきます。

一つは、実験場としてのデジタル経済の価値です。様々なサービスが生み出されるなか、ユニークなデータが日々生まれており、モデル推定に適した自然実験を発見する余地は大きいです。さらに、MTurkなどクラウドソーシングを用いる実験によって、実験環境を作り出すことも可能です。人為的な実験には、外部妥当性など実験ゆえに超えなければならないハードルはありますが、十分実験の設定を吟味し、被験者の理解を確認した上で実施すれば有用なツールになりえます。批判に耐えうる実験ができれば、実験なしには得られないユニークな知見を得ることが可能です。

二つ目は、デジタル経済特有の現象を経済学モデルで評価することの面白さです。ウーバーのドライバーの行動を効用最大化問題として定式化したり、大量のABテストを生産関数としてモデル化したり、レビューを利益最大化行動として考えたりと、事象を解釈するためには、経済学のお家芸である効用最大化や利益最大化モデルに持っていくことが有用であると感じました。経済学のモデルはともすると強い仮定がおかれたり、観察不可能な変数が前提となっていたり、推定が難しかったり怪しかったりすることも多いのですが、事象を理解するという点では強力です。分野外の研究者から独善的と見られないようにうまく説明ができるようなモデルを立てていくと建設的な議論ができそうだなと思います。

三つ目は、大量のデータに対して常に研究にどう使えるのかという視点で考えていく必要があるということです。様々なオープンデータ、ウェブデータが眼前に広がっているにも関わらず、それを研究に使う人はごく僅かです。データがあってもそれを使いこなす技術と良いリサーチクエスチョンがないと論文は生まれません。GoogleトレンドをIVとして使うとか、レビューの星の数をRDDに使うという発想は目から鱗でした。なによりアメリカの一流大のファカルティがせっせとレビューサイトをクローリングしているという事実に勇気付けられました。

経済学は、歴史ある学問ですが、これまで様々な領域に手を伸ばしては一定の成功を見せてきた学問です。整備されたサーベイデータに収まらず、ウェブやテクノロジーの爆発的発展に呆然とするのではなく果敢についていきたいと思いました。

図書館の塔。登れます。

それにしてもコーネル大学はきれいなキャンパスでした。歴史ある重厚な建築群の中を散歩していると、ボストンのケンブリッジを歩いているような気分になりますが、キャンパスのある丘から見ると麓まで自然が広がっており、まるで避暑地に来た気分です。6月下旬は年中寒いニューヨーク州北部でもかなり過ごしやすく発表が終わったらなんとなくみんなで外に出て夕景色を眺めていました。とても楽しいカンファレンスでした。

みんなで眺めた夕焼け

引用文献

Lu, A., Frazier, P. I., & Kislev, O. (2018). Surge Pricing Moves Uber’s Driver-Partners.
Hollenbeck, B., Moorthy, S., & Proserpio, D. (2018). Advertising Strategy in the Presence of Reviews: An Empirical Analysis.
Kim, H., & Luca, M. (2018). The Costs of Entering through Tying: Experimental Evidence.
Azevedo, E. M., Deng, A., Olea, J. L. M., Rao, J., & Weyl, E. G. (2018). AB Testing, 2018, 56.
Becker, G. M., DeGroot, M. H., & Marschak, J. (1964). Measuring Utility by a Single-Response Sequential Method. Behavioral Science, 9(3), 226–232.
Arrieta-Ibarra, I., & Ugander, J. (2018). A Personalized BDM Mechanism for Efficient Market Intervention Experiments.
Berry, J., Fischer, G., & Guiteras, R. (2018). Eliciting and Utilizing Willingness-to-Pay: Evidence from Field Trials in Northern Ghana.
Barron, K., Kung, E., & Proserpio, D. (2018). The Sharing Economy and Housing Affordability: Evidence from Airbnb.
Filippas, A., Horton, J. J., & Golden, J. M. (2018). Reputation in the Long-Run.