ハイライトJER2026年5月25日

動画配信のおすすめ枠は、入口にはなる。続きは作品次第

動画アプリの「一番上の枠」は、本当に人を動かすのか

動画アプリを開いた瞬間、画面のいちばん上に大きく出てくる作品があります。新作、話題作、ライブ配信、スポーツのハイライト。そこは、プラットフォームが「いま見てほしいもの」を置く、もっとも目立つ場所のひとつです。

目に留まれば、そこから視聴を始めることもあるでしょう。では、その入口は、どこまで人の行動を変えるのでしょうか。1分だけ眺めて終わるのか。1話を最後まで見るのか。続けて次のエピソードまで進むのか。

この違いを、約430万ユーザーの実験で調べた研究があります。CyberAgent AI Labの安井翔太氏、計量経済学を専門とする慶應義塾大学経済学部の岡達志氏、モンゴル国立大学経済学部のUndral Byambadalai氏、AbemaTV（CyberAgent）の大石優紀氏による Yasui, Oka, Byambadalai, and Oishi（JER 2026）です。舞台は、日本の動画配信プラットフォーム ABEMA。

実験の中身：430万人に、おすすめ枠か広告かをランダムに表示

設計はシンプルです。4週間、約430万人のユーザーを、トップ画面に作品プロモーションを表示する処置群と、通常の広告を表示する対照群に無作為に割り当てます。アウトカムは、その作品の総視聴時間（分）。対象作品は、コメディ・スポーツハイライト・リアリティーショー2本の計4作品です。

少し脇道にそれますが、本研究の背景にあるのは、A/B テストが現代の配信サービスにとって意思決定ツールであると同時に、ユーザー行動の観察装置にもなっている、という事実です。論文によれば、ABEMA では年間数百件の RCT が走っており、それは個々の施策の合否判定だけでなく、「どんなコンテンツに、どんなユーザーが、どこで反応するのか」を継続的に学ぶプロセスとして位置づけられています。本研究もその学びの一片として読めます。

平均で見ると、効果は数秒

実験の最初の結果は、地味です。

図1：4ケースの平均処置効果（ATE）。値は秒換算。Yasui, Oka, Byambadalai, and Oishi (2026), Table 1より。ケース4は有意でない。

430万人規模の実験をしても、平均で見ると効果は数秒しかありません。コメディで+0.86秒、短編スポーツハイライトでは+0.17秒、長編リアリティーショーで+3.5秒前後。

ただし、これは「効果が小さい」という話ではありません。多くのユーザーはそもそもその作品を見ないので、平均を取ると、実際に行動を変えた人の変化が薄まってしまうのです。

平均だけでは見えない：0分とエピソード境界の山

視聴時間という指標には、2つの厄介な性質があります。

(1) 大多数のユーザーは0分。 ABEMA のコンテンツは多様で、ある作品の対象オーディエンスはユーザー全体の一部にすぎません。プロモを見たユーザーのほとんどは結局その作品を見ない、つまり視聴時間は0分。

(2) エピソードの切れ目に山ができる。 ユーザーは一定の長さのエピソードを「最後まで見る／途中で止める」を選ぶので、視聴時間の分布はなめらかな正規分布ではなく、0分・1エピソード分・2エピソード分… のように離散的な山が並ぶ形になります（図2）。

図2：視聴時間の分布の概念図。0分に大きな質量、エピソードの切れ目（t₁, t₂, t₃ …）に小さな山が並ぶ非標準的な分布。出典：Yasui, Oka, Byambadalai, and Oishi (2026), Fig. 2を再構成。

平均で+1.4秒、と言われたとき、いったい何が起きたのでしょうか。0分にいた人が動いて、5分・10分の山が高くなったのか。それとも、ごく少数の長時間視聴ユーザーが平均を押し上げただけなのか。「平均で+1.4秒」だけでは、これらの違いがまったく見えません。

著者らが用いるのは、分布的処置効果（distributional treatment effect, DTE） と 確率的処置効果（probability treatment effect, PTE） という手法です。視聴時間のさまざまな閾値（0分、5分、10分、46分、150分など）で、「その値以下にとどまった人の割合」が処置群と対照群でどれだけ違うかを見ます。これによって、効果が分布のどこに出ているか、たとえば「0分から5分のところに人が流れたのか」「46分の壁を越えた人が増えたのか」が直接わかります。

精度を高めるために、機械学習（gradient boosting）を使った回帰調整を組み合わせています。事前の視聴履歴などの共変量で予測できる部分を差し引くと、推定の分散が小さくなり、検出力が上がります。これは岡氏らがJER掲載の同年論文（Oka et al., 2026）や機械学習トップ会議の論文（Byambadalai et al., 2024, ICML）で展開してきた方法論を、実データに適用したかたちです。

4つの作品で見えた、視聴者の旅

DTE と PTE の解像度で見ると、平均では見えなかった景色が現れます（図3）。

図3：4ケースで観察された、視聴者の進み方の違い（Yasui, Oka, Byambadalai, and Oishi 2026, Table 1・Table 2、Sections 4.1–4.4を再構成）。★は短期視聴を超えた継続効果が観察されたケース。

ケース1：見始めた。でも次の回には行かなかった（コメディ・46分）

エピソード独立のコメディ番組です。プロモは初回視聴を確実に増やしましたが、別エピソードへの波及は弱い。「見はじめてもらえるが続かない」典型です。エピソード同士のつながりが薄ければ、1本目を見終えても、次の1本を選ぶ動機は生まれにくいのでしょう。

ケース2：5分なら、もう1本見てしまう ★（スポーツハイライト・5分）

短編で、試合の連続性が強いハイライト動画。プロモは0分の質量を減らし、5分・10分の山を高めました。1エピソードを最後まで見終え、さらにもう1本へ進む、という流れがはっきり出たケースです。5分という低いハードル × 文脈のつながり が、初回視聴を継続視聴にまで運んでくれた、というわけです。

ケース3：結末が気になれば、長編でも進む ★（リアリティーショー A・長編・8話）

各話約40分の長編連続ものですが、最終回に大きな展開がある構造です。DTE は後半に向けて効果が増し、シリーズ完走率も上がりました。長いから効きにくい、とは限らない。物語の引き が視聴者を最後まで運んでくれるなら、長編でもプロモは効きます。

ケース4：入口は開いたが、物語が引き止めなかった（リアリティーショー B・長編）

似たフォーマットの別の長編ですが、こちらは序盤の引きが弱かった。初回視聴の試行は増えたものの、その後すぐに離脱。ATE は有意でなくなりました。入口は開けても、物語が引き止められなければ、視聴者は流れていきます。

A/B テスト一般への示唆

視聴時間や購買額のように、0が多く、しきい値（＝エピソード境界、商品単価）でジャンプする指標は、社会科学・実務のあちこちに登場します。寄付額、滞在時間、商品の購買数、サブスクの解約率。こうした非標準的な分布をもつアウトカムでは、平均だけを見ていると重要な変化を見逃します。

DTE/PTE のように分布全体を見る習慣は、A/B テスト一般にも示唆を与えてくれます。「効果は有意か」「ベースラインからの伸びは何 % か」だけでなく、「分布のどこに効いているか」を問うこと自体が、実験から得られる情報量を大きく増やすのです。

目立つ場所に置けば、人はたしかに少し動きます。けれども、その一歩が「試し見」で終わるのか、「もう1本」につながるのか、「最後まで見たい」に変わるのかは、作品そのものの作りにかかっています。

A/B テストが教えてくれるのは、勝ち負けだけではありません。人がどこで入り、どこで止まり、どこから先に進むのか。その分布を読むことで、プラットフォームはようやく、ユーザーの行動を「平均」ではなく「物語」として理解できます。本研究を読み終えて残るのは、そんな手触りです。

本記事に登場するキーワード

ランダム化比較試験（randomized controlled trial, RCT）：実験対象を処置群と対照群に無作為に割り当て、因果効果を識別する研究デザイン。デジタルプラットフォーム上では「A/B テスト」と呼ばれます。
平均処置効果（average treatment effect, ATE）：処置群と対照群の平均アウトカムの差。最も標準的な処置効果の指標で、報告しやすいが分布の情報は失います。
分布的処置効果（distributional treatment effect, DTE）：アウトカム分布の各閾値で、「その値以下にとどまった人の割合」が処置によってどれだけ変わるかを見る指標。分布全体での効果のパターンを描けます。
確率的処置効果（probability treatment effect, PTE）：DTE と対をなす概念で、視聴時間が特定の時間帯（区間 (y, y+h]）に入る確率が処置によってどれだけ変わるかを見ます。連続分布の確率密度ではなく、各区間に入る確率の処置効果として定義されます。
回帰調整（regression adjustment）：処置以外の共変量で予測できる部分を差し引いて、推定精度を高める手法。本研究では gradient boosting（XGBoost）を用いた高次元回帰調整、3分割クロスフィッティング付き。
異質性（heterogeneity）：処置効果がユーザーやコンテンツによって異なる性質。ATE はこれを平均化してしまうため、見落としやすい。
マスポイント（mass point）：連続的に見える分布のなかで、特定の値（ここでは0分やエピソードの切れ目）に確率が集中して山ができる現象。
ブートストラップ（bootstrap）：データから繰り返し再標本を取り、推定量の分布を経験的に近似する手法。本研究では500回のブートストラップで標準誤差と信頼区間を推定しています。

データ：ABEMA における約430万ユーザーを対象とした4週間の RCT（処置：トップ画面プロモ／対照：通常広告、処置割当確率0.1）。アウトカムは作品ごとの総視聴時間（分）。対象は4作品（コメディ・スポーツハイライト・リアリティーショー2本）。

手法：分布的処置効果（DTE）・確率的処置効果（PTE）の推定、回帰調整は gradient boosting（XGBoost、3分割クロスフィッティング）、信頼区間は500回のブートストラップ。

論文：Yasui, S., Oka, T., Byambadalai, U., and Oishi, Y. (2026). Distributional treatment effects of content promotion: evidence from an ABEMA field experiment. The Japanese Economic Review, 77(2), 391–406. doi.org/10.1007/s42973-026-00234-y

取り上げた論文（Economedia の論文紹介ページ）

ABEMAにおけるコンテンツプロモーションの配分効果の実証研究

エコノメディア