Machine Learning Advent Calendar向けの記事です。
普段はGunosyという会社で社長業をしながら社長をしています。
ざっくりいうと
結論だけ知りたい人はここだけ
- 広告における機械学習の応用の多くはCTR予測や運用の最適化のため(クエリー予測とか)の予測問題
- 今後は「CVRの予測」や「アクティブなユーザーの予測」がホットな話題になる(加えてその運用をどう最適化するかといった話題も)
- 現在は検索エンジンの応用例が多い。今後はディスプレイ広告やタイムライン広告への応用が増えていく
- 個人のユーザー属性を集めることが今まで以上にメディアのビジネス的に重要になる
- 広告や推薦エンジンに限らずドメイン知識は非常に重要。ドメイン知識と機械学習の知識を持ったエンジニアが意思決定に携わる会社は今後大きくのびる(と思う)
広告について
最近はもっぱら広告の開発をしており、広告分野でも機械学習をつかってイノベーションを起こせないかと頭を悩ませてます。アドサーバー楽しいよ。
まずは広告の基本知識を簡単におさらいします。
用語
この記事にでてくる用語です。
-
CPM(eCPM) - Cost Per Mille
1000PVあたりの単価。例えばCPM1000円といった場合、1PV広告が表示されると1円のコストがかかることになる。 -
CPC - Cost Per Click
1クリックあたりの単価。例えばCPC60円といった場合、広告が1クリックされる毎に60円のコストがかかることになる。 -
CPI - Cost Per Install
1インストールあたりの単価。例えばCPI500円といった場合、広告から1インストールされる毎に500円のコストがかかることになる。 -
LTV - Life Time Value
1ユーザーがもたらす収益。LTV10000円のとき、ユーザーはそのサービスにおいて何らかの形で10000円の収益を生み出す。 -
CTR - Click Through Rate
クリック率のこと -
CVR - Conversion Rate
コンバージョンレートのこと。例えば広告をクリックしたユーザーが10人いてうち1人がコンバージョンした場合CVRは10%ということになる -
入札型広告(運用型広告)
オークション形式で広告枠を買う形式の広告のこと。GoogleやFacebook、大手アドネットワークもこの形式を採用している。CPCだけの入札もあれば、CPC、CPM、CPIをすべて混ぜた入札などもある。後者の場合、予測CTRや予測CVRを出すことでオークションを行う
広告において広告主およびメディアは何を考えているか。何を最適化すればいいのか
広告主は広告を出すことで顧客を獲得したいと考えています。メディアは広告枠を売ることで収益化したいと考えています。ので広告周りの研究や開発ではかならず「広告主の視点」と「メディアの視点」が存在します。今風にいうならDSPとSSPとかですかね。要は広告主はうまく運用して効率よく質の良い顧客を手に入れたい。メディア側はそういった広告主の要望を読み取りつつ、ユーザーにとっても心地がよく、しかも収益性の高い広告商品を作りたいと考えています。
さて、次に具体的にみてみます。多くの広告商品で入札単位になったり、効果指標となるのが先ほどあげたCPM、CPC、CPIやLTVです。かつては広告枠をimpression(CPM)で売るのが主流でしたが、GoogleやFacebookの登場以来、CPC広告やCPI広告といった広告が増えてきました。まずはこれの意味を考えてみましょう。
広告を見る(CPM) -> 広告をクリックする(CPC) -> サービスに登録する(CPI) -> サービスを利用し、取引が発生する(LTV)
これは広告をみた後のユーザーの行動と課金ポイントになります。これを広告主とメディアの関係でみると、どちらがリスクをとるか(うまく予測できるか)で入札の単位が決まるということになります。
どういう意味かというと、CPMで広告を買うとします。この際広告主が考えることは広告を見た人のうち何人が広告をクリックし、そのうち何人がサービスに登録し、そのうち何人がどれくらいサービスを利用し、収益を生み出すか
を予測して、広告予算を算出するはずです。
これはつまり広告主が「CTRを予測し、CVRを予測し、その後のLTVも予測している」という状態です。一方メディアの仕事は「インプレションを集める」です。
次にCPC広告を考えてみましょう。この場合広告主の仕事は「CVRと、その後のLTVの予測」であり、メディアは「インプレッションを集める、CTRを予測する」となります。(CTRの予測をミスるとメディア側が損をするからです)
これがCPI広告となると、広告主の仕事は「LTVの予測」だけとなり、つまりこれは広告主が自分の事業のコア岳に集中できる状態となります。メディア側にはさらに「CVRの予測」という仕事が加わります。つまりCPC広告やCPI広告の増加は「メディアがよりリスクをとるようになっている」という状態であり、メディアにとって「CTRの予測」や「CVRの予測」が重要になってきています。
広告主にとっては先ほどの流れで右へいけば行くほどうれしい状態になります。予測する変数がへっていき、自分たちのコアな部分に集中できるからです。現在のネット広告市場の場合、トラッキングツールの普及もありCPI広告がかなり好まれているように思えます。ただ実際のメニュー数はそんなに多くなく、中心はCPC広告になっています。
これが現在の広告の流れです。今後トラッキングツールのさらなる普及や発達により、よりLTVに対して最適な配信を標榜するメディア(や代理店)が出てくると思われます。CPIが同じでも、メディアによって継続率がちがったり、課金率が違ったりすることは非常によくおこります。
メディアによっては自分たちのメディアが非常に価値が高く、質の高いユーザーや広告主に対して相性の良いユーザーをおくることでLTVを高めていることを証明できれば、ほかのメディアよりも高いCPIを許容してくれると考えるでしょう。そのため今後はただインストールさせる、ただ登録させるだけでなくその後の継続率や課金率、課金額の高さ間で考慮した商品も出てくるのではないでしょうか。また広告主側の視点で見るとそういった多様な商品が出てくるなかで、どのような配分で予算を消化すればよいか。どういった運用をすればいいかといった問題も出てきます。
こうなってくると機械学習が広告業界において非常に重要になってくると僕は考えています。ユーザーの行動履歴を集め、CTRを予測する、CVRを予測する、その後のLTVを予測するというタスクはメディアにとって非常に重要になります。またそういった商品が様々に出てくる中で、広告主がどう運用すればよいのか(最適なクエリーの予測や、ボリュームの予測、予算の最適配分etc)といった問題は機械学習が得意な分野であるからです。
実際の研究事例
実際どういった研究があるのか調べてみました。
www2013のResearch TrackにSearch Advertisingというものがありました。のでどんな論文があるかを軽く見ると、
-
Ad Impression Forecasting for Sponsored Search
広告主が、ある単価で入札したとき、どれくらいのuserに広告が見られるかの予測。ベイジアンネットを使ってる。Bingのデータで実験。Microsoftの中の人の研究 -
Multi-Label Learning with Millions of Labels: Recommending Advertiser Bid Phrases for Web Pages
広告主がどのクエリーをえらぶべきか。web pageにでてくる言葉をNLP的に分析する。Multi-label Random Forestsを使ってる。Microsoftの中の人の研究 -
Predicting Advertiser Bidding Behaviors in Sponsored Search by Rationality Modeling
広告主がオークションの単価をどうかえるかの予測。広告主の行動をモデリングし、検索エンジンの正確な収益予測ができるように。Microsoft Research -
A Predictive Model for Advertiser Value-Per-Click in Sponsored Search
どのキーワードが広告の価値を高めたか。keyword value prediction。線形モデルでどうたらこうたら。唯一の大学の研究
といった感じでした。メディア側より、広告主側の研究が多いですね。(そしてほとんどがMicrosoftの中の人の研究。Facebookも研究所作ったしこうなってくのかな)
メディア側はアルゴリズムとかを公開したくないからなかなか論文としては公開しにくい?のでしょうかね。
またwww2012ではAdvertising on the WebというSessionがあります。こちらは論文名だけ
- On Revenue in the Generalized Second Price Auction
- Handling Forecast Errors While Bidding for Display Advertising
- Optimizing Budget Allocation Among Channels and Influencers
- Risk-Aware Revenue Maximization in Display Advertising
- Targeting Converters for New Campaigns Through Factor Models
- How Effective Is Targeted Advertising?
How Effective Is Targeted Advertising?だけは読んだのですが、targeted adは過大評価されているので正当に評価しましょうというYahooのデータを使った論文でした。なかなか面白かったです。
そしてこうしてみるとやはりdata is kingというか、個人の属性情報なり、メディアにたまっていくログ(検索ログや、実際の広告のクリックログとか)をしっかり集めて、分析し、改善・反映するってサイクルをまわされると、ちょっとやそっとでは追いつけないような差になっていきますね。
またGoogle Scholarで「advertising predict ctr」などで検索してみると
- Predicting clicks: estimating the click-through rate for new ads(www2007)
- A novel click model and its applications to online advertising(WSDM2010)
- Temporal analytics on big data for web advertising(IEEE2012)
などなど面白そうな論文が結構でてきました。(ちなみにこの3つも全部Microsoft。すごいですねMicrosoft)
ここら辺、気になるので、きちんと中身もちょくちょく読んで紹介できたらなと思います。
と、現状searchに対する広告の研究だったり応用が多いですが、今後RTBやDSP、SSPの普及でディスプレイ広告やタイムライン広告にもこういった研究の波が押し寄せるのではないでしょうか。
また公開はされてないですが、GoogleやFacebookなどメディア側の視点で様々なシグナルや機械学習のアルゴリズムを利用し、CTRの予測やCVRの予測で収益をふやし、かつユーザーにとって心地よい広告を作るといった努力を現在進行形でやっているのだろうなあと思ってます。ここの分野はかなり改善の余地がありおもしろいですね。
最後に
今回は最近の仕事とあいまって、広告と機械学習について書きました。推薦エンジンや広告などを作ってみて思うのは、「ドメイン知識」の重要さです。間違った方向に学習させても何にもならないからです。
機械学習では未だどの方向に学習すべきかの仮説を立てる部分において人間のセンス、ドメイン知識が非常に重要だと感じます。
推薦エンジンや広告にかぎらず、今後様々な分野で機械学習が応用され、ホットであることは間違いないでしょう。その際思うのはドメイン知識を持ちかつ機械学習の専門知識を持つエンジニアがどこまで意思決定に関われるかがすごく大事だなあということです。
まとまってないですが以上で。