100 Years of Horror Films: An Analysis Using Databricks SQL - The Databricks Blogの翻訳です。
映画の歴史を考えた際、おそらく、我々の恐怖と世界に対する不確実性に踏み込んだホラー以上に、我々人間について多くのことを語るジャンルは他にないでしょう。恐ろしいものから、象徴的、コメディタッチの恐怖まで幅広いので、我々はIMDbデータのホラーフィルムを10年単位で分析することで、どの様な洞察が得られるのかを調べてみようと思いました。さらに我々は次の様なことを知りたいと考えました。特定のサブジャンルの人気は時間と共にどのようにシフトしていったのか?最も人気のあるホラー映画がジャンル全体にどの様な影響を及ぼしたのか?
この記事では、Databricks SQLと、世界で最も人気かつ権威のある映画、TV、セレブリティのソースデータであるIMDbのデータを用いて、我々がどの様にこの分析を実施したのかをご説明します。(Halloweenが近いこともあり)迅速に洞察を得るために、どのようにDatabricks SQLを用いてデータに対するクエリーを実行し、ビジュアルを作成するのかを説明することは面白いことだと考えました。
なぜDatabricks SQL?
Databricks SQLは、信頼性があり、光の様な速さでの分析を行える様にするために、お使いのデータレイクに対して直接BI、SQLを簡単に実行できるサービスです。通常はデータウェアハウス上で行うものであり、データチームはBIツールとのインテグレーションを行う必要があり、ETLを通じたデータパイプライン、データ処理に数時間を費やす必要があります。Databricks SQLを用いることで、レイクハウスに直接クエリーを実行できる様になり、IMDbから一度データをダウンロードするだけで、ほぼすぐにクエリーを実行できるようになり、30分でビジュアルを作成することができます。これらはすべて一つのプラットフォームで実現できます。
我々の分析では、IMDbから取得した3万以上のホラー映画を含むデータセットを使用しました。このサンプルデータセットには簡単にアクセスでき、すぐに開発者が利用できるためこのデータセットを選択しました。IMDbには、1億もの検索可能なデータ、これには800万以上の映画、TV、エンターテイメントのタイトルが含まれており、映画分析においては理想的なデータソースと言えます。また、IMDbはクラウドのサードパーティが簡単に検索、サブスクライブできる様にAWS Data Exchangeを活用しており、すべての映画、TV、OTTシリーズ、ビデオゲームのタイトルをカタログとして基本的なメタデータを提供しています(この記事の最後まで見ていただければ、データソースとしてのIMDbの詳細が分かります)。
10年ごとのホラー表現のトレンド
答えたかった最初の質問は、*10年単位で映画を見た場合、特定の比喩表現(例:モンスター、テーマなど)において観測可能なトレンドがあるか?*です。このために、すべてのタイトルに出現するすべての単語の出現頻度をカウントしました。ここから、我々はこれを共通的に使われる「ホラー用語」を識別するための基礎とし、それらをグルーピングしました。我々は、以下の様な主要な表現を特定しました。
- Vampire
- Ghost
- Halloween
- Children’s Toys
- Possession
- Zombie
- Witch
- Monster
シンプルなワードクラウドを用いることで、全体的な分布に対するハイレベルな概観を得ることができます。映画製作者にとって、ゴースト映画が最も人気であり続けている様です!
IMDbを活用
より詳細に見ていきましょう。我々のアプローチはシンプルです。上でリスト化した比喩表現を用いて、どの映画がそれぞれの表現に関連づけられるのかを分類するためのオントロジーを作成しました。例えば、映画をghostカテゴリーに分類するために、バリエーションとしてghost、poltergeist、spirit、phantom、hauntingといったものを含めました。単語頻度リストを用いることで、簡単にバリエーションを決定することができます。こちらが、最終的なghostのセットとなります。
単語 |
---|
Ghost |
ghost |
GHOST |
Ghost-Cat |
Ghost, |
Ghost: |
Ghost’s |
Ghostbusters |
Ghostbusters: |
Ghosted |
Ghostface |
Ghosthunters |
Ghosting |
Ghostly |
Ghostman |
Ghosts |
Poltergeist |
Phantom |
Phantoms |
Spirit |
spirit |
Spirited |
Spirits |
Souls |
Soul’s |
Soul |
soul |
Haunted |
HAUNTED |
haunted |
Haunted: |
Haunter |
Haunting |
Hauntings |
Haunts |
時間を通じて、異なるテーマがどの様なトレンドだったのかを知りたかったので、我々はどの映画がどの表現に属するのかを分類するためにオントロジーを用いました。そして、10年ごとの映画の比喩表現の分布を計算し、可視化しました。結果は非常に興味深いものです!
IMDbを活用
得られた洞察
こちらからわかる様に、20世紀初頭は表現は限定的であり、使ったデータセットにおいてはバンパイアが最も多いものとなりました。興味深いことに、おそらく最も有名なバンパイア作品であるDraculaは1897年に公開されたので、この作品とバンパイア映画の普及には潜在的な相関があります。
興味深い別のポイントとして、70年代にスパイクのある悪魔憑依映画です。繰り返しになりますが、ホラー映画全体の分布を見るとこれは納得のいくものです。まず間違いなく最も影響力のあるホラー映画であるThe Exorcistは1973年に封切られました。
そして最後に、我々のデータセットはモンスター映画でも大きなスパイクを示していますが、20世紀後半では急速に落ち込んでいます。これは全体的な傾向のタイムラインと整合しています。人気かつ影響力のあるGodzilla、King Kong、Creature from the Black Lagoonの様な映画は50年代に封切られました。なぜ、これらのトレンドが下火になったのかを分析すると面白いかもしれません。
the Dawn of the Dead (1978)の公開以降、ゾンビ映画は80年代に大きなモーメントを生んでおり、商業的にも成功を収めました。しかし、2000年代初頭、様々なゾンビ映画のヒットによりカムバックを果たしました。これには、28 Days Later (2002)、Resident Evil (2002)などがあり、最初の"Rom Zom Com(ロマンティック・ゾンビ・コメディ)"であるShaun of the Dead (2004)も含まれます。「copycat(模倣)」効果は間違いなく詳細分析を行う価値があるものであり、我々はこれらの映画の収益を見てみたいと考えています。
まとめ
この記事は、面白いユースケースを通じてデータ分析のパワーを説明する目的のものであり、それに加え、比較的大きいメタデータセットを取得し、SQLを用いて迅速に洞察と可視化をどれだけ簡単に行えるのかを説明しました。メディア企業はあらゆる種類のデータを保持していますが、どのようにそれらから価値を生み出したらいいのかわかっていないケースが多くあります。我々は、複雑なデータサイエンスの言語には詳しくないが、SQLを知っている方であれば簡単に、これらのデータセットを探索することで、興味深いオーディエンスの体験を生み出せることをご紹介したかったのです。Databricksでは、あらゆる職種、職位のデータ実践者の作業をシンプルすることに注力しています。
この他のエンターテイメントのユースケースを知りたいのであれば、Media & Entertainment Solution Acceleratorsをご覧下さい。
IMDbに関して
800万以上の映画、TV、エンターテイメントタイトル、1100万のキャスト、クルーメンバー、1200万の画像を有しており、IDMbは世界で最も人気かつ権威のある映画、TV、セレブリティのコンテンツのソースとなっており、Web、モバイル合わせて月間2億の訪問者がいます。
IMDbは世界中のファン、プロフェッショナルを支援することでエンターテイメント体験を改善しています。すべての映画、TVシリーズ、ビデオゲームのキャスト、クルーのリスト、Box Office Mojoによる生涯興業収益、プロプライエタリな2億以上のIMDbファンによる映画、TVのレーティングなどを提供しています。
IMDbは広大かつ権威のあるデータベースの情報を、サードパーティビジネスに対してライセンス提供しています。これには、映画スタジオ、テレビネットワーク、ストリーミングサービス、ケーブル会社、航空会社、電気機器製造メーカー、非営利組織、ソフトウェア開発社が含まれます。これらのビジネスは、自身の顧客体験、投資判断のサポート、感情分析の実施、コンテンツ取得戦略の立案などでIMDbデータベースを活用しています。詳細はhttps://developer.imdb.com/ をご覧ください。