見出し画像

生成AI技術探索⑥:生成AIサービスを組み合わせてCM作成アプリを作ってみた


はじめに


NRIデジタルのDXエンジニアリング2というファンクション(組織)では、「イノベ活動(下記リンク記事参照) 」という、新しい技術・知見を獲得し、新たなビジネスの創出につなげることを目的とした活動を行っています。本記事では、イノベ活動の中で開発した生成AIサービスを活用したデモアプリケーションの概要をご紹介します。生成AIを用いた、ビジネス創出への手助けとなれば幸いです。
(執筆:NRIデジタル DXエンジニアリング2 伊藤 快)

背景


ChatGPTに代表される昨今の生成AIブームの中で、文章や画像だけでなく、音楽、映像、人間の声など様々なコンテンツを生成する便利なサービスが存在しています。しかしどれも個別でビジネスへの活用を考えると、どうしても使用ケースが限られてしまう懸念があります。
そこで、より広範囲で柔軟なビジネスへの活用を目指し、各生成サービスを組み合わせることで実現できるCM作成アプリの開発を行いました。

アプリ構成


今回は、ユーザが入力した要望をもとに、CMを自動生成してくれるアプリを作成しました。
以下の3つの機能を搭載することで、CM生成を可能にしています。

A.ユーザの要望からCMの構成を生成
B.生成した構成を基にCM要素(音楽、映像、ナレーション)となるコンテンツをそれぞれ生成
C.各コンテンツを組み合わせる

アプリの処理としては、以下の図に示すようなフローでCM作成を行っています。

  1. ユーザが、作りたいCMの概要をアプリ画面上でテキスト入力します。

  2. アプリが、事前定義しておいた構成作成用プロンプトに1.の入力を自動で当てはめ、ChatGPTにプロンプトを送信します。

  3. ChatGPTから、CM要素を生成するための構成(各生成AIサービスに投げるプロンプト)がアプリ画面に返却されます。

  4. ユーザーが、それぞれの構成を確認して修正がなければ、音楽・映像・ナレーションの各生成AIサービス用プロンプトにあてはめ、各生成AIサービスに送信します。
    修正したい場合は、修正したい要望をアプリ画面上で入力し、2.に戻ります。

  5. 各生成AIサービスから、出力したCM要素がアプリに返却されます。

  6. アプリが、返却されたCM要素を自動でマージしてCMにします。

  7. アプリ画面上に出力されます。

CM作成アプリの処理フロー

使用サービス


今回のCM作成アプリでは、CMの構成要素を作るために以下サービスを使用しています。

  • 音楽:musicGen 

  • 映像:Gen2

  • ナレーション:Text-to-Speech-AI

musicGenはテキストから音楽を作成するサービスで、モデルを公開しているためローカルで使用することができます。
Gen2はテキストから映像を作成するサービスで、1つのプロンプトに対し最大4秒の映像を作成することができます。
Text-to-Speech-AIはテキストを読み上げた音声を生成するサービスで、APIでの利用が可能です。

一部制限はあるものの、全て無料のサービスとなっており、組み合わせることで手軽にCMを作成することができます。

デモ


実際にアプリを動かしてみたデモをご紹介します。

■ CMの構成生成

この機能では、ユーザの入力に対して、CMの構成を生成します。
また、構成を新規生成する機能に加えて、1度生成した構成に対し、追加の要望を入力し、再生成する機能も持っています。

①新規生成

まず作りたいCMのテーマを入力、生成ボタンを押し、ChatGPTにCMの構成を生成するプロンプトを送信します。
すると、CMの要素である、映像、音楽、ナレーションの構成が返却されます。

以下のデモでは、「NRIデジタル株式会社を表したCMを作りたいです。」という要望に対し、映像、音楽、ナレーションの構成が返却されています。

ユーザの要望に対し、各要素の構成を出力

②要望を踏まえて再生成

1度生成した構成に対し、ユーザが追加や、変更を行いたい場合その要望を入力します。
すると、元の生成した構成と要望を組み合わせたプロンプトをChatGPTに送信し、CMの構成が再生成されます。

以下のデモでは、新規生成された音楽の構成に対し、
「エンジニアっぽい出力にしてください。」と要望を入力し、音楽の構成を再生成しています。

生成された構成に対し、要望を入力
要望を踏まえ構成を再生成

■ CM作成

この機能では、前述した「CMの構成生成」機能で生成した構成を、プロンプトに組み込んで、各生成AIサービスに送信します。
すると、それぞれの生成AIサービスから、映像、音楽、ナレーションのコンテンツが返却されるため、それらをマージ処理し1つのCMが作成されます。

以下CMが作成されるデモ画面と実際に作成されたCMになります。

「CM生成」ボタンを押し、各生成AIサービスにプロンプト送信
生成AIサービスが出力したコンテンツをマージして、ダウンロード


作成したCM(※映像のみ)

想定ユースケース


また、今回作成したアプリはCM作成の用途だけでなく、ビジネスにおいて、様々なユースケースでの活用が想定できます。以下はその一例です。

  • 企業の広告:プロモーションビデオの生成や、SNS向けのショート動画やアニメーション

  • イベントのプロモーション映像:コンサート、展示会、カンファレンスなど、様々なイベントの、イメージ動画やプロモーション映像

  • パーソナライズ化されたコンテンツ:個人の特徴や好みに基づいた、パーソナライズ化されたコンテンツ

おわりに


1プロンプトに対して秒数制限があったり、APIとして公開されていない等、一部工夫を施す点はありますが、無料の生成AIサービスだけでも、簡単に一定品質のCMが作れることがわかりました。

本アプリを作っている最中にも、次々と新しい生成AIサービスが発表されていたので、今後ますますクオリティの高いコンテンツが自動生成できるようになると思います。

最新の動向を注視しながら、様々な生成AIサービスに触れていくことが更なるビジネスの創出に重要であると感じました。

★NRIデジタル社員のテクノロジーに関する知見は、公式ホームページのTECHBLOGでも発信しています。ぜひご覧ください!

▼執筆社員のプロフィール

伊藤 快(いとう このむ)
2022年に新卒入社。入社以来、複数プロジェクトにてシステム開発に従事。直近では、テスト効率化/テスト自動化活動や、大規模システム構築プロジェクトにおける性能試験チームにて性能改善・性能試験工程に携わる。