見出し画像

生成AI技術探索②:LLMを活用したAIアバターアプリの可能性


はじめに


NRIデジタルのCoE(Center of Exellence:組織横断の研究拠点)活動では、事業領域で今後必要とされそうな先端技術の知見を組織に蓄積・浸透させることを目的に、日々新技術探索や発信を行っています。
本記事では、生成AIを活用し開発したデモアプリケーションの概要をご紹介します。生成AIのビジネス活用へのイメージを膨らませる一助になれば幸いです。
(執筆:NRIデジタル 柴)

背景


現状のテキストがインターフェースとなるアプリケーション(公式ChatGPTアプリやStreamlitで作るWebアプリなど)には、読み解くのに疲れる、暗い、つまらない、用途が限定的などの課題があります。この課題に対して、アバターがインターフェースとなるアプリケーションを提案することで、頭に入りやすい、明るい、楽しい、用途が幅広いアプリケーションを目指します。

テキスト主体からアバター主体のアプリケーションへ

構成


今回は、アバターアプリの一例として、コールセンターの新人教育用AIアバターアプリを作成しました。2つの画面に分かれており、電話応対画面FB(フィードバック)画面(①ファクトチェック、②観点別評価、③総評)で構成されています。

AIアバターアプリ画面

内部の処理では、以下のような手順で処理を行っています。

  1. テキスト入力。電話応対時はユーザからの音声入力、FB時は会話履歴全体が入力されます。

  2. 必要な場合(FB時のファクトチェック)には、資料を参照しプロンプトに追加します。

  3. Azure OpenAI APIに投げることで回答テキストを取得します。

  4. 電話応対時は、回答テキストは会話履歴として蓄積されます。

  5. 回答テキストと画像をD-ID APIに投げます。

  6. 回答動画を取得します。

  7. UIに出力します。

AIアバターアプリ構成

今回アバターアプリ作成では、D-IDというサービスを利用しました。D-IDは、画像とテキストから喋るアバターの動画を作成するサービスを展開しています。料金はおよそ1$/1分で、他の類似サービスに比べて、Webアプリ開発がしやすいことが強みとなっています。

D-ID APIの処理の流れ

デモ


では、実際にアプリケーションを操作してみます。

■ 電話応対のやり取り

この機能では、まずAIアバターと接続し、AIアバターのキャラクターを5段階で設定します。(不満が多い顧客から満足している顧客を想定)
その後、音声認識ボタンを押し、ユーザの声を認識しテキストに変換して、メッセージとして送信します。
すると、AIアバターの返答が続き、電話応対のやり取りを練習することができます。

以下のデモでは、野村花子さんという女性が携帯電話の契約について問い合わせを行っている設定としています。

電話応対のやり取り

■ FB

この機能では、AIアバターと行った電話応対のやり取りを処理して、ファクトチェック、観点別評価、総評の3つのFBを行います。

①ファクトチェック

AIアバターと行った電話応対のやり取りから事実確認が必要なコメントを抽出します。
それらのコメントに対して、ベクトルDBから関連資料を参照しながら、ユーザの発言が正しかったかどうか判定します。
ユーザの発言が正しかった場合には〇を、ユーザの発言が正しくなかった場合は✕を表示して、コメントを追加しています。

①ファクトチェック

②観点別評価

観点別評価では、AIアバターと行った電話応対のやり取りについて、今回は丁寧さと傾聴力の二つの観点でユーザの発言を評価しています。
0.5刻みの5点満点で採点を行い、評価を表示しています。

②観点別評価

③総評

最後に、AIアバターと行った電話応対のやり取りについて、総評をまとめています。

③総評

別用途への応用


また、コールセンターの用途に限らず、さまざまな用途へ応用が可能であると考え、他の用途のWebUIだけ作成しました。

  • オンライン英会話:アバターであれば気軽に会話でき、好きなアバターを相手に勉強することで、楽しみながら勉強を続けやすくなります。

  • ライブ配信:24時間、時間を気にせずにライブ配信を行えます。歴史上の人物のインタビューや会社説明会(中国で既に事例あり)を行うこともできます。

  • 24時間ニュースキャスター:ニュースを作成するコストを抑えながら、スピーディに24時間ニュースを放送することができます。

  • ミーティング参加:要約、議事録作成、発言など、人間では同時にできない処理を簡単にこなすことができます。

別用途への応用

おわりに


良い点として、動画のクオリティは高いと感じました。

悪い点として、音声がやや棒読み(ElevenLabsがまだちゃんと使えていない)、価格が安くない(商用利用する際には、もう少し安いと助かる)、応答速度が遅い(チャンク生成などで改善できそう)などが挙げられます。

注意すべき点として、入力画像と入力音声の著作権問題が挙げられます。また、AIアバターにやらせることと人間がやるべきこととの線引きを行うことも必要だと思われます。

★NRIデジタル社員のテクノロジーに関する知見は、公式ホームページのTECHBLOGでも発信しています。ぜひご覧ください!


この記事が参加している募集