ChatGPTはAI音声対話の救世主となるか
Tech & Experience Design / テクノロジーと体験デザイン
2023年現在、大きく話題になっているChatGPT。すでにSNS上ではChatGPTを駆使して、本の要約、感想文、メールの自動返信文章、営業トークの模範例、マーケティングのコツといった自然言語生成から、プログラミングまで幅広く利用されています。ChatGPT以外にも同様の技術やサービスは生まれてきており、AIが生成した文章なのか人間が作ったものなのかもう区別がつかない、むしろAI生成のほうが優秀かつ的確というすごい時代がやってきました。
テキストで対話が生成できているので、それを音声対話に応用する動きもでてきています。つまり、人間(ユーザー)が発話した音声を音声認識してテキストにし、ChatGPTに入力。そして得られた結果を音声合成(TTS: Text-To-Speech)で音声にします。それをCGキャラクターと組み合わせると、まさにそのキャラクターと対話しているようになるのです。
音声対話体験視点で見るChatGPT
文字をベースにした言語生成では驚愕的なChatGPTですが、はたして音声対話(Voice UI、Voice Conversation)にも活用できるのでしょうか?
旧来のロボットやAI対話サービスでは、「わかりません、もう一度話してください」「それはできません、すみません」など、せっかく話しかけても期待通りの対話にならずに失望したことはありませんか? また、何度か対話しているとすぐに同じ返答ばかりになって結果、対話に飽きてしまいます。一方で、ChatGPTは質問の指示や条件(プロンプト)を巧みに与えるだけで、その指示にあったさまざまな返答を作成します。
さて、ChatGPT はAIとの音声対話の救世主となりえるのでしょうか。筆者の考える結論を先にお伝えします。
現状(2023年3月時点)のChatGPTを筆頭とする対話型AIモデルを音声対話にそのまま利用するには、まだ課題は多い。指示(プロンプト)にも大きく依存する。しかし対話用コンテンツ(シナリオ)生成の点でいうと優れており、今後の発展も非常に期待される。
実際にChatGPTを使った検証事例を元に解説します。(※なお、この検証は、本記事執筆の2023年3月時点です。AIサービスは日々進化し出力も変わっていますので、ここで記載した指示やプロンプトを入力しても異なる結果が出てきます。ご了承ください。)
それでは、音声対話における体験視点(Voice UX Design)で検証を解説していきます。
検証ケース:AIシステムがユーザーに肉料理と魚料理のどちらが好きか質問し、その回答に対して肉料理と魚料理のそれぞれの良さを含めて食事のアドバイスを音声で行う。
【ChatGPT入力】 あなたは食事療法、アドバイスができる人です。 肉料理と魚料理どちらが好きかというあなたの質問に、ユーザーは肉料理が好きだと答えました。肉料理の良さを含めて返事してください。 【ChatGPT応答】 肉料理は、多くの人々にとって美味しく満足感を得られる食事です。肉には高品質のたんぱく質が豊富に含まれ、筋肉や骨の形成、修復、維持に必要なアミノ酸を提供してくれます。また、肉には鉄分、亜鉛、ビタミンB群、ビタミンDなどの栄養素が含まれており、健康的な体を維持するために必要な栄養素を摂取できます。 肉料理は、多様な調理方法があり、グリル、ロースト、煮込み、揚げ物、燻製など、さまざまな味わいを楽しめます。肉の種類によっても、味や食感が異なり、例えば牛肉はしっかりとした味わいがあり、豚肉は柔らかくてジューシーな味わいがあります。 さらに、肉料理はエネルギー源としても役立ちます。肉には脂肪が含まれているため、エネルギー補給として重宝されることがあります。ただし、脂肪が多い部位や加工品には食べ過ぎに注意が必要です。 最後に、肉料理は、社交的な場での食事や特別なイベントにもぴったりです。例えば、ステーキやローストビーフは、誕生日パーティーやクリスマスディナーなどのイベントで人気の料理です。 以上のように、肉料理には多くの魅力があります。ただし、健康的な食生活を維持するためには、適量の摂取が重要です。バランスの良い食事を心がけながら、肉料理を楽しむことが大切です。
非常に有益な情報とともに、肉料理の良さを伝えつつ、最後にはしっかり注意点までフォローしています。すごいですね。
ただ、この応答が音声対話だった場合はどうでしょうか。実際にChatGPTの返答を声に出してみてください。長い、説教がましい、覚えられない……。肉か魚かどちらが好きか、という単純な質問の応答にしては長すぎます。
【ChatGPT入力】 上記を3行程度の簡潔な話し言葉にしてください。 【ChatGPT応答】 肉料理は、たんぱく質や栄養素を豊富に含み、多様な調理法で楽しめる美味しい食事。社交的な場でも人気がありますが、適量の摂取が大切です。バランスの良い食事を心がけましょう。
短くなりましたね。良い点だけでなく注意点も残して簡潔になりましたが、「美味しい食事。」といった体言止めや「多様な」といった文語で使われる言葉が目立ちますので、もう少しフランクな対話を想定し、短い口語(話し言葉)にしてもらいましょう。
【ChatGPT入力】
もうすこしフレンドリーに返事してください。
【ChatGPT応答】
肉料理は、本当に美味しくて魅力的な食事ですね!たんぱく質や栄養素が豊富で、多様な調理法で楽しめるのは嬉しいですね。また、特別なイベントでの食事や社交的な場でも人気があるので、楽しみ方も多彩です。ただ、バランスの良い食事を心がけながら、美味しい肉料理を楽しむことが大切ですね!
口語に近づきました。次はですます調をやめてもらいます。
【ChatGPT入力】 ですます調ではなく、友達が興味を持つように話しかけてください。 【ChatGPT応答】 肉料理が好きってことは、ステーキやハンバーガー、焼き肉など、おいしい肉料理が大好きってことですね!私も同じく肉好きですよ!肉って栄養素が豊富だし、焼き方や味付けでバリエーションも豊富なので、ついつい食べ過ぎちゃうこともあるんですよね。でも、適量を守ってバランスの良い食事を心がけましょうね!
これでそれなりに友達の返事のようになりました。では、これを声に出してみてください。どうですか? 次に、音声で聴いたと想像してみてください。音声合成ソフトやサービスに入力して聴いてみてもよいでしょう。なかなかよくできていますが、最後の1行が余計な一言っぽく感じたり、文末の「よ!」「ね!」が不自然だと感じる人もいるかもしれません。ユーザーが興味を持つように話しかけて、と指示したからかもしれませんが、あなたはこのAIの応答に興味を持ちましたか? 聴く気になりましたか?
もし私がこの事例でAI対話シナリオを書くなら、こんな音声シナリオを書きます。
へぇ、○○さんってお肉が好きなんだね!お肉には、ミネラルやビタミンBとか沢山入ってて、免疫力を維持できるらしいよ。最近、寒暖差あるし、こういう風邪ひきやすい季節には効果あるみたい。でも、食べ過ぎには注意だよ。
さきほどのChatGPTの返答との違いはなんでしょうか。
- 最初に機能的な繋ぎ言葉をいれる:「へぇ」「おお」「えっ」などを入れて相手の発話への反応、気付き、間埋め(音声認識後からの無音を消す)を行う
- 呼びかけ:名前を呼ぶことで興味をもってもらう。「あなたに話してますよ」という意思表示をし、自分にいってくれてる感じを出して親密度を上げるなどの役目
- おうむ返し:相手のセリフを繰り返すことで、ユーザーの回答をしっかり聞いてる感じを出す
- 季節やその人に向けた内容を盛り込む:ここでは花冷えのする4月にひっかけて話を展開し、話の内容に興味をもってもらう
このような点を意識しました。実はこれらは傾聴(Active Listening)のテクニックです。傾聴とは、相手の話を聴くためのコミュニケーション技術のひとつで、相手との相互理解や相互信頼関係をつくるため、「共感的理解」「無条件の肯定的関心」「自己一致」が聴き手側の3要素として提唱されています。
AI音声対話において、人間の話し相手はシステム(ロボット、エージェント)です。聴き手が本当に聴いてくれている反応がないと、話し手である人間側は話し難いのです。対話において双方が「聞いてくれる」ではなく「聴いてくれる」体験になるかどうか、これが対話の応答シナリオやエージェントの振る舞いに重要な要素となります。
機械らしくないコミュニケーションを作るには
もうひとつ事例をあげてみます。店舗や会社のエントランスにおいて、検温チェックする音声対話エージェント(ロボット)を想定します。
検証ケース:ユーザーが検温結果を36.5℃と答えた場合のAI対話システムの応答
【応答例1】検温ありがとうございます。問題ありません、良かったです。
(※これはChatGPTの出力ではありません)
この応答はどう思いますか? 実際に声に出してみたり、脳内で応答をイメージしてみてもなにも問題ないように思えます。しかし、もっと良くできるので修正しました。
【応答例2】良かった!問題ありませんね。声も元気ですよ(表情も良い感じです)。
まず元の応答の語順と意味について分析します。
応用例1の文章は、「感謝(検温ありがとうございます)→判定結果(問題ありません)→感想(良かったです)」という順番になっています。
今回のシーンでは、ユーザーの体温が問題ないことを伝えるのが要点です。よって、そのことをとをなるべく早く伝える必要があります。といって、「問題ありません」「入室許可します」「OK」の一言だけだと機械っぽく、そっけない感じがします。音声対話で難しいのは、このように心理的な印象が文字や画面を通じたコミュニケーション以上に感じられることです。
次に「良かったです」という感想を「良かった!」という単純な反応にし文頭にもっていくことで、人間との対話らしさを演出します。「へぇ」「えっ」といった、つなぎ言葉にも似た対話のリズムを作ります。この人とは話しづらいな、会話のリズムが崩れるな、という経験があると思います。対話(会話)にはリズムがあるので、リズムも考えてシナリオを作る必要があります。
最後に「声も元気ですよ」といった判定結果を裏付ける根拠を補足的にいれ、あなたに対して話している感覚、自分で考えて発話している感を演出しました。一方で、「ありがとうございます」「すみません」を多用すると、機械(システム)応答っぽくなってしまうため、「ありがとうございます」は削除しました。
このシーンの模範解答例になるようにChatGPTのプロンプトをあれこれ入れて試してみましたが、まだ思うような応答は得られませんでした(2023年3月度時点)。しかし、私がここに記載したノウハウをもっと具体的に事例などを入れて指示していけば、これに近い発話を生成することができそうな予感はしています。
ChatGPTは「あなたのための言葉」を作れるか?
ChatGPTの応答が音声対話につかえるかどうかを検証してみた結果としては、指示(プロンプト)をある程度しっかりやれば、かなり良い応答になることがわかりました。しかし、人間同士の対話においても、自然に相互理解するためには傾聴力が必要です。その傾聴力をシナリオやアクションに取り込んでいかなければ、AIとの対話の体験価値は上がらない可能性があります。
なにより対話では「あなたのための言葉」になっているかどうかが、ユーザーに「聴いて」もらうために必要です。「誰にでも言うこと」は、漢字で書く「聞く」状態になりがちです。嫌いな食べ物の克服の仕方をChatGPTや検索した言葉でいくら並べるよりも、「大谷翔平選手が子どものころに……」なんて話をしたら、いまの子どもは興味津々で聴くのではないでしょうか。
以前の私のコラム「音声UIは自然な対話をもたらせているか?」でも、AIとの対話の難しさを解説しましたが、たとえ対話応答のシナリオ自体が良くできていても、そのAIのキャラクターの容姿や振る舞いとマッチしていないと良い対話体験にはなりません。
シナリオ以外にも音声対話を良くするには重要な要素は山ほどあります。その中で、シナリオをいかに生成するか、それも飽きさせず、都度変化のあるもの、人間らしい応答をどうつくるか、これは長い間課題でした。自動生成できるChatGPTを筆頭にした自然言語処理モデルは、この課題を解くひとつの光となるでしょう。
AI音声対話システムの体験価値をあげるには、人間同士でのコミュニケーションの理解がまだまだ必要です。その中で、日々進化するAIモデルに引き続き私は期待しながら検証を続けていきます。
・・・
「テクノロジーと体験デザイン」では教科書的なUXデザインを語るのではなく、幅広い知見からデザインについて語っていきます。デジタル・アナログ問わず、実践的な開発の現場から世界の事情、私たちの生活空間や人間の感性感情といった身近な観点なども織り交ぜて、体験をデザインするとはどういうことか深掘りしていきます。