音声UIは自然な対話をもたらせているか?

Tech & Experience Design / テクノロジーと体験デザイン

音声UIや対話ロボットを取り巻く現状

スマートスピーカーを持っている方、最近使っていますか? 街中でロボットを見かけたときに話しかけたこと、ありますか? ボットやサイネージの受け答えでイラッとしたこと、ありませんか?

未来のインターフェースとして華々しく登場したかのように思える音声インターフェース(Voice UI、VUI)ですが、実際使って見るとなんだか使いづらい、思ったようなことができないといった不満も大きく、実際はそこまで利用されていないようです。

私が調査したところによると、スマートスピーカーの認知度自体は近年非常に高いようです。おそらく、この記事を読んでいる人の大半が、スマートスピーカーを持ってはいなくても存在は知っているかと思います。日本でも2016年頃からAmazon Echo、Google Home、LINEのCLOVA WAVE、AppleのHomepodなどが発売され、2017年はスマートスピーカー元年とまで言われるほど、音声AIアシスタント機能がついたスピーカーが大注目されました。その時に購入されて持っている方も多いのではないでしょうか。

そして約5年ほどたった今、そのスマートスピーカーをタンスの肥やしにしている、あるいは子供にあげて自分は全く使っていないなんて人が多いのです。毎日使ってますという方もいますが、実際に使っている機能といえば天気予報と時刻の確認、音楽再生くらいで、これらはほとんどスマートフォンで事足りるケースなのです。これを本当に「スマート」といって良いのか、はなはだ疑問です。

ここで街中に目を向けてみます。SoftbankのPepperは日本でも非常に有名な対話ロボットで、小売店・ショッピングモールなどでも見かけたことがある人も多いと思います。その後、色々なメーカーから今も対話型のボットが発売されていますが、SF映画のようなロボットやヒューマノイドと人間が会話をして便利に楽しく過ごしているといった妄想とはかけ離れています。

実際にロボットや画面に映っているAIエージェント(アバター)に声をかけたことがある人なら経験があると思いますが、まともに対話(会話)ができなかったのではないでしょうか。恐らく名前を聞いたり伝えたり、商品名を話したりと片言でつたえるのが精いっぱい、そんなシーンが目に浮かびます。

「私は、●●●といいます。AIロボットです。なんでも話しかけて下さい!」こんな風に声をかけてきますが、そういわれてすぐに話かけられますか?

結局、ありきたりな自己紹介と挨拶程度、または商品説明を受けて終わってしまったはずです。2021年にPepperは販売中止の報道が流れました。実は同じように販売、開発中止になったロボットは他にも多く存在します。Pepperの販売中止の本当の理由はわかりませんが、少なくとも2020年初頭には「コミュニケーションロボットバブル崩壊の兆し」と話題になったくらい、対話型ロボットや対話型アバター(エージェント)は、鳴かず飛ばずという状況にあります。

自動車のナビゲーションやインフォテインメントシステムでも音声UIが搭載されはじめています。ナビゲーションの行き先を伝えるだけでなく、「暑い」と発話すると車内のエアコンの温度をさげてくれたり、車内の照明の色を変えたりもできます。しかし、この機能、使い込んでいるドライバーはまだ少ないと予想します。

次世代インターフェースとしても期待の大きい音声UIや対話型ロボットですが、なぜユーザー体験はそこまで向上していないのでしょうか?

先に結論を言いますと、理由は大きく分けて2つあります。

  1. 音声UIの良いところや悪いところを熟知せずに搭載してしまっている
  2. 音声対話において人と自然なコミュニケーションができていない

どちらの問題も、サービスやプロダクトの作り手側の大きな課題です。そもそも、音声を使った良い体験が提供できていない状態なのだから、ユーザーが離れていくのは当然です。

では、どうしたら音声を使った良い体験を創れるのでしょうか?

音声UIの特徴を知る

1つ目の課題についての解決策は、作り手がまず音声UIの特徴、そしてその技術をしっかり理解することでしょう。

多くの失敗は、「音声を使えば次世代感も出るし、他社もやってないから差別化になるだろう」「音声で操作する体験ってやったことないけど、楽しいし便利そうだから、きっとユーザーも飛びつくはず」といった安直な理由で音声UIを採用してしまうメーカーやサービス提供者が多すぎるのです。そんなことでは、良い体験など生まれるわけがありません。「スマートスピーカーで操作できれば弊社のサービスもますます使いやすくなる」と大金を投資してスマートスピーカーサービスに参入したところ、その使い勝手の悪さに全く利用者が増えない、そんな悩みを私は嫌というほど聞いてきました。

音声よりも使い慣れたスマートフォンの画面をタッチしたり、物理的なボタンを押す方が全然速くて確実なのですから、音声UIを使ったユーザーの体験価値は下がって当然です。疲れているときほど人間というのは「声に出すこと」が億劫なのです。発声は意外と労力がいることがわかっており、私自身も過去に行ったユーザーインタビューで似たような結果が出たことがあります。

ユーザー「ねぇ、●●。ライトをつけて」
システム「聴こえませんでした、もう一度話しかけてください」

一度でもこんな体験をしてしまうと、二度と音声UIなんて使うかとなってしまってもおかしくないのです。上の場合であれば、部屋に入ったら人感センサーで照明が点くのが一番楽ではないでしょうか。

一方で、例えば一週間後の横浜の天気を調べたいようなときは音声を使うと楽です。よく使っている天気予報のアプリを使うにしても、横浜在住ではない場合、まず関東を選び、神奈川県→横浜を選び、そして来週の日程を選ぶ、と何ステップも必要です。しかし、音声なら「来週の横浜の天気は?」これだけで良いのです(言い方は各種AIエージェントによって若干異なりますが)。

音声UIの細かな特徴については今回は割愛しますが、このように音声UIだからこそ良いというユースケースがまだ十分に見い出せていない、またそれをしっかり伝えられていないのも大きな問題です。

音声コミュニケーションと人を知る

2つ目の課題である「音声対話において人と自然なコミュニケーションができない状態でいること」とはどういう意味でしょうか?

これは「対話(会話)」できているようで実はそれができていないという意味です。そもそも私たち人間が普段生活している中で「なんでも答えますよ。話かけてください!」と言われたことなど、まずないはずです。「なんでも」と言われてもなんて言おうか、と戸惑ってしまいますよね。もし人間相手であれば、「どういう事なら答えられる?」「何が得意?」と聞きたくなるでしょう。

おそらくこのロボットやエージェントAIを作った人たちは、「なんでも答えられるから言ってくれ!」と高い技術を伝えたいのかもしれませんが、対話体験とその技術アピールは別物です。そもそも、自慢話やウンチクは、人同士の雑談ネタにおいて聴きたくない話題の代表なのです。どういう話題をどう話すか、人からどういう情報をどう聞き出すかという、まさに「傾聴力(Active Listening)」と言われる分野を、このロボットとの対話においても考慮する必要があるのではないかと思っています。

コミュニケーションの話題としてもうひとつ、人間同士の対話(会話)においては、当たり前ですが必ず相手がいます。私たち人間は、相手と自分の関係を意識して話しをします。日本人なら目上の人には丁寧語、尊敬語や謙譲語を使います。ここで、交流分析(Transaction Analysis)と呼ばれるコミュニケーションを心理療法的に分析できるPACモデル(Parent、Adult、Child)を用いて紹介します。

ざっくり説明すると、まず自分の状態をP(Parent=親のような行動と思考)とA(Adult=大人として冷静な行動と思考)とC(Child=子供のような行動と思考)に分けます。対話においてそれぞれがどの自我状態で話をするか分析し、その対話において交差しない(図で言うと矢印が並行)相補交流においては、会話の衝突は起こりづらいと判断します。一方で、交差してしまう交差交流では、会話が終了または聴き手が嫌な気分になるなどコミュニケーション上の問題が発生します。

これは言語や文化に関わらない世界的に汎用的なコミュニケーションのモデルですが、では、ロボットと人間はどうでしょうか。私たち人間、特に大人は、P、A、Cどの状態にもなれますし、状況に応じてP、A、Cの状態を変更できます。しかし、多くのロボットや対話エージェントはこの状態が曖昧に設定されています。

かわいい子供型のロボットの場合は、恐らくC(Child)の状態が一般的ですが、シナリオによっては突然、PやAの状態で発話するときがあります。「今日の一番のニュースは?」なんて聞くと、大人顔負けの口調で政治のニュースを語ってきます。そんな体験を我々はしたことがありません。子供は子供なりの語り口調があると思っているので、突然口調が変わると戸惑ってしまうはずです。

このように、人間の対話コミュニケーションでは必ず相手がいて、そして自分と相手の心理状態と立ち位置が重要になっています。それによって人間は巧みに言い方を変えていて、かつその微妙な言い方、表現から相手の感情なども察しているのです。

まとめ

ロボットやAIエージェントと自然なコミュニケーション体験ができてない理由は他にもたくさんあります。音声UIというのは、非常に人間臭い領域に立ち入ってきていて、人間同士でも完全ではない対話コミュニケーションをロボット(システム)でどう実現するかは非常に難しい問題です。音声UIを単なる手段(ツール)として利用するだけでは、良い体験価値を産むことはできません。

まずはロボットを作り、体験をデザインする人たちも目の前の技術だけでなく、そもそも人間同士がどう音声を使い、そして対話しコミュニケーションするかを知るべきだと思います。一方で、人間は慣れること、合わせることができる動物です。ご高齢の人には、大きな声でゆっくり話し、子供相手には、柔らかい口調で話します。もしかしたら、ロボットやエージェントとも新しいコミュニケーションスタイルと体験が今後生まれるかもしれません。

・・・

「テクノロジーと体験デザイン」では教科書的なUXデザインを語るのではなく、幅広い知見からデザインについて語っていきます。デジタル・アナログ問わず、実践的な開発の現場から世界の事情、私たちの生活空間や人間の感性感情といった身近な観点なども織り交ぜて、体験をデザインするとはどういうことか深掘りしていきます。

Written By

河野 道成

BXUXディレクター&デザイナー。ソニーで22年間、PS3, PS4等のグローバル向けプロダクトのUIUXデザインに携わる。独立後は次世代UIUXのコンサルをしつつ、フィットネスクラブ・テーマパークアトラクションの企画やディレクションなど、基本的に何でも屋。好きな体験はダンスミュージカル出演と4輪レース参戦と犬の散歩。

Partners

Thanks for supporting Spectrum Tokyo ❤️

fest partner Recruit Co., Ltd. fest partner freee K.K.
fest partner DMM.com LLC fest partner TOYOTA Connected Corporation
fest partner Gaudiy, Inc. fest partner note,inc.
fest partner STORES, Inc. fest partner Ubie, Inc.
partners Design Matters

Spectrum Tokyoとの協業、協賛などはお問い合わせまで