日本人は声に影響を受けやすい? 文化による感情認知の違い
Tech & Experience Design / テクノロジーと体験デザイン
普段、あなたはどこを見て、聞いて、感じて、相手の感情や心理を想像(推定)していますか?あなたの目の前で話をしている人は、喜んでいる? 怒っている? イライラしている? どのように相手の感情や心理を推定していますか?
目つき、口角の上がり方などの顔の表情、そして手や体の動きなどは、視覚的情報です。一方で、声を発しているなら、相手の声のトーン、音量や音圧から相手の感情を想像する方もいるでしょう。これらは聴覚的情報からの推定です。もちろん話の内容からも推定するかと思います。これはコンテキストからの推定になります。
相手が目の前にいるのなら、視覚(目)や聴覚(耳)を総動員し、かつ、その相手の性格を知っているのであればそれらを総合的に判断しているはずです。電話やカメラオフ状態のオンライン会議だと、音声という聴覚的情報とその会話の内容で判断するしかありません。
私の以前のコラム 「ユーザー体験とは切っても切り離せない「感情」とどう向き合うか」では、「感情」の分類方法、そしてその感情をどうシステムでセンシングするかについて書きました。今回はシステムではなく人間自身が人の一時的な感情をなにから推定しているか、について解説します。
感情の一種「情動」とは
一時的な感情、たとえば喜怒哀楽、恐怖、不安などの激しい感情の動きを情動(英語ではemotion)といいます。つまり情動は感情の一種とされます。情動は他者が見て判断できるものである、と定義する方もいます。人が社会生活をうまく行っていくためには、他人の表情や心理を解読する必要があります。これを情動認知と言います。そしてその情動認知の情報を元に適切に人は行動していく必要があります。他人の情動を誤って認識すると、コミュニケーションで衝突したり問題になるのはみなさんも少なからず経験があるのではないでしょうか。なお、一般的に継続的かつ微弱な感情である気分(英語では mood)と情動は区別します。
顔? 声? なにで情動をみているのか
さて改めてみなさんは人のなにをみて情動を推定したり、認知したりしていますか?
情動の認知については、かなり以前から心理学会や認知科学会など学会でも研究議論にされています。特に顔の表情から情動を察する(顔の情動認知)について盛んに研究されており、かつては情動認知は普遍的である、といわれていたようです。これは、文化や人種差なく、人は皆同じ情報で情動を認知しているということですが、近年の研究で、情動認知は文化によって異なるという論文発表がでてきました。その人の住んでいる場所、育った環境や文化によって、相手の情動を認知する情報源が異なるというのです。この後紹介する論文の結論を見るとその意味がわかり興味深く感じると思います。この論文では、情動認知の違いを比較するための実験を日本人とオランダ人を対象に行っているのですが、まずは結論を先にお伝えします。
「日本人は情動を声から判断する傾向が非常に強く、一方でオランダ人は顔の表情に委ねられる傾向が強い」
この結論に対してどう思いますか? 私は日本人なのでオランダ人の感覚はわかりませんが、[「日本人だって声と顔の表情、どちらも相手の情動をみるのに使っているのに」とちょっと半信半疑になりました。では、その興味深い論文を紹介していきます。
視聴覚情動認知の文化間比較(論文より)
2010年日本心理学会第74回大会の論文 “顔と声による視聴覚情動認知の文化間比較”(田中章浩氏、J-STAGE論文集より)を紹介します。本論文の著者らの他の論文にも同内容の追試研究や考察もあり、ここではそれらの情報も混ぜて紹介します。
まず筆者らは情動認知の文化差を探るために、顔表情と声に絞り非常に面白い実験をしています。
日本人およびオランダ人に、意味的に感情(情動)に結びつかない中立な言葉「そうなんですか」という言葉を母国語で読み上げてもらい、そのときに「喜び」または「怒り」を顔と声で表現してもらい動画を撮影しました。
①顔と声の情動が一致(例:喜び顔+喜び声)
②顔と声の情動が不一致(例:喜び顔+怒り声)となる動画
撮影した動画を上記の2種類に編集し(顔と声の時間のずれなどは調整)、日本人とオランダ人の学生にこれらの①②の動画(日本語とオランダ語両方)を以下のタスクで実験として見てもらいます。
- 顔課題:声を無視して顔の表情だけで「喜び」か「怒り」かの選択をする
- 声課題:顔表情を無視して声だけで「喜び」か「怒り」かの選択をする
この実験課題は、顔表情と声の両方が認知できてしまう状況で、敢えて一方を無視して情動を推定するのです。無視するべき情報から影響を受けてしまって間違った情動推定をどれくらいするか、それが母国語と外国語の発話者相手で違いがでるかを評価しています。
実験の結果は以下のようになりました。
- 日本人は顔課題(表情のみから感情を選択する)のときに声による影響をうけがち
- 日本人は声課題(声のみから感情を選択する)のときには顔表情による影響をうけにくい
- オランダ人は顔課題の正答率は全ての条件で97%以上と高い
- 日本人は顔課題における「日本人の喜び顔+怒り声」での正答率が落ちた
最終的に論文筆者らの考察からまとめると、
日本人は話し相手の情動認知において声の影響が非常に大きい傾向がある
一方で、欧米人の情動認知は顔やジェスチャー(行動)の影響を受けることが非常に大きいという論文や調査もあります。
なお、「日本人は顔課題における日本人の喜び顔+怒り声での正答率が落ちた」理由は、本来無視すべき怒りの声が聞こえたことにより、喜び顔が作り笑顔(負の感情を隠した笑顔)にみえたのではと論文筆者らは補足しています。日本人だと「なるほど納得」と思うのではないでしょうか。
日本の声優のレベルの高さは日本の情動認知から?
先の論文から日本人は人の情動を音声情報から認知する傾向が強いことがわかりました。言い換えると、音声情報を非常に重視する文化ともいえます。実験では中立的な文言を使っているので、恐らく声のトーン、イントネーション、リズム、声質など言語の周辺的な側面から推測していると思われます。これらトーン、抑揚など言語情報を補う要素を「パラ言語」ともいいますが、このパラ言語の表現を繊細に捉えるのが日本人の性質なのかもしれません。
日本のサブカルチャーというとマンガやアニメが代表とされますが、そのアニメに声優の存在は欠かせません。顔の表情やジェスチャーはアニメの映像の役目ですが、音声、特にパラ言語に関しては声優の腕にかかっています。パラ言語に繊細な日本人を満足させる、納得させる表現ができる日本人の声優は非常にレベルが高い、と私は考えています。
2021年に米映画配給会社のユニバーサル・ピクチャーズがFacebook にて、映画「グラディエーター」のワンシーンをドイツ語、イタリア語、英語、日本語、フランス語でそれぞれ約20秒ほどの動画を投稿し、「日本語版は必聴だ」と添えたことが話題になりました(Universal Studio DE のFacebookより)。実際その投稿には、「意味はわからないけど日本語は力強さなどが伝わっていい」などのコメントもありました。もちろん、イタリア語が良い、英語が一番しっくりくるなどさまざまな意見もみられました。興味ある方はFacebook投稿のコメントをぜひ見てください。
ロボット(AIエージェント) とのコミュニケーションと情動
声優はパラ言語含めた人の音声を表現します。一方、システムがテキストをベースに音声を作りだすのが音声合成です。その音声合成でもパラ言語を細かく表現できるようになっています。喜怒哀楽など感情表現を指定すると感情表現にあわせたトーン、リズム、音圧にして再生されます。いまや、その表現力は日々進化しています。
対話型ロボットやAIエージェント(アバター)が身近になり、より人と自然な対話をしていくことが求められています。ロボットが感情をもった対応をすることもでてくるでしょう。すでに、生成型AIによって産み出されたアバターが感情的に話かけてくる時代になりました。そのようなときに、人はなにをもとにそのロボットやアバターの情動を認知するのでしょうか?やはり人と同じように、顔の表情や動き、声からでしょうか。だとしたら、今回紹介したような文化の違いも対話意識する必要があるのでは、と私は妄想しています。
まとめ
人が情動を推定(認知)する要素は普遍的ではなく文化差があると近年分かってきました。私はロボットやアバターとの対話表現においてこれらの特徴を意識した研究をしています。なお、日本人は音声優位という実験結果がでていますが、別の論文では同じ日本人でも大人(大学生以上)は音声優位で、年少・年中は顔の表情優位という結果もでているようです。また、情動の表現も普遍的ではないと言われています。文化によって差がありますので興味があるかたはさらなる情報もぜひ調べてみてください。
また、情動についてよりよく理解したい、体験したい方はボードゲーム 「はぁって言うゲーム(幻冬舎)」がオススメです。「はぁ」「へぇー」「えっ」「好き」とかの短い言葉を、声や表情だけで表現して当てるゲームです。演技を学んでなくても声だけでも、声のトーン、音量、話速などで表現できるし、かつ、それを当てることができるのに驚きました。一方でなかなか区別つけにくいお題もありました。情動認知に興味が出た方、ぜひ一度プレイしてみてはいかがでしょうか。