6. AIシステムが「音声版チューリングテスト」に合格する
チューリングテストは、AIの性能を測る最も古典的かつ著名なベンチマークの1つだ。チューリングテストに「合格する」とは、書き言葉を介して人間とやり取りしたとき、人間が相手をAIではなく人間だと誤認するレベルに達することを意味している。近年の大規模言語モデルの飛躍的進歩により、テキストベースのチューリングテストは2020年代に事実上クリアされたと言ってよい。
しかし、人間同士のコミュニケーションはテキストだけではない。
AIがマルチモーダル化するにつれ、新たに「音声版チューリングテスト」という、より難度の高い基準が想定される。これは、AIシステムが音声で人間と対話するとき、人間と区別できないほど自然に受け答えできるかどうかを問うものだ。
音声版チューリングテストを現行のAIが突破するのはまだ難しい。さらなる技術的進歩が必要である。
まず、人間が話しかけてからAIが返答するまでのレイテンシー(遅延)をほぼゼロに抑えないと、会話のテンポが人間同士のやり取りと乖離してしまう。また、会話の途中で遮られたり、曖昧な表現が挟まったりする場合にも、リアルタイムでスムーズに対処する必要がある。複数ターンにわたる長い会話の文脈を保持し、同じ話題を継続できる記憶力も欠かせない。さらに、話し手が怒っているのか興奮しているのか皮肉を込めているのかといった非言語的な情報を理解し、AI自身の音声表現にも反映する能力が求められる。
音声AIは現在、音声から音声への変換モデルの出現などをきっかけに、技術面・商業面で急速に進歩している分野だ。2024年末に向けて大きな転機を迎えており、2025年、音声AIの最先端がさらに飛躍すると考えられる。
(forbes.com 原文)