スマートフォンのPixel 6シリーズには、音声録音と同時に自動文字起こしができる純正の「レコーダー」アプリがある。iPhone陣営にも同様の自動文字起こしを実現するサードパーティ製アプリはあるが、グーグルのレコーダーは端末のユーザーが無料で使える高性能なアプリだ。グーグルドライブや外国語翻訳機能との親和性も高い。
今のところアップルが新しく独自の自動文字起こし機能をOSに追加する気配はない。グーグルがAIによる音声認識技術の完成度をさらに高めて、これをPixelシリーズのスマートフォンやタブレットの看板機能に育てることができれば、iPhoneやiPadの強力なライバルになり得るだろう。
対話AIエンジンの研究が加速
Google I/Oでは、Googleアシスタントによる音声コマンドの“あいまい入力”を補完するアルゴリズムの研究開発が進んでいることが伝えられた。
日常会話においてはよく発生する「えーと」「あの」といった“言いよどみ”や不要な間を、Googleアシスタントが認識しながらカットして、音声コマンドだけを正確に抜き出すという技術だ。先述の「レコーダー」アプリの自動文字起こしにも応用されれば、無駄な“あいづち”を避けて、会話部分だけをピュアにテキスト化できるようになるかもしれない。
音声コマンドの発話中に言いよどんでしまった場合、Googleアシスタントが意味のあるコマンドにつなぎ直して理解する
グーグルはGoogleアシスタントと人による自然なコミュニケーションを実現するため対話AIエンジン「LaMDA(ラムダ)」の研究開発を、昨年のGoogle I/O以降に加速させた。今年は最新版の「LaMDA 2」にバージョンアップした。デモアプリのAI Test Kitchenを通じて、LaMDA 2が空想のストーリーをつくってユーザーに語りかける「Imagine It」、特定タスクの手順を解説する「List It」など新機能が試せるようになるという。
対話AIがユーザーを不用意に傷つけたり、深いな言葉を生成しないように、グーグルは今後もAIの研究者や人権の専門家など、幅広い分野の識者の見解を得ながら「自由会話ができるAI」を育てる考えだ。
AI Test Kitchenを通じて自然対話を実現するグーグルのAIエンジン「LaMDA」のブラッシュアップが続けられている