ヒュームのAIモデルは、懐かしさから気まずさや不安まで、人間の声から24以上の感情を検出し、それに応じて反応する。例えば、「私の愛犬が今朝死んだ」と同社のAIに語りかけると、「お悔やみ申し上げます。ペットを失うことはとても辛いことですよね」という答えが同情と悲しみを帯びたボイスで返ってくる。
元グーグルの研究者であるアラン・コーウェンは、2021年に同社を設立し、人の話し方から感情を解釈し、適切な返答を生成する共感型AIを構築した。それ以来、ソフトバンクや弁護士マッチングサイトのLawyer.comを含む1000社以上の企業と1000人以上の開発者がヒュームのAPIを使用し、人間の声から感情を読み取るアプリケーションを構築している。
「音声入力はタイピングの4倍速く、声はテキストの2倍の情報量を持つため、AIインターフェースの未来は音声ベースになるでしょう」とコーウェンはフォーブスに語る。「しかし、それを活用するためには、単なる言語以上のものを捉える会話型のインターフェースが必要なのです」
同社は27日に、会話型音声APIのHume EVI(ヒュームEVI)の提供開始も発表した。このAPIは、開発者が既存の製品に組み込んだり、アプリを作成したりするためのもので、音声やテキストの表現上のニュアンスを検出し、AIの言葉やトーンを調整することで「感情に同調した」出力を生成することができる。
こうしたAIによる共感的な反応は、まったく新しいものではない。フォーブスがOpenAIのChatGPT Plusを使って、同じプロンプト(私の愛犬が今朝死んだ)でテストしたところ、ヒュームのAIとほぼ同様なボイスの応答が返ってきた。しかし、ヒュームはプロンプトの根本にあるものを特定する能力で差別化を図ろうとしている。
そのために、ヒュームの独自の大規模言語モデル(LLM)とテキスト読み上げ(Text to Speech)モデルは、30カ国にまたがる100万人以上から収集されたデータで訓練されている。このデータには、何百万回もの人間同士のやりとりや、人々がビデオに反応したり他の参加者とやりとりしたりしたデータが含まれているとコーウェンは述べている。「データベースを多様化させることで、AIは文化的差異を学習し、バイアスを取り除くことができます」と彼は語る。「私たちのデータに白人が占める割合は30%以下です」