2024.04.28 10:30

AIが声から「感情を読み取る」、元グーグル研究者が創業したHume AI

著者フォロー

記事を保存

Shutterstock.com

人間の声から感情を読み取る人工知能（AI）モデルを開発するスタートアップ企業Hume AI（ヒュームAI）は米国時間3月27日、スウェーデンのEQTベンチャーズがリードし、ユニオン・スクエア・ベンチャーズらが参加したシリーズBラウンドで5000万ドル（約77億円）を調達したと発表した。ニューヨークを拠点とする同社の評価額は2億1900万ドル（約330億円）とされた。

ヒュームのAIモデルは、懐かしさから気まずさや不安まで、人間の声から24以上の感情を検出し、それに応じて反応する。例えば、「私の愛犬が今朝死んだ」と同社のAIに語りかけると、「お悔やみ申し上げます。ペットを失うことはとても辛いことですよね」という答えが同情と悲しみを帯びたボイスで返ってくる。

元グーグルの研究者であるアラン・コーウェンは、2021年に同社を設立し、人の話し方から感情を解釈し、適切な返答を生成する共感型AIを構築した。それ以来、ソフトバンクや弁護士マッチングサイトのLawyer.comを含む1000社以上の企業と1000人以上の開発者がヒュームのAPIを使用し、人間の声から感情を読み取るアプリケーションを構築している。

「音声入力はタイピングの4倍速く、声はテキストの2倍の情報量を持つため、AIインターフェースの未来は音声ベースになるでしょう」とコーウェンはフォーブスに語る。「しかし、それを活用するためには、単なる言語以上のものを捉える会話型のインターフェースが必要なのです」

同社は27日に、会話型音声APIのHume EVI（ヒュームEVI）の提供開始も発表した。このAPIは、開発者が既存の製品に組み込んだり、アプリを作成したりするためのもので、音声やテキストの表現上のニュアンスを検出し、AIの言葉やトーンを調整することで「感情に同調した」出力を生成することができる。

こうしたAIによる共感的な反応は、まったく新しいものではない。フォーブスがOpenAIのChatGPT Plusを使って、同じプロンプト（私の愛犬が今朝死んだ）でテストしたところ、ヒュームのAIとほぼ同様なボイスの応答が返ってきた。しかし、ヒュームはプロンプトの根本にあるものを特定する能力で差別化を図ろうとしている。

そのために、ヒュームの独自の大規模言語モデル（LLM）とテキスト読み上げ（Text to Speech）モデルは、30カ国にまたがる100万人以上から収集されたデータで訓練されている。このデータには、何百万回もの人間同士のやりとりや、人々がビデオに反応したり他の参加者とやりとりしたりしたデータが含まれているとコーウェンは述べている。「データベースを多様化させることで、AIは文化的差異を学習し、バイアスを取り除くことができます」と彼は語る。「私たちのデータに白人が占める割合は30％以下です」

人間の会話のスタイルとテンポを模倣

ヒュームは、感情のトーンの解釈に独自開発のモデルを使用しているが、より複雑なコンテンツについては、OpenAIのGPT 3.5やAnthropic（アンソロピック）のClaude 3 Haiku、マイクロソフトのBing Web Search APIを含む外部のLLMに依存している。同社のテクノロジーは人間の会話のスタイルとテンポを模倣するように作られており、人が会話を中断させたときにそれを検知するだけでなく、AIが話す順番が回ってきたときにそれを検知することができる。また、会話中に間をとったり、クスクス笑ったりもする。

次ページ＞メンタルヘルス分野でも活用

編集＝上田裕資

タグ：

Forbes JAPANの最新のニュースをお届けします

AIが声から「感情を読み取る」、元グーグル研究者が創業したHume AI

人間の会話のスタイルとテンポを模倣

関連記事