マルチモーダルAIモデルの進歩や、小規模言語モデルの台頭など、これらのトレンドは、技術的な展望をかたち作るだけでなく、相互作用、創造性、AIの可能性を再定義するものだ。
2024年が幕を開けた今、生成AIの代表的なトレンドを探ってみよう。
マルチモーダルAIモデルの登場
OpenAIの「GPT4」、メタの「Llama 2」、そしてMistral(ミストラル:フランスのAI企業)はすべて、大規模言語モデルの進歩の好例だ。大規模言語モデルは、マルチモーダルAIモデルによってテキストの枠を超え、ユーザーはテキスト、音声、画像、動画をベースに新しいコンテンツを生成できるようになった。画像、テキスト、音声などのデータを高度なアルゴリズムと組み合わせ、予測を行い、結果を生成するというアプローチだ。2024年のマルチモーダルAIは大きく進化し、生成AIの能力に変化をもたらすと予想される。これらのモデルは、従来のシングルモーダル機能を超え、画像、言語、音声などの多様なデータタイプを取り込みながら進歩している。マルチモーダルモデルへの移行の結果、AIは、より直感的でダイナミックなものになるだろう。
GPT4-Vはマルチモーダル機能を有し、すでにChatGPT Plusユーザーの間で人気となっている。2024年には「Large Language and Vision Assistant(LLava)」のようなオープンモデルの台頭が予想される。