2023.12.07 10:00

グーグルの新たな生成AI基盤「Gemini」登場　ほぼ全指標でGPT-4しのぐ

Britney Nguyen | Forbes Staff

著者フォロー

記事を保存

Getty Images

米グーグルは6日、生成AI（人工知能）の新たな基盤技術「Gemini」を発表した。テキストだけでなくコードや音声、静止画、動画なども同時に認識し、理解できるのが特徴だ。AIチャットボットの「Bard（バード）」などで導入する。「ChatGPT」を手がける米OpenAIや、テック大手各社とのAI開発の主導権争いが一段と激しくなりそうだ。

Geminiはグーグルの「最大で最も有能なAIモデル」とうたわれている。最初のバージョンでは、非常に複雑なタスクをこなす「Gemini Ultra」、幅広いタスクに対応した「Gemini Pro」、モバイル機器向けに特定のタスクに絞った「Gemini Nano」の3サイズが用意される。

Gemini Proを搭載したBardは、170カ以上の国・地域でまず英語で利用できるようになる。近いうちにほかの言語や場所にも対応する予定だ。開発者や法人顧客は今月13日から、グーグルのAIツールプラットフォーム「AI Studio」か「Vertex AI」のAPI経由でGemini Proにアクセスできる。

「GPT-4」を上回る能力

グーグルによるとGemini Ultraは、数学、歴史、医学、倫理など57科目の知識や問題解決能力をテストするMMLU（大規模マルチタスク言語理解）で「人間の専門家を上回る成績」を収めた初のAIモデルだという。また、32のベンチマークのうち30で、ChatGPTの基盤技術の最新モデルである「GPT-4」を含め、ほかのすべてのAIモデルを上回った。

Geminiは「Python（パイソン）」「Java（ジャバ）」「C++」といったプログラミング言語を理解し、コードを生成することなどもできる。

グーグルによるとGeminiでは、テキストや音声、画像などを同時に処理するマルチモーダルな機能を考慮した保護を追加している。開発にあたっては偏見、有害性、暴力的なコンテンツ、ネガティブなステレオタイプなどのリスクがないか検証していくとしている。

日本や米国など18カ国は先月、AIを開発・利用する企業に対して、設計段階から安全を確保し、悪用されないよう求めるガイドラインを発表していた。

（forbes.com 原文）

翻訳・編集＝江戸伸禎