グーグルは米国時間6月24日、Gemini 3.5 Flashの機能として「Computer Use」を追加した。これにより、人間が操作しているかのように、コンピューター、モバイル端末、ブラウザーの各プラットフォームをAIモデルが制御できるようになる。
グーグルの新たなアプローチでは、computer useツールがGemini 3.5 Flashモデルに直接統合されている。この新機能は、従来の独立型モデル「Gemini 2.5 Computer Use」に代わるもので、入力トークン当たりの料金がわずかに高く設定されている。
AIはもはやブラウザーのタブや音声アシスタントの中に閉じ込められた存在ではない。グーグルがGeminiの「Computer Use」をネイティブ機能としてアップグレードしたためだ。Gemini 3.5 Flashは、人間がマウスを動かしたり画面をタップしたりするのと同じように、ユーザーのコンピューターやモバイル端末を直接操作できるようになった。すでに開発者向けに提供されているが、仕組みを十分に理解していない限り有効にすべきではない。その理由を以下で説明する。
Computer Useとは何か?
The Keywordブログの最近の投稿で明らかにされたように、グーグルはGemini 3.5 Flash AIモデルに向けた画期的な新機能「Computer Use」を発表した。これにより、モデルがデバイスを引き継ぎ、ユーザーに代わって操作を実行できるようになる。
グーグルはすでに、リモートの仮想コンピューターやブラウザーを「Gemini Spark」で制御する機能など、複数のエージェント型AI機能を消費者向けに提供している。だが、Gemini 3.5 Flashのcomputer useは異なる。目の前にある実機そのものを制御するのだ。
Computer Useは何が新しいのか
グーグルは以前、この機能を別個のGemini 2.5 Computer Useモデルとして提供していた。これをGemini 3.5 Flashに直接組み込むことで、開発者は専用モデルに切り替えることなく、検索やマップといった標準機能と並行してデバイス制御(端末操作)を呼び出せるようになった。
今回のアップグレードは、主としてブラウザーベースの制御に最適化されていた従来モデルの主な制約に対処するものだ。グーグルによれば、「長期にわたるタスクや企業向けの自動化タスク」において、より機敏に実行できるようになるという



