私たちが手にした新技術は、ストローで海を飲もうとするような使い方をされている——そう感じる人もいるだろう。
LLM(大規模言語モデル)やニューラルネットワークがエージェント的な能力で実行できることすべてを見渡すと、インターフェースこそが最大のボトルネックだという認識が広がりつつある。ノートPCでタイピングしたり、スマートフォンをタップしたりする画面は、AIで可能になった膨大なデータ転送を行うには、人間工学的にもそれ以外の面でも理想的とは言えないのだ。
タップしなくて済むなら、AIとのやり取りがどれほど速くなるか想像してほしい。
新しいインターフェースの理想形をめぐる、簡単な思考実験をしてみよう。ヒト型ロボットを見たことがあるだろうか。見た目も、動きも、振る舞いも、ますます私たちに似てきている。では、そのうちの1体があなたの隣に座り、そばに立ち、あるいは身ぶりの届く距離にいて、誰かに話すように普通に話しかけるだけでいいとしたらどうだろう。それこそが「エージェント型」AIの真の姿だ。しかし現実には、私たちはスマートフォンに質問を打ち込み、ポケットに入るほど小さな画面に表示される大量のテキストを、年配者は老眼鏡をかけて読んでいる。
「製造、カスタマーサービス、さらにはスポーツ競技など、さまざまな役割を担うヒト型ロボットを開発する企業が増えている」とRecorded Futureの調査著者らは書いている。「投資家は長期的な成長を見込んでおり、研究によれば2060年までに30億体以上のヒト型ロボットが人間社会に統合される可能性がある」
短期的には、必ずしもヒト型ロボットである必要はない。だが少なくとも、AIは言葉でやり取りできるものであるべきだ。そしてチャットボットであってはならない。エージェントであるべきなのだ。
イーサン・モリックの最新見解
私の記事をしばらく読んでいる人なら、イーサン・モリックのブログ「One Useful Thing」の新着記事を執拗なほど追いかけていることをご存じだろう。モリックはインターフェースについて私と同意見だ。いや、私が彼に同意していると言うべきか。
「AIはすでに、ほとんどの人が認識しているよりもはるかに高い能力を持っている」とモリックは書いている。3月31日の投稿で、AIが近い将来どのように進化するかについて論じたものだ。「このいわゆる『能力の余剰』の大部分は、AIの限界(もちろんまだ多くの限界がある)からではなく、人々がAIとどのようにやり取りするかから生じている。大多数の人々はチャットボットを通じてAIにアクセスしており、しかも通常は能力の低いモデルの無料版を使っている。チャットボットは簡単な質問には問題ないが、本格的な仕事をこなすには不向きな方法だ」
続いて彼は、チャットボットとのやり取りでユーザーが「メンタル税」を支払っているという考え方を紹介する。とりわけ、GPTや他のLLMに簡潔に回答させる方法を知らない場合はなおさらだ(ヒント:50語以内で回答するよう求めればいい)。
「インターフェース自体が認知コストを生み出し、AIの知性がもたらす利点を圧倒してしまう」と彼は書く。「では、より良いインターフェースとはどのようなものだろうか」
未来への道筋
モリックが示す答えの1つは専門化だ。彼はClaude Code、Codex、Antigravityといったモデルを称賛しているが、Pythonをまったく知らない人にとっては最適なツールではないことも認めている。また、Google Stitch、NotebookLM、そしてPomelliというソーシャルメディアツールにも言及している。もっとも、私が検索したところ、イタリアの革製品店が表示された。参考までに。
「これらはそれぞれ、物事がどこに向かっているかを示しているが、プログラマーにとってのClaude Codeのような変革的なツールにはまだなっていない」とモリックは書く。「しかし、爆発的な成長を見せている別のインターフェースがある。パーソナルエージェントだ」
エージェントと働く
モリックがOpenClawについて書いた説明は、良い意味で、拍子抜けするほど短く要点を押さえていると思った。
「聞いたことがない人のために説明すると」と彼は書く。「OpenClawはオープンソースのAIエージェントで、シンボルは赤いロブスター、セキュリティ上の悪夢であり、史上最も急成長しているオープンソースプロジェクトになった」
4つの異なる特徴が一文に詰まっている。私はOpenClawがTencentで急速に普及していること、そして「セキュリティ上の悪夢」という一般的な指摘にもかかわらず、多くの中国人ユーザーがこのパーソナルAIアシスタントを受け入れていることについて書いた。
モリックの説明はこうだ。
「WhatsAppやTelegram、Slackなど、人にメッセージを送るのと同じアプリを通じてAIエージェントと話せる。メールをチェックして、レストランを予約して、ファイルを探してと指示すれば、AIがあなたのコンピューター上でそれらを実行してくれる。振り返ってみれば当然に思えるやり方でインターフェースの問題を解決した。チャットボットでもコマンドラインでもなく、WhatsAppのようにすでに馴染みのあるインターフェースを使って、人に話しかけるようにAIと話せるようにしたのだ」
彼の注意書きはこうである。
「ただし、OpenClawは使いにくく、多くのセキュリティリスクを伴う」
続いてモリックは、Anthropicがこの種のモデル利用により大きな枠組みを提供し、有益な形で対象を絞り込めるDispatchというものをリリースしたことについて詳述している。具体的には、モリックはOpenClawではなく、CoworkとDispatchを組み合わせて実験した。
Dispatchについての彼の説明全文を引用しよう。私が書くよりも優れているからだ。
「デスクトップワークスペースを通じて、Claudeがローカルファイルやアプリケーションにアクセスできるようになる」とモリックは書く。「また、コネクターを通じて数十のアプリに接続し、コネクターがない場合はマウスとキーボードを直接操作する方式にフォールバックする。ここ数週間で登場したDispatchが重要なピースを追加した。デスクトップで作業しているClaudeに、スマホからメッセージを送れるのだ。QRコードをスキャンすれば、スマホがコンピューターで動作するAIエージェントのリモコンになる」
これがいかに次元を広げるかがわかるだろう。クラウド時代に生まれた「どこにいても」サービスを受けられるという概念や、ハードウェアの抽象化も促進する。
「DispatchとClaude Codeの組み合わせを使うと、有能なアシスタントと話しているような感覚のインターフェースが生まれる」とモリックは続け、このテクノロジーに手伝わせたいくつかのプロジェクトについて説明している。こうした事例は、読者がこれらすべてが実際にどう機能するかを具体的に思い描けるため有益だ。彼は「カワウソ観察」の結果の画像も掲載している。これはモリックの定番で、AI研究の実験には必ずカワウソを登場させる。まあ、誰にでもスピリットアニマルはいるものだろう。
モリックはこのアプローチの欠点についても触れている。
「これはOpenClawほど柔軟か」と彼は付け加える。「いや。Coworkはサンドボックス化されており、より安全だがより制限されている(だからといってセキュリティリスクがないわけではない)。コネクターのエコシステムは成長しているが、まだ不完全だ。そしてCoworkがコンピューターを使えるというアイデアは、コンセプトとしては印象的だが、実際にはエラーが起きやすい」
しかし彼は、これこそが人々がAIに求めているものに近いと示唆する。技術的に言えば、労力のかかるユーザーイベント生成なしに「機能する」エージェント型ソリューションだ。
そこがモリックの的を射ていると私は思う。私たちはAIの使い方を変えたいのだ。より多くのトークンとパラメーターを持つ巨大モデルではなく、テクノロジーを活用するより良い方法が必要である。彼が提案するように、まず最先端に近い有料版を使うことから始めよう。さもなければ、今や原始的な淀みとなった昨日の冴えないイテレーションの中をずるずると進み続けることになる。
彼の結論はこうだ。
「AIの能力はAIのアクセシビリティを追い越して進んできた。モデルはしばらく前から驚くべきことをこなせるほど賢かったが、私たちは人々にチャットボットを通じてその知性にアクセスさせてきた。そして認知負荷の研究が示すように、チャットボット形式は積極的に彼らの邪魔をしている。インターフェースが改善されれば、はるかに多くの人々がAIの真の能力を使えるようになったとき何が起こるかを目にすることになる。そのギャップの一部でも埋める新しいインターフェースはすべて、モデルが変わっていなくてもAI能力の飛躍のように感じられるだろう(もちろんモデルも変化し続けているが)。私の推測では、人々が時に表明する『AIへの失望』の多くは、AIが悪いからではなく、インターフェースが間違っているからだ。私たちは近年の歴史で最も強力なテクノロジーの1つを構築し、そして人々にチャットウィンドウにタイプすることでアクセスさせた。それはまもなく変わるだろう」
私も同感だ。あなたはどう思うだろうか。ぜひコメントで教えてほしい。



