2026.05.09 13:11

企業のAI投資が成果を出せない本当の理由──ワークフロー設計の落とし穴

Lutz Finger | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Adobe Stock

4月、デロイトはAI投資の回収期間が1年未満の企業はわずか6%で、大半が2年から4年待つ必要があることを明らかにした。また今年、PwCは実際にAI実験を本格的な本番環境に移行できた組織はわずか20%と報告した。AIはまだ企業セグメントには準備ができていないように聞こえるだろうか。理由は技術が失敗しているからではない。理由は、ほとんどの企業が人間のワークフローにAIを組み込んでいるだけで、適切な制御のためのツールがまだ存在しないからだ。

ワークフローにはより多くのコンテキストが必要

ワークフローは人間が作ったものだ。多くの場合、企業にはSOP（標準作業手順書）がある。エージェント設計における最も素朴なアプローチは、これらのSOPを一連のプロンプトに分割し、大規模言語モデル（LLM）に入力することだ。これは失敗する。なぜなら、多くのSOPはAIが持っていないコンテキストを前提としているからだ。

1987年、デンバー国際空港は新しい自動手荷物処理システムを導入した。それはほぼ即座に失敗した。技術が間違っていたからではなく、設計者が古い人間ベースのワークフローを新しい技術に適用したからだ。人間は日常的に書面手順の半分を無視していた。荷物がベルトから落ちたとき、作業員はそれを拾い上げてベルトに投げ戻していた。それはどの手順マニュアルにも記載されていなかった。それは常識だった。新しいシステムは常識を考慮しておらず、そのため機能しなかった。

コンテキストはコストと時間がかかる

ちょっと待ってほしい。LLMはすべてコンテキストとコンテキストウィンドウに関するものだと言うだろう。モデルに伝えればいいだけだ。そうだろうか。理論的にはそれは正しい。しかし、より多くのコンテキストは、ハルシネーション（幻覚）の可能性を高め、処理コストを増加させ、レイテンシ（遅延）を長くする。これは最初のトークン入力から最後のトークン出力までの時間だ。チームを野放しにすれば、すぐに素晴らしいデモができるが、その後それは機能しなくなり、予算を圧迫し、高いレベルのフラストレーションを生み出す。RedditやLLMコストのスレッドを簡単に見れば、正しい状況が把握できるだろう。

コンテキストは脆弱性を生む

より多くのコンテキスト、つまりより多くのルールと例外は、コードをより複雑にし、それがより多くのセキュリティ脆弱性を生み出す。ジョージタウン大学のCSETは、5つの主要モデルでテストされたAI生成コードサンプルの86%にクロスサイトスクリプティングの脆弱性を発見した。より多くのエージェントをより速く生成することは、より多くの能力ではなく、より多くの攻撃対象領域を意味する。

真のワークフローに必要なもの

これらのワークフローが実際にどれほど異なるかを示すために、私は「エージェントがどのように考えるか」のデモを作成した。私のワークショップでは、シンプルな予約リクエストを説明している。エージェントは、どのツールにアクセスできるか、何を読むことが許可され、何を書くことが許可されているか、入力が不正な形式の場合に何が起こるか、いつ人間を関与させるか、エラーをスローする前に何回再試行するかを知る必要がある。これは1つのユースケースだ。1つの会議。1つのエージェント。

真のワークフロー設計とは、すべての原子的ステップの入力と出力を定義し、どの情報がステートフル（状態を保持）で、どの情報が一時的かを決定し、エスカレーションゲートを構築し、エージェントが曖昧さに直面したときに参照するガードレールを確立することを意味する。これらのいずれもモデルによって提供されない。プラットフォームによっても提供されない。あなたとあなたのチームがそれを提供する。古いSOPをそのまま使うことはできない。それらを慎重に再定式化し、実行に移す必要がある。

ツールは存在しない

このレベルの複雑さに対応するツールは登場するだろうか。はい。私たちはインターネットの初期と同様の時代にいる。HTMLを書くことは困難だった。Wixのようなツールが登場して初めて、ウェブサイトの作成が容易になった。インターネットの場合、そこに到達するまでに15年かかった。ツールプロバイダーは単にまだその課題に対応できていない。

ハイパースケーラーは、ルールベースのアクセス権、セキュリティ、権限を中心に構築された。これらのセキュリティレイヤーは必要だが、エージェントのセットアップはもはや単純な作業ではないことを意味する。多くの場合、単一のワークフローステップを接続する前に、エンタープライズアイデンティティプレーンを構成する必要がある。ガバナンスは現実だ。セットアップコストも同様だ。

n8nのような以前の自動化プラットフォームは、その日の誇大宣伝を受けたが、寝過ごしてAIの波に乗り遅れた。それらは線形で連鎖した前提を中心に構築されており、ステップ間で状態を管理したり、ツールが失敗したときに適切に再試行したりすることが困難だ。

開発者フレームワークは最も有能な選択肢であり、最も高いコストを伴う。LangGraphはエージェントの推論ループをモデル化するのに優れている。Temporalはワークフローが障害、再試行、複数日にわたる実行を乗り越えることを保証するのに優れている。どちらも両方を行わない。2026年の本番チームは、2つのギャップが重ならないため、Temporal上でLangGraphを実行している。これは機能するが、2つのシステムとそれらを接続する方法を理解するエンジニアが必要だ。

本当に欠けているのは、評価データセットに対してワークフローを構築し検証する能力だ。今日、ワークフローをテストすることは、手動で実行し、結果を手作業で検査することを意味する。期待される入力と出力を定義し、一連のテストを実行し、失敗を自動的に表面化できるようになるまで、ワークフローの品質は推測のままだ。私はまだこれを解決するツールを見たことがない。

経営幹部が知るべきこと

AIワークフローは単に複雑なだけではない。それらは標準的なワークフローとは異なる設計がなされている。今日構築されるAIワークフローは、他の重要なビジネスシステムと同様に、ガバナンス、監視、更新が必要だ。これは一度限りの構築ではない。それは継続的な規律であり、ほとんどの組織はそのための人員を配置していない。

AI価値を獲得する企業は、モデルへの最大のアクセスを持つ企業ではない。それは、ワークフローを一歩ずつ、ゼロから書き直し始める企業だ。

（forbes.com 原文）