筆者は長年、テック業界のイノベーターとクリエイターの橋渡し役を行ってきた中で、ネット上の存在感と対価のバランスを取ることが、いかに難しいかを実感してきた。起業家やビジネスリーダーは、コンテンツを目立たせて収益化し、コントロールを維持しようとしている。そんな中で、人工知能(AI)システムが無断でそのコンテンツを利用して、報酬やクレジットを与えない現状に対して懸念を強めている。
だからこそ、先日のCloudflare(クラウドフレア)の発表は衝撃的だった。インターネットのインフラを支える重要企業のひとつである同社は現在、AI企業のクローラーをデフォルトでブロックする仕組みを、すべての新規顧客に提供している。
これは、サイト運営者が明示的にブロックしない限りクローラーがアクセスできるという従来の仕組みを根本から覆すものだ。この措置によって今後はAIシステム側が「アクセスの許可を求める」必要がある。しかも、「対価」を支払ってからだ。
この変更に伴いCloudflareは、「Pay‑Per‑Crawl(ペイ・パー・クロール)」というマーケットプレイスも新たに立ち上げた。ブログ、製品紹介サイト、ナレッジベースなどのあらゆるサイトの運営者は、AI企業に対してページごとに料金を設定できるようになった。AIボットは、身元を明示し、対価を支払ってから初めて、コンテンツページのインデックス取得が可能になる。
これは、単なる一部機能のアップデートといったレベルではない。AI学習データの「タダ乗り」時代が終わり、経済的な関係に基づく新たな枠組みが始まったことを意味している。
AIモデルと学習データの問題
今回の変化の根底にあるのは、AIモデルの学習方法に関する問題だ。OpenAIのGPTやAnthropicのClaudeのような大規模言語モデル(LLM)の学習は、オープンなウェブにある膨大な量のデータに依存している。彼らは、記事、FAQ、SNS投稿、各種ドキュメント、Redditのスレッドまで、あらゆる情報をスクレイピングして賢くなる。しかし、そこから利益を得るのはAI企業のみで、コンテンツの制作者はその恩恵を得られない。
例えば従来の検索エンジンは、クロールしたサイトにユーザーを送り返すことで、一定のトラフィックを提供している。しかし生成AIなどのAIシステムは、ユーザーに直接答えを提供するため、コンテンツの制作者を利益のループから切り離してしまう。
Cloudflareによれば、OpenAIの「クロール対リファラル比率(クロールに対する総客数の比率)」は、1700対1しかなく、Anthropicに至っては7万3000対1という。これに対し、グーグルのこの比率は平均で14対1とされており、生成AIのクロールが搾取的であることは明らかだ。
つまり、AIは他人のコンテンツを学習に用いるだけでなく、ユーザーを送り返すといったメリットも提供せず、一方的に収益化しているのだ



