領収書の数字1つを書き換えるのに、今や1秒もかからず、コストも数円で済むようになった。使われているのはOpenAIの「ChatGPT Images 2.0」(GPT-Image-2)であり、その手法は「AIインペインティング」と呼ばれる。デジタル上の外科手術のようなものだと考えればよい。AIは写真の一部を削除し、光の当たり方、質感、フォント、紙の繊維感までぴったり合う代替部分を生成して、継ぎ目が一切見えないほど自然に貼り合わせる。
合成メディア検出企業Scam.aiの創業者らを含む研究チームが、4月28日に研究結果を発表した。既存の防御策がどこまで通用するかを検証したものである。その結果は、不正調査、保険金請求、経費監査、訴訟などで文書の真正性に依存している関係者にとって、悪い知らせだった。
偽造文書3066件で人間がAI加工を見抜けるか検証し、正答率は50.1パーセント
チームは、ChatGPT Images 2.0が作成した3066件の偽造文書と、それぞれに対応する本物の原本を組み合わせたデータセットを構築した。元となる文書には、インドネシアの小売店の領収書、英語の領収書、スマートフォンで撮影された領収書の写真、そして7言語にわたる多言語のビジネス書類が含まれる。偽造の対象は、不正で最も重要となる項目──合計金額、明細の単価、日付、文書IDだ。
CanUSpotAI.comという一般公開のテストサイトを通じて、120人の参加者が365組の画像ペアを見比べた。各ペアは本物1点と偽造1点で構成され、参加者はどちらがAIで加工されたものかを判別しようとした。正答率は50.1パーセント。コインを投げるのと同じ確率である。両方の画像を同時に目の前に並べても、人は偽造を確実には見抜けなかったのだ。
代表的なフォレンジック検出ツールのAI偽造検出は、当てずっぽう同然
研究チームは、カメラのセンサーノイズの不整合を探す代表的なフォレンジック検出ツールであるTruForと、文書偽造の検出専用に設計されたツールDocTamperをテストした。ChatGPT Images 2.0による偽造に対し、TruForのスコアは0.599、DocTamperは0.585で、ランダムな当てずっぽうの0.500をわずかに上回るに過ぎなかった。
同じツールでも、同じ文書から作られた従来型の切り貼り式の偽造に対しては、はるかに高い性能を示した。TruForは0.962、DocTamperは0.852というスコアを記録している。つまり、これらのツールは古典的な改ざんに対しては今も有効なのだ。
ところがAIインペインティングで作られた偽造に対してだけ、機能不全に陥る。
ChatGPT Images 2.0、自身が作った偽造を84.7パーセントの確率で本物と分類
研究チームはChatGPT Images 2.0自身に対しても、各画像がAIで加工されたものかどうかを判定させた。モデルは自分が作った偽造を、84.7パーセントの確率で「本物」と分類してしまった。チームは5種類の異なるプロンプト戦略を試したが、どれもこの問題を解決できなかった。段階的に推論させる手法はかえって事態を悪化させた。モデルが本物の画像にまで偽造の痕跡を「幻視」(ハルシネーション)し始めたからである。
AIを活用した不正検出システムを構築する者にとって、ここから得られる教訓は単純だ。生成元のモデルに、自身の出力を取り締まらせることはできない。



