2025.12.18 11:59

エージェント型AIによるセキュリティ「シフトレフト」の実現

Julio Fort | Contributor

著者フォロー

記事を保存

stock.adobe.com

フリオ・フォート氏はBlaze Information Securityの共同創業者。グローバル企業へのサイバーセキュリティアドバイザーとして15年以上の経験を持つ。

2025年にソフトウェアを開発しているなら、あなたは2つの時計と競争している：いかに早くリリースできるか、そしていかに早くリスクが積み上がるか。ほとんどのチームは大規模なアプリケーションセキュリティスタッフや重厚なプロセスに費やす時間を持っていない。これがセキュリティ貧困ラインであり、適切なタイミングで適切なことを行うのが難しくなる地点である。

コードを読み、チェックを調整し、修正案を作成するAIシステムであるエージェント型AIは、その境界線を動かすのに役立つ。レビューを自動化し、脆弱性の発見と修正を迅速化し、すでに運用している開発ライフサイクルに組み込むことができる。適切に実装すれば、開発者がより速く、より安全に同時にリリースするのに役立つ。

セキュアなソフトウェア開発ライフサイクルにおけるAIの実際の役割

まず、自動化：各プルリクエストで実行されるチェックが早期にリスクのあるコードを表面化し、スキャナー結果を要約し、必要に応じて重大な問題のマージをブロックする。次に、発見：インジェクション問題やアクセス制御の誤りなどの一般的なバグパターンを特定し、カバレッジを向上させるための簡単なテストを生成する。第三に、パッチ適用：修正案と基本的な回帰テストを作成し、適切なコードオーナーに承認のためにルーティングする。

価値は、AIがこれらを早期に、より少ない手動作業で、既存のCIパイプライン内で調整できることから生まれる。

開発者のワークフローを変えるツール

最近のAIツールは業界の方向性を示している。Claude Codeなどの一部は、オンデマンドまたは各プルリクエストで自動セキュリティレビューを実行する。懸念事項にフラグを立て、コード変更を提案し、結果を開発者のワークフローに直接統合できる。

OpenAIのAardvarkなど他のツールは、より仮想セキュリティ研究者のように機能する。過去および新しいコミットを分析し、システムがどのように機能すべきかのモデルを構築し、疑わしい問題を安全な環境で再現し、レビュー用のパッチを添付できる。この検証ステップはノイズを減らすことを目的としている。

これらのアプローチは相互に補完できる：継続的な自動レビューは継続的なガードレールを提供し、より高度な分析は人間のレビュー前に、より深い検証のために選択的に適用できる。

AIが「明白な」バグに強い理由

実世界の脆弱性のほとんどは、馴染みのあるパターンを繰り返している。業界では、SQLやコマンドインジェクション、認証の破損、安全でない出力処理、過度に広い設定など、同じ種類のバグの新しいバリエーションが常に見られる。これらのパターンは公開コードやドキュメントに一般的であり、つまり現代の言語モデルはトレーニング中にそれらを見ている。

その結果、AIはこれらの問題を特定し一般化することが非常に得意である。これにより、OWASP Top 10に含まれる多くを含む明らかな問題を減らすのに効果的である。まだすべての複雑なロジックの欠陥を捉えることはできないが、繰り返し発生する問題を取り除くことで、インシデントとサポート負荷を即座に削減できる。

計画すべき事項

今日のモデルにはまだ制限がある。コンテキストウィンドウが非常に大きなリポジトリには小さすぎる場合があるため、モジュールごとにコードを分析し、差分に焦点を当て、適切なファイルを表示するインデックス作成を使用すると役立つ。修正は概念実証を黙らせるだけでなく、根本原因に対処する必要があるため、AIの変更をテスト、コードオーナーのレビュー、保護されたブランチと組み合わせる。

ガバナンスも同様に重要である。プロンプトとポリシーをバージョン管理し、変更の監査証跡を保持し、モデルの更新が動作にどのように影響するかを監視する。これらはいずれも障害にはならない。実際の利益は、AIが単独ではなく、既存のツールや自動化と連携して動作するときに現れる。

実証例：なぜこれが単なる誇大宣伝以上のものなのか

GoogleのBig Sleepプロジェクトは、以前は知られていなかった脆弱性を含む発見を報告している。このプロジェクトは、AIモデルとファジングおよび検証を組み合わせて、独立して検証できる結果を生成する。

GoogleのCodeMenderは、問題を検出するだけでなく、パッチとテストを提案する初期の取り組みを表し、自動化されたセキュリティワークフローへの信頼を高めることを目指している。

商業面では、Claude Codeのようなツールがプルリクエスト内に実用的なセキュリティレビューカバレッジをもたらし、Aardvarkはより深い分析と検証を追求している。これらは一緒になって、大規模なセキュリティスタッフを雇うことができないチームでも実行可能な本格的なシフトレフトアプローチを民主化する可能性を持っている。

実用的な90日間導入計画

フェーズ1（1〜3週目）：基盤の強化

• 上位5つのサービスでPRごとのセキュリティレビュー（例：Claude Code GitHub Action）を有効にする。

• 重大度の高い発見事項に対する「マージ禁止」ポリシーを確立し、コードオーナーにルーティングする。

• 基準となるKPIを確立する：コード行あたりの検証された重大な問題、誤検知率、セキュリティ変更を含むPRの割合。

フェーズ2（4〜8週目）：検証を伴う深度のパイロット

• 1つまたは2つのリポジトリを検証を実行するエージェントに登録する。

• 受け入れられた修正ごとにAIが作成した回帰テストと、機能フラグの背後にある承認を要求する。

• ノイズと修正時間をベースラインと比較する。

フェーズ3（9〜12週目）：スケーリングと強化

• ビジネスインパクトの上位25%のリポジトリにPR時のレビューを拡大する。

• CIゲートとチケットシステムと統合し、最近のコミットの週次モデル支援レビューを有効にする。

• これらの指標をリーダーシップダッシュボードと四半期ごとの態勢レビューに追加する。

今後の展開

コード推論は改善されており、これまで機械にとって難しかったロジックや状態のバグにも着実にカバレッジが拡大するはずだ。初期の研究システムはすでに、重要なコードに対して発見、修正、テストのループを実行している。既存のAI支援開発ツールは、コード品質とセキュリティカバレッジの向上において既に有望な結果を示している。

セキュリティのためのエージェント型AIは誇大宣伝ではない。開発プロセスに適合し、各プルリクエストの品質を向上させ、これまでリリースを遅らせていたセキュリティ作業の最も困難な部分を迅速化する力の乗数だ。今日のところ、すべてを捉えることはできない。長いコードベースと微妙なビジネスロジックにはまだ人間の判断が必要だ。

しかし、時間と信頼を犠牲にする繰り返し発生するバグクラスを減らすことはできる。これがチームがセキュリティ貧困ラインを越えるのを助ける方法だ：繰り返し発生するものを自動化し、重要なものを検証し、貴重な人間の注意を真に必要とする問題に費やす。

（forbes.com 原文）