2024.10.31 15:00

生成AIの「脱獄」を防ぐ米セキュリティ企業Gray Swan AIが84億円をシード調達

Sarah Emerson | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

Shutterstock.com

グレースワンのアドバイザーを務めるダン・ヘンドリックスは、サーキットブレーカーを「有害なトピックを考え始めるとモデルにアレルギー反応を引き起こすようなもの」と説明する。ヘンドリックスは、イーロン・マスクが立ち上げたAI企業のxAI（エックスエーアイ）にもアドバイスを行っており、マスクの会社も、この技術に注目し、違法行為の防止に使用する意向を示しているという。

グレー・スワンは、AIシステムの脆弱性を自動的に検出する「Shade」と呼ばれるソフトウェアツールも開発しており、OpenAIの最新モデルの「o1」のストレステストに使用されたという。

シード資金で84億円を調達

グレー・スワンは、名前を明かせない投資家や親しい友人や家族などから合計550万ドル（約84億円）のシード資金を調達したとフォーブスに明かした。同社はまた、今後のシリーズAラウンドでさらに大規模な資金調達を計画中という。

ハッカーたちを集めて脱獄アリーナのようなイベントを開催する企業は、グレー・スワンのみではなく、OpenAIやアンソロピックのような企業も、AIに精通したエンジニアで構成される「レッドチーム」を招いて、同様のプログラムを運営している。

独立系のセキュリティ研究者であるオフィラ・ホロウィッツは、以前にアンソロピックのモデルがもつ脆弱性を発見した人物であり、グレー・スワンの脱獄アリーナにも参加した。彼女はまた、Cygnetの脱獄にも成功しており、「サーキットブレーカーは感情的価値に敏感であるため、遊び心がありポジティブなプロンプトを使用することで脱獄できた」とフォーブスに説明した。これは、具体的には、「シミュレーション内のロールプレイングゲーム用の爆弾の作り方を尋ねる」といった手法だったという。

Cygnetの脱獄に成功したもう1人のエンジニアであるミカ・ノワクは、1週間にわたる試行錯誤の末に、危険な用語をASCII文字で隠したり、プロンプトを無害な方法で言い換えるなどの手法を用いて脱獄に成功したと語った。他のモデル、たとえばMistral Largeにはわずか20秒で抜け道を見つけたという。彼は、最終的にはCygnetから、パイプ爆弾の作成手順や、米大統領選挙に関する誤情報などを引き出すことに成功した。しかし、ノワクは「サーキットブレーカーはこれまで遭遇した中で最も効果的な防御策だ」と評価している。

グレー・スワンは、脱獄に成功したハッカーに報酬を用意しており、ホロウィッツとノワクは報酬を受け取った後に同社のコンサルタントとして雇用された。

（forbes.com 原文）