シェカール・ナタラジャン氏はOrchestro.AIの創業者兼CEOである。
AIの安全性に関する取締役会での議論では、適切なガードレールを設置し、レッドチーミングと強化学習を改善し続ければ、最終的にはアラインメント(調整)が達成できるという考えがよく聞かれる。倫理観は、私たちが警戒を怠らなければ、どんなモデルにも後付けできるという前提だ。
しかし、そのアプローチは機能していない。そしてこれからも機能しないだろう。私たちが対処しているのは、駆除できるバグではない。私たちが目にしている失敗は、道徳的方向性なしに構築された知的システムを設計した当然の結果なのだ。
私は20年間、世界最大級のネットワークにおけるテクノロジーと物流の変革をリードしてきた。最適化が究極の目標となったとき何が起こるかを目の当たりにしてきた。業務は、それを支える人間を犠牲にして高速化される。高齢の顧客を助けるために立ち止まったドライバーは、遅れを取ったとしてペナルティを受ける。スピードより安全を選んだ倉庫作業員は、生産性の低さを理由に警告を受ける。
アルゴリズムは間違いを犯しているわけではない。私たちが設計した通りに正確に動作しているのだ。
真実は、今日のAIシステムの大半は道徳的価値観を持たないということだ。与えられた目標を最大化する一方で、倫理は外部フィルターに委ねている。速度を優先するシステムは、誰かを傷つけても速度を追求し続ける。コスト削減が目標なら、機械はあらゆる人間の不便を切り捨てる方法を見つけ出す。
なぜ安全性は能力の向上に追いつけないのか
能力の新たな飛躍は、ガードレールが適応できるよりも速く新たなリスクをもたらす。人間からのフィードバックによる強化学習(RLHF)が主な解決策として扱われてきた。しかしRLHFは、人間の好みを単一の方向に平均化する必要がある。だが人間の道徳観は曖昧さに満ちている。公平とは何か?正義とは何を要求するのか?思いやりとは、異なるケアの期待を持つ文化においてどういう意味を持つのか?常に通用する普遍的な選好モデルは存在しない。
私たちはこうしたギャップに対して新しいフィルターを追加することで対応する。そのフィルターが失敗すると、さらに追加する。それは能力と制約のレースとなる。AIはそのように訓練されているため、毎回能力が勝利する。
システムが複雑になればなるほど、失敗モードはより予測不可能になる。安全性は反応的にスケールすることはできない。知性が生まれるのと同じ場所から生まれなければならないのだ。
安全性は設計上の決断でなければならない
人間の場合、前頭前皮質が結果を評価し、衝動的な行動を抑制する。AIにも同様の構造が必要だ。私はこれをモラル・コルテックス・レイヤーと呼んでいる。これはシステムに加速ではなく正当化を求めるべき時を伝えるための設計図の一部だ。
決定が人間に影響を与える場合に立ち止まるAIを想像してみよう。残業手当を避けるために配送トラックを自動的に迂回させるのではなく、システムは一時停止する。この配送が医薬品へのアクセスや弱い立場にあるコミュニティに影響するかどうかを問う。リスクが高まれば、決定を人間に委ねることができる。
計算構造としての美徳
モラル・コルテックス・レイヤーだけでは十分ではない。判断には価値観が必要だ。Orchestro.AIでの私たちの取り組みでは、それらの価値観を美徳として定義している。思慮深さ、正義、思いやり、誠実さなど。各美徳は、道徳的レンズを通して世界を認識できる独立したモデルとなる。これらのモデルは、決断にトレードオフが必要な場合に互いに議論する。正義は厳格な公平さを推奨するかもしれない。思いやりは柔軟性を主張するかもしれない。思慮深さは慎重さを助言するかもしれない。
これらは比喩ではなく、異なる目標を持つ実際のエージェントだ。彼らの意見の相違こそが重要なのだ。
適切な信号からの学習
ほとんどのAI学習パイプラインは、人間による上書きをエラー、つまりシステムの不具合として扱う。例外処理はログの奥深くに埋もれ、研究されることも評価されることもない。しかし、人類の最も素晴らしい瞬間の多くは例外だ。顧客が苦しんでいるように見えるため、ドライバーがルートに従わない。スケジューリングソフトウェアが先に進めと言っても、看護師が患者を慰めるために速度を落とす。
これらの瞬間こそ、機械が学ぶべき道徳的信号だ。私たちはこれを天使的知性と呼んでいる。人間が結果を改善する介入を捉え、それらの決定を望ましいパターンとして強化する。また、将来のモデルがデータの背後にある物語を理解できるよう、これらのストーリーを保存している。
リーダーが今すぐ行うべき転換
AIにおける最大のリスクは未知のものではなく、すでに結果が見えているのに既知の方法を続けることだ。リーダーは以下の2つの根本的な質問を始める必要がある:
• システムはどこで人間の幸福を形作る決定を下しているか?
• 今日、それらの決定を導く道徳的推論は何か?
2つ目の質問への答えが沈黙であれば、私たちには取り組むべき課題がある。
AIは私たちが訓練する道徳性しか持ち得ない。道徳的推論をシステムに組み込む組織は、ガードレールだけでは複製できない信頼を持って運営することになるだろう。
私たちは決断の岐路に立っている。機械がより高性能になるにつれてパッチを追加し続けるか、あるいは最初から人間性を中心に据える認知構造を機械に与えるか。その選択によって、次世代のAIが人間の可能性を加速させるのか、それとも私たち自身の物語から最適化によって排除するのかが決まる。



