FTCは先日、ChatGPTの開発元のOpenAIに20ページにおよぶ書簡を送り、AIの「安全性の課題」に関する記録の提出を要請した。彼らが特に関心を示しているのは、個人の評判や個人情報に対するリスクだ。
OpenAIのGPT-4のような大規模言語モデル(LLM)は、「幻覚(ハルシネーション)」と呼ばれるつくり話をでっち上げる傾向がある。FTCは、消費者保護の試みの一環として、OpenAIが個人への「風評被害」につながりかねない幻覚を、軽減または防止するために何をしているかを調査している。
FTCのリナ・カーン委員長は5月にAI分野の競争を公正なものにすると同時に「これらのツールを使用する詐欺師だけでなく、それを提供する企業にも目を向ける」と述べていた。その当時、彼女は、風評被害の問題には触れなかったが、生成AIの進化のスピードに合わせて、それを取り締まる法理論も進化している。
一方、OpenAI の競合のAnthropic(アンソロピック)は7月11日、最新バージョンの言語モデルのClaude 2をリリースした。同社はこのバージョンが、以前のものよりも無害で、攻撃的または危険な出力を抑制していると述べている。
OpenAIが人間のフィードバックによる強化学習(RLHF)を使って安全性を向上させるのに対し、アンソロピックは「Constitutional AI(憲法AI)」と呼ばれるAIのフィードバックによる強化学習(RLAIF)を採用している。このシステムは、アウトプットを判断する上世界人権宣言や他のAI研究所などが提案した原則などを用い、人間がループに入ることなくAIが主体となって結果を改善するものとされる。
興味をそそられた筆者は、Claude 2のチャットボットに「AIには憲法があるのですね」と語りかけ、説明を求めてみた。
「邪悪になるな」の原則
すると、Claude 2は、自身がアンソロピックによって「安全に、倫理的に、そして役に立つように行動するための基本原則」を教えられたと述べた。その原則には「信頼と安全のベストプラクティス」やディープマインドのSparrow(スパロー)などの他のAI企業が考案した原則が含まれているという。筆者はさらに、風評被害を引き起こさないための具体的な原則について尋ねたところ、次のような答えが返ってきた。
「具体的には、ユーザーに害を与えたり、人々の評判を不当に傷つけたりすることを避けるべきだという『Don't be evil(邪悪になるな)』の原則があります。主観的な経験を持たないAIシステムである私自身は、倫理観などの固有の感覚を持っていませんが、アンソロピックのガイドラインに沿って有用で、害がなく、誠実に行動するように設計されています」
アンソロピックとOpenAIは、異なるフィードバックに依存し、異なる原則を遵守していると思われるが、自社が創り出したAIモデルが、人類の脅威になりかねないという危機感を抱いている点では同じだ。OpenAIのサム・アルトマンCEOは「我々を規制してください」と言いながら世界各地を訪問したのに続き、7月5日には、人間より賢くなったAIの暴走を抑えることを目的とした基礎研究チームを発足したと発表した。
ここで気になるのは、この2社を支える優秀なエンジニアたちが、一体なぜ、自らが危険だと信じるものを開発するために、競い合っているのかという問題だ。AIの問題に詳しいニューヨーク・タイムズ(NYT)記者のケビン・ルース(Kevin Roose)は、邪悪なAIから人類を守る唯一の方法は「善人がコントロールするAI」を作ることだという彼らの主張を否定する。