AIチャットボットに質問を入力する。数秒後、ほら、回答が目の前に表示される。しかし、そのボットがなぜその答えを出したのかは、今なお謎に近い。開発した人々にとってさえそうである。AIが実際にどう働いているのかを理解できていないため、モデルが予期せぬ振る舞いを示すことがある。ゴブリンなどの魔法生物に執着したり、人々に根拠のない称賛を浴びせたり、さらに最も懸念される例では、自分たちを作った人間を欺いたり脅迫したりする行動である。
AIの中核を解き明かす新興企業Goodfireに、アンソロピックも出資
AIの中核にあるこの謎を背景に、いわゆる「解釈可能性」(interpretability、AIが何を根拠に判断したかを人間が理解できるようにすること)を掲げる少数のスタートアップが登場している。AIの内部で何が起きているのかを調べようとする企業たちだ。
こうした取り組みは、モデルの能力を高めるとともに、安全性を向上させ、誤った答えを吐き出したり悪質な行動を取ったりしないようモデルを訓練する助けになる可能性がある。これが、AIモデルの内部の仕組みを研究する、評価額12億5000万ドル(約1987億5000万円。1ドル=159円換算)のAI研究所、Goodfire(グッドファイア)の基本的な発想である。同社のツールは、開発者や研究者がモデルを調べ、その振る舞いを制御できるようにすることをうたっている。
「まるで異星の知性体が地球に不時着したようなものです。彼らは信じられないほど賢いのですが、その仕組みを誰も知らないのです」と、共同創業者でCEOのエリック・ホーは語る。
Goodfireは2024年6月、サンフランシスコで設立された。同社はOpenAIやグーグル・ディープマインド(Google DeepMind)などの研究所から、解釈可能性を専門とするトップ研究者約50人を採用している。Goodfireは、B Capital(Bキャピタル)、Menlo Ventures(メンロー・ベンチャーズ)、Lightspeed Venture Partners(ライトスピード・ベンチャー・パートナーズ)といった有力ベンチャーキャピタルから2億ドル(約318億円)超を調達しており、AI大手アンソロピック(Anthropic)にとって初のスタートアップ投資先でもあった。AIモデルが重要な業務を担うようになる中、研究主導型スタートアップへの投資が広がっており、Goodfireはその波の一角を占めている。
AIは概念を「形」で捉えていた、新たな研究が示す神経幾何学
今回、Goodfireは、AIモデルがどのように考えているのかについて、印象的な洞察を示す新たな研究を発表した。AIモデルは概念を表すために「形」を使っているというのだ。この技術用語は「ニューラル・ジオメトリー(神経幾何)」と呼ばれる。AIモデルが1年の月のようなものを学ぶと、この概念は円環状のループとして記録される。12月から1月へ戻るためである。例えば色は、デザインソフトと同じように、色相環として表現される。Goodfireの共同創業者で主任科学者のトム・マクグラスによれば、こうした形が重要なのは、研究者がモデルの振る舞いを微調整したい場合、モデルが好む形に沿って動かす必要があるからだ。
「この種の幾何構造を尊重しなければ、モデルを壊してしまうだけです」とマクグラスは言う。「たいていの場合、モデルをただ愚かにしてしまいます」。
Neural networks might speak English, but they think in shapes.
— Goodfire (@GoodfireAI) May 7, 2026
Understanding their rich *neural geometry* is key to understanding how they work – and to debugging and controlling them with precision.
Starting today, we’re releasing a series of posts on this research agenda. 🧵 pic.twitter.com/CE3Xw7kFGV



