TRMが優れる領域
TRMプロジェクトは、規模の大きさの代替として再帰を活用できるかを検証する。より多くの層を積み上げる代わりに、モデルは段階的に推論を洗練する。ネットワークを1回パスするたびに新しい答が生成され、それが次のパスの入力となる。
TRMはチャットや文章生成ではなく、論理パズルや推論課題でテストされた。得意とするタスクには、Sudoku-Extreme(スウドク・エクストリーム)における難問数独の解法(正解率87%)、Maze-Hard(メイズ・ハード)における難解な迷路の経路発見(正解率85%)が含まれる。また、人工汎用知能(AGI)能力を示唆することができる抽象推論パズルでも良好な結果を示し、ARC-AGI-1で正解率45%を記録した。これらのタスクにおいて、TRMは多くの大規模モデルを上回る結果を示した。
2700万パラメータを持ち、異なる頻度で再帰を行う2つの小型ネットワークを追加した階層型推論モデル(Hierarchical Reasoning Model、HRM)などの代替手法と比べても、TRMはより単純でありながら、汎化性能でHRMを凌駕する。
このコンセプトが再現不能であれば数値に意味は薄れるが、サムスンはコードと学習の詳細を公開している。
著者らは論文で「パラメータ数を増やすことなく、再帰が推論性能の向上につながることを示す」と述べている。


