「推論結果」ではなく「推論プロセス」を調整
RFTは、モデルが問題解決までの「考える過程」そのものを強化学習でトレーニングし、正解へと導く推論プロセスを習得させる技術だ。AIモデルに問題を解かせ、その回答が正解に近いほど報酬(スコア)を与え、間違いにはペナルティを課す。これにより、AIモデル自身が「どう考えれば正解に近づくか」を学んでいく。
Open AIはこの手法を「思考プロセスへの報酬システム」と呼んでいる。より確からしい答えがない領域の質問を数十例解かせ、それに対してスコアリングを行うだけで新領域でのより良い推論法を見つけ出していく。
このツールをテストとするため、OpenAIはThomson Reutersと共同で法務支援AIをO1-miniで育成したという。すると、より複雑な法的論点を推論できるようになり、専門家が多大な時間を要していた分析を僅かな時間で例示するようになった。
また、医療や生命科学の領域では、稀少疾患を特定するための遺伝子解析タスクを、膨大な症例データと症状リストから特定の遺伝子異常を推定する課題に対して、RFTで強化されたモデルは高い精度と汎用性を発揮したという。
OpenAIはRFTを用いることで、「人間が作り出す文字列」を模倣するのではなく、未知の領域を探索する専門分野への応用に役立つと説明している。
RFTは独自モデルをゼロから学習させるのに比べ、はるかに手間と計算コストが安く済む。研究者や企業が独自領域のデータセットと評価基準を用意するだけで、トレーニングにかかる膨大なコストは不要になる。
現時点でRFTは一部ユーザーにのみ開放されているが、早ければ数カ月後には、より多くの企業や組織が自社課題に特化した、高度に最適化されたAIモデルを幅広い企業に提供される。
これは従来の「万能だが浅い」との評価を従来のAIに下していたのであれば、考えを改める必要があるだろう。RFTは「特定分野に強く深く対応できる」AIへのシフトを意味する。高度な知識や業務ルールが求められる現場で、効率的な情報抽出や戦略立案をサポートする強力なパートナーとなる可能性を秘めている従来のAIに対して「万能だが浅い」との評価を下していたのであれば、その考えを改める必要があるだろう。RFTは「特定分野に強く、より深い推論が必要な問題にも対応できる」AIを育てることができるからだ。高度な知識や業務ルールが求められる現場で、効率的な情報抽出や戦略立案をサポートする強力なパートナーとなる可能性を秘めている。