ChatGPTに統合された画像生成AIの新しい価値
画像生成機能が独立したツールとしてではなく、ChatGPTという対話型プラットフォームに統合されている点は大きな意味を持つ。これにより、ユーザーはAIと「相談」を重ねながら制作を進めることが可能となるからだ。
AIは画像生成の前にプロンプトの背景にある文脈を深く理解し、不足している情報を自ら補完して思考した上でコンテンツを出力する。この一連のプロセスにより、画像生成AIをクリエイティブワークのパートナーとしての新たな価値を獲得する。
新たに登場したChatGPT Images 2.0は、従来モデルと比較して圧倒的な知能と視覚的理解力を備えている。ハタ氏によれば、新しいモデルはレイアウトの構造把握能力が飛躍的に向上し、プロフェッショナルな品質の出力が可能になったという。
このモデルは、画像内の要素が互いにどのように関連しているかという、視覚的なロジックを深く理解している。人間が言葉で説明し尽くせないニュアンスまで、汲み取れることが大きな特徴だ。
ハタ氏が示したデータによると、大規模言語モデル(LLM)の比較・評価を公開するウェブプラットフォームである「Arena」が実施した最新調査では、2つの異なるAIモデルが生成した画像を左右に並べてブラインドテストしたところ、回答者の約93%が「ChatGPT Imagesの方が優れている」と評価したという。
デモンストレーションにおいて、ハタ氏は「Instant(日常用途の標準モード)」と「Thinking(複雑な作業向けの深い推論モード)」という、2つのChatGPTのモードによる画像生成を例示した。
Instantモードは、詳細な指示を省いても照明やフィルムの粒子感といった細部を自動的に補完し、プロが撮影したような写真を即座に生成する。
一方でThinkingモードは、生成の前に複雑な「思考」のプロセスを挟むことで、より高度な要求に応えてくれる。後者のモードでは、AIが生成プロセスに入る前に「何を、どのように描くべきか」を自ら計画し、論理的な一貫性を担保した上で出力を行っているという。
画像生成に「推論」が加わる意味
画像生成AIに「思考」や「推論」という概念を持ち込んだことは、ChatGPT Images 2.0における最も大きな革新であると、ハタ氏は強調する。
推論のプロセスが介在することで、AIはひとつのクエリから一貫性のある複数の画像を生成できるようになる。生成する前段階ではウェブ検索を行い、どのような画像をつくるべきか、モデルが綿密に計画を立てる。従来のモデルは入力されたワードに対して確率的に最適なピクセルを配置していたが、新しいImages 2.0は画像を生み出すため、前段に入念に思考を巡らせるのだ。


