新しいChatGPTの画像生成モデルの実力を示すデモンストレーションとして、ハタ氏はレストランのメニューの画像を生成して、次にそのデザインやフォントの雰囲気を維持したまま、中身のテキストだけを日本語に書き換えるデモを紹介した。画像内のテキストをすべて解析し、翻訳し、さらに元のレイアウトに矛盾なく配置し直すという高度な推論能力が求められるタスクだ。
生成された画像を確認し、もし指示どおりでない部分があればAIが自ら反復しながら修正を加えて出力し直す。この「自己修正機能」こそ、ユーザーが真に恩恵を受ける部分であるとハタ氏は語る。なぜなら、人間が何度もプロンプトを打ち直す手間をAIが軽減してくれるからだ。
日本語表現の飛躍的な向上
加えて、今回のアップデートで注目すべきは、日本語を含む非ラテン文字の表現力も大幅に改善された点だ。これまで画像生成AIが苦手としていた日本語のレンダリングにおいて、フォントの自然さやレイアウトの正確性が数段レベルアップしている。
以前のモデルであれば、日本語の並びがどこか不格好であったり、フォントに違和感を受けることも少なくなかった。ChatGPT Images 2.0では看板やメニュー、学術的な図解の中に配置される日本語の文字が美しく馴染んでいる。
ハタ氏はこの開発過程において、社内の各言語に精通したスタッフを巻き込み、生成された画像のエラーを1つひとつ手作業でマーキングしながら、モデルにフィードバックする地道な反復作業を繰り返したと振り返る。自動化された学習だけでなく、人間の手で細かな「違和感」の芽を摘み取ることで、文化的な文脈にも沿ったクリエイティブワークが実現した。
筆者も実際に手もとで画像を生成してみた。ひとつ気になったのは、日本語を含むアジア圏の言語に特有の「縦書き」フォーマットだ。残念ながら現時点では、横書きに比べて文字間隔の詰めなどに甘さを感じる箇所が散見された。この点をハタ氏に指摘したところ、縦書き表現の精度向上についても、チームは強いコミットメントを持って開発に取り組んでいるという。
クリエイティブパートナーとしてのAI、可能性と課題
ChatGPT Images 2.0が目指すのは、単に命令をこなすツールではなく、ユーザーといっしょにクリエイティブワークをこなす「パートナー」としての立ち位置だ。
ハタ氏は、近い将来にはAIによる画像生成を、毎度プロンプトをひねり出す苦労を伴わなくてもクリエイティブなパートナーであるAIとの「自然な会話」によって進められる体験にしたいと意気込む。


