2026.04.30 10:00

「AIが自ら思考」して絵を描く　ChatGPT Images 2.0は創作と仕事を変えるその実力

山本敦 | Official Columnist ITジャーナリスト・ライター

著者フォロー

記事を保存

著者フォロー

記事を保存

4月21日にOpenAIがChatGPTの画像生成モデルを2.0にアップデートした。詳細を本社に勤めるリサーチャーのハタ・ケンジ氏に聞いた

全ての画像を見る

新しいChatGPTの画像生成モデルの実力を示すデモンストレーションとして、ハタ氏はレストランのメニューの画像を生成して、次にそのデザインやフォントの雰囲気を維持したまま、中身のテキストだけを日本語に書き換えるデモを紹介した。画像内のテキストをすべて解析し、翻訳し、さらに元のレイアウトに矛盾なく配置し直すという高度な推論能力が求められるタスクだ。

生成された画像を確認し、もし指示どおりでない部分があればAIが自ら反復しながら修正を加えて出力し直す。この「自己修正機能」こそ、ユーザーが真に恩恵を受ける部分であるとハタ氏は語る。なぜなら、人間が何度もプロンプトを打ち直す手間をAIが軽減してくれるからだ。

日本語表現の飛躍的な向上

加えて、今回のアップデートで注目すべきは、日本語を含む非ラテン文字の表現力も大幅に改善された点だ。これまで画像生成AIが苦手としていた日本語のレンダリングにおいて、フォントの自然さやレイアウトの正確性が数段レベルアップしている。

以前のモデルであれば、日本語の並びがどこか不格好であったり、フォントに違和感を受けることも少なくなかった。ChatGPT Images 2.0では看板やメニュー、学術的な図解の中に配置される日本語の文字が美しく馴染んでいる。

弁当屋のメニューを画像で生成。英語から日本語への翻訳も一見して違和感のない仕上がりだ。問題は縦書きに組み直すと、多少文字の違和感が出てくる

ハタ氏はこの開発過程において、社内の各言語に精通したスタッフを巻き込み、生成された画像のエラーを1つひとつ手作業でマーキングしながら、モデルにフィードバックする地道な反復作業を繰り返したと振り返る。自動化された学習だけでなく、人間の手で細かな「違和感」の芽を摘み取ることで、文化的な文脈にも沿ったクリエイティブワークが実現した。

筆者も実際に手もとで画像を生成してみた。ひとつ気になったのは、日本語を含むアジア圏の言語に特有の「縦書き」フォーマットだ。残念ながら現時点では、横書きに比べて文字間隔の詰めなどに甘さを感じる箇所が散見された。この点をハタ氏に指摘したところ、縦書き表現の精度向上についても、チームは強いコミットメントを持って開発に取り組んでいるという。