画像生成ツールはどのように訓練されたのか
システムの学習にあたり、チームは既存のAI画像生成器に、厳選した約300点の画像とキャプションを与えた。そこには、ローマの衣服、武器、建築に関する学術書からのイラストや、ローマの凱旋式に関する注釈付き資料などが含まれていた。
「この素材をモデルに通すことで、モデルが通常は見落としがちな細部を拾い、凡庸な『古代風』のクリシェに逆戻りするのを避けられるようにしました」と2人は語る。
さらに彼らは、キュレーションした約70本のローマ文化に関する研究論文や書籍のデータベースから歴史的に特定的な情報を検索して各プロンプトを精緻化する、という課題をシステムに与えた。
「大まかで曖昧な指示ではなく、精緻化されたプロンプトは衣服、儀礼行為、場面設定に関する具体的な細部を明示するようになり、その結果、生成画像ははるかに具体的で歴史的なもっともらしさを備えるようになりました」とマイヤーとシュトレーベルは述べた。
画像生成ツールの能力を実証するサンプル画像には、西暦410年の西ゴート族(ゲルマン系民族)によるローマ略奪の場面や、髪に花輪をつけた2人の若い女性が宗教的祭典に向かって歩く姿が含まれている。OpenAIのDall-E 3と、微調整されたFlux Dev(Black Forest Labs)を使用して作成された「ベストシーン」映像リールでは、日差しのある屋外市場、注意の姿勢で整列する鎧を身に着けた兵士の列、街頭の貧困に苦しむ市民、戦車から民衆に挨拶する支配者といった場面が次々と映し出される。


