Llama 3.2そのものは日本語への対応力も高く、日本国内あるいは日本企業が外注することの多いオフショア開発会社などが、さまざまな領域で積極的に活用している。読者の中には、それがLlamaだとは知らずに業務システムに加えられている言語モデルを利用していることもあるだろう。
ではなぜMeta PlatformsはLlamaをオープンソース化し、ラインセンスを与えているのだろうか? 昨年、開発担当者は自社内だけでは難しい規模にスケールさせるため、オープンソースコミュニティに寄稿し、自社サービス以外での利用を制限しないことで進化の速度を上げられるといった利点について話を聞いた。
画像を識別できるようになったLlama 3.2の価値
しかし今年のMeta Connectを見渡すと、同社が言語モデルに投資するモチベーションが見えてくる。彼らの大きな目標であるXR領域において、生成AIが不可欠だからこそ、このプロジェクトに取り組んでいる。大規模言語モデルが驚きを世の中にもたらしていた頃、Llama 2がOpenAIなどのAIモデルよりも軽い実装で良い性能を出し、また事前学習のないモデルも用意されている上、オープンソースコミュニティでの豊富な情報をもとに、カスタムAIのチューニングをしやすかったことも、今日の評価を高めている理由だろう。
しかし性能が悪ければ、使われることはない。
Meta Platforms自身は、SNSサービスやRay-ban Metaスマートグラスなどの中で、このAI技術を活用しているが、実は日本語圏でのサービスはこれまでに提供しておらず、今後の対応予定にも言及されていない。
しかし、前述したように「言語モデルを応用した何か」を作る上では、本製品は日本でも大いに注目される存在だ。
前置きが長くなったが、そんなLlamaが3.2になり、マルチモーダル、すなわちテキスト以外(今回は画像)の情報を識別する能力が与えられた。Llamaを基礎に開発を検討しているユーザー企業にとって、画像を入力元にした情報の判別を助けるアプリケーションへ発展させることができる、高性能なオープンソースのビジョンモデルを利用可能になったことになる。