AI

2023.02.25 10:00

改めてジェネレーティブAIとは何か? 仕事やメタバースとの関係

ジェネレーティブAIの種類

多くの人が探求しているジェネレーティブAIの重要な領域はどこだろうか?

ジェネレーティブAIには、あらゆる種類の形態がある。ジェネレーティブAIの用途の多くは、画像、動画、アバター生成など視覚的なものだ。また、ジェネレーティブAIは、文章を書いたり、記事の要約をしたり、コードを生成したりすることもできる。音声もまた、ジェネレーティブAIが活躍する分野の1つだ。

テキスト

ChatGPTは最も有名なテキストジェネレーティブAIだ。コーダーは3倍の速さでコードを書くことができる。実際に試してみるといいだろう。ChatGPTにコードを生成してもらい、それを自身で(または友人に依頼して)レビューし、どのくらい使い物になるものかを見てみよう。ChatGPTがコードやテキストをすばやく生成できるといっても、結果をダブルチェックすることが重要だ。ChatGPTは機械学習モデルなのだ。大規模なデータセットで学習させるとはいえ、どんなモデルにもデータの偏りはある。

画像

画像生成AIは、ゼロから絵を作ったり、絵を修正(オブジェクトを削除するなどを)したり、絵にオブジェクトを追加したりすることができる。イメージAIの例としては、MidjourneyやLensa AIを挙げることができる。Neural Radiance Fields(AI NeRF、AIニューラル輝度場)は、2Dの写真から3Dモデルを生成する新しいタイプのAIだ。NVIDIA(エヌビディア)は、場合によっては1000倍以上のスピードアップを達成するインスタントNeRFを開発した。このモデルは、数十枚の静止画(とカメラアングルのデータ)を使って数秒で学習を行い、数十ミリ秒で3Dシーンをレンダリングすることができる。

動画

Pictory(ピクトリー)とPortion(ポーション)は動画の吹き替えを行ったり動画生成を行う。ジェネレーティブAIは、ゼロからシーンを作成したり、Runway(ランウェイ)のGen-1プログラムのように、既存の映像を新しい映像に変換したりすることができる。これは絵コンテ、マスキング、レンダリングなどユーザーがジェネレーティブ・ビデオAIで創造性を発揮できる「ビデオ・トゥ・ビデオ」と呼ばれている。

音声

ジェネレーティブ音声AIは、合成音声を使ってゼロからメディアを作成できる。カプランは「音声空間、音声の生成、変換、編集、ダビング、翻訳などの機能は、私たちが作る多くのものの基礎となるメディア要素になるでしょう」という。将来、私たちはバーチャルキーボードを使って入力することもあるかもしれないが、おそらく音声を多用することになるだろう。
次ページ > ジェネレーティブAIが企業にとって意味すること

翻訳=酒匂寛

タグ:

ForbesBrandVoice

人気記事