2026.04.17 10:31

マイクロソフトが自社開発AIモデル3種を商用提供開始、OpenAI依存からの脱却へ

Janakiram MSV | Contributor

著者フォロー

記事を保存

著者フォロー

記事を保存

マイクロソフトは、自社開発した3つのAIモデルを、Foundryプラットフォームを通じて商用利用可能にした。これらのモデルは、音声文字起こし、音声生成、画像生成の各分野をカバーしている。この展開は、同社が130億ドルを投資するAIパートナーであるOpenAIへの依存をヘッジするための技術基盤を構築していることを示す、最も明確な兆候である。

MAI-Transcribe-1、MAI-Voice-1、MAI-Image-2の3つのモデルは、現在、マイクロソフトFoundryとMAI Playgroundを通じてアクセス可能だ。これらは、エンタープライズAIにおいて最も商業的価値の高い3つの機能をカバーしており、マイクロソフトが複数のモダリティにわたって自社モデルを商用提供するのは初めてのことである。ムスタファ・スレイマン氏が率いるマイクロソフトAI超知能チームが、3つすべてを社内で開発した。

ライセンスパートナーからモデル開発者へ

この動きの契約上の基礎は、2025年10月にマイクロソフトとOpenAIが提携関係を再構築した際に築かれた。改訂された契約の下で、マイクロソフトは、AGI（汎用人工知能）を独自に、または他のパートナーと共に追求する権利を獲得した。当初の契約では、マイクロソフトが独自に競合するAIシステムを開発することが事実上禁じられており、レドモンドはパートナーのペースと優先事項に依存せざるを得なかった。

この再構築により、マイクロソフトのOpenAIにおける持分比率は32.5%から約27%に減少し、マイクロソフトの知的財産権は2032年まで延長され、マイクロソフトがOpenAIの独占的なコンピューティングプロバイダーとして機能する権利は削除された。OpenAIは、追加で2500億ドル相当のAzureサービスを購入することを約束したが、現在はアマゾン・ウェブ・サービスを含む他のクラウドプロバイダーとも協業できるようになった。提携関係自体は維持されており、AGIの定義と検証プロセスは、2026年2月の共同声明でも変更されていない。

10月の再構築から数週間以内に、スレイマン氏は2025年11月にマイクロソフトAI超知能チームをフルタイムで率いるようになった。最初のMAIモデルは2025年8月に出荷され、MAI-Image-1が2025年10月に続いた。それ以降、リリースのペースは加速している。

モデルの機能

MAI-Transcribe-1は、音声からテキストへの変換モデルであり、マイクロソフトによれば、マイクロソフト製品の使用状況による上位25言語において、FLEURSベンチマークで最低の平均単語誤り率を達成している。同社は、これらの言語全体でOpenAIのWhisper-large-v3を上回り、残りのベンチマーク対象言語の大半でグーグルのGemini 3.1 Flashを上回ると主張している。マイクロソフトによれば、バッチ文字起こし速度は、既存のAzure製品と比較して大幅な改善を提供する。Foundryを通じた文字起こしの価格は、1時間あたり0.36ドルから始まる。

MAI-Voice-1は、テキストから音声を生成し、マイクロソフトによれば、単一のGPUで1秒未満で60秒の音声を生成する。このモデルは、長文コンテンツ全体で話者のアイデンティティを保持する。マイクロソフトは、Foundryを通じて100万文字あたり22ドルで価格設定している。

マイクロソフトが3月19日に初めて発表したMAI-Image-2は、他の2つのモデルと共にFoundryを通じて広範な商用利用が可能になった。Arena.aiのテキストから画像へのリーダーボードで、グーグルのNano Banana 2とOpenAIのGPT-Image 1.5に次いで3位にランクされている。マイクロソフトは、テキスト入力に対して100万トークンあたり5ドル、画像出力に対して100万トークンあたり33ドルで価格設定している。同社は、Copilot、Bing Image Creator、PowerPointへの展開を開始している。世界最大級の広告会社の1つであるWPPは、このモデルを大規模に活用する最初のエンタープライズパートナーの1つである。

自社開発モデルのビジネスケース

価格戦略は、技術的独立性を超えた動機を示唆している。独自のモデルを構築することで、マイクロソフトは、Copilotやその他のAI搭載製品を実行する際のクエリあたりのコストを削減できる可能性がある。現在、Copilotユーザーが画像を生成したり会議を文字起こししたりする際、マイクロソフトはライセンス供与されたサードパーティのモデルに依存するか、Azureインフラストラクチャ上でパートナーのモデルを実行している。自社開発の代替手段は、そのコスト構造をマイクロソフトに有利に変える可能性があるが、同社はこれを明示的な目標として述べていない。

タイミングは投資家にとって重要である。マイクロソフトの株価は、2008年の金融危機以来最悪の四半期を終え、年初来で約17%下落した。ウォール街は、数千億ドルのAIインフラ投資がリターンを生み出すという証拠を求めている。自社開発モデルが低コストで競争力のあるパフォーマンスを提供できることを実証することは、そのプレッシャーへの直接的な対応となるだろう。

制限事項と未解決の問題

MAIモデルファミリーには、測定可能なギャップがある。MAI-Image-2は現在、1対1のアスペクト比のみをサポートしており、横長や縦長のオプションはない。コンテンツモデレーションフィルターは、グーグルやOpenAIの同等モデルよりも制限的であり、競合システムが問題なく処理するリクエストをブロックする。プレイグラウンドでは、ユーザーは1日あたり15枚の画像生成に制限され、各生成の間に30秒のクールダウンがある。画像から画像への編集、インペインティング、参照画像のサポートはすべて欠けている。

MAI-Transcribe-1には、会話内の異なる話者を区別する能力であるダイアライゼーション、コンテキストバイアシング、ストリーミングサポートが欠けている。マイクロソフトによれば、3つの機能すべてが開発中である。MAI-Voice-1の音声合成に関する機能は、企業が展開前に評価する必要があるガバナンスの問題を提起する。

マイクロソフトはまた、3つのモデルのいずれについてもトレーニングデータソースを開示していない。これは、知的財産のエクスポージャーと規制コンプライアンスを懸念する企業顧客にとって重要なギャップとなるだろう。

決別ではなく、ヘッジ

マイクロソフトの4月2日の展開は、OpenAIからの決別というよりも、意味のあるヘッジである。同社は現在、音声、ボイス、画像生成にわたって商用利用可能な自社開発モデルを持ちながら、2032年までOpenAIへの深い契約上のアクセスを維持している。Foundryは、OpenAIのGPTモデル、AnthropicのClaude、そして現在はマイクロソフト独自のMAIファミリーへのアクセスを、同じAPIを通じて提供している。

しかし、戦略的方向性は注目に値する。マイクロソフトは、OpenAIの技術の流通パートナーとして長年を費やしてきた。同社は現在、複数のAIモダリティにわたって競合する機能を構築しながら、同時にOpenAIのモデル、Anthropicのモデル、そして増加するオープンソースの代替手段のカタログをホストしている。

AIインフラ戦略を評価する経営幹部にとって、問題はもはやマイクロソフトがOpenAIに依存しているかどうかではない。マイクロソフトが自社モデルでパフォーマンスギャップをどれだけ早く埋められるか、そして自社開発の経済性が投資を正当化するかどうかである。

MAIモデルの発表は、その問いに対する最初の具体的なデータポイントを提供している。

（forbes.com 原文）