MiniMax M2.5が登場——中国発マルチモーダルAIの実力と野望

中国のAIスタートアップ MiniMax が、最新のマルチモーダルAIモデル「M2.5」を正式にリリースした。テキスト、画像、音声、動画という4つのモダリティを統合処理できるこのモデルは、すでに動画生成AI「Hailuo AI」で世界的に注目を集めていたMiniMaxの技術力を次のレベルへ引き上げるものだ。推定パラメータ数は600B以上（MoEアーキテクチャ採用）、独自開発の「Lightning Attention」機構により長文コンテキスト処理も高速化されている。

中国のAI市場は、ByteDance（字節跳動）、Alibaba（阿里巴巴）、Baidu（百度）、Tencent（騰訊）といった巨人企業と、DeepSeek、Moonshot AI、Zhipu AIといったスタートアップが激しいシェア争いを繰り広げている。その中で MiniMax は、動画生成という差別化ポイントを持ちながらも、テキストLLMの領域では存在感が薄かった。M2.5 のリリースは、MiniMaxが「動画生成の会社」から「統合型マルチモーダルAIプラットフォーム」へと進化する宣言だ。

Tencentの出資を受けるMiniMaxは、評価額推定50億ドル以上（約7,500億円）に達しているとされる。この記事では、M2.5の技術的な特徴、中国AI市場でのポジショニング、そして日本市場への影響を多角的に解説する。

MiniMax とは何か

MiniMaxは2021年に上海で設立された中国のAIスタートアップだ。創業者の Yan Junjie（閆俊傑）は、元 SenseTime（商湯科技）の副社長であり、中国のコンピュータビジョン分野で豊富な経験を持つ。SenseTimeは中国最大のAIユニコーンの一つであり、顔認識技術で世界的に知られている。Yanはその経験を活かしつつも、SenseTimeが得意とする判別型AIではなく、生成型AIの領域で勝負することを選んだ。

MiniMaxの名前が世界的に知られるようになったきっかけは、2024年後半にリリースされた動画生成AI「Hailuo AI」だ。Hailuo AIは、Runway Gen-3やSora（OpenAI）に匹敵する動画生成品質を持ちながら、無料で利用できるという価格設定で瞬く間に世界中のクリエイターに広まった。特に、人物の動きのリアルさや、テキストプロンプトの理解精度において高い評価を受けた。

MiniMaxの事業は大きく3つの柱で構成されている。

Hailuo AI（海螺AI）: 動画・画像生成プラットフォーム。月間アクティブユーザー数は推定2,000万人以上
Talkie（星野）: AIキャラクターチャットアプリ。Character.aiの中国版に相当し、若年層を中心に急成長
M2.5 APIプラットフォーム: 企業向けのマルチモーダルAPIサービス。今回のリリースの中核

この3本柱は、消費者向け（B2C）とエンタープライズ向け（B2B）の両面をカバーしており、OpenAIやAnthropicが主にAPI/エンタープライズに注力するのとは異なる戦略だ。

M2.5 の技術的特徴

M2.5は、MiniMaxがこれまで別々に開発してきたテキスト・画像・音声・動画の各モデルを、単一のアーキテクチャに統合した「統合マルチモーダルモデル」だ。

以下の図は、M2.5のマルチモーダルアーキテクチャの全体像を示している。

MiniMax M2.5のマルチモーダルアーキテクチャ——入力から出力までの統合処理フロー

この図が示すように、テキスト・画像・音声・動画の4つの入力が統合エンコーダを通じてトークン化され、MoE（Mixture of Experts）ベースのコアモデルで処理された後、同じく4種類の出力として生成される。従来のモデルが入力と出力で異なるモデルを使い分けていたのに対し、M2.5は一つのモデルで双方向のマルチモーダル処理を実現している。

MoE（Mixture of Experts）アーキテクチャ

M2.5はMoEアーキテクチャを採用している。MoEとは、モデル全体のパラメータ数は巨大（推定600B以上）だが、各推論時に実際に活性化されるのは一部のエキスパートモジュールのみ、という設計手法だ。これにより、モデルの総合的な能力は巨大モデルに匹敵しながらも、推論コストは大幅に削減される。

DeepSeek V3が同様のMoEアプローチで成功を収めたことは記憶に新しい。MiniMaxもこのトレンドに乗りつつ、マルチモーダル領域に特化したエキスパートの設計を行っている点が独自性だ。画像入力時にはビジョン系のエキスパートが優先的に活性化され、音声入力時にはオーディオ系のエキスパートが活性化される。モダリティごとに最適化されたエキスパート群が、統合された推論パイプラインの中で協調動作するのだ。

Lightning Attention

M2.5のもう一つの技術的ブレークスルーが「Lightning Attention」だ。これは、MiniMaxが独自に開発したアテンション機構で、標準的なTransformerのSelf-Attentionが持つO(n²)の計算量をO(n)に削減する。これにより、長文コンテキスト（100万トークン以上）の処理が実用的な速度で可能になる。

Lightning Attentionの具体的なアプローチは、線形アテンションの一種であり、入力シーケンスをチャンクに分割し、チャンク内はFull Attention、チャンク間はLinear Attentionで処理するハイブリッド方式だ。これにより、ローカルな文脈の精度を維持しながら、グローバルな依存関係も効率的に捉えることができる。

ベンチマーク性能

M2.5の公式ベンチマーク結果（MiniMax発表）は以下の通りだ。

ベンチマーク	M2.5	GPT-4o	Claude 3.5 Sonnet	Gemini 2.0 Ultra	DeepSeek V4
MMLU	88.2	87.5	88.7	90.0	89.1
HumanEval	85.4	90.2	92.0	88.6	91.3
MATH	76.8	76.4	78.3	82.1	80.5
VQA（画像理解）	82.1	79.3	76.5	83.7	74.2
Video-Bench	78.5	71.2	-	75.8	-
ASR（音声認識）	94.7	-	-	92.3	-

テキスト系のベンチマーク（MMLU、HumanEval、MATH）では、GPT-4oやDeepSeek V4と同等レベル。特筆すべきは、画像理解（VQA）と動画理解（Video-Bench）でのスコアの高さだ。音声認識（ASR）でも94.7%という高い精度を記録している。

ただし、これらはMiniMaxの自社発表であり、独立した第三者検証はまだ行われていない点に注意が必要だ。中国AI企業のベンチマーク発表は、テストセットへの過学習（ベンチマークハッキング）の懸念が指摘されることもある。

中国AI市場でのポジショニング

MiniMaxは中国のAI市場において、ユニークなポジションを占めている。

以下の図は、中国AI主要企業の市場ポジショニングを示している。

中国AIモデルの市場ポジショニングマップ——評価額とマルチモーダル対応度で各社を比較

この図から読み取れるように、MiniMaxはマルチモーダル対応度では最上位に位置するが、評価額ではByteDance、Alibaba、Baiduといった巨人企業に大きく差をつけられている。しかしこれは、MiniMaxがスタートアップであることを考えれば当然であり、むしろ技術的なポジショニングの高さこそが投資家にとっての魅力だ。

主要プレイヤーとの比較

中国AI市場の主要プレイヤーとMiniMaxを詳細に比較してみよう。

企業	主力モデル	評価額/時価総額	マルチモーダル	強み	弱み
MiniMax	M2.5 / Hailuo AI	$5B+	テキスト・画像・音声・動画	動画生成品質、統合モデル	テキストLLMでの実績不足
ByteDance	Doubao（豆包）	上場企業	テキスト・画像・動画	巨大ユーザー基盤、TikTok連携	モデル性能で後発
Alibaba	Qwen（通義千問）	上場企業	テキスト・画像・コード	オープンソース、クラウド連携	動画生成が弱い
Baidu	ERNIE 4.5	上場企業	テキスト・画像	検索データ、自動運転	イノベーション速度
DeepSeek	DeepSeek V4	非公開	テキスト中心	推論性能、OSS	マルチモーダル対応が限定的
Moonshot AI	Kimi	$18B	テキスト・画像	長文処理、消費者UI	エンタープライズが弱い
Tencent	Hunyuan（混元）	上場企業	テキスト・画像・動画	WeChat連携、投資力	独自モデルの競争力

MiniMaxの最大の差別化ポイントは、テキスト・画像・音声・動画の4モダリティ全てに対応している点だ。ByteDanceやTencentも動画生成に取り組んでいるが、音声を含めた4モダリティの統合処理を単一モデルで実現しているのはMiniMaxだけだ。

Tencent出資の戦略的意味

MiniMaxの大株主の一つがTencent（騰訊）だ。Tencentは2023年から2025年にかけて、合計で推定5億ドル以上をMiniMaxに投資している。Tencentにとってこの投資は、以下の戦略的意味を持つ。

WeChat・WeCom連携: TencentのメッセージングアプリWeChat（微信）は月間アクティブユーザー13億人を超える。このプラットフォームにMiniMaxのマルチモーダルAI機能を統合することで、テキストチャットだけでなく、音声メッセージの自動要約、動画メッセージの生成、画像の理解・編集といった機能をWeChatに直接組み込むことが可能になる。

ゲーム・エンターテインメント: Tencentは世界最大のゲーム企業でもある。MiniMaxの動画生成技術は、ゲーム内のカットシーン生成やNPCの動的会話生成に応用できる可能性がある。

自社モデルの補完: Tencentは自社でも「Hunyuan（混元）」というAIモデルを開発しているが、独自モデルの性能はByteDoubaoやAlibabaのQwenに比べて評価が低い。MiniMaxへの投資は、自社モデルの弱点を外部投資で補完するヘッジ戦略でもある。

Hailuo AI——世界を驚かせた動画生成AI

MiniMaxの名を世界に知らしめた「Hailuo AI」についても詳しく見ておこう。2024年後半にリリースされたHailuo AIは、以下の特徴で急速に世界中のユーザーを獲得した。

無料アクセス

Hailuo AIの最大の強みは、基本機能を無料で提供していることだ。Runway Gen-3が月額$12〜$76のサブスクリプションを要求し、OpenAIのSoraも有料プラン限定であるのに対し、Hailuo AIは1日あたりの生成回数に制限はあるものの、無料で動画生成を体験できる。この価格戦略は、中国AI企業に共通する「まずユーザー数を獲得し、後からマネタイズ」というアプローチだ。

動画品質

Hailuo AIの生成する動画は、特に人物の動きのリアルさで高い評価を受けている。テキストプロンプトから生成される動画の長さは最大10秒、解像度は1080pに対応。物体の物理的な挙動（重力、衝突、流体）の再現精度も、競合サービスと比較して高い水準にある。

動画生成AI	最大長さ	最大解像度	無料枠	月額料金
Hailuo AI	10秒	1080p	あり（回数制限付き）	無料〜$9.99
Runway Gen-3	10秒	1080p	なし	$12〜$76
Sora（OpenAI）	20秒	1080p	なし	ChatGPT Plus内
Kling（快影）	10秒	1080p	あり（制限付き）	無料〜$13.99
Pika 2.0	5秒	720p	あり（制限付き）	$8〜$58

M2.5のリリースにより、Hailuo AIのバックエンドモデルもM2.5に順次切り替わるとされている。これにより、テキストプロンプトの理解精度がさらに向上し、より複雑なシーンの生成が可能になると期待されている。

中国AIモデルの海外展開戦略

MiniMaxに限らず、中国AI企業は積極的に海外市場への展開を図っている。その戦略パターンには、いくつかの共通点がある。

価格破壊戦略

中国AI企業の海外展開で最も効果的な武器が「価格」だ。DeepSeekが推論コストを劇的に下げたことは世界に衝撃を与えたが、MiniMaxも同様のアプローチを取っている。M2.5のAPI料金は、GPT-4oの約5分の1、Claudeの約4分の1とされる（MiniMax発表ベース）。

この価格設定が可能な理由は主に3つある。

人件費の差: 中国のAI研究者・エンジニアの人件費は、シリコンバレーの3分の1〜5分の1
政府補助: 中国政府のAI産業振興策により、計算資源やオフィススペースの補助を受けている
MoEの効率: MoEアーキテクチャにより、推論時の実効パラメータ数を抑制

オープンソース戦略

AlibabaのQwen（通義千問）やDeepSeekがオープンソース戦略で成功を収めたことを受け、MiniMaxもM2.5の一部モデルをオープンソースで公開する計画を示唆している。オープンソース化は、海外の開発者コミュニティへの浸透を加速する最も効果的な手段だ。

プラットフォーム先行

MiniMaxは、モデル単体ではなく「プラットフォーム」として海外展開を進めている。Hailuo AIやTalkieといった消費者向けアプリを先行して海外展開し、ユーザー基盤を構築した上で、その裏側のAPIプラットフォームを企業向けに提供する。この「消費者向けアプリ → APIプラットフォーム」という展開順序は、TikTokの成功パターンを踏襲している。

技術的な課題と懸念

M2.5には技術的な可能性だけでなく、いくつかの課題や懸念も存在する。

検閲フィルター

中国で開発されたAIモデルに共通する課題として、政治的な内容に関する検閲フィルターの存在がある。M2.5も、天安門事件や台湾の独立問題、チベット問題などに関する質問には回答を拒否するか、中国政府の公式見解に沿った回答を返すとされている。この点は、海外ユーザーにとっては大きなデメリットだ。

データプライバシー

中国の「データセキュリティ法」および「個人情報保護法」の下で、ユーザーデータが中国のサーバーに保存される可能性がある。欧州のGDPRや日本の個人情報保護法との整合性が懸念されており、特に企業がM2.5のAPIを本番環境で使用する際には、データの所在地と取扱いに関する慎重な検討が必要だ。

ベンチマークの信頼性

前述の通り、M2.5のベンチマーク結果はMiniMaxの自社発表に基づいている。独立した第三者機関による検証が行われるまでは、公表されたスコアを額面通りに受け取ることは避けるべきだ。特に、中国AI企業のベンチマーク発表においては、テストセットへの過学習（データ汚染）の報告が過去に複数あった点は留意すべきだ。

日本への影響と展望

M2.5の登場は、日本のテック業界にとっていくつかの重要な示唆を含んでいる。

日本語対応の可能性

MiniMaxはM2.5で「多言語対応」を謳っているが、現時点で日本語の対応品質は限定的だ。ただし、AlibabaのQwen 2.5が日本語で高い性能を示したことを考えると、中国AI企業が日本語対応を強化するのは時間の問題だろう。Hailuo AIはすでに日本のクリエイターにも多く利用されており、日本語プロンプトへの対応改善は優先度が高いはずだ。

日本企業への影響

中国AI企業の価格破壊戦略は、日本企業のAI導入コストを大幅に下げる可能性がある。M2.5のAPI料金が米国製モデルの4分の1〜5分の1であれば、コスト重視の日本企業にとっては魅力的な選択肢になりうる。一方で、データプライバシーや安全保障上の懸念から、政府機関や金融機関での採用は難しいだろう。

日中AI競争の構図

日本のAI開発力は、中国・米国に比べて大きく遅れを取っている。Preferred NetworksやSakana AIといった有力なスタートアップは存在するが、MiniMaxやDeepSeekのような規模のモデル開発は行えていない。日本の強みは、製造業・ロボティクスといった実世界応用にある。中国製AIモデルを活用しつつ、応用層で付加価値を出すという戦略が現実的かもしれない。

ただし、経済安全保障の観点からは、中国製AIモデルへの過度な依存は避けるべきだ。日本政府も2025年にAI戦略を改定し、国産LLMの開発支援を強化しているが、MiniMaxやDeepSeekのスピードに追いつくのは容易ではない。

日本のクリエイター経済への影響

Hailuo AIの無料動画生成は、日本のクリエイター経済にも影響を与えている。YouTubeのサムネイル制作、SNS向けショート動画の生成、プレゼン資料の動的コンテンツ作成など、従来は専門スキルが必要だった領域が、AIにより民主化されつつある。M2.5による品質向上が進めば、この流れはさらに加速するだろう。

まとめ

MiniMaxのM2.5は、中国AI市場における競争の激しさと、マルチモーダルAIの急速な進化を象徴するモデルだ。テキスト・画像・音声・動画の4モダリティを単一モデルで統合処理するアプローチは、AI業界全体のトレンドを先取りしている。

ただし、検閲フィルター、データプライバシー、ベンチマークの信頼性といった課題も残る。日本のユーザーや企業がM2.5を活用する際には、これらのリスクを十分に理解した上で判断する必要がある。

今すぐ取るべきアクションステップは以下の3つだ。

Hailuo AIを試してみる: MiniMaxの技術力を最も手軽に体験できるのは、無料の動画生成AI「Hailuo AI」だ。まずは実際に触ってみて、中国AI企業の技術水準を肌で感じよう
中国AIモデルの比較検討を始める: M2.5、DeepSeek V4、Qwen 2.5など、中国製AIモデルは選択肢が急速に増えている。コスト・性能・プライバシーの3軸で自社に最適なモデルを比較検討すべきだ。ClaudeやGPT-4oとの併用も有効な戦略だ
データガバナンスポリシーを整備する: 中国製AIモデルを業務で使用する場合、どのデータをモデルに送信して良いか、データの保存先はどこか、といったガバナンスポリシーを事前に整備しておくことが重要だ