Alibaba Qwen 3が中国発オープンソースLLMの最強を更新
Alibabaのクラウド部門が開発するQwen 3が、中国発オープンソースLLMの新たな頂点に立った。Apache 2.0ライセンスで完全オープンソースとして公開され、72Bパラメータの最上位モデルは多くのベンチマークでLlama 4 Scoutを上回り、GPT-4oに迫る性能を示している。
注目すべきは日本語性能の高さだ。中国語・英語に次ぐ「第3のTier 1言語」として日本語が明示的に最適化されており、JCommonsenseQAでは**90.2%**を達成。DeepSeek V4(88.1%)やLlama 4 Maverick(87.3%)を上回り、オープンソースLLMとしては最高の日本語性能を誇る。
Qwen 3ファミリーの全体像
Qwen 3は複数のサイズで提供され、用途に応じた選択が可能だ。
| モデル | パラメータ | アーキテクチャ | コンテキスト | VRAM (FP16) | 用途 |
|---|---|---|---|---|---|
| Qwen3-0.5B | 0.5B | Dense | 32K | 1GB | エッジデバイス |
| Qwen3-1.8B | 1.8B | Dense | 32K | 4GB | モバイル |
| Qwen3-7B | 7B | Dense | 128K | 14GB | 個人PC |
| Qwen3-14B | 14B | Dense | 128K | 28GB | ワークステーション |
| Qwen3-32B | 32B | Dense | 128K | 64GB | サーバー |
| Qwen3-72B | 72B | Dense | 128K | 144GB | マルチGPU |
| Qwen3-MoE-A14B | 57B (A14B) | MoE | 128K | 30GB | 効率重視 |
以下の図は、Qwen 3ファミリーのモデル構成を示しています。
最も注目されているのはQwen3-72BとQwen3-MoE-A14Bだ。72Bは純粋な性能で勝負し、MoE版は57Bのパラメータ中14Bのみアクティブという効率的な設計で、72Bに近い性能を約1/5の計算コストで実現している。
ベンチマーク比較
汎用ベンチマーク
| ベンチマーク | Qwen3-72B | DeepSeek V4 | Llama 4 Maverick | GPT-4o | Claude Sonnet 4.5 |
|---|---|---|---|---|---|
| MMLU-Pro | 83.8% | 85.2% | 84.1% | 85.6% | 87.2% |
| HumanEval+ | 88.7% | 90.1% | 89.4% | 90.8% | 93.1% |
| MATH-500 | 86.9% | 87.5% | 85.3% | 86.1% | 88.4% |
| MT-Bench | 9.0 | 9.1 | 9.1 | 9.2 | 9.4 |
| IFEval | 90.1% | 89.8% | 92.6% | 89.3% | 91.8% |
日本語・多言語ベンチマーク
| ベンチマーク | Qwen3-72B | DeepSeek V4 | Llama 4 Maverick | GPT-4o |
|---|---|---|---|---|
| JCommonsenseQA | 90.2% | 88.1% | 87.3% | 90.1% |
| JNLI | 88.5% | 86.3% | 84.7% | 89.2% |
| MARC-ja | 93.1% | 91.8% | 89.5% | 92.4% |
| XL-Sum (日本語) | 41.2 | 39.8 | 38.1 | 40.5 |
| 中国語 CMMLU | 87.3% | 88.9% | 79.2% | 84.1% |
Qwen3-72Bは日本語ベンチマークでオープンソースモデル中トップを獲得。GPT-4oと1ポイント差以内まで迫っている。中国語ではDeepSeek V4がやや優位だが、日本語ではQwen 3が明確にリードしている。
DeepSeek V4との比較
中国発のオープンソースLLMとして、Qwen 3とDeepSeek V4は直接的な競合関係にある。
| 項目 | Qwen3-72B | DeepSeek V4 |
|---|---|---|
| パラメータ | 72B (Dense) | 236B (MoE, A21B) |
| コンテキスト | 128K | 128K |
| ライセンス | Apache 2.0 | DeepSeek License |
| マルチモーダル | テキスト+画像+動画 | テキスト+画像 |
| 日本語性能 | 優秀 | 良好 |
| 中国語性能 | 非常に良好 | 最高 |
| VRAM (FP16) | 144GB | 約100GB (MoE) |
| APIプロバイダ | Alibaba Cloud, Together AI | DeepSeek API |
| エコシステム | Hugging Face統合充実 | 独自プラットフォーム中心 |
| 商用利用 | 完全自由 | 制限あり(年商$10M以上は要契約) |
最大の差別化ポイントはライセンスだ。Qwen 3はApache 2.0で商用利用に一切の制限がない。DeepSeek V4は独自ライセンスで、年商$10M以上の企業は個別ライセンス契約が必要。スタートアップや中堅企業にとっては、Qwen 3の方が導入ハードルが低い。
マルチモーダル能力
Qwen 3はテキストに加え、画像理解と動画理解に対応している。
画像理解
- OCR: 日本語・中国語・英語の文書を高精度で認識
- チャート分析: 棒グラフ、折れ線グラフ、円グラフのデータ読み取り
- 数式認識: LaTeX形式での数式変換
- UI解析: スクリーンショットからUI要素を識別
動画理解
Qwen3-72Bは最大30分の動画を入力として受け付け、内容の要約、特定シーンの検索、字幕生成などが可能。動画理解はDeepSeek V4にはない機能であり、Qwen 3の独自の強みだ。
中国AI規制との関係
以下の図は、中国のAI規制環境とオープンソースモデルの関係を示しています。
国内利用の規制
中国国内でAIサービスを提供する場合、2023年施行の「生成式AI管理弁法」に基づく届出が必要。コンテンツフィルタリング(政治的に敏感なトピックの制限)も義務付けられている。
海外利用の自由度
しかし、Apache 2.0でオープンソース化されたモデル自体には、中国国内法の制限は適用されない。海外の開発者・企業がQwen 3を使用する場合、中国の規制を意識する必要はなく、モデルの重みとコード自体は完全にフリーだ。
地政学的リスク
一方で、米中関係の緊張が続く中、中国発のAIモデルを業務に使用することへの懸念は存在する。特に米国政府機関や防衛関連企業では、中国製AIの使用を制限する動きがある。日本でも、省庁や重要インフラ企業での利用には慎重な判断が求められるだろう。
日本ではどうなるか
日本語最適化の背景
Qwen 3が日本語に強い理由は、Alibabaの日本市場戦略と関係している。Alibaba Cloudは日本に東京リージョンを持ち、日本企業への営業を積極的に展開。日本語に強いLLMは、Alibaba Cloudの日本での差別化要素となる。
日本のスタートアップでの活用
Apache 2.0ライセンスのQwen3-7Bは、日本のAIスタートアップにとって魅力的な選択肢だ。RTX 4090(24GB VRAM)1枚で動作し、日本語性能も高い。SaaS製品のAI機能に組み込む場合、API課金が発生しないため月額コストをほぼゼロに抑えられる。
日本語ファインチューニングの可能性
Qwen3-72Bの日本語ベース性能が高いため、日本語ドメイン特化のファインチューニング効果も高い。医療、法務、金融など日本語の専門分野データで追加学習することで、ドメイン特化型のLLMを効率的に構築できる。
ChatGPT Plusとの使い分け
個人利用ではChatGPT Plus(月額$20)の使いやすさが圧倒的だが、以下の場合はQwen 3の活用を検討する価値がある。
- データプライバシーが最重要: 機密データを外部APIに送信できない場合
- コスト削減: 大量のAPI呼び出しが必要な場合、セルフホストの方が安い
- カスタマイズ: 特定ドメインへのファインチューニングが必要な場合
- 日本語特化: 日本語タスクに特化したLoRA/ファインチューニングで精度を向上させたい場合
中国発オープンソースLLMの未来
Qwen 3とDeepSeek V4の競争は、中国のAIエコシステムの活力を示している。MetaのLlama 4、MistralのMixtralと合わせて、オープンソースLLMの選択肢はかつてないほど豊富になった。
注目すべき今後の動向:
- **Qwen3-VL(Vision-Language統合版)**の正式リリース予定
- DeepSeek V5の開発が進行中との情報
- Baichuan 4(中国のBaichuan AIが開発)も競争に参入
- 中国政府による「国産AI基盤モデル」政策の強化
まとめ
Qwen 3は「中国発だから」という理由で軽視するにはもったいないモデルだ。特に日本語性能の高さは特筆に値し、オープンソースLLMとしてはGPT-4oに最も近い日本語性能を実現している。
具体的なアクションステップ
- Qwen3-7Bでローカル評価を開始する: Ollamaでワンコマンドインストール可能。RTX 4060以上のGPUがあれば快適に動作。日本語の質問応答、要約、コード生成で性能を体感する
- 日本語ベンチマークを自社タスクで検証する: 自社の業務に関連する日本語タスク(カスタマーサポート回答、技術文書要約、コード生成等)でQwen 3の精度を評価
- DeepSeek V4と比較テストを実施する: 同じタスクでQwen 3とDeepSeek V4を比較し、自社ユースケースでの最適モデルを選定。ライセンス条件の違いも考慮
- ファインチューニングを計画する: 業界特化データが十分にある場合、Qwen3-14BまたはQwen3-7BでのLoRAファインチューニングを実施。日本語性能をさらに向上させる
- セキュリティ・地政学リスクを評価する: 自社のセキュリティポリシーに照らし、中国発モデルの利用に制約がないか確認。オープンソースモデルの重みは検証可能であり、バックドアのリスクは低いとされるが、リスク評価は実施すべき