Qwen 3.5 Small——Alibabaが放つ小型マルチモーダルOSSの衝撃

オープンソースLLMの進化が止まらない。Alibabaのクラウドコンピューティング部門 Alibaba Cloud（阿里雲）は2026年3月1日、新モデルファミリー「Qwen 3.5 Small」を正式リリースした。0.8B（8億パラメータ）、2B、4B、9Bの4サイズ展開で、すべてのモデルがネイティブマルチモーダル（テキスト・画像・動画対応）を実装し、Apache 2.0ライセンスで完全オープンソース公開されている。

中でも注目すべきは9Bモデルの性能だ。GPQA Diamond（大学院レベルの科学問題ベンチマーク）でスコア81.7を記録。これは同サイズ帯（10B以下）のオープンソースモデルとしては過去最高水準であり、一部の70Bクラスのモデルすらも上回る驚異的な結果だ。プロプライエタリモデルとの性能差が急速に縮小していることを改めて示すリリースとなった。

Qwen 3.5 Small とは何か

Qwen（通義千問）はAlibabaが2023年から開発・公開しているLLMファミリーだ。Qwen 1.0、Qwen 2.0、Qwen 2.5と順調にバージョンアップを重ね、今回のQwen 3.5 Smallは「Qwen 3.x」世代の小型モデル群にあたる。

なぜ「Small」が重要なのか

LLMの世界では、モデルサイズ（パラメータ数）と性能のトレードオフが常に議論される。GPT-5、Claude Opus 4、Gemini 2.5 Ultra といった大規模プロプライエタリモデルは数千億〜数兆パラメータ規模だが、その運用には大量のGPUと高額なクラウドコストが必要だ。

一方、10B以下の「Small」モデルは以下のメリットを持つ。

エッジデバイスで動作: スマートフォン、ノートPC、IoTデバイスなどローカル環境で推論可能
低コスト運用: 1枚のGPUで推論でき、APIコストも大幅に低い
低レイテンシ: パラメータ数が少ない分、応答速度が速い
プライバシー: データをクラウドに送信せずローカルで処理できる
ファインチューニングが容易: 少ないリソースで特定タスクに特化させられる

Qwen 3.5 Smallは、こうした「小さくても高性能」というトレンドの最前線に位置するモデルだ。

4つのモデルサイズ

Qwen 3.5 Smallファミリーは以下の4モデルで構成される。

モデル	パラメータ数	想定用途	推論環境
Qwen 3.5 Small 0.8B	8億	モバイルアプリ、IoT、軽量チャットボット	スマートフォン、Raspberry Pi
Qwen 3.5 Small 2B	20億	個人向けアシスタント、コード補完	ノートPC（CPU推論可）
Qwen 3.5 Small 4B	40億	ビジネス文書処理、画像キャプション	ノートPC（GPU推奨）
Qwen 3.5 Small 9B	90億	高度な推論、研究、エンタープライズ	デスクトップGPU（12GB VRAM〜）

すべてのモデルでテキスト入出力、画像入力、動画入力に対応するネイティブマルチモーダルアーキテクチャが採用されている。これは「テキストモデルに視覚エンコーダを後付けする」従来のアプローチとは異なり、学習の初期段階からテキスト・画像・動画を統合的に扱うよう設計されている点が重要だ。

技術的な特徴

ネイティブマルチモーダルアーキテクチャ

Qwen 3.5 Smallの最大の技術的特徴は、ネイティブマルチモーダル設計にある。従来の多くのマルチモーダルモデルでは、テキスト処理用のLLMに視覚エンコーダ（CLIP、SigLIPなど）を追加する「モジュラー型」のアプローチが取られてきた。このアプローチではテキストと視覚の統合が不完全になりやすく、特に複雑な視覚推論タスクで性能が落ちる傾向があった。

Qwen 3.5 Smallでは、Alibaba独自の「Unified Vision-Language Backbone」を採用。テキストトークンと視覚トークンを同一のTransformerバックボーンで処理する。これにより、テキストと画像・動画の間の意味的な関連性をより深いレベルで捉えることが可能になった。

動画理解能力

テキストと画像に加え、動画入力にも対応している点が他の小型モデルとの大きな差別化ポイントだ。動画フレームの時系列的な変化を理解し、「この動画で何が起きているか」「次に何が起きるか」を推論できる。

実装面では、動画を一定間隔でサンプリングしたフレーム列として処理し、フレーム間の時間的関係をアテンション機構で捉える。9Bモデルでは最大32フレームの動画入力に対応しており、約1分間の動画の内容を理解・要約できる。

Apache 2.0ライセンス

Qwen 3.5 Smallファミリー全モデルがApache 2.0ライセンスで公開されている。これは商用利用を含むあらゆる用途で自由に使えることを意味する。Meta の Llama 3.x が独自のコミュニティライセンス（月間7億アクティブユーザー超の企業は個別許諾が必要）を採用しているのに対し、Qwen は制限なしの真のオープンソースだ。

ベンチマーク性能

Qwen 3.5 Smallの性能は複数のベンチマークで評価されており、同サイズ帯で突出した結果を示している。以下の図は主要オープンソースLLMとのベンチマーク比較だ。

主要オープンソースLLMのGPQA Diamond・MMLU・HumanEvalベンチマーク比較表

この図は、Qwen 3.5 Small 9BがGPQA DiamondとMMLUの両方で同サイズ帯のオープンソースモデルを上回っていることを示している。特にGPQA Diamondでの81.7というスコアは、Llama 3.3 70Bの78.5をも超える数値だ。

主要ベンチマーク詳細比較

ベンチマーク	Qwen 3.5 Small 9B	Llama 3.3 8B	Gemma 3 9B	Mistral Small 4 9B	Phi-4 14B
GPQA Diamond	81.7	51.2	58.3	62.1	68.4
MMLU	82.3	73.0	75.2	77.5	80.1
HumanEval	79.5	72.6	68.9	74.2	76.8
MATH (Level 5)	67.8	45.4	52.1	58.3	62.7
ARC-Challenge	89.2	82.4	84.7	86.1	87.5
IFEval	78.6	71.2	73.5	75.8	77.2

GPQA Diamond 81.7 のインパクトを理解するために補足すると、このベンチマークは大学院レベルの物理学・化学・生物学の問題で構成されており、人間の専門家（PhD保持者）の正答率が約65%とされている。9Bという小型モデルが人間の専門家を大きく上回るスコアを出したことは、小型モデルの可能性を大きく広げるものだ。

プロプライエタリモデルとの比較

さらに注目すべきは、プロプライエタリモデルとの性能差の推移だ。

ベンチマーク	Qwen 3.5 Small 9B	GPT-5 mini	Claude Opus 4	Gemini 2.5 Pro
GPQA Diamond	81.7	87.2	90.3	88.8
MMLU	82.3	88.5	91.2	89.7
HumanEval	79.5	86.8	88.4	87.1

プロプライエタリモデルとの差は約5〜10ポイントに縮まっている。2024年初頭には20ポイント以上あった差が、わずか2年で半分以下になった計算だ。以下の図でこの推移を視覚的に確認できる。

2023年から2026年にかけてのオープンソースモデルとプロプライエタリモデルのGPQA Diamondスコア推移グラフ

この図は、オープンソースモデルの性能がプロプライエタリモデルに対して急速に追い上げていることを示している。2023年時点で約25ポイントあった差が、2026年3月時点では約8ポイントにまで縮小しており、この傾向が続けば2027年中には実質的に同等の水準に達する可能性がある。

競合オープンソースモデルとの位置づけ

2026年3月現在、10B以下のオープンソースLLM市場には複数の有力モデルが存在する。Qwen 3.5 Smallの位置づけを主要競合と比較して整理する。

特徴	Qwen 3.5 Small 9B	Llama 3.3 8B	Gemma 3 9B	Mistral Small 4 9B
開発元	Alibaba	Meta	Google	Mistral AI
ライセンス	Apache 2.0	Llama License	Apache 2.0	Apache 2.0
マルチモーダル	ネイティブ（画像+動画）	テキストのみ	画像のみ	テキストのみ
動画理解	対応（最大32フレーム）	非対応	非対応	非対応
多言語対応	29言語	8言語	20言語	12言語
量子化対応	GPTQ/AWQ/GGUF	GPTQ/AWQ/GGUF	GPTQ/GGUF	GPTQ/AWQ/GGUF
コンテキスト長	128K	128K	128K	128K
商用利用	制限なし	月間7億MAU超は要許諾	制限なし	制限なし

Qwen 3.5 Small 9Bの最大の差別化ポイントは、ネイティブマルチモーダルと動画理解の組み合わせだ。同サイズ帯でテキスト・画像・動画のすべてをネイティブに扱えるオープンソースモデルは、2026年3月時点で実質的にQwen 3.5 Smallのみと言ってよい。

また、29言語対応も特筆すべきポイントだ。中国語・英語はもちろん、日本語、韓国語、アラビア語、ヒンディー語など幅広い言語をカバーしている。日本語の性能は英語に比べるとやや劣るものの、同サイズ帯では最高クラスの日本語能力を持つ。

Alibabaのオープンソース戦略

QwenファミリーのオープンソースリリースはAlibabaにとって戦略的な意味を持つ。Alibaba Cloudはグローバルクラウド市場でAWS、Azure、Google Cloudに次ぐ第4位のシェアを持ち、特にアジア太平洋地域では第2位の存在感を示している。

なぜオープンソースなのか

Alibabaがオープンソースを選択する理由は主に3つある。

1. エコシステムの拡大 オープンソースモデルを広く配布することで、Qwenベースのアプリケーションやサービスが増え、Alibaba Cloudのエコシステムが拡大する。開発者がQwenに慣れれば、ファインチューニングやデプロイメントでAlibaba Cloudのサービスを利用する確率が高まる。

2. 対Meta・対Google のポジショニング Meta（Llama）やGoogle（Gemma）もオープンソースモデルを積極的に公開している。AlibabaがQwenをオープンソース化しないと、開発者コミュニティがLlamaやGemmaに流れてしまうリスクがある。

3. 米中テック競争の中での影響力確保 米国の輸出規制により、中国企業は最先端のAIチップ（Nvidia H100/H200など）の入手が制限されている。こうした制約の中で、ソフトウェア（モデル）の面で影響力を確保することは、中国テック企業にとって戦略的に重要だ。

Qwenエコシステムの現状

Hugging Face上でのQwenモデルのダウンロード数は累計で数億回に達しており、特にアジア圏の開発者から圧倒的な支持を得ている。Qwen 2.5のリリース以降、中国国内ではQwenベースのアプリケーションが急増し、医療AI、法律AI、教育AI、カスタマーサポートなど幅広い分野で活用されている。

料金——OSSだから無料、でもクラウドAPIもある

Qwen 3.5 Small自体はApache 2.0ライセンスのオープンソースであり、ダウンロード・利用・商用展開はすべて無料だ。ただし、自前でのGPUサーバー運用にはコストがかかる。

ローカル推論の場合のハードウェア目安は以下の通りだ。

モデル	必要VRAM（FP16）	量子化（4bit）時のVRAM	推奨GPU
0.8B	約1.6GB	約0.5GB	CPU推論可
2B	約4GB	約1.2GB	RTX 3060（12GB）
4B	約8GB	約2.5GB	RTX 4060（8GB）
9B	約18GB	約5.5GB	RTX 4070 Ti（16GB）

一方、Alibaba Cloudの「Model Studio（百炼）」経由でAPIとして利用する場合の料金は以下の通りだ（2026年3月時点）。

モデル	入力トークン単価	出力トークン単価	日本円換算（100万トークンあたり）
0.8B	$0.10/1Mトークン	$0.20/1Mトークン	入力約15円 / 出力約30円
2B	$0.15/1Mトークン	$0.30/1Mトークン	入力約23円 / 出力約45円
4B	$0.25/1Mトークン	$0.50/1Mトークン	入力約38円 / 出力約75円
9B	$0.40/1Mトークン	$0.80/1Mトークン	入力約60円 / 出力約120円

Claude ProのAPI料金（Claude Opus 4で$15/1Mトークン入力、$75/1Mトークン出力）と比較すると、Qwen 3.5 Small 9Bは入力で約37分の1、出力で約94分の1のコストだ。もちろん性能差はあるが、用途によってはQwenで十分なケースも多い。

日本視点——日本語性能と国内活用の可能性

日本語ベンチマーク

Qwen 3.5 Small 9Bの日本語性能は、同サイズ帯では最高クラスだ。以下は日本語に特化したベンチマークでの比較だ。

ベンチマーク	Qwen 3.5 Small 9B	Llama 3.3 8B	Gemma 3 9B
JCommonsenseQA	84.2	68.5	76.3
JNLI	81.7	71.2	77.8
MARC-ja	92.3	85.6	89.1
JSQuAD（F1）	87.6	76.4	82.1

Qwenファミリーは元々中国語と英語のバイリンガルモデルとして開発されてきたが、学習データに日本語コーパスも豊富に含まれており、CJK（中国語・日本語・韓国語）の処理に強いという特徴がある。

国内での活用シナリオ

1. モバイルアプリへの組み込み 0.8Bモデルはスマートフォン上で動作するため、オフラインで動く日本語AIアシスタントの構築が可能になる。通信環境が不安定な場所（山間部、地下、災害時など）でも利用でき、プライバシーも確保される。

2. 中小企業のAI導入 日本の中小企業にとって、APIベースの大規模モデル利用は月額コストが課題だった。Qwen 3.5 Small 4Bなら、8GB VRAM のGPU1枚で運用でき、ランニングコストを大幅に抑えられる。議事録の自動作成、メール下書き、請求書の読み取りなど、定型業務のAI化に適している。

3. マルチモーダル活用 画像・動画入力に対応しているため、製造業の外観検査（画像入力で不良品検出）、小売業の在庫管理（棚の写真から在庫状況を把握）、建設業の工事記録（動画から作業内容を自動記録）といった分野での活用が期待される。

懸念点

一方で、日本市場でQwenを活用する際の懸念点もある。

データ主権: Alibaba Cloudのサーバーを利用する場合、データが中国のサーバーを経由する可能性がある。機密性の高いデータを扱う場合はオンプレミス（ローカル）での運用が推奨される
学習データの透明性: 学習データの詳細な構成が完全には公開されておらず、日本語データの出典や品質について検証が困難な部分がある
長期的なサポート: オープンソースモデルの場合、Alibaba側の方針変更により将来のバージョンでライセンスが変わる可能性もゼロではない

オープンソース vs プロプライエタリ——性能差はどこまで縮まるか

2023年にLlama 2がリリースされた時点で、オープンソースLLMとプロプライエタリモデル（GPT-4、Claude 2など）の性能差は約25ポイント（GPQA Diamondベース）あった。それが2026年3月時点では約8ポイントにまで縮小している。

この急速なキャッチアップの背景には以下の要因がある。

1. 学習効率の向上 モデルアーキテクチャの改良（MoE、Grouped Query Attention、RoPEスケーリングなど）により、同じパラメータ数でも以前より高い性能を引き出せるようになった。

2. 高品質な学習データの蓄積 オープンソースコミュニティが構築した高品質データセット（OpenHermes、Ultrachat、OpenMathInstructなど）の充実により、学習データの質が飛躍的に向上した。

3. ポストトレーニング技術の進化 RLHF（人間のフィードバックによる強化学習）、DPO（Direct Preference Optimization）、GRPO（Group Relative Policy Optimization）といったアラインメント技術が急速に進歩し、小型モデルでも人間の好みに沿った高品質な出力が可能になった。

4. 知識蒸留の高度化 大規模モデルの知識を小型モデルに転移する蒸留技術が進化し、9Bクラスのモデルでも70Bクラスの知識を部分的に継承できるようになった。

とはいえ、プロプライエタリモデルには依然として以下の強みがある。

長期的なコンテキスト処理: 100万トークン以上の超長文脈はプロプライエタリモデルが圧倒的に強い
最新情報へのアクセス: RAG（Retrieval-Augmented Generation）やリアルタイム検索との統合
安全性・アラインメント: 有害出力の抑制やバイアス低減で、大規模な人的レビューを行うプロプライエタリモデルが優位
エンタープライズサポート: SLA（サービスレベルアグリーメント）、カスタマイズ支援、コンプライアンス対応

用途に応じて使い分けるのが現実的な選択だ。高度な推論や安全性が求められるミッションクリティカルなタスクにはプロプライエタリモデル、コスト重視の大量処理やプライバシー重視のローカル運用にはオープンソースモデルというハイブリッドアプローチが主流になりつつある。

まとめ

Qwen 3.5 Smallは、小型オープンソースLLMの新たなベンチマークを打ち立てた。ネイティブマルチモーダル対応、Apache 2.0ライセンス、そしてGPQA Diamond 81.7という圧倒的な性能——これらが10B以下のモデルで実現されたことの意味は大きい。

今後のアクションステップとして、以下の3点を提案する。

Qwen 3.5 Small 9Bをローカルで試す: Ollamaやllama.cppを使えば、RTX 4070 Ti以上のGPUで手軽に試せる。量子化版なら8GB VRAMでも動作する。まずはHugging Faceからモデルをダウンロードし、自分のユースケースでの性能を検証してみよう
マルチモーダル機能を活用したプロトタイプを構築する: 画像・動画入力に対応しているため、「写真をアップロードして質問に答えるチャットボット」「動画を要約するツール」など、テキストだけでは実現できなかったアプリケーションを試作できる
プロプライエタリモデルとのハイブリッド構成を検討する: 定型的な処理（要約、分類、翻訳など）はQwenで低コストに処理し、高度な推論が必要なタスクのみClaude ProやGPT-5のAPIを利用するハイブリッド構成を設計する。これにより月間のAPI費用を50〜80%削減できるケースも珍しくない