Mistral Small 4が登場｜119Bパラメータ・MoE・Apache 2.0の全貌を解説【2026年3月】

Mistral AIは2026年3月16日、新モデル「Mistral Small 4」を発表しました。119Bパラメータのうちトークンあたり6Bだけをアクティブにする Mixture of Experts（MoE）アーキテクチャを採用し、256Kトークンのコンテキストウィンドウに対応。Apache 2.0ライセンスのオープンウェイトモデルとして公開されています。

前世代のMistral Small 3と比べてレイテンシは40%削減、スループットは3倍に向上。推論（Reasoning）・マルチモーダル・コーディングを1つのモデルに統合した「ハイブリッドモデル」として位置づけられています。

この記事でわかること

Mistral Small 4の基本スペックとMoEアーキテクチャの仕組み
前世代Small 3からの具体的な性能向上ポイント
ベンチマーク結果とQwen3.5-122B・GPT-OSSとの比較
Redditを中心とした海外コミュニティの評価
利用方法とデプロイの選択肢

Mistral Small 4の基本スペック

Mistral Small 4は総パラメータ数119B、トークンあたりのアクティブパラメータは6B（エンベディング・出力層含めると8B）のMoEモデルです。128個のエキスパートのうち4つが各トークンでアクティブになる設計で、大規模モデルの知識量を維持しながら推論コストを抑えています。

項目	Mistral Small 4	Mistral Small 3.2（参考）
総パラメータ数	119B	24B
アクティブパラメータ	6B（8B）	24B（Dense）
アーキテクチャ	MoE（128E / 4A）	Dense
コンテキスト長	256K トークン	128K トークン
ライセンス	Apache 2.0	Apache 2.0
レイテンシ	Small 3比 40%削減	—
スループット	Small 3比 3倍	—

Mistral AI公式発表によると、APIモデルIDは mistral-small-4-0-26-03 で、Mistral AI APIとAI Studioから即時利用が可能です。

3つの主要な新機能

推論の深さを調整できる「Configurable Reasoning」

Mistral Small 4はAPIパラメータ reasoning_effort で推論の深さを制御できます。none に設定すると従来のSmall 3.2相当の高速レスポンスを返し、high にすると数学やコーディングで深い推論を実行します。

タスクの複雑さに応じてコストとレイテンシを最適化できるため、チャットボットでは軽量モード、コード生成では深い推論モードといった使い分けが可能です。

テキストと画像を同時に処理するマルチモーダル対応

Mistral Small 4はテキストと画像の両方を入力として受け付けるマルチモーダルモデルです。ドキュメント解析、グラフの読み取り、画像に基づくQ&Aなどに対応しています。

ただし後述するように、画像認識の精度についてはRedditコミュニティから課題が指摘されており、現時点では画像処理がメインのユースケースには注意が必要です。

MoEによる効率的な推論コスト

128個のエキスパートのうちトークンごとに4つだけをアクティブにする設計により、119Bの知識量を持ちながら推論時のGPU消費を大幅に抑えています。Mistral AIはこの効率性を「Small」のブランド名で表現していますが、メモリ要件としては最低でもNVIDIA HGX H100×4台が必要であり、ローカル環境で気軽に動かせるサイズではありません。

ベンチマーク結果：Qwen3.5-122Bには及ばず

Mistral AI公式のベンチマークによると、Mistral Small 4はLCR（Logical Code Reasoning）でスコア0.72を記録。注目すべきはその出力効率で、Qwenモデルが5.8K〜6.1K文字を出力するのに対し、Mistral Small 4はわずか1.6K文字で同等の結果を達成しています。

LiveCodeBenchとAIME 2025でもGPT-OSS-120Bと同等以上のスコアを記録し、出力量は20%少ないという結果が示されています。一方で、Redditの r/LocalLLaMA では「Qwen3.5-122B-A10B（アクティブ10B）と比べると全体的に劣る」という評価が多数を占めています。アクティブパラメータが6.5B vs 10Bという差が性能に直結していると見られます。

ベンチマーク比較まとめ

ベンチマーク	Mistral Small 4	vs GPT-OSS-120B	vs Qwen3.5-122B
LCR	0.72	同等〜優位	やや劣る
LiveCodeBench	—	同等以上（出力20%少）	やや劣る
AIME 2025	—	同等以上	やや劣る

出典：Mistral AI公式ベンチマーク / Reddit r/LocalLLaMA コミュニティの検証報告

海外コミュニティの反応

Redditの r/LocalLLaMA ではMistral Small 4の発表スレッドが574 upvote、220件のコメントを集め、活発な議論が行われています。

「”Small”で120Bクラスの時代が来たか。GPU弱者には辛い」

— r/LocalLLaMA ユーザー（396 upvotes）

「起きてRedditを見たら”Mistral Small 119B”って書いてある。何年寝てたんだ？」

— r/LocalLLaMA ユーザー（73 upvotes）

「Qwen3.5-122B-A10Bを全体的には上回っていない。アクティブパラメータが6.5B vs 10Bなので、ある意味予想通り」

— r/LocalLLaMA ユーザー（61 upvotes）

全体としては「”Small”というネーミングへのツッコミ」「Qwen3.5との比較での性能差」「画像処理の弱さ」が主な話題です。一方でApache 2.0ライセンスでのオープン公開は好意的に受け止められており、GGUF（量子化）版の公開を待つ声も多く見られます。

NVIDIA提携と同時発表の背景

Mistral Small 4の発表と同日、Mistral AIはNVIDIAのNemotron Coalitionへの参加を発表しています。NVIDIAの計算資源、ツール、合成データパイプラインとMistralのモデルアーキテクチャを組み合わせ、オープンソースのフロンティアAIモデル開発を加速させる提携です。

また同日には、Lean 4向けの形式検証コーディングエージェント「Leanstral」も公開されました。Mistral AIがモデル開発だけでなく、コーディングエージェントやエンタープライズ向けツールの領域にも積極的に展開していることが見てとれます。

利用方法とデプロイの選択肢

Mistral Small 4は以下のプラットフォームから利用できます。

API経由

Mistral AI API / AI Studio、NVIDIA build.nvidia.com（無料プロトタイピング）、NVIDIA NIM（本番環境向け）

セルフホスティング

Hugging Faceからウェイトをダウンロード可能。vLLM、llama.cpp、SGLang、Transformersに対応。最低 H100×4 が必要

セルフホスティングの最低要件は NVIDIA HGX H100×4台（推奨は H200×4台または DGX B200×2台）です。個人のローカル環境での実行は現実的ではなく、クラウドAPIまたは企業向けのGPUクラスタでの利用が前提となります。

まとめ：効率重視のMoEモデル、性能はQwen3.5の後塵

Mistral Small 4は、119Bパラメータを6Bアクティブで処理するMoEアーキテクチャ、256Kコンテキスト、Apache 2.0ライセンスという3つの特徴を持つモデルです。推論の深さを調整できるConfigurable Reasoningは実用的な差別化ポイントであり、タスクに応じてコストと品質を最適化できます。

一方で、同クラスのQwen3.5-122B（アクティブ10B）と比較するとベンチマーク性能では劣勢であり、画像処理の精度にも課題が残ります。API経由で手軽に試せるため、まずは自身のユースケースで実際にテストしてみることをおすすめします。

参考リンク

Mistral Small 4が登場｜119Bパラメータ・MoE・Apache 2.0の全貌を解説【2026年3月】

Mistral Small 4の基本スペック

3つの主要な新機能

推論の深さを調整できる「Configurable Reasoning」

テキストと画像を同時に処理するマルチモーダル対応

MoEによる効率的な推論コスト

ベンチマーク結果：Qwen3.5-122Bには及ばず

海外コミュニティの反応

NVIDIA提携と同時発表の背景

利用方法とデプロイの選択肢

まとめ：効率重視のMoEモデル、性能はQwen3.5の後塵

関連記事

【デザインテスト】Aitly記事コンポーネント全パターン確認用

OpenAI、従業員を8,000人に倍増へ｜FT報道、Redditでは「AGIが近くない証拠」との声

ホワイトハウスがAI規制フレームワークを発表｜州独自規制を制限する「軽い規制」にRedditで批判

Kaiser精神保健スタッフ2,400人がAI懸念でストライキ｜北カリフォルニアで医療AI問題が表面化