Mistral Small 4が登場|119Bパラメータ・MoE・Apache 2.0の全貌を解説【2026年3月】

|Aitly編集部

Mistral AIは2026年3月16日、新モデル「Mistral Small 4」を発表しました。119Bパラメータのうちトークンあたり6Bだけをアクティブにする Mixture of Experts(MoE)アーキテクチャを採用し、256Kトークンのコンテキストウィンドウに対応。Apache 2.0ライセンスのオープンウェイトモデルとして公開されています。

前世代のMistral Small 3と比べてレイテンシは40%削減、スループットは3倍に向上。推論(Reasoning)・マルチモーダル・コーディングを1つのモデルに統合した「ハイブリッドモデル」として位置づけられています。

この記事でわかること

  • Mistral Small 4の基本スペックとMoEアーキテクチャの仕組み
  • 前世代Small 3からの具体的な性能向上ポイント
  • ベンチマーク結果とQwen3.5-122B・GPT-OSSとの比較
  • Redditを中心とした海外コミュニティの評価
  • 利用方法とデプロイの選択肢

Mistral Small 4の基本スペック

Mistral Small 4は総パラメータ数119B、トークンあたりのアクティブパラメータは6B(エンベディング・出力層含めると8B)のMoEモデルです。128個のエキスパートのうち4つが各トークンでアクティブになる設計で、大規模モデルの知識量を維持しながら推論コストを抑えています。

項目 Mistral Small 4 Mistral Small 3.2(参考)
総パラメータ数 119B 24B
アクティブパラメータ 6B(8B) 24B(Dense)
アーキテクチャ MoE(128E / 4A) Dense
コンテキスト長 256K トークン 128K トークン
ライセンス Apache 2.0 Apache 2.0
レイテンシ Small 3比 40%削減
スループット Small 3比 3倍

Mistral AI公式発表によると、APIモデルIDは mistral-small-4-0-26-03 で、Mistral AI APIとAI Studioから即時利用が可能です。

3つの主要な新機能

推論の深さを調整できる「Configurable Reasoning」

Mistral Small 4はAPIパラメータ reasoning_effort で推論の深さを制御できます。none に設定すると従来のSmall 3.2相当の高速レスポンスを返し、high にすると数学やコーディングで深い推論を実行します。

タスクの複雑さに応じてコストとレイテンシを最適化できるため、チャットボットでは軽量モード、コード生成では深い推論モードといった使い分けが可能です。

テキストと画像を同時に処理するマルチモーダル対応

Mistral Small 4はテキストと画像の両方を入力として受け付けるマルチモーダルモデルです。ドキュメント解析、グラフの読み取り、画像に基づくQ&Aなどに対応しています。

ただし後述するように、画像認識の精度についてはRedditコミュニティから課題が指摘されており、現時点では画像処理がメインのユースケースには注意が必要です。

MoEによる効率的な推論コスト

128個のエキスパートのうちトークンごとに4つだけをアクティブにする設計により、119Bの知識量を持ちながら推論時のGPU消費を大幅に抑えています。Mistral AIはこの効率性を「Small」のブランド名で表現していますが、メモリ要件としては最低でもNVIDIA HGX H100×4台が必要であり、ローカル環境で気軽に動かせるサイズではありません。

ベンチマーク結果:Qwen3.5-122Bには及ばず

Mistral AI公式のベンチマークによると、Mistral Small 4はLCR(Logical Code Reasoning)でスコア0.72を記録。注目すべきはその出力効率で、Qwenモデルが5.8K〜6.1K文字を出力するのに対し、Mistral Small 4はわずか1.6K文字で同等の結果を達成しています。

LiveCodeBenchとAIME 2025でもGPT-OSS-120Bと同等以上のスコアを記録し、出力量は20%少ないという結果が示されています。一方で、Redditの r/LocalLLaMA では「Qwen3.5-122B-A10B(アクティブ10B)と比べると全体的に劣る」という評価が多数を占めています。アクティブパラメータが6.5B vs 10Bという差が性能に直結していると見られます。

ベンチマーク比較まとめ

ベンチマーク Mistral Small 4 vs GPT-OSS-120B vs Qwen3.5-122B
LCR 0.72 同等〜優位 やや劣る
LiveCodeBench 同等以上(出力20%少) やや劣る
AIME 2025 同等以上 やや劣る

出典:Mistral AI公式ベンチマーク / Reddit r/LocalLLaMA コミュニティの検証報告

海外コミュニティの反応

Redditの r/LocalLLaMA ではMistral Small 4の発表スレッドが574 upvote、220件のコメントを集め、活発な議論が行われています。

「”Small”で120Bクラスの時代が来たか。GPU弱者には辛い」

— r/LocalLLaMA ユーザー(396 upvotes)

「起きてRedditを見たら”Mistral Small 119B”って書いてある。何年寝てたんだ?」

— r/LocalLLaMA ユーザー(73 upvotes)

「Qwen3.5-122B-A10Bを全体的には上回っていない。アクティブパラメータが6.5B vs 10Bなので、ある意味予想通り」

— r/LocalLLaMA ユーザー(61 upvotes)

全体としては「”Small”というネーミングへのツッコミ」「Qwen3.5との比較での性能差」「画像処理の弱さ」が主な話題です。一方でApache 2.0ライセンスでのオープン公開は好意的に受け止められており、GGUF(量子化)版の公開を待つ声も多く見られます。

NVIDIA提携と同時発表の背景

Mistral Small 4の発表と同日、Mistral AIはNVIDIAのNemotron Coalitionへの参加を発表しています。NVIDIAの計算資源、ツール、合成データパイプラインとMistralのモデルアーキテクチャを組み合わせ、オープンソースのフロンティアAIモデル開発を加速させる提携です。

また同日には、Lean 4向けの形式検証コーディングエージェント「Leanstral」も公開されました。Mistral AIがモデル開発だけでなく、コーディングエージェントやエンタープライズ向けツールの領域にも積極的に展開していることが見てとれます。

利用方法とデプロイの選択肢

Mistral Small 4は以下のプラットフォームから利用できます。

API経由

Mistral AI API / AI Studio、NVIDIA build.nvidia.com(無料プロトタイピング)、NVIDIA NIM(本番環境向け)

セルフホスティング

Hugging Faceからウェイトをダウンロード可能。vLLM、llama.cpp、SGLang、Transformersに対応。最低 H100×4 が必要

セルフホスティングの最低要件は NVIDIA HGX H100×4台(推奨は H200×4台 または DGX B200×2台)です。個人のローカル環境での実行は現実的ではなく、クラウドAPIまたは企業向けのGPUクラスタでの利用が前提となります。

まとめ:効率重視のMoEモデル、性能はQwen3.5の後塵

Mistral Small 4は、119Bパラメータを6Bアクティブで処理するMoEアーキテクチャ、256Kコンテキスト、Apache 2.0ライセンスという3つの特徴を持つモデルです。推論の深さを調整できるConfigurable Reasoningは実用的な差別化ポイントであり、タスクに応じてコストと品質を最適化できます。

一方で、同クラスのQwen3.5-122B(アクティブ10B)と比較するとベンチマーク性能では劣勢であり、画像処理の精度にも課題が残ります。API経由で手軽に試せるため、まずは自身のユースケースで実際にテストしてみることをおすすめします。

参考リンク