Mistral AIが新モデルファミリー「Mistral 4」を発表し、r/LocalLLaMAで複数スレッドが同時に大反響を呼んでいます。119Bパラメータで6.5Bアクティブという超効率MoEモデル「Mistral Small 4」を筆頭に、Lean 4特化のコードエージェント「Leanstral」まで、2026年3月のオープンソースAI界隈を揺るがすリリースが続いています。
Redditでは「Mistral Small 4:119B-2603」スレッドが370超アップボート、「Mistral 4 Family Spotted」が344超アップボート、Hacker NewsではLeanstralが317ポイントを獲得。この記事では、海外コミュニティの生の声を翻訳付きで紹介しながら、Mistral 4ファミリーの全貌を解説します。
この記事でわかること
- Mistral Small 4(119B MoE)の技術仕様と競合比較
- 「Instruct・推論・コーディング」を統合したハイブリッドモデルの意味
- Lean 4証明支援AI「Leanstral」がHacker Newsで注目された理由
- r/LocalLLaMAとHacker Newsの反応(翻訳付き・投票数明記)
Mistral 4ファミリーの全体像
Mistral 4は、これまで別々だった3つのモデルラインを1つに統合した新世代ファミリーです。従来のMistral Small(汎用チャット)、Magistral(推論特化)、Devstral(コーディングエージェント)の3ラインが、単一のハイブリッドモデルとして生まれ変わりました。
r/LocalLLaMAではllama.cppへのPR(Pull Request #20649)からモデルの存在がリークし、「Mistral 4 Family Spotted」スレッドが344超アップボートで話題に。その後、公式発表で「Mistral Small 4」と数学証明特化の「Leanstral」が正式にリリースされました。
| スレッド | プラットフォーム | スコア | トピック |
|---|---|---|---|
| Mistral Small 4:119B-2603 | r/LocalLLaMA | 370+ | 119B MoEモデルの登場とスペック議論 |
| Mistral 4 Family Spotted | r/LocalLLaMA | 344+ | llama.cppのPRからモデル存在がリーク |
| Leanstral | r/LocalLLaMA | 139+ | Lean 4特化の証明支援エージェント |
| Leanstral | Hacker News | 317pt | 形式証明コミュニティからの高い関心 |
Mistral Small 4の技術仕様
119Bパラメータ、アクティブはわずか6.5B
Mistral Small 4は119Bの総パラメータを持ちながら、推論時にアクティブになるのは6.5B(埋め込み層含めて8B)という高効率MoEモデルです。128個のエキスパートのうち4つだけが各トークンで起動する設計により、膨大な知識量を保持しつつ推論コストを劇的に削減しています。
コンテキスト長は256Kトークン。テキストと画像のネイティブマルチモーダル入力に対応し、推論の深さを reasoning_effort パラメータで動的に切り替えられます。none設定で高速レスポンス、high設定でMagistral相当のステップバイステップ推論が可能です。
| 項目 | Mistral Small 4 |
|---|---|
| 総パラメータ | 119B |
| アクティブパラメータ | 6.5B(埋め込み層含め8B) |
| アーキテクチャ | MoE(128エキスパート / 4アクティブ) |
| コンテキスト長 | 256Kトークン |
| 入力モダリティ | テキスト + 画像(ネイティブ) |
| 推論モード | reasoning_effortで動的切替(none / high) |
| ライセンス | Apache 2.0(商用利用可) |
| 統合した従来モデル | Mistral Small(Instruct)+ Magistral(推論)+ Devstral(コーディング) |
パフォーマンス:レイテンシ40%削減、スループット3倍
Mistral AIの公式発表によると、前世代のMistral Small 3比でエンドツーエンドのレイテンシが40%削減、スループットは3倍に向上しています。ベンチマークではGPT-OSS 120Bクラスのモデルと同等以上のスコアを記録しつつ、出力トークン数が20%少ない(つまり簡潔な回答を生成する)という効率性も示されています。
ただし、r/LocalLLaMAでは競合との比較について厳しい目も向けられています。「Qwen3.5-122B-A10Bを全体的に上回っているわけではない。アクティブパラメータが6.5B vs 10Bなので当然」(35 upvotes)という冷静な分析が高評価を集めていました。
Leanstral:Lean 4特化の証明支援AI
数学の形式証明をAIエージェントで自動化する
LeanstralはLean 4(定理証明支援システム)に特化した、初のオープンソースコードエージェントです。Mistral Small 4と同じ120B-A6Bの高スパースアーキテクチャを採用しつつ、数学的な証明の記述・検証に最適化されたトレーニングが施されています。
Lean 4を検証器として並列推論を行う設計で、Stack Exchangeの質問対応(Lean 4の破壊的変更への移行)や他の証明システム(Rocq等)からLean 4へのコード翻訳、定理の生成と証明まで幅広いタスクをカバーします。Apache 2.0ライセンスで公開されており、Mistral Vibe上で /leanstral コマンドからゼロセットアップで利用可能です。
Claude Sonnetの半分のコストで上回るFLTEvalスコア
Mistral AIが公開したFLTEval(形式証明ベンチマーク)の結果は、コスト効率で圧倒的な差を見せています。Leanstral Pass@2(36ドル)のスコア26.3が、Claude Sonnet(549ドル)の23.7を上回りました。Qwen3.5-397B(25.4)もPass@4(72ドル)の29.3で超えています。
FLTEvalベンチマーク比較
- Leanstral Pass@2:スコア 26.3 / コスト $36
- Claude Sonnet:スコア 23.7 / コスト $549
- Qwen3.5-397B:スコア 25.4
- Claude Opus:スコア 39.6 / コスト $1,650(Leanstral比で92倍高額)
Hacker Newsで317ポイントを獲得した背景には、形式証明コミュニティにとって「実用的なAI支援ツール」が初めてオープンソースで登場したというインパクトがあります。数学・ソフトウェア検証の分野では、これまでClaude OpusやGPT-4クラスのAPI費用を払える研究機関のみがAI支援の恩恵を受けていました。
Reddit・Hacker Newsの反応を翻訳で紹介
r/LocalLLaMAとHacker Newsの生の声を翻訳付きで紹介します。アップボート数はコミュニティ内での共感度を示す指標です。
“so 120b class is considered small now : ) rip gpu poor”
「120Bクラスが”Small”扱いになったのか 🙂 GPU貧乏勢は死亡」 ── スレッドで最もアップボートされたコメント。モデルの巨大化が進む中、”Small”というネーミングへの皮肉が共感を集めました。
“You beat me to it, but holy shit ‘small’ ain’t what it used to be, is it?”
「先を越されたが、”Small”って言葉の意味が変わってきてないか?」 ── 119Bパラメータで”Small”を名乗ることへの驚き。MoEにより実質的な推論コストは小さいが、総パラメータ数の巨大さにコミュニティが反応しています。
“Mistral 4 is a powerful hybrid model with the capability of acting as both a general instruction model and a reasoning model. It unifies the capabilities of three different model families – Instruct, Reasoning (previous called Magistral), and Devstral – into a single, unified [model].”
llama.cppのPRから引用されたモデル説明文。Instruct・推論・コーディングの3系統を統合するという設計思想が、開発者コミュニティで最も注目されたポイントです。
“I’m loving all the new models that are coming out in the 120b range. Can’t wait to give it a try.”
「120Bレンジの新モデルが続々出てきて嬉しい。早く試したい。」 ── GPT-OSS 120B、Qwen 3.5-122Bに続き、120Bクラスがオープンモデルの主戦場になりつつある状況を歓迎する声。
“I just woke up and checked Reddit, it says Mistral Small 119B. Can someone tell me what year it is? How many years have I been sleeping? I think I woke up in the future.”
「起きてReddit見たら”Mistral Small 119B”って書いてあるんだけど。今何年?何年寝てた?未来に来た気がする。」 ── “Small”が119Bという時代の変化を面白がるユーモア。
懐疑的・冷静な声
“So, it’s not beating Qwen3.5-122B-A10B overall. Kind of expected, since it only activates 6.5B parameters, while Qwen3.5 uses 10B.”
「Qwen3.5-122B-A10Bを全体的には上回っていない。アクティブパラメータが6.5B vs 10Bだから当然だが。」 ── 数値を冷静に比較する声も。r/LocalLLaMAでは新モデルへの期待と同時に、ベンチマークへの厳しい目が常にあります。
“I hope they fixed yapping and hallucination rate…”
「冗長な出力とハルシネーションの改善を期待したい…」 ── Mistralモデルが従来抱えていた課題への言及。新ファミリーで改善されたかは、今後のコミュニティでの検証次第です。
3モデル統合がもたらすインパクト
「用途別に切り替える」手間がなくなる
Mistral 4の最大の設計思想は、1つのモデルで汎用チャット・深い推論・コーディングのすべてをカバーすることです。従来はタスクに応じてMistral Small(一般質問)、Magistral(数学・推論)、Devstral(コーディング)を使い分ける必要がありました。APIエンドポイントの管理やモデル選択のオーバーヘッドが発生していたわけです。
Mistral Small 4では reasoning_effort パラメータ一つで推論の深さを制御できるため、「簡単な質問には即答、複雑な問題には時間をかけて思考」という動的な切り替えが単一モデルで完結します。エージェント開発者にとっては、モデルルーティングの設計が大幅にシンプルになります。
120Bクラスが新たな主戦場に
GPT-OSS 120B、Qwen 3.5-122B-A10B、そしてMistral Small 4の119B。120Bクラスのオープンモデルが一気に3つ揃いました。r/LocalLLaMAのコメントでも「120Bレンジの新モデルが続々出てきて嬉しい」(57 upvotes)と、この価格帯の競争を歓迎する声が上がっています。
いずれもMoEアーキテクチャでアクティブパラメータを小さく抑えつつ、知識量と推論力を両立する設計です。ローカルLLMユーザーにとっては、自分のハードウェアに合ったモデルを選べる選択肢が急速に広がっています。
Mistral Small 4をローカルで動かすには
Mistral Small 4はApache 2.0ライセンスで公開されており、llama.cpp・vLLM・SGLang・Transformersなど主要な推論フレームワークに対応しています。r/LocalLLaMAでも「llama.cpp support incoming」としてPR #20649がシェアされ、37アップボートを獲得していました。
推奨ハードウェア(公式発表)
- 最小構成:NVIDIA HGX H100 x4 / HGX H200 x2 / DGX B200 x1
- 推奨構成:NVIDIA HGX H100 x4 / HGX H200 x4 / DGX B200 x2
- NVFP4量子化版:公式NVFP4モデルもリリース済み(r/LocalLLaMAで話題に)
公式のハードウェア要件はエンタープライズ向けですが、量子化(GGUF形式)によりコンシューマGPUでの動作も期待されています。NVFP4量子化版が公式リリースされたことで、RTX 4090や48GB VRAM環境での動作検証が進む見込みです。
Mistral APIやAI Studio経由であれば、ハードウェアを用意せずにすぐ試せます。Leanstralについては、Mistral Vibeで /leanstral コマンドを入力するか、Labs APIの labs-leanstral-2603 エンドポイント(無料 / ほぼ無料)で利用可能です。
Aitly編集部の見解
EDITORIAL
Mistral 4ファミリーの本質は「モデル統合」というトレンドの象徴です。個別のモデルを用途別に管理する時代から、1モデルで柔軟に対応する時代への転換点と見ています。
Mistral Small 4のベンチマークは良好ですが、r/LocalLLaMAのコメントにもあった通り、アクティブパラメータ6.5BではQwen3.5-122B-A10B(10B)に及ばない領域もあります。Mistralの強みは「3モデルの統合による運用効率」であり、「単一ベンチマークでの最高スコア」ではありません。
Leanstralは特にインパクトが大きいと考えます。形式証明という高度な専門分野で、オープンソースかつ低コストのAIエージェントが登場したことは、AI×数学の実用化を大きく前進させる可能性があります。FLTEvalでClaude Sonnetを上回った点は注目に値します。
120Bクラスのオープンモデルが3社から出揃ったことで、ローカルLLMの選択肢は確実に豊かになっています。一方で、コンシューマGPUで快適に動かすにはまだハードルが高いのも事実。量子化の進展とllama.cppの対応状況を引き続きウォッチしていく必要があります。
よくある質問
参考リンク
※ この記事の情報は2026年3月17日時点のものです。Redditのアップボート数・コメント数は変動する場合があります。
※ 記事内のRedditコメントの翻訳はAitly編集部によるものです。