Google DeepMindは2026年3月3日、Gemini 3シリーズの新しい軽量モデル「Gemini 3.1 Flash-Lite」を発表しました。入力100万トークンあたり$0.25、出力100万トークンあたり$1.50という破格の料金設定で、同社のGemini 3.1 Proの約8分の1のコストを実現しています。
Gemini 3.1 Flash-Liteは「スケーラブルなインテリジェンス」を掲げるモデルで、速度・コスト・品質のバランスを追求した設計です。11のベンチマーク中6つでGPT-4o miniとClaude 4.5 Haikuを上回ったとSiliconANGLEが報じています。
この記事のポイント
- Gemini 3.1 Flash-LiteはGemini 3シリーズ最速・最安の軽量モデル
- 入力$0.25/100万トークン — Gemini 3.1 Proの約8分の1のコスト
- 出力速度は約380トークン/秒、Gemini 2.5 Flashの2.5倍の初回応答速度
- 1Mトークンのコンテキストウィンドウでマルチモーダル入力に対応
- 思考レベル(minimal〜high)を切り替え可能で柔軟なコスト制御
Gemini 3.1 Flash-Liteとは
Gemini 3.1 Flash-Liteは、Gemini 3 Proのmixture-of-experts(MoE)アーキテクチャをベースに蒸留された超軽量モデルです。Google DeepMindは「最もコスト効率が高く、大規模処理に最適化されたモデル」と位置づけています。
Geminiモデルファミリーの中での階層は明確で、最上位のGemini 3.1 Pro、高速推論のGemini 3 Flash、そして最軽量のGemini 3.1 Flash-Liteという3段構成です。Flash-Liteは「広範な知識や複雑な推論が不要だが、大量のリクエストを高速かつ低コストでさばきたい」というシナリオに特化しています。
スペックと料金の全体像
Flash-Liteの料金は入力$0.25/100万トークン、出力$1.50/100万トークンです。同じGemini 3.1シリーズのProモデル(入力$2.00、出力$18.00)と比較すると、入力で8分の1、出力で12分の1という大幅なコスト削減を実現しています。VentureBeatによると、Proの8分の1のコストで提供されるこの料金設定は、大量処理を前提とするエンタープライズ用途において極めて競争力が高いと評価されています。
| 項目 | Gemini 3.1 Flash-Lite |
|---|---|
| 入力料金 | $0.25 / 100万トークン |
| 出力料金 | $1.50 / 100万トークン |
| コンテキストウィンドウ | 最大1,000,000トークン |
| 最大出力長 | 65,536トークン |
| 出力速度 | 約380トークン/秒 |
| 初回応答速度(TTFT) | Gemini 2.5 Flash比 2.5倍高速 |
| 入力モダリティ | テキスト・画像・音声・動画(マルチモーダル) |
| アーキテクチャ | Gemini 3 ProベースのMoE蒸留モデル |
| 思考レベル | minimal / low / medium / high の4段階 |
| 対応機能 | Function Calling、Web Search、推論 |
出力速度は約380トークン/秒で、Artificial Analysisの計測ではGemini 2.5 Flashの232トークン/秒に対して約64%の速度向上が確認されています。初回トークンまでの応答時間(TTFT)も2.5倍短縮されており、リアルタイムチャットやエージェント処理で体感できる改善です。
ベンチマーク性能 — 競合モデルとの比較
Gemini 3.1 Flash-Liteは11のベンチマーク中6つでGPT-4o miniとClaude 4.5 Haikuを上回りました。特に博士レベルの科学問題を扱うGPQA Diamondでトップスコアを記録した点は注目に値します。
| ベンチマーク | Flash-Lite スコア | 評価内容 |
|---|---|---|
| GPQA Diamond | 86.9% | 博士レベルの科学問題 |
| MMMLU | 88.9% | 多言語質問応答 |
| MMMU Pro | 76.8% | マルチモーダル理解 |
| LiveCodeBench | 72.0% | リアルタイムコーディング |
| CharXiv Reasoning | 73.2% | チャート・グラフの推論 |
| Video-MMMU | 84.8% | 動画理解 |
| Arena.ai Elo | 1432 | ユーザー対戦式総合評価 |
| Artificial Analysis Index | 34 | 総合知能指数(同クラス平均19) |
Artificial Analysisの分析によると、Flash-LiteのIntelligence Indexスコアは34で、同価格帯モデルの平均値19を大きく上回っています。Arena.aiリーダーボードでもEloレーティング1432を記録しており、「軽量モデル」のカテゴリでは頭一つ抜けた存在です。
ただし注意点もあります。SiliconANGLEの報道によると、HLA(高レベル推論)ベンチマークでは16%にとどまり、Gemini 3.1 Proの44.4%と比較して大きな差があります。高度な推論が求められるタスクには上位モデルの利用が適切です。
思考レベル機能と実用上のメリット
Flash-Liteは「思考レベル(thinking level)」をminimal・low・medium・highの4段階で切り替えられます。この機能により、タスクの複雑さに応じてコストとパフォーマンスのトレードオフを細かく制御できます。
たとえば、単純な分類タスクや定型文の翻訳にはminimalレベルで最速・最安の処理を行い、要約や軽度の分析が必要な場面ではmediumに引き上げるといった使い分けが可能です。Geeky Gadgetsのテストでは、思考レベルを段階的に上げた際のベンチマーク推移も検証されており、highレベルでは一部タスクでGemini 3 Flash相当の性能を発揮するとのことです。
想定ユースケースと適用場面
Flash-Liteが最も力を発揮するのは「広範な推論が不要だが、大量のリクエストを低コストで処理したい」場面です。SiliconANGLEの報道では、具体的なユースケースとして以下が挙げられています。
- 商品リスティングの翻訳 — ECサイトで多言語展開する際の大量テキスト翻訳
- コンテンツモデレーション — SNSや掲示板の投稿を高速にスクリーニング
- BIダッシュボード生成 — 自然言語プロンプトからデータ可視化コードを自動生成
- 文字起こし・要約 — 音声・動画コンテンツのテキスト化と要約処理
- データ抽出・ドキュメント処理 — PDF・画像からの構造化データ抽出
- エージェントルーティング — マルチエージェントシステムのオーケストレーション層
1Mトークンのコンテキストウィンドウを持つため、長文ドキュメントの一括処理にも対応します。マルチモーダル入力(テキスト・画像・音声・動画)をサポートしている点も、ドキュメント処理や動画分析のユースケースで強みとなります。
利用方法とAPI提供状況
Gemini 3.1 Flash-Liteは現在プレビュー版として提供されています。開発者はGoogle AI StudioのGemini API経由で利用可能で、エンタープライズユーザーはGoogle CloudのVertex AIからアクセスできます。
OpenRouterなどのサードパーティプラットフォームでも既に利用可能で、API統合の選択肢は広がっています。正式版(GA)のリリース時期は未発表ですが、プレビュー段階から本番環境での利用を想定した料金体系が設定されています。
料金比較:Geminiファミリー内の位置づけ
| モデル | 入力/100万トークン | 出力/100万トークン |
|---|---|---|
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 |
| Gemini 3.1 Pro | $2.00 | $18.00 |
Aitly編集部の見解
Gemini 3.1 Flash-Liteは、「軽量モデル競争」の水準を一段引き上げるリリースです。入力$0.25/100万トークンという料金は、OpenAIのGPT-4o miniやAnthropicのClaude 4.5 Haikuと直接競合する価格帯であり、ベンチマーク上の優位性も複数確認されています。
特に注目すべきは思考レベルの切り替え機能です。単一モデルでコスト最適化と品質確保を両立できるため、「軽いタスクにはminimal、複雑なタスクにはhigh」という運用が1つのAPIエンドポイントで完結します。マルチエージェント構成でルーティング層に配置するなら、Flash-Liteは有力な選択肢になるでしょう。
一方で、HLAベンチマーク16%が示すように高度な推論には向きません。「万能モデル」ではなく「大量処理の専用モデル」として位置づけ、Gemini 3.1 Proや他社の上位モデルと組み合わせる前提で評価すべきです。
よくある質問
参考リンク
- Google公式ブログ — Gemini 3.1 Flash Lite: Our most cost-effective AI model yet
- Google DeepMind — Gemini 3.1 Flash-Lite Model Card
- SiliconANGLE — Google launches speedy Gemini 3.1 Flash-Lite model in preview
- VentureBeat — Google releases Gemini 3.1 Flash Lite at 1/8th the cost of Pro
- Artificial Analysis — Gemini 3.1 Flash-Lite Preview Performance Analysis