Gemini 3.1 Flash-Lite発表|$0.25/100万トークンでGPT-4o miniを上回るGoogleの最安モデル

|Aitly編集部
NEWS 2026年3月18日 · Aitly編集部

Google DeepMindは2026年3月3日、Gemini 3シリーズの新しい軽量モデル「Gemini 3.1 Flash-Lite」を発表しました。入力100万トークンあたり$0.25、出力100万トークンあたり$1.50という破格の料金設定で、同社のGemini 3.1 Proの約8分の1のコストを実現しています。

Gemini 3.1 Flash-Liteは「スケーラブルなインテリジェンス」を掲げるモデルで、速度・コスト・品質のバランスを追求した設計です。11のベンチマーク中6つでGPT-4o miniとClaude 4.5 Haikuを上回ったとSiliconANGLEが報じています

この記事のポイント

  • Gemini 3.1 Flash-LiteはGemini 3シリーズ最速・最安の軽量モデル
  • 入力$0.25/100万トークン — Gemini 3.1 Proの約8分の1のコスト
  • 出力速度は約380トークン/秒、Gemini 2.5 Flashの2.5倍の初回応答速度
  • 1Mトークンのコンテキストウィンドウでマルチモーダル入力に対応
  • 思考レベル(minimal〜high)を切り替え可能で柔軟なコスト制御

Gemini 3.1 Flash-Liteとは

Gemini 3.1 Flash-Liteは、Gemini 3 Proのmixture-of-experts(MoE)アーキテクチャをベースに蒸留された超軽量モデルです。Google DeepMindは「最もコスト効率が高く、大規模処理に最適化されたモデル」と位置づけています。

Geminiモデルファミリーの中での階層は明確で、最上位のGemini 3.1 Pro、高速推論のGemini 3 Flash、そして最軽量のGemini 3.1 Flash-Liteという3段構成です。Flash-Liteは「広範な知識や複雑な推論が不要だが、大量のリクエストを高速かつ低コストでさばきたい」というシナリオに特化しています。

公式発表

“Our fastest and most cost-efficient Gemini 3 series model yet.”

Google公式ブログ(2026年3月3日)

スペックと料金の全体像

Flash-Liteの料金は入力$0.25/100万トークン、出力$1.50/100万トークンです。同じGemini 3.1シリーズのProモデル(入力$2.00、出力$18.00)と比較すると、入力で8分の1、出力で12分の1という大幅なコスト削減を実現しています。VentureBeatによると、Proの8分の1のコストで提供されるこの料金設定は、大量処理を前提とするエンタープライズ用途において極めて競争力が高いと評価されています。

項目 Gemini 3.1 Flash-Lite
入力料金 $0.25 / 100万トークン
出力料金 $1.50 / 100万トークン
コンテキストウィンドウ 最大1,000,000トークン
最大出力長 65,536トークン
出力速度 約380トークン/秒
初回応答速度(TTFT) Gemini 2.5 Flash比 2.5倍高速
入力モダリティ テキスト・画像・音声・動画(マルチモーダル)
アーキテクチャ Gemini 3 ProベースのMoE蒸留モデル
思考レベル minimal / low / medium / high の4段階
対応機能 Function Calling、Web Search、推論

出力速度は約380トークン/秒で、Artificial Analysisの計測ではGemini 2.5 Flashの232トークン/秒に対して約64%の速度向上が確認されています。初回トークンまでの応答時間(TTFT)も2.5倍短縮されており、リアルタイムチャットやエージェント処理で体感できる改善です。

ベンチマーク性能 — 競合モデルとの比較

Gemini 3.1 Flash-Liteは11のベンチマーク中6つでGPT-4o miniとClaude 4.5 Haikuを上回りました。特に博士レベルの科学問題を扱うGPQA Diamondでトップスコアを記録した点は注目に値します。

ベンチマーク Flash-Lite スコア 評価内容
GPQA Diamond 86.9% 博士レベルの科学問題
MMMLU 88.9% 多言語質問応答
MMMU Pro 76.8% マルチモーダル理解
LiveCodeBench 72.0% リアルタイムコーディング
CharXiv Reasoning 73.2% チャート・グラフの推論
Video-MMMU 84.8% 動画理解
Arena.ai Elo 1432 ユーザー対戦式総合評価
Artificial Analysis Index 34 総合知能指数(同クラス平均19)

Artificial Analysisの分析によると、Flash-LiteのIntelligence Indexスコアは34で、同価格帯モデルの平均値19を大きく上回っています。Arena.aiリーダーボードでもEloレーティング1432を記録しており、「軽量モデル」のカテゴリでは頭一つ抜けた存在です。

ただし注意点もあります。SiliconANGLEの報道によると、HLA(高レベル推論)ベンチマークでは16%にとどまり、Gemini 3.1 Proの44.4%と比較して大きな差があります。高度な推論が求められるタスクには上位モデルの利用が適切です。

思考レベル機能と実用上のメリット

Flash-Liteは「思考レベル(thinking level)」をminimal・low・medium・highの4段階で切り替えられます。この機能により、タスクの複雑さに応じてコストとパフォーマンスのトレードオフを細かく制御できます。

たとえば、単純な分類タスクや定型文の翻訳にはminimalレベルで最速・最安の処理を行い、要約や軽度の分析が必要な場面ではmediumに引き上げるといった使い分けが可能です。Geeky Gadgetsのテストでは、思考レベルを段階的に上げた際のベンチマーク推移も検証されており、highレベルでは一部タスクでGemini 3 Flash相当の性能を発揮するとのことです。

想定ユースケースと適用場面

Flash-Liteが最も力を発揮するのは「広範な推論が不要だが、大量のリクエストを低コストで処理したい」場面です。SiliconANGLEの報道では、具体的なユースケースとして以下が挙げられています。

  • 商品リスティングの翻訳 — ECサイトで多言語展開する際の大量テキスト翻訳
  • コンテンツモデレーション — SNSや掲示板の投稿を高速にスクリーニング
  • BIダッシュボード生成 — 自然言語プロンプトからデータ可視化コードを自動生成
  • 文字起こし・要約 — 音声・動画コンテンツのテキスト化と要約処理
  • データ抽出・ドキュメント処理 — PDF・画像からの構造化データ抽出
  • エージェントルーティング — マルチエージェントシステムのオーケストレーション層

1Mトークンのコンテキストウィンドウを持つため、長文ドキュメントの一括処理にも対応します。マルチモーダル入力(テキスト・画像・音声・動画)をサポートしている点も、ドキュメント処理や動画分析のユースケースで強みとなります。

利用方法とAPI提供状況

Gemini 3.1 Flash-Liteは現在プレビュー版として提供されています。開発者はGoogle AI StudioのGemini API経由で利用可能で、エンタープライズユーザーはGoogle CloudのVertex AIからアクセスできます。

OpenRouterなどのサードパーティプラットフォームでも既に利用可能で、API統合の選択肢は広がっています。正式版(GA)のリリース時期は未発表ですが、プレビュー段階から本番環境での利用を想定した料金体系が設定されています。

料金比較:Geminiファミリー内の位置づけ

モデル 入力/100万トークン 出力/100万トークン
Gemini 3.1 Flash-Lite $0.25 $1.50
Gemini 3.1 Pro $2.00 $18.00

Aitly編集部の見解

Gemini 3.1 Flash-Liteは、「軽量モデル競争」の水準を一段引き上げるリリースです。入力$0.25/100万トークンという料金は、OpenAIのGPT-4o miniやAnthropicのClaude 4.5 Haikuと直接競合する価格帯であり、ベンチマーク上の優位性も複数確認されています。

特に注目すべきは思考レベルの切り替え機能です。単一モデルでコスト最適化と品質確保を両立できるため、「軽いタスクにはminimal、複雑なタスクにはhigh」という運用が1つのAPIエンドポイントで完結します。マルチエージェント構成でルーティング層に配置するなら、Flash-Liteは有力な選択肢になるでしょう。

一方で、HLAベンチマーク16%が示すように高度な推論には向きません。「万能モデル」ではなく「大量処理の専用モデル」として位置づけ、Gemini 3.1 Proや他社の上位モデルと組み合わせる前提で評価すべきです。

よくある質問

Google AI Studioでは無料枠内での利用が可能です。API経由の本格利用は入力$0.25/100万トークン、出力$1.50/100万トークンの従量課金となります。

Flash-LiteはFlashをさらに軽量化・高速化したバリアントです。推論精度ではFlashが上回りますが、コストと速度ではFlash-Liteが大幅に優れています。高頻度・低複雑度のタスクにはFlash-Lite、中程度の推論が必要なタスクにはFlashが適しています。

Googleの評価では11ベンチマーク中6つでFlash-LiteがGPT-4o miniとClaude 4.5 Haikuを上回っています。特にGPQA Diamond(科学推論)やMMMU Pro(マルチモーダル理解)で強みを発揮しています。ただし残りの5ベンチマークでは競合が上回っており、タスクによって最適なモデルは異なります。

APIリクエスト時にパラメータで指定します。minimal・low・medium・highの4段階から選択でき、思考レベルが上がるほど応答品質が向上する代わりに、処理時間とトークン消費量が増加します。

参考リンク