Google DeepMindは2026年3月3日、Gemini 3シリーズの新モデル「Gemini 3.1 Flash-Lite」を発表した。同社が「Built for intelligence at scale(スケーラブルなインテリジェンスのために設計)」と銘打つこのモデルは、入力100万トークンあたり$0.25という圧倒的な低コストと、毎秒363トークンの出力速度を実現している。
大規模展開を前提にした軽量モデルの登場は、AIをプロダクトに組み込む開発者や、コスト効率を重視する企業ユーザーにとって大きな転換点となる。この記事では、Flash-Liteの性能・料金・位置づけを整理し、競合モデルとの比較を含めて解説する。
この記事のポイント
- Gemini 3.1 Flash-LiteはGemini 3シリーズ最速・最安の軽量モデル
- 入力$0.25/100万トークン、出力$1.50/100万トークンの破格設定
- 1Mトークンのコンテキストウィンドウでマルチモーダル対応
- GPT-4o miniやClaude 3.5 Haikuの直接的な競合ポジション
Gemini 3.1 Flash-Liteとは何か
Gemini 3 Proベースの「超軽量蒸留モデル」
Gemini 3.1 Flash-Liteは、Gemini 3 Proをベースに蒸留(distillation)技術で軽量化したモデルだ。Google DeepMindのモデルカードによると、Google独自のTPU(Tensor Processing Unit)上でJAXフレームワークとML Pathwaysを用いて学習されている。
Geminiモデルファミリーの中での位置づけは明確で、「最もコスト効率が高く、高頻度・軽量タスクに最適化されたマルチモーダルモデル」とGoogleは定義している。翻訳、文字起こし、軽量エージェントタスク、データ抽出、ドキュメント処理・要約、モデルルーティングが主要ユースケースとして挙げられている。
Gemini 3.1 Flash-Lite 基本スペック
コンテキストウィンドウ
1M tokens
最大出力トークン
64K tokens
出力速度
363 tok/s
入力モダリティ
テキスト・画像・音声・動画・PDF
「スケーラブルなインテリジェンス」の意味
大規模展開で真価を発揮するコスト設計
Googleが掲げる「Built for intelligence at scale」は、単にモデルが軽いという意味ではない。数百万〜数十億リクエストを処理する大規模サービスにAIを組み込む際、コストとレイテンシが最大のボトルネックになる。Flash-Liteはこの課題を正面から解決するモデルだ。
入力100万トークンあたり$0.25、出力100万トークンあたり$1.50という価格設定は、大型モデル(Gemini 3 Pro)の数分の一のコストにあたる。日本語の情報サイト「SBクリエイティブ」の報道によれば、Gemini 2.5 Flashと比較して最初のトークン出力までの時間が2.5倍高速化、全体の出力速度も45%向上している。
開発者にとっての実質的なメリット
Flash-Liteは「推論の深さを調整可能」な設計を採用している。Thinking機能をサポートしつつも、シンプルなタスクでは推論ステップを最小化し、コストを抑制できる。これにより、1つのモデルで軽量タスクと中程度の推論タスクの両方をカバーできるスケーラブルな運用が可能になる。
ベンチマーク性能と競合比較
軽量モデルとは思えないスコア
Flash-Liteのベンチマークスコアは、軽量モデルの常識を覆す水準だ。Google DeepMindのモデルカードに記載された主要ベンチマークを見ると、上位モデルであるGemini 2.5 Flashに匹敵する性能を、はるかに低いコストで実現していることがわかる。
| ベンチマーク | Flash-Lite | GPT-4o mini (参考) |
Claude 3.5 Haiku (参考) |
|---|---|---|---|
| GPQA Diamond (科学知識) |
86.9% | 40.2% | 41.6% |
| MMMU-Pro (マルチモーダル推論) |
76.8% | — | — |
| Video-MMMU (動画理解) |
84.8% | — | — |
| MMMLU (多言語QA) |
88.9% | — | — |
| 入力料金 (/100万トークン) |
$0.25 | $0.15 | $0.80 |
※ GPT-4o mini・Claude 3.5 Haikuのベンチマークスコアは各社の公開値に基づく。MMMU-Pro・Video-MMMU・MMMUは同一条件での公開スコアが確認できないため「—」としている。料金は2026年3月時点のAPI公表価格。
注目すべきはGPQA Diamondのスコアだ。科学知識の難問ベンチマークで86.9%は、GPT-4o miniの40.2%やClaude 3.5 Haikuの41.6%を大幅に上回る。ただし、Flash-LiteはThinking機能による拡張推論が含まれる可能性があり、単純な比較には注意が必要だ。
コスト面での競合ポジション
入力単価$0.25/100万トークンは、GPT-4o miniの$0.15には及ばないものの、Claude 3.5 Haikuの$0.80と比べると約3分の1だ。一方で出力単価$1.50は、GPT-4o miniの$0.60やClaude 3.5 Haikuの$4.00との中間に位置する。入出力比率が読み込み重視(長文入力・短文出力)のユースケースでは、Flash-Liteのコスト優位性が際立つ。
Reddit上の反応と留意点
r/Bard(Geminiコミュニティ)では「コスト効率に全振りしたモデル」という評価がある一方、「Greedy Searchを採用しているため、創造性が求められるタスクでは出力品質が低下する」という指摘も見られる。大量処理向けの割り切った設計であり、万能モデルではない点は認識しておく必要がある。
料金体系とAPIアクセス
3つのプラットフォームから利用可能
Flash-Liteは現在プレビュー版として、Google AI Studio、Gemini API、Google Cloud Vertex AIの3つのプラットフォームから利用できる。Vertex AIのドキュメントでは「高ボリューム・コストセンシティブなLLMトラフィックに最適化された、最もコスト効率の高いGeminiモデル」と位置づけられている。
料金比較(2026年3月時点)
Gemini 3.1 Flash-Lite
入力: $0.25 /1M tok
出力: $1.50 /1M tok
GPT-4o mini
OpenAI
入力: $0.15 /1M tok
出力: $0.60 /1M tok
Claude 3.5 Haiku
Anthropic
入力: $0.80 /1M tok
出力: $4.00 /1M tok
Google AI Studioでは無料枠での試用も可能で、開発者はすぐにモデルの性能を検証できる。バッチAPI、キャッシング、関数呼び出し(Function Calling)、構造化出力、検索グラウンディングなど、エンタープライズ向け機能も一通りサポートされている。
開発者・企業ユーザーにとっての意義
「AIの民主化」の次フェーズ
Flash-Liteの登場が意味するのは、AIの活用が「できるかどうか」の段階から「どれだけ安く大量に回せるか」の段階に移行したということだ。翻訳、分類、データ抽出といった定型タスクをAIで自動化する際、1リクエストあたりのコストが事業の採算性を左右する。
Flash-Liteがサポートする機能一覧を見ると、その設計思想が明確になる。バッチAPI、キャッシング、Function Calling、構造化出力、検索グラウンディング、Thinking(推論モード)、URLコンテキストなど、エージェント構築に必要な機能を網羅している。一方で画像生成、音声生成、コンピュータ操作(Computer Use)、Live APIは非対応だ。生成系タスクではなく、処理・分析系タスクに特化した設計であることがわかる。
Flash-Liteが得意なタスク
- 大量ドキュメントの分類・要約
- 多言語翻訳・文字起こし
- APIレスポンスの構造化
- 軽量エージェントのルーティング
- リアルタイムデータ抽出
Flash-Liteに向かないタスク
- 高い創造性が求められる文章生成
- 複雑な多段階推論
- 画像・音声の生成
- 対話的なリアルタイム会話
- 最高精度が求められる科学計算
Google AIのモデル戦略全体像
3週間で3モデルをリリースする加速戦略
Flash-Liteの発表は、Googleのモデルリリースが加速していることを示すイベントでもある。YouTubeの解説動画が指摘するように、Gemini 3 Pro、Gemini 3 Flash、そしてGemini 3.1 Flash-Liteと、3週間で3つのモデルが投入された。
この戦略の背景には、OpenAIのGPTシリーズやAnthropicのClaudeシリーズとの激しい競争がある。特に軽量モデル市場では、GPT-4o miniが入力$0.15/100万トークンという低価格で先行しており、GoogleはFlash-Liteで性能面の優位性を武器に対抗している構図だ。
Gemini 3ファミリーの構成(2026年3月時点)
Gemini 3 Pro
最高性能・高度な推論
Gemini 3 Flash
高速・バランス型
Gemini 3.1 Flash-Lite
最速・最安・大量処理
なお、ミエルカSEO・ミエルカGEOの「LLMモニタリング」機能がGPT-5.2やGemini 3に対応したことからもわかるように、国内のSEO・マーケティングツールもGeminiエコシステムへの追従を進めている。Flash-Liteのような低コストモデルが普及すれば、AIを活用したコンテンツ分析やSEO施策のコストも大幅に下がる可能性がある。
まとめ:Flash-Liteは「AIの水道料金」を変えるモデル
Gemini 3.1 Flash-Liteは、AIモデルの性能競争とは異なるベクトル――コスト効率とスケーラビリティ――で勝負するモデルだ。GPQA Diamondで86.9%という高いスコアを出しながら、入力$0.25/100万トークンという価格を実現している点は、軽量モデル市場において強力な選択肢となる。
ただし、Redditコミュニティでの評価が示すように、Greedy Search採用による創造性の制約や、プレビュー段階での安定性については慎重に見極める必要がある。万能モデルではなく、大量処理・定型タスクに特化した「業務用モデル」として捉えるのが適切だ。
AIを事業に組み込む企業にとって、モデルの選択肢が増えること自体が大きな恩恵だ。Flash-Liteの登場は、GPT-4o miniやClaude 3.5 Haikuを含む軽量モデル市場全体の価格競争を加速させ、結果として「AIの水道料金」を押し下げるドライバーになるだろう。