Google「Gemini 3.1 Flash-Lite」発表｜最速・最安のGemini 3モデルが開発者にもたらすインパクト

NEWS 2026年3月17日 · Aitly編集部

Google DeepMindは2026年3月3日、Gemini 3シリーズの新モデル「Gemini 3.1 Flash-Lite」を発表した。同社が「Built for intelligence at scale（スケーラブルなインテリジェンスのために設計）」と銘打つこのモデルは、入力100万トークンあたり$0.25という圧倒的な低コストと、毎秒363トークンの出力速度を実現している。

大規模展開を前提にした軽量モデルの登場は、AIをプロダクトに組み込む開発者や、コスト効率を重視する企業ユーザーにとって大きな転換点となる。この記事では、Flash-Liteの性能・料金・位置づけを整理し、競合モデルとの比較を含めて解説する。

この記事のポイント

Gemini 3.1 Flash-LiteはGemini 3シリーズ最速・最安の軽量モデル
入力$0.25/100万トークン、出力$1.50/100万トークンの破格設定
1Mトークンのコンテキストウィンドウでマルチモーダル対応
GPT-4o miniやClaude 3.5 Haikuの直接的な競合ポジション

Gemini 3.1 Flash-Liteとは何か

Gemini 3 Proベースの「超軽量蒸留モデル」

Gemini 3.1 Flash-Liteは、Gemini 3 Proをベースに蒸留（distillation）技術で軽量化したモデルだ。Google DeepMindのモデルカードによると、Google独自のTPU（Tensor Processing Unit）上でJAXフレームワークとML Pathwaysを用いて学習されている。

Geminiモデルファミリーの中での位置づけは明確で、「最もコスト効率が高く、高頻度・軽量タスクに最適化されたマルチモーダルモデル」とGoogleは定義している。翻訳、文字起こし、軽量エージェントタスク、データ抽出、ドキュメント処理・要約、モデルルーティングが主要ユースケースとして挙げられている。

Gemini 3.1 Flash-Lite 基本スペック

コンテキストウィンドウ

1M tokens

最大出力トークン

64K tokens

出力速度

363 tok/s

入力モダリティ

テキスト・画像・音声・動画・PDF

「スケーラブルなインテリジェンス」の意味

大規模展開で真価を発揮するコスト設計

Googleが掲げる「Built for intelligence at scale」は、単にモデルが軽いという意味ではない。数百万〜数十億リクエストを処理する大規模サービスにAIを組み込む際、コストとレイテンシが最大のボトルネックになる。Flash-Liteはこの課題を正面から解決するモデルだ。

入力100万トークンあたり$0.25、出力100万トークンあたり$1.50という価格設定は、大型モデル（Gemini 3 Pro）の数分の一のコストにあたる。日本語の情報サイト「SBクリエイティブ」の報道によれば、Gemini 2.5 Flashと比較して最初のトークン出力までの時間が2.5倍高速化、全体の出力速度も45%向上している。

開発者にとっての実質的なメリット

Flash-Liteは「推論の深さを調整可能」な設計を採用している。Thinking機能をサポートしつつも、シンプルなタスクでは推論ステップを最小化し、コストを抑制できる。これにより、1つのモデルで軽量タスクと中程度の推論タスクの両方をカバーできるスケーラブルな運用が可能になる。

ベンチマーク性能と競合比較

軽量モデルとは思えないスコア

Flash-Liteのベンチマークスコアは、軽量モデルの常識を覆す水準だ。Google DeepMindのモデルカードに記載された主要ベンチマークを見ると、上位モデルであるGemini 2.5 Flashに匹敵する性能を、はるかに低いコストで実現していることがわかる。

ベンチマーク	Flash-Lite	GPT-4o mini （参考）	Claude 3.5 Haiku （参考）
GPQA Diamond （科学知識）	86.9%	40.2%	41.6%
MMMU-Pro （マルチモーダル推論）	76.8%	—	—
Video-MMMU （動画理解）	84.8%	—	—
MMMLU （多言語QA）	88.9%	—	—
入力料金（/100万トークン）	$0.25	$0.15	$0.80

※ GPT-4o mini・Claude 3.5 Haikuのベンチマークスコアは各社の公開値に基づく。MMMU-Pro・Video-MMMU・MMMUは同一条件での公開スコアが確認できないため「—」としている。料金は2026年3月時点のAPI公表価格。

注目すべきはGPQA Diamondのスコアだ。科学知識の難問ベンチマークで86.9%は、GPT-4o miniの40.2%やClaude 3.5 Haikuの41.6%を大幅に上回る。ただし、Flash-LiteはThinking機能による拡張推論が含まれる可能性があり、単純な比較には注意が必要だ。

コスト面での競合ポジション

入力単価$0.25/100万トークンは、GPT-4o miniの$0.15には及ばないものの、Claude 3.5 Haikuの$0.80と比べると約3分の1だ。一方で出力単価$1.50は、GPT-4o miniの$0.60やClaude 3.5 Haikuの$4.00との中間に位置する。入出力比率が読み込み重視（長文入力・短文出力）のユースケースでは、Flash-Liteのコスト優位性が際立つ。

Reddit上の反応と留意点

r/Bard（Geminiコミュニティ）では「コスト効率に全振りしたモデル」という評価がある一方、「Greedy Searchを採用しているため、創造性が求められるタスクでは出力品質が低下する」という指摘も見られる。大量処理向けの割り切った設計であり、万能モデルではない点は認識しておく必要がある。

料金体系とAPIアクセス

3つのプラットフォームから利用可能

Flash-Liteは現在プレビュー版として、Google AI Studio、Gemini API、Google Cloud Vertex AIの3つのプラットフォームから利用できる。Vertex AIのドキュメントでは「高ボリューム・コストセンシティブなLLMトラフィックに最適化された、最もコスト効率の高いGeminiモデル」と位置づけられている。

料金比較（2026年3月時点）

Gemini 3.1 Flash-Lite

Google

入力: $0.25 /1M tok

出力: $1.50 /1M tok

GPT-4o mini

OpenAI

入力: $0.15 /1M tok

出力: $0.60 /1M tok

Claude 3.5 Haiku

Anthropic

入力: $0.80 /1M tok

出力: $4.00 /1M tok

Google AI Studioでは無料枠での試用も可能で、開発者はすぐにモデルの性能を検証できる。バッチAPI、キャッシング、関数呼び出し（Function Calling）、構造化出力、検索グラウンディングなど、エンタープライズ向け機能も一通りサポートされている。

開発者・企業ユーザーにとっての意義

「AIの民主化」の次フェーズ

Flash-Liteの登場が意味するのは、AIの活用が「できるかどうか」の段階から「どれだけ安く大量に回せるか」の段階に移行したということだ。翻訳、分類、データ抽出といった定型タスクをAIで自動化する際、1リクエストあたりのコストが事業の採算性を左右する。

Flash-Liteがサポートする機能一覧を見ると、その設計思想が明確になる。バッチAPI、キャッシング、Function Calling、構造化出力、検索グラウンディング、Thinking（推論モード）、URLコンテキストなど、エージェント構築に必要な機能を網羅している。一方で画像生成、音声生成、コンピュータ操作（Computer Use）、Live APIは非対応だ。生成系タスクではなく、処理・分析系タスクに特化した設計であることがわかる。

Flash-Liteが得意なタスク

大量ドキュメントの分類・要約
多言語翻訳・文字起こし
APIレスポンスの構造化
軽量エージェントのルーティング
リアルタイムデータ抽出

Flash-Liteに向かないタスク

高い創造性が求められる文章生成
複雑な多段階推論
画像・音声の生成
対話的なリアルタイム会話
最高精度が求められる科学計算

Google AIのモデル戦略全体像

3週間で3モデルをリリースする加速戦略

Flash-Liteの発表は、Googleのモデルリリースが加速していることを示すイベントでもある。YouTubeの解説動画が指摘するように、Gemini 3 Pro、Gemini 3 Flash、そしてGemini 3.1 Flash-Liteと、3週間で3つのモデルが投入された。

この戦略の背景には、OpenAIのGPTシリーズやAnthropicのClaudeシリーズとの激しい競争がある。特に軽量モデル市場では、GPT-4o miniが入力$0.15/100万トークンという低価格で先行しており、GoogleはFlash-Liteで性能面の優位性を武器に対抗している構図だ。

Gemini 3ファミリーの構成（2026年3月時点）

Gemini 3 Pro

最高性能・高度な推論

Gemini 3 Flash

高速・バランス型

Gemini 3.1 Flash-Lite

最速・最安・大量処理

なお、ミエルカSEO・ミエルカGEOの「LLMモニタリング」機能がGPT-5.2やGemini 3に対応したことからもわかるように、国内のSEO・マーケティングツールもGeminiエコシステムへの追従を進めている。Flash-Liteのような低コストモデルが普及すれば、AIを活用したコンテンツ分析やSEO施策のコストも大幅に下がる可能性がある。

まとめ：Flash-Liteは「AIの水道料金」を変えるモデル

Gemini 3.1 Flash-Liteは、AIモデルの性能競争とは異なるベクトル――コスト効率とスケーラビリティ――で勝負するモデルだ。GPQA Diamondで86.9%という高いスコアを出しながら、入力$0.25/100万トークンという価格を実現している点は、軽量モデル市場において強力な選択肢となる。

ただし、Redditコミュニティでの評価が示すように、Greedy Search採用による創造性の制約や、プレビュー段階での安定性については慎重に見極める必要がある。万能モデルではなく、大量処理・定型タスクに特化した「業務用モデル」として捉えるのが適切だ。

AIを事業に組み込む企業にとって、モデルの選択肢が増えること自体が大きな恩恵だ。Flash-Liteの登場は、GPT-4o miniやClaude 3.5 Haikuを含む軽量モデル市場全体の価格競争を加速させ、結果として「AIの水道料金」を押し下げるドライバーになるだろう。

参考リンク