Google「Gemini 3.1 Flash-Lite」発表|最速・最安のGemini 3モデルが開発者にもたらすインパクト

|Aitly編集部
NEWS 2026年3月17日 · Aitly編集部

Google DeepMindは2026年3月3日、Gemini 3シリーズの新モデル「Gemini 3.1 Flash-Lite」を発表した。同社が「Built for intelligence at scale(スケーラブルなインテリジェンスのために設計)」と銘打つこのモデルは、入力100万トークンあたり$0.25という圧倒的な低コストと、毎秒363トークンの出力速度を実現している。

大規模展開を前提にした軽量モデルの登場は、AIをプロダクトに組み込む開発者や、コスト効率を重視する企業ユーザーにとって大きな転換点となる。この記事では、Flash-Liteの性能・料金・位置づけを整理し、競合モデルとの比較を含めて解説する。

この記事のポイント

  • Gemini 3.1 Flash-LiteはGemini 3シリーズ最速・最安の軽量モデル
  • 入力$0.25/100万トークン、出力$1.50/100万トークンの破格設定
  • 1Mトークンのコンテキストウィンドウでマルチモーダル対応
  • GPT-4o miniやClaude 3.5 Haikuの直接的な競合ポジション

Gemini 3.1 Flash-Liteとは何か

Gemini 3 Proベースの「超軽量蒸留モデル」

Gemini 3.1 Flash-Liteは、Gemini 3 Proをベースに蒸留(distillation)技術で軽量化したモデルだ。Google DeepMindのモデルカードによると、Google独自のTPU(Tensor Processing Unit)上でJAXフレームワークとML Pathwaysを用いて学習されている。

Geminiモデルファミリーの中での位置づけは明確で、「最もコスト効率が高く、高頻度・軽量タスクに最適化されたマルチモーダルモデル」とGoogleは定義している。翻訳、文字起こし、軽量エージェントタスク、データ抽出、ドキュメント処理・要約、モデルルーティングが主要ユースケースとして挙げられている。

Gemini 3.1 Flash-Lite 基本スペック

コンテキストウィンドウ

1M tokens

最大出力トークン

64K tokens

出力速度

363 tok/s

入力モダリティ

テキスト・画像・音声・動画・PDF

「スケーラブルなインテリジェンス」の意味

大規模展開で真価を発揮するコスト設計

Googleが掲げる「Built for intelligence at scale」は、単にモデルが軽いという意味ではない。数百万〜数十億リクエストを処理する大規模サービスにAIを組み込む際、コストとレイテンシが最大のボトルネックになる。Flash-Liteはこの課題を正面から解決するモデルだ。

入力100万トークンあたり$0.25、出力100万トークンあたり$1.50という価格設定は、大型モデル(Gemini 3 Pro)の数分の一のコストにあたる。日本語の情報サイト「SBクリエイティブ」の報道によれば、Gemini 2.5 Flashと比較して最初のトークン出力までの時間が2.5倍高速化、全体の出力速度も45%向上している。

開発者にとっての実質的なメリット

Flash-Liteは「推論の深さを調整可能」な設計を採用している。Thinking機能をサポートしつつも、シンプルなタスクでは推論ステップを最小化し、コストを抑制できる。これにより、1つのモデルで軽量タスクと中程度の推論タスクの両方をカバーできるスケーラブルな運用が可能になる。

ベンチマーク性能と競合比較

軽量モデルとは思えないスコア

Flash-Liteのベンチマークスコアは、軽量モデルの常識を覆す水準だ。Google DeepMindのモデルカードに記載された主要ベンチマークを見ると、上位モデルであるGemini 2.5 Flashに匹敵する性能を、はるかに低いコストで実現していることがわかる。

ベンチマーク Flash-Lite GPT-4o mini
(参考)
Claude 3.5 Haiku
(参考)
GPQA Diamond
(科学知識)
86.9% 40.2% 41.6%
MMMU-Pro
(マルチモーダル推論)
76.8%
Video-MMMU
(動画理解)
84.8%
MMMLU
(多言語QA)
88.9%
入力料金
(/100万トークン)
$0.25 $0.15 $0.80

※ GPT-4o mini・Claude 3.5 Haikuのベンチマークスコアは各社の公開値に基づく。MMMU-Pro・Video-MMMU・MMMUは同一条件での公開スコアが確認できないため「—」としている。料金は2026年3月時点のAPI公表価格。

注目すべきはGPQA Diamondのスコアだ。科学知識の難問ベンチマークで86.9%は、GPT-4o miniの40.2%やClaude 3.5 Haikuの41.6%を大幅に上回る。ただし、Flash-LiteはThinking機能による拡張推論が含まれる可能性があり、単純な比較には注意が必要だ。

コスト面での競合ポジション

入力単価$0.25/100万トークンは、GPT-4o miniの$0.15には及ばないものの、Claude 3.5 Haikuの$0.80と比べると約3分の1だ。一方で出力単価$1.50は、GPT-4o miniの$0.60やClaude 3.5 Haikuの$4.00との中間に位置する。入出力比率が読み込み重視(長文入力・短文出力)のユースケースでは、Flash-Liteのコスト優位性が際立つ。

Reddit上の反応と留意点

r/Bard(Geminiコミュニティ)では「コスト効率に全振りしたモデル」という評価がある一方、「Greedy Searchを採用しているため、創造性が求められるタスクでは出力品質が低下する」という指摘も見られる。大量処理向けの割り切った設計であり、万能モデルではない点は認識しておく必要がある。

料金体系とAPIアクセス

3つのプラットフォームから利用可能

Flash-Liteは現在プレビュー版として、Google AI Studio、Gemini API、Google Cloud Vertex AIの3つのプラットフォームから利用できる。Vertex AIのドキュメントでは「高ボリューム・コストセンシティブなLLMトラフィックに最適化された、最もコスト効率の高いGeminiモデル」と位置づけられている。

料金比較(2026年3月時点)

Gemini 3.1 Flash-Lite

Google

入力: $0.25 /1M tok

出力: $1.50 /1M tok

GPT-4o mini

OpenAI

入力: $0.15 /1M tok

出力: $0.60 /1M tok

Claude 3.5 Haiku

Anthropic

入力: $0.80 /1M tok

出力: $4.00 /1M tok

Google AI Studioでは無料枠での試用も可能で、開発者はすぐにモデルの性能を検証できる。バッチAPI、キャッシング、関数呼び出し(Function Calling)、構造化出力、検索グラウンディングなど、エンタープライズ向け機能も一通りサポートされている。

開発者・企業ユーザーにとっての意義

「AIの民主化」の次フェーズ

Flash-Liteの登場が意味するのは、AIの活用が「できるかどうか」の段階から「どれだけ安く大量に回せるか」の段階に移行したということだ。翻訳、分類、データ抽出といった定型タスクをAIで自動化する際、1リクエストあたりのコストが事業の採算性を左右する。

Flash-Liteがサポートする機能一覧を見ると、その設計思想が明確になる。バッチAPI、キャッシング、Function Calling、構造化出力、検索グラウンディング、Thinking(推論モード)、URLコンテキストなど、エージェント構築に必要な機能を網羅している。一方で画像生成、音声生成、コンピュータ操作(Computer Use)、Live APIは非対応だ。生成系タスクではなく、処理・分析系タスクに特化した設計であることがわかる。

Flash-Liteが得意なタスク

  • 大量ドキュメントの分類・要約
  • 多言語翻訳・文字起こし
  • APIレスポンスの構造化
  • 軽量エージェントのルーティング
  • リアルタイムデータ抽出

Flash-Liteに向かないタスク

  • 高い創造性が求められる文章生成
  • 複雑な多段階推論
  • 画像・音声の生成
  • 対話的なリアルタイム会話
  • 最高精度が求められる科学計算

Google AIのモデル戦略全体像

3週間で3モデルをリリースする加速戦略

Flash-Liteの発表は、Googleのモデルリリースが加速していることを示すイベントでもある。YouTubeの解説動画が指摘するように、Gemini 3 Pro、Gemini 3 Flash、そしてGemini 3.1 Flash-Liteと、3週間で3つのモデルが投入された。

この戦略の背景には、OpenAIのGPTシリーズやAnthropicのClaudeシリーズとの激しい競争がある。特に軽量モデル市場では、GPT-4o miniが入力$0.15/100万トークンという低価格で先行しており、GoogleはFlash-Liteで性能面の優位性を武器に対抗している構図だ。

Gemini 3ファミリーの構成(2026年3月時点)

Gemini 3 Pro

最高性能・高度な推論

Gemini 3 Flash

高速・バランス型

Gemini 3.1 Flash-Lite

最速・最安・大量処理

なお、ミエルカSEO・ミエルカGEOの「LLMモニタリング」機能がGPT-5.2やGemini 3に対応したことからもわかるように、国内のSEO・マーケティングツールもGeminiエコシステムへの追従を進めている。Flash-Liteのような低コストモデルが普及すれば、AIを活用したコンテンツ分析やSEO施策のコストも大幅に下がる可能性がある。

まとめ:Flash-Liteは「AIの水道料金」を変えるモデル

Gemini 3.1 Flash-Liteは、AIモデルの性能競争とは異なるベクトル――コスト効率とスケーラビリティ――で勝負するモデルだ。GPQA Diamondで86.9%という高いスコアを出しながら、入力$0.25/100万トークンという価格を実現している点は、軽量モデル市場において強力な選択肢となる。

ただし、Redditコミュニティでの評価が示すように、Greedy Search採用による創造性の制約や、プレビュー段階での安定性については慎重に見極める必要がある。万能モデルではなく、大量処理・定型タスクに特化した「業務用モデル」として捉えるのが適切だ。

AIを事業に組み込む企業にとって、モデルの選択肢が増えること自体が大きな恩恵だ。Flash-Liteの登場は、GPT-4o miniやClaude 3.5 Haikuを含む軽量モデル市場全体の価格競争を加速させ、結果として「AIの水道料金」を押し下げるドライバーになるだろう。

参考リンク