このモデルの強みは何ですか？

オンデバイスでの高い性能 128Kの長いコンテキスト窓柔軟なApache 2.0ライセンス

このモデルの弱みは何ですか？

8.0Bの中規模なパラメータ数マルチモーダル対応の負荷特定用途への最適化の必要性

どんな用途に最適ですか？

エッジデバイスでのAI推論長文ドキュメントの解析マルチモーダル情報の処理

モデル一覧に戻る

DeepMindオープンソース

Gemma 4 E4B（有效4B端侧高性能模型）

Name: Gemma 4 E4B（有效4B端侧高性能模型）
Author: DeepMind

Gemma 4 E4Bは、DeepMindが開発したマルチモーダル基盤モデルです。8.0Bのパラメータ規模を持ちながら、デバイス上での効率的な動作を実現する高性能な設計となっています。

パラメータ

8.0B

コンテキスト長

128K

ライセンス

Apache 2.0

リリース日

2026-04

API料金

このモデルのAPI料金情報は現在未公開です

強み

・オンデバイスでの高い性能
・128Kの長いコンテキスト窓
・柔軟なApache 2.0ライセンス

弱み

・8.0Bの中規模なパラメータ数
・マルチモーダル対応の負荷
・特定用途への最適化の必要性

活用例

・エッジデバイスでのAI推論
・長文ドキュメントの解析
・マルチモーダル情報の処理

深度分析

有効パラメータ

4.5B

Per-Layer Embeddingsを含む合計8.0B

MMLU Pro

69.4%

Gemma 3 27Bと比較：67.6%

LiveCodeBench v6

52.0%

Gemma 3 27Bと比較：29.1%

GPQA Diamond

58.6%

Gemma 3 27Bと比較：42.4%

コンテキストウィンドウ

128Kトークン

ネイティブな長コンテキストサポート

生成速度

~70 t/s

RTX 4070 Ti、Q8_0、フルオフロード

VRAM (Q4)

~8 GB

コンシューマーGPUおよびApple Siliconで動作可能

ライセンス

Apache 2.0

完全オープン、商用利用可能

強み

・エッジティアモデルにもかかわらず、推論、コーディング、科学ベンチマークでGemma 3 27B（その6倍のサイズ）を凌駕
・テキストやビジョンに加え、ネイティブな音声入力をサポート — Gemma 4変種の中で唯一であり、オンデバイスでの音声/ASRユースケースを可能にする
・極めて高効率：ミッドレンジのRTX 4070 Tiで約70 t/sの生成速度、128Kコンテキストまで穏やかな性能低下

弱み

・E2Bのような思考/連鎖思考（CoT）モードをサポートしていない — 複雑な多段階推論タスクには不向き
・ハードな数学やコーディングベンチマークでは、より大きなGem 4兄弟モデル（31B: 89.2% AIME vs E4B: 42.5%）に大きく後れをとる
・Ollamaとの統合時の癖：E4Bは思考モードを完全に欠き、E2Bがデフォルトで備えているため、ファミリー全体で開発者体験に一貫性がない

競合比較

Model	Arena	SWE	GPQA	Price
Gemma 4 E2B	N/A	N/A	43.4%	無料（セルフホスト）
Gemma 4 26B A4B	1441	N/A	82.3%	無料（セルフホスト）
Gemma 4 31B	1452	N/A	84.3%	無料（セルフホスト）
Gemma 3 27B	1365	N/A	42.4%	無料（セルフホスト）

概要

Gemma 4 E4Bは、Google DeepMindによるGemma 4ファミリーの高性能エッジモデルで、2026年4月2日にリリースされました。有効パラメータは4.5B（Per-Layer Embeddingsを含む合計8.0B）に過ぎませんが、その規模を遥かに超える性能を発揮し、前世代のGemma 3 27Bと比較して推論（GPQA Diamond: 58.6% vs 42.4%）、コーディング（LiveCodeBench: 52.0% vs 29.1%）、数学（AIME: 42.5% vs 20.8%）の各ベンチマークで優れた結果を示しています。これは、前モデルの6分の1のサイズで優れた結果をもたらす世代飛躍であり、効率的なAIアーキテクチャにおける画期的な成果です。このモデルは、ラップトップ、スマートフォン、IoTデバイスなど、コンシューマーハードウェアでのデプロイを目的として設計されています。フルGPUオフロード状態のRTX 4070 Tiでは、約70トークン/秒の生成速度を達成し、最大128Kのコンテキスト長にわたって安定した性能を示します。Q4量子化バージョンは約8GBのVRAMしか必要とせず、Apple Siliconの統合メモリ上でも快適に動作します。Gemma 4ファミリー内で唯一、E4Bは（テキストやビジョンに加え）ネイティブな音声入力をサポートしており、より大きな26Bや31Bの変種にはない、オンデバイスでの音声理解を可能にする機能を提供します。エッジおよびローカルデプロイ向けの推奨スタート地点として位置づけられ、E4Bは摩擦のない商用採用のためにApache 2.0ライセンスを採用しています。E2Bで利用可能な思考/CoTモードは欠けていますが、ベンチマークは構造化されたタスク（抽出、翻訳、コミットメッセージ）においてより優れた出力品質と高速な実効スループットを提供することを示しています。Gemma 4ファミリー内で開発者向けに、Googleとコミュニティのコンセンサスは明確です：エッジ/モバイルユースケースにはまずE4Bを試し、ワークステーショングレードの推論には26B A4Bへ、最高品質が絶対条件の場合のみ31Bを検討してください。

ベンチマーク＆性能

## ベンチマークスコア (IT + 該当する場合は思考モード) | ベンチマーク | Gemma 4 E4B | Gemma 4 E2B | Gemma 4 26B A4B | Gemma 4 31B | Gemma 3 27B | |---|---|---|---|---|---| | MMLU Pro (知識) | 69.4% | 60.0% | 82.6% | 85.2% | 67.6% | | GPQA Diamond (科学) | 58.6% | 43.4% | 82.3% | 84.3% | 42.4% | | AIME 2026 (数学) | 42.5% | 37.5% | 88.3% | 89.2% | 20.8% | | LiveCodeBench v6 (コード) | 52.0% | 44.0% | 77.1% | 80.0% | 29.1% | | MMMU Pro (ビジョン) | 52.6% | 44.2% | 73.8% | 76.9% | 49.7% | | τ2-bench小売 (エージェント) | 57.5% | 29.4% | 85.5% | 86.4% | 6.6% | | アリーナElo (テキスト) | N/A | N/A | 1441 | 1452 | 1365 | | Codeforces ELO | 940 | — | 1718 | 2150 | 110 | ## 推論性能 (RTX 4070 Ti, Q8_0, フルGPUオフロード) | メトリック | Gemma 4 E4B | Gemma 4 26B A4B (Q4) | |---|---|---| | プロンプト処理 (pp512) | 6,757 t/s | 333 t/s | | 生成 (tg128) | 69.7 t/s | 13.7 t/s | | プロンプト処理 (pp16K) | 5,993 t/s | 268 t/s | | 生成 (tg256) | 70.8 t/s | ~15 t/s | 重要な知見: 同一コンシューマーハードウェア上で、E4Bは26B A4Bと比較して生成速度で約5倍、プロンプト処理速度で約20倍高速です。生成速度は4Kから128Kコンテキストまで安定しており、KVキャッシュの穏やかな挙動を示しています。

詳細比較

## Gemma 4 E4B vs Gemma 4 E2B (エッジ兄弟モデル) | 次元 | E4B | E2B | |---|---|---| | 有効パラメータ | 4.5B | 2.3B | | 総パラメータ | 8.0B | 5.1B | | コンテキストウィンドウ | 128K | 128K | | 音声入力 | ✅ | ✅ | | 思考モード | ❌ | ✅ (Ollamaデフォルト) | | MMLU Pro | 69.4% | 60.0% | | GPQA Diamond | 58.6% | 43.4% | | 生成速度 (RTX 3070) | ~30 t/s | ~40-46 t/s | | VRAM (Q4) | ~8 GB | ~5 GB | | 最適用途 | 構造化タスク、エージェントワークフロー、品質重視のエッジ利用 | 超低リソースデバイス、思考モードを用いた推論 | E2Bの生のTPSが高いにもかかわらず、構造化タスクではE4Bが実際には高速な場合が多いです。これは、E2Bのデフォルトの思考モードが内部的に10〜30倍多くのトークンを消費するためです。キーワード抽出では、E4Bが0.74秒/13トークンで完了したのに対し、E2Bは7.4秒/280トークンを要しました。 ## Gemma 4 E4B vs Gemma 4 26B A4B (ワークステーション用MoE兄弟モデル) | 次元 | E4B | 26B A4B | |---|---|---| | アーキテクチャ | Dense | MoE (128エキスパート、8アクティブ) | | 総パラメータ | 8.0B | 25.2B | | コンテキストウィンドウ | 128K | 256K | | 音声入力 | ✅ | ❌ | | AIME 2026 | 42.5% | 88.3% | | LiveCodeBench | 52.0% | 77.1% | | VRAM (Q4) | ~8 GB | ~18 GB | | 生成速度 (4070 Ti) | ~70 t/s | ~14 t/s | | 最適用途 | モバイル/エッジ、高速ローカルタスク、RAG | 高度な推論、コーディングエージェント、長コンテキストワークフロー | 26B A4Bは困難なタスクで劇的に高い品質を提供しますが、2倍以上のVRAMを必要とし、5倍遅く動作します。軽量なRAG、要約、検索タスクにはE4Bが現実的な選択肢です。複雑な多段階のコーディングや推論には、26B A4Bが明らかに優れています。 ## Gemma 4 E4B vs Gemma 3 27B (前世代) E4Bは約6倍も小さいにもかかわらず、すべてのベンチマークでGemma 3 27Bを決定的に凌駕しています：GPQA 58.6% vs 42.4%、LiveCodeBench 52.0% vs 29.1%、AIME 42.5% vs 20.8%、τ2-bench 57.5% vs 6.6%。これは、Gemma 4におけるアーキテクチャの進歩（PLE、共有KVキャッシュ、デュアルRoPE）を示しています。

コミュニティ評価

開発者コミュニティは、Gemma 4 E4Bをファミリーの「スイートスポット」モデルとして熱狂的に受け入れました。主な反応は以下の通りです： **効率性への賛辞**: 複数のベンチマークがE4Bの際立ったポジションを確認しています。KodeLabチームは、E4Bが「前世代の27Bモデルを、ほぼ6分の1のサイズでいくつかの推論タスクで凌駕する」と指摘し、「ローカルエージェント開発の理想的候補」と呼んでいます。Gemma 4 Wikiは、「実際のパラメータ数を遥かに超える性能を達成している」と記述しています。 **Ollama採用率が高い**: コミュニティガイドは一貫して、`ollama run gemma4:e4b`を最初に試すコマンドとして推奨しています。 **エージェントワークフローでの牽引力**: RTX 4070 Tiベンチマークの作成者（Alfonso Fortunato）は、「4070 Tiでの日常的なローカル作業では、私はまずE4Bを選ぶだろう...本当の目標が軽量なローカルRAG、ウェブからの情報取得、その優れた要約、そしてより小さなツール利用タスクの処理なら」と結論づけています。 **思考モードの驚き**: 注目すべきコミュニティの発見（KodeLab）として、OllamaのE2Bレンダラーがデフォルトで思考トークンを自動注入するのに対し、E4Bは思考モードを一切サポートしないことが明らかになりました。これにより、実践的な指針が生まれました：「直接回答が好まれるエージェントワークフローにはE4Bを、複雑な推論にはE2B + 思考モードを使用せよ」。 **量子化とデプロイ**: UnslothのGGUFバージョンが広く使用されています。コミュニティのコンセンサスでは、Q4_K_M (~8GB)がほとんんどのユーザーにとって最適なトレードオフであり、VRAMに余裕がある場合は品質が重要な作業にはQ8_0 (~15GB)が推奨されています。 **採用パターン**: E4Bは最もデプロイされたエッジ変種であるように見え、Ollamaの設定、llama.cppのセットアップ、モバイルデプロイガイドに頻繁に登場します。Apache 2.0ライセンスは、企業評価における「調達と法的摩擦」を除去するものとして特に言及されています。

ユースケース

### 1. ローカルRAGと文書要約 E4Bは、コンシューマーハードウェア上での検索拡張生成（RAG）ワークフローに優れています。128KコンテキストとRTX 4070 Tiで約70 t/sの生成速度により、大量の文書コレクションを処理し、根拠のある質問に答え、正確な要約を生成できます。コンテキスト長（4Kから128Kまで速度低下なし）にわたる安定した性能により、「大きな文書を貼り付け、質問する」というパターンに最適です。要約タスクでは微々たる品質向上よりも5倍の速度優位が重要になるため、26B A4BではなくE4Bを選択してください。 ### 2. エッジデバイスでの音声とマルチモーダル理解小さなフォームファクターで音声＋ビジョン＋テキスト入力を組み合わせる唯一のGemma 4モデルとして、E4Bはユニークなオンデバイスユースケースを可能にします：会議の書き起こし（30秒の音声チャンク）、スクリーンショット/GUIの理解、画像からのテキスト読み取り、短いビデオクリップの処理。量子化された重みを用いたRaspberry Pi 5やJetson Nanoでは、完全にオフラインで実行できます。音声/ビジョンの品質が重要な場合はE2BではなくE4Bを、26B/31Bはネイティブ音声サポートを完全に欠いているため、それらではなくE4Bを選択してください。 ### 3. エージェント的なツール利用とコーディングアシスタント E4Bのτ2-benchスコア57.5%（E2Bの29.4%と比較）は、強力な関数呼び出しとツール利用能力を示しています。llama.cppまたはOllamaを通じて提供されるOpenAI互換エンドポイントにより、OpenClaw、Hermes Agent、opencodeなどのエージェントフレームワークとシームレスに統合されます。コーディングアシスタントとして、信頼性の高い慣例的なコミットメッセージ、シェルコマンド、コードスニペットを生成します。思考モードのレイテンシペナルティなしに、より完全で正確な構造化出力を生成するため、エージェントワークフローではE2BではなくE4Bを選択してください。 ### 4. 軽量な分類、抽出、および翻訳パイプラインバッチ処理タスク（感情分析、キーワード抽出、メールからJSONへの変換、翻訳、構造化データ抽出）では、E4Bは実効スループットでE2Bを劇的に凌駕します。KodeLabのベンチマークでは、E4Bが同等品質の出力に対して0.74秒（13トークン）でキーワード抽出を完了したのに対し、E2Bは7.4秒（280トークン）を要しました。以下の場合、すべての代替手段ではなくE4Bを選択してください：タスクが明確に定義されており、出力が短く、スループット/レイテンシが重要な場合。最大効率のために `temperature=0.2` と設定し、思考を無効にしてください。

最新ニュース

## リリースと入手可能性 (2026年4月2-3日) - **Gemma 4ファミリーリリース** 2026年4月2日、Apache 2.0ライセンスの下、E2B、E4B、26B A4B、31Bの各変種を含む。 - **Google AI Edge Gallery**がモバイルおよびエッジデバイス向けのE4BおよびE2Bの主要なダウンロード/デプロイパスとして発表。 - **AI Studio**が31Bおよび26B A4B変種のオンラインテストを提供（E4Bは直接対象外）。 ## エコシステムサポート (2026年4月2-7日) - **Ollama**: `ollama run gemma4:e4b`（`gemma4:latest`タグ付きでE4B）による完全サポート。コミュニティにより、Ollama上でE4Bが思考モードサポートを欠き、E2Bには思考トークンが自動注入されることが発見された。 - **Transformers v5.5.0**: ネイティブGemma 4サポート（MoEアーキテクチャ処理含む）に必要な最小バージョン。 - **llama.cpp**: UnslothによるGGUF量子化（Q4_K_M、Q8_0など）を含む完全サポート。Anthropic互換エンドポイント `/v1/messages` により、実験的なClaude Code統合が可能。 - **MLX**: Apple Silicon最適化済みサポートが利用可能。 - **LM Studio**: ローカルデプロイ用のグラフィックインターフェース付きでサポート。 ## アーキテクチャのハイライト - **層ごと埋め込み (PLE)**: 各デコーダ層が独自の小さな埋め込みテーブルを持ち、合計8Bパラメータで約4Bパラメータ相当の性能を実現。 - **デュアルRoPE**: 効率的な長コンテキスト処理のため、交互にスライディングウィンドウとグローバルアテンションを使用。 - **共有KVキャッシュ**: 最終層が前の層のキー値状態を再利用し、メモリフットプリントを削減。 ## 価格 - E4BはApache 2.0の下で**無料かつオープンウェイト**。E4B専用のAPI価格設定は存在せず、セルフホスト用に設計されている。 - より大きなGemma 4モデルはGoogle AI Studioで無料テストが可能；検索結果時点で標準的な有料API SKUは発表されていない。

このモデルは、ラップトップ、スマートフォン、IoTデバイスなど、コンシューマーハードウェアでのデプロイを目的として設計されています。フルGPUオフロード状態のRTX 4070 Tiでは、約70トークン/秒の生成速度を達成し、最大128Kのコンテキスト長にわたって安定した性能を示します。Q4量子化バージョンは約8GBのVRAMしか必要とせず、Apple Siliconの統合メモリ上でも快適に動作します。Gemma 4ファミリー内で唯一、E4Bは（テキストやビジョンに加え）ネイティブな音声入力をサポートしており、より大きな26Bや31Bの変種にはない、オンデバイスでの音声理解を可能にする機能を提供します。

エッジおよびローカルデプロイ向けの推奨スタート地点として位置づけられ、E4Bは摩擦のない商用採用のためにApache 2.0ライセンスを採用しています。E2Bで利用可能な思考/CoTモードは欠けていますが、ベンチマークは構造化されたタスク（抽出、翻訳、コミットメッセージ）においてより優れた出力品質と高速な実効スループットを提供することを示しています。Gemma 4ファミリー内で開発者向けに、Googleとコミュニティのコンセンサスは明確です：エッジ/モバイルユースケースにはまずE4Bを試し、ワークステーショングレードの推論には26B A4Bへ、最高品質が絶対条件の場合のみ31Bを検討してください。

出典

分析生成日: 2026-05-23