モバイルガイド
Gemma 4 Android で動かす
GoogleのGemma 4をAndroidスマートフォン上で直接実行 — 完全オフライン、クラウド費用ゼロ、データプライバシー完全保護。E2BエッジモデルはSnapdragon 8 Gen 2以降を搭載した任意のフラッグシップAndroidでリアルタイムAIを実現します。
AndroidでGemma 4を動かす理由
- 完全なプライバシー — プロンプトとレスポンスはデバイスの外に出ない
- オフライン動作 — Wi-Fiもモバイルデータも不要
- ダウンロード後は完全無料 — API費用なし、サブスクなし
- Snapdragon 8 Gen 3 / Dimensity 9300で即時レスポンス
推奨モデル
| Model | Storage | Active RAM | Speed (SD 8 Gen 3) | Recommendation |
|---|---|---|---|---|
| Gemma 4 E2B Q4_K_M | ~2.4 GB | ~2.5 GB | 14–20 tok/s | Best for Android |
| Gemma 4 E2B Q8 | ~4.4 GB | ~4.6 GB | 9–13 tok/s | Higher quality |
| Gemma 4 E4B Q4_K_M | ~4.2 GB | ~4.5 GB | 8–12 tok/s | Larger model |
E2B Q4_K_Mがandroidの最有力候補です。ストレージ~2.4GB、推論時RAM~2.5GBで、2023年以降の任意のフラッグシップチップセットで実用的な速度で動作します。
メソッド1 — Google AI Edge / MediaPipe(Kotlin)
公式Googleの方法。AI Edge SDKはAndroid Studioと直接統合し、GPUデリゲートでハードウェアアクセラレーション推論を実現します。独自アプリ開発に最適。
build.gradle
// build.gradle (app)
dependencies {
implementation("com.google.ai.edge.litert:litert:1.0.1")
implementation("com.google.ai.edge.litert:litert-gpu:1.0.1")
}Kotlin Inference
import com.google.ai.edge.litert.LiteRtSession
// Initialize with E2B model asset
val session = LiteRtSession.createFromAsset(
context,
"gemma4-e2b-it-q4.task",
LiteRtSession.Options.builder()
.setPreferredBackend(LiteRtSession.Backend.GPU)
.build()
)
// Generate response
val result = session.generateResponse("What is Gemma 4?")
println(result)メソッド2 — MLC-LLM Android アプリ
MLC-LLMはVulkan GPUアクセラレーションでGemma 4 GGUFモデルを動かすプリビルドAndroid APKを提供しています。MLC-LLM GitHub ReleasesからAPKをダウンロードしてインストールし、アプリ内でGemma 4 E2B Q4モデルを読み込むだけです。コード不要 — Android 10以上で現代的なGPUを持つ任意のデバイスで動作します。
Step 1
Download MLC-LLM APK from GitHub Releases page
Step 2
Install APK (enable "Unknown sources" in settings)
Step 3
Open app → Add Model → select Gemma 4 E2B Q4
メソッド3 — Termux + llama.cpp(上級者向け)
完全なコントロールを望む開発者向け。F-DroidからTermuxをインストールし、OpenCLまたはVulkanサポートでllama.cppをコンパイルし、GGUFモデルをダウンロードしてターミナルから推論を実行します。セットアップは複雑ですが、コンテキスト長、温度、バッチサイズなどすべてのllama.cppフラグに直接アクセスできます。
# Install Termux from F-Droid (not Play Store)
# Then inside Termux:
pkg update && pkg install clang cmake git
# Clone and build llama.cpp with Vulkan
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release -j4
# Download Gemma 4 E2B Q4_K_M GGUF
# (copy to phone storage or wget from Hugging Face)
# Run inference
./build/bin/llama-cli \
-m /sdcard/gemma4-e2b-q4_k_m.gguf \
-p "Explain machine learning simply" \
-n 200 --gpu-layers 99Androidのハードウェア要件
| Chipset | GPU API | E2B Q4 Speed | Devices |
|---|---|---|---|
| Snapdragon 8 Elite | Vulkan — Full | 18–25 tok/s | Galaxy S25, Xiaomi 15 |
| Snapdragon 8 Gen 3 | Vulkan — Full | 14–20 tok/s | Galaxy S24, OnePlus 12 |
| Snapdragon 8 Gen 2 | Vulkan — Full | 10–15 tok/s | Galaxy S23, Pixel 8 Pro |
| Dimensity 9300 / 9400 | Vulkan — Full | 12–18 tok/s | Xiaomi 14, vivo X100 |
| Snapdragon 7s Gen 2 | CPU fallback | 3–5 tok/s | Mid-range devices |
| Older chipsets | CPU only | 1–3 tok/s | Not recommended |
中位チップセット(Snapdragon 7s Gen 2以下)はCPUでE2B Q4を動かせますが毎秒2〜4トークンの速度です。Vulkan/OpenCL GPUコンピュートを持つフラッグシップチップは毎秒10〜20以上のトークンを実現します。
パフォーマンスベンチマーク
| Task | Pixel 8 Pro (SD 8 Gen 2) | Galaxy S24 (SD 8 Gen 3) |
|---|---|---|
| Text generation (tok/s) | 13 | 18 |
| First token latency | ~0.5s | ~0.3s |
| 512→512 token throughput | 10 tok/s | 15 tok/s |
| RAM usage (peak) | 2.9 GB | 2.7 GB |
| Battery drain (per hour) | ~20% | ~16% |
Gemma 4 E2B Q4_K_M、512トークンプロンプトでのトークン/秒。GPUパスはMLC-LLMまたはAI Edge SDK経由のVulkanコンピュートを使用。
最高のパフォーマンスのためのヒント
- GPUアクセラレーションを有効化 — VulkanデリゲートはCPUより4〜6倍速い
- Q4_K_M量化を使用 — モバイルで最高の品質/速度バランス
- 長時間セッション前にAndroidパフォーマンスモードを設定(設定→バッテリー→パフォーマンス)
- プロンプトを2Kトークン以内に収める — 長いコンテキストは最初のトークン遅延を大幅に増加させる