モバイルガイド

Gemma 4 Android で動かす

GoogleのGemma 4をAndroidスマートフォン上で直接実行 — 完全オフライン、クラウド費用ゼロ、データプライバシー完全保護。E2BエッジモデルはSnapdragon 8 Gen 2以降を搭載した任意のフラッグシップAndroidでリアルタイムAIを実現します。

Android Kotlin Vulkan GPU On-Device Offline

AndroidでGemma 4を動かす理由

完全なプライバシー — プロンプトとレスポンスはデバイスの外に出ない
オフライン動作 — Wi-Fiもモバイルデータも不要
ダウンロード後は完全無料 — API費用なし、サブスクなし
Snapdragon 8 Gen 3 / Dimensity 9300で即時レスポンス

推奨モデル

Model	Storage	Active RAM	Speed (SD 8 Gen 3)	Recommendation
Gemma 4 E2B Q4_K_M	~2.4 GB	~2.5 GB	14–20 tok/s	Best for Android
Gemma 4 E2B Q8	~4.4 GB	~4.6 GB	9–13 tok/s	Higher quality
Gemma 4 E4B Q4_K_M	~4.2 GB	~4.5 GB	8–12 tok/s	Larger model

E2B Q4_K_Mがandroidの最有力候補です。ストレージ~2.4GB、推論時RAM~2.5GBで、2023年以降の任意のフラッグシップチップセットで実用的な速度で動作します。

メソッド1 — Google AI Edge / MediaPipe（Kotlin）

公式Googleの方法。AI Edge SDKはAndroid Studioと直接統合し、GPUデリゲートでハードウェアアクセラレーション推論を実現します。独自アプリ開発に最適。

build.gradle

// build.gradle (app)
dependencies {
    implementation("com.google.ai.edge.litert:litert:1.0.1")
    implementation("com.google.ai.edge.litert:litert-gpu:1.0.1")
}

Kotlin Inference

import com.google.ai.edge.litert.LiteRtSession

// Initialize with E2B model asset
val session = LiteRtSession.createFromAsset(
    context,
    "gemma4-e2b-it-q4.task",
    LiteRtSession.Options.builder()
        .setPreferredBackend(LiteRtSession.Backend.GPU)
        .build()
)

// Generate response
val result = session.generateResponse("What is Gemma 4?")
println(result)

メソッド2 — MLC-LLM Android アプリ

MLC-LLMはVulkan GPUアクセラレーションでGemma 4 GGUFモデルを動かすプリビルドAndroid APKを提供しています。MLC-LLM GitHub ReleasesからAPKをダウンロードしてインストールし、アプリ内でGemma 4 E2B Q4モデルを読み込むだけです。コード不要 — Android 10以上で現代的なGPUを持つ任意のデバイスで動作します。

Step 1

Download MLC-LLM APK from GitHub Releases page

Step 2

Install APK (enable "Unknown sources" in settings)

Step 3

Open app → Add Model → select Gemma 4 E2B Q4

メソッド3 — Termux + llama.cpp（上級者向け）

完全なコントロールを望む開発者向け。F-DroidからTermuxをインストールし、OpenCLまたはVulkanサポートでllama.cppをコンパイルし、GGUFモデルをダウンロードしてターミナルから推論を実行します。セットアップは複雑ですが、コンテキスト長、温度、バッチサイズなどすべてのllama.cppフラグに直接アクセスできます。

# Install Termux from F-Droid (not Play Store)
# Then inside Termux:
pkg update && pkg install clang cmake git

# Clone and build llama.cpp with Vulkan
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release -j4

# Download Gemma 4 E2B Q4_K_M GGUF
# (copy to phone storage or wget from Hugging Face)

# Run inference
./build/bin/llama-cli \
  -m /sdcard/gemma4-e2b-q4_k_m.gguf \
  -p "Explain machine learning simply" \
  -n 200 --gpu-layers 99

Androidのハードウェア要件

Chipset	GPU API	E2B Q4 Speed	Devices
Snapdragon 8 Elite	Vulkan — Full	18–25 tok/s	Galaxy S25, Xiaomi 15
Snapdragon 8 Gen 3	Vulkan — Full	14–20 tok/s	Galaxy S24, OnePlus 12
Snapdragon 8 Gen 2	Vulkan — Full	10–15 tok/s	Galaxy S23, Pixel 8 Pro
Dimensity 9300 / 9400	Vulkan — Full	12–18 tok/s	Xiaomi 14, vivo X100
Snapdragon 7s Gen 2	CPU fallback	3–5 tok/s	Mid-range devices
Older chipsets	CPU only	1–3 tok/s	Not recommended

中位チップセット（Snapdragon 7s Gen 2以下）はCPUでE2B Q4を動かせますが毎秒2〜4トークンの速度です。Vulkan/OpenCL GPUコンピュートを持つフラッグシップチップは毎秒10〜20以上のトークンを実現します。

パフォーマンスベンチマーク

Task	Pixel 8 Pro (SD 8 Gen 2)	Galaxy S24 (SD 8 Gen 3)
Text generation (tok/s)	13	18
First token latency	~0.5s	~0.3s
512→512 token throughput	10 tok/s	15 tok/s
RAM usage (peak)	2.9 GB	2.7 GB
Battery drain (per hour)	~20%	~16%

Gemma 4 E2B Q4_K_M、512トークンプロンプトでのトークン/秒。GPUパスはMLC-LLMまたはAI Edge SDK経由のVulkanコンピュートを使用。

最高のパフォーマンスのためのヒント

GPUアクセラレーションを有効化 — VulkanデリゲートはCPUより4〜6倍速い
Q4_K_M量化を使用 — モバイルで最高の品質/速度バランス
長時間セッション前にAndroidパフォーマンスモードを設定（設定→バッテリー→パフォーマンス）
プロンプトを2Kトークン以内に収める — 長いコンテキストは最初のトークン遅延を大幅に増加させる