G4

モバイルガイド

Gemma 4 Android で動かす

GoogleのGemma 4をAndroidスマートフォン上で直接実行 — 完全オフライン、クラウド費用ゼロ、データプライバシー完全保護。E2BエッジモデルはSnapdragon 8 Gen 2以降を搭載した任意のフラッグシップAndroidでリアルタイムAIを実現します。

Android Kotlin Vulkan GPU On-Device Offline

AndroidでGemma 4を動かす理由

  • 完全なプライバシー — プロンプトとレスポンスはデバイスの外に出ない
  • オフライン動作 — Wi-Fiもモバイルデータも不要
  • ダウンロード後は完全無料 — API費用なし、サブスクなし
  • Snapdragon 8 Gen 3 / Dimensity 9300で即時レスポンス

推奨モデル

ModelStorageActive RAMSpeed (SD 8 Gen 3)Recommendation
Gemma 4 E2B Q4_K_M~2.4 GB~2.5 GB14–20 tok/sBest for Android
Gemma 4 E2B Q8~4.4 GB~4.6 GB9–13 tok/sHigher quality
Gemma 4 E4B Q4_K_M~4.2 GB~4.5 GB8–12 tok/sLarger model

E2B Q4_K_Mがandroidの最有力候補です。ストレージ~2.4GB、推論時RAM~2.5GBで、2023年以降の任意のフラッグシップチップセットで実用的な速度で動作します。

メソッド1 — Google AI Edge / MediaPipe(Kotlin)

公式Googleの方法。AI Edge SDKはAndroid Studioと直接統合し、GPUデリゲートでハードウェアアクセラレーション推論を実現します。独自アプリ開発に最適。

build.gradle

// build.gradle (app)
dependencies {
    implementation("com.google.ai.edge.litert:litert:1.0.1")
    implementation("com.google.ai.edge.litert:litert-gpu:1.0.1")
}

Kotlin Inference

import com.google.ai.edge.litert.LiteRtSession

// Initialize with E2B model asset
val session = LiteRtSession.createFromAsset(
    context,
    "gemma4-e2b-it-q4.task",
    LiteRtSession.Options.builder()
        .setPreferredBackend(LiteRtSession.Backend.GPU)
        .build()
)

// Generate response
val result = session.generateResponse("What is Gemma 4?")
println(result)

メソッド2 — MLC-LLM Android アプリ

MLC-LLMはVulkan GPUアクセラレーションでGemma 4 GGUFモデルを動かすプリビルドAndroid APKを提供しています。MLC-LLM GitHub ReleasesからAPKをダウンロードしてインストールし、アプリ内でGemma 4 E2B Q4モデルを読み込むだけです。コード不要 — Android 10以上で現代的なGPUを持つ任意のデバイスで動作します。

Step 1

Download MLC-LLM APK from GitHub Releases page

Step 2

Install APK (enable "Unknown sources" in settings)

Step 3

Open app → Add Model → select Gemma 4 E2B Q4

メソッド3 — Termux + llama.cpp(上級者向け)

完全なコントロールを望む開発者向け。F-DroidからTermuxをインストールし、OpenCLまたはVulkanサポートでllama.cppをコンパイルし、GGUFモデルをダウンロードしてターミナルから推論を実行します。セットアップは複雑ですが、コンテキスト長、温度、バッチサイズなどすべてのllama.cppフラグに直接アクセスできます。

# Install Termux from F-Droid (not Play Store)
# Then inside Termux:
pkg update && pkg install clang cmake git

# Clone and build llama.cpp with Vulkan
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release -j4

# Download Gemma 4 E2B Q4_K_M GGUF
# (copy to phone storage or wget from Hugging Face)

# Run inference
./build/bin/llama-cli \
  -m /sdcard/gemma4-e2b-q4_k_m.gguf \
  -p "Explain machine learning simply" \
  -n 200 --gpu-layers 99

Androidのハードウェア要件

ChipsetGPU APIE2B Q4 SpeedDevices
Snapdragon 8 EliteVulkan — Full18–25 tok/sGalaxy S25, Xiaomi 15
Snapdragon 8 Gen 3Vulkan — Full14–20 tok/sGalaxy S24, OnePlus 12
Snapdragon 8 Gen 2Vulkan — Full10–15 tok/sGalaxy S23, Pixel 8 Pro
Dimensity 9300 / 9400Vulkan — Full12–18 tok/sXiaomi 14, vivo X100
Snapdragon 7s Gen 2CPU fallback3–5 tok/sMid-range devices
Older chipsetsCPU only1–3 tok/sNot recommended

中位チップセット(Snapdragon 7s Gen 2以下)はCPUでE2B Q4を動かせますが毎秒2〜4トークンの速度です。Vulkan/OpenCL GPUコンピュートを持つフラッグシップチップは毎秒10〜20以上のトークンを実現します。

パフォーマンスベンチマーク

TaskPixel 8 Pro (SD 8 Gen 2)Galaxy S24 (SD 8 Gen 3)
Text generation (tok/s)1318
First token latency~0.5s~0.3s
512→512 token throughput10 tok/s15 tok/s
RAM usage (peak)2.9 GB2.7 GB
Battery drain (per hour)~20%~16%

Gemma 4 E2B Q4_K_M、512トークンプロンプトでのトークン/秒。GPUパスはMLC-LLMまたはAI Edge SDK経由のVulkanコンピュートを使用。

最高のパフォーマンスのためのヒント

  • GPUアクセラレーションを有効化 — VulkanデリゲートはCPUより4〜6倍速い
  • Q4_K_M量化を使用 — モバイルで最高の品質/速度バランス
  • 長時間セッション前にAndroidパフォーマンスモードを設定(設定→バッテリー→パフォーマンス)
  • プロンプトを2Kトークン以内に収める — 長いコンテキストは最初のトークン遅延を大幅に増加させる

関連