G4

Guía Móvil

Gemma 4 en Android

Ejecuta Gemma 4 de Google directamente en tu teléfono Android — completamente sin conexión, sin costos de nube, privacidad total. El modelo edge E2B ofrece IA en tiempo real en cualquier Android flagship con Snapdragon 8 Gen 2 o posterior.

Android Kotlin Vulkan GPU On-Device Offline

¿Por qué ejecutar Gemma 4 en Android?

  • Privacidad total — prompts y respuestas nunca salen del dispositivo
  • Funciona sin conexión — sin Wi-Fi ni datos móviles
  • Gratis tras la descarga — sin facturas de API, sin suscripciones
  • Respuesta instantánea en Snapdragon 8 Gen 3 / Dimensity 9300

Qué Modelo Usar

ModelStorageActive RAMSpeed (SD 8 Gen 3)Recommendation
Gemma 4 E2B Q4_K_M~2.4 GB~2.5 GB14–20 tok/sBest for Android
Gemma 4 E2B Q8~4.4 GB~4.6 GB9–13 tok/sHigher quality
Gemma 4 E4B Q4_K_M~4.2 GB~4.5 GB8–12 tok/sLarger model

E2B Q4_K_M es el punto de partida recomendado para Android. Ocupa ~2.4 GB de almacenamiento, usa ~2.5 GB de RAM durante la inferencia y corre a velocidades prácticas en cualquier chipset flagship desde 2023.

Método 1 — Google AI Edge / MediaPipe (Kotlin)

La ruta oficial de Google. El AI Edge SDK se integra directamente con Android Studio y usa el delegado GPU para inferencia acelerada por hardware. Ideal para construir tu propia app.

build.gradle

// build.gradle (app)
dependencies {
    implementation("com.google.ai.edge.litert:litert:1.0.1")
    implementation("com.google.ai.edge.litert:litert-gpu:1.0.1")
}

Kotlin Inference

import com.google.ai.edge.litert.LiteRtSession

// Initialize with E2B model asset
val session = LiteRtSession.createFromAsset(
    context,
    "gemma4-e2b-it-q4.task",
    LiteRtSession.Options.builder()
        .setPreferredBackend(LiteRtSession.Backend.GPU)
        .build()
)

// Generate response
val result = session.generateResponse("What is Gemma 4?")
println(result)

Método 2 — App Android MLC-LLM

MLC-LLM proporciona un APK Android precompilado que ejecuta modelos Gemma 4 GGUF con aceleración GPU Vulkan. Descarga el APK de GitHub Releases de MLC-LLM, instálalo y carga el modelo Gemma 4 E2B Q4 desde la app. Sin código necesario — funciona en cualquier dispositivo Android 10+ con GPU moderno.

Step 1

Download MLC-LLM APK from GitHub Releases page

Step 2

Install APK (enable "Unknown sources" in settings)

Step 3

Open app → Add Model → select Gemma 4 E2B Q4

Método 3 — Termux + llama.cpp (Usuarios Avanzados)

Para desarrolladores que quieren control total. Instala Termux desde F-Droid, compila llama.cpp con soporte OpenCL o Vulkan, descarga el modelo GGUF y ejecuta la inferencia desde el terminal. Configuración más compleja pero da acceso directo a todos los flags de llama.cpp incluyendo longitud de contexto, temperatura y tamaño de batch.

# Install Termux from F-Droid (not Play Store)
# Then inside Termux:
pkg update && pkg install clang cmake git

# Clone and build llama.cpp with Vulkan
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release -j4

# Download Gemma 4 E2B Q4_K_M GGUF
# (copy to phone storage or wget from Hugging Face)

# Run inference
./build/bin/llama-cli \
  -m /sdcard/gemma4-e2b-q4_k_m.gguf \
  -p "Explain machine learning simply" \
  -n 200 --gpu-layers 99

Requisitos de Hardware Android

ChipsetGPU APIE2B Q4 SpeedDevices
Snapdragon 8 EliteVulkan — Full18–25 tok/sGalaxy S25, Xiaomi 15
Snapdragon 8 Gen 3Vulkan — Full14–20 tok/sGalaxy S24, OnePlus 12
Snapdragon 8 Gen 2Vulkan — Full10–15 tok/sGalaxy S23, Pixel 8 Pro
Dimensity 9300 / 9400Vulkan — Full12–18 tok/sXiaomi 14, vivo X100
Snapdragon 7s Gen 2CPU fallback3–5 tok/sMid-range devices
Older chipsetsCPU only1–3 tok/sNot recommended

Los chipsets de gama media (Snapdragon 7s Gen 2 e inferiores) pueden ejecutar E2B Q4 via CPU pero espera 2–4 tokens/seg. Los chips flagship con cómputo GPU Vulkan/OpenCL ofrecen 10–20+ tokens/seg.

Benchmarks de Rendimiento

TaskPixel 8 Pro (SD 8 Gen 2)Galaxy S24 (SD 8 Gen 3)
Text generation (tok/s)1318
First token latency~0.5s~0.3s
512→512 token throughput10 tok/s15 tok/s
RAM usage (peak)2.9 GB2.7 GB
Battery drain (per hour)~20%~16%

Tokens/seg con Gemma 4 E2B Q4_K_M, prompt de 512 tokens. La ruta GPU usa cómputo Vulkan via MLC-LLM o AI Edge SDK.

Consejos para el Mejor Rendimiento

  • Activa la aceleración GPU — el delegado Vulkan es 4–6× más rápido que CPU
  • Usa cuantización Q4_K_M — mejor relación calidad/velocidad en móvil
  • Activa el modo rendimiento de Android antes de sesiones largas (Ajustes → Batería → Rendimiento)
  • Mantén los prompts bajo 2K tokens — los contextos más largos ralentizan significativamente el primer token

Relacionado