Guía Móvil

Gemma 4 en Android

Ejecuta Gemma 4 de Google directamente en tu teléfono Android — completamente sin conexión, sin costos de nube, privacidad total. El modelo edge E2B ofrece IA en tiempo real en cualquier Android flagship con Snapdragon 8 Gen 2 o posterior.

Android Kotlin Vulkan GPU On-Device Offline

¿Por qué ejecutar Gemma 4 en Android?

Privacidad total — prompts y respuestas nunca salen del dispositivo
Funciona sin conexión — sin Wi-Fi ni datos móviles
Gratis tras la descarga — sin facturas de API, sin suscripciones
Respuesta instantánea en Snapdragon 8 Gen 3 / Dimensity 9300

Qué Modelo Usar

Model	Storage	Active RAM	Speed (SD 8 Gen 3)	Recommendation
Gemma 4 E2B Q4_K_M	~2.4 GB	~2.5 GB	14–20 tok/s	Best for Android
Gemma 4 E2B Q8	~4.4 GB	~4.6 GB	9–13 tok/s	Higher quality
Gemma 4 E4B Q4_K_M	~4.2 GB	~4.5 GB	8–12 tok/s	Larger model

E2B Q4_K_M es el punto de partida recomendado para Android. Ocupa ~2.4 GB de almacenamiento, usa ~2.5 GB de RAM durante la inferencia y corre a velocidades prácticas en cualquier chipset flagship desde 2023.

Método 1 — Google AI Edge / MediaPipe (Kotlin)

La ruta oficial de Google. El AI Edge SDK se integra directamente con Android Studio y usa el delegado GPU para inferencia acelerada por hardware. Ideal para construir tu propia app.

build.gradle

// build.gradle (app)
dependencies {
    implementation("com.google.ai.edge.litert:litert:1.0.1")
    implementation("com.google.ai.edge.litert:litert-gpu:1.0.1")
}

Kotlin Inference

import com.google.ai.edge.litert.LiteRtSession

// Initialize with E2B model asset
val session = LiteRtSession.createFromAsset(
    context,
    "gemma4-e2b-it-q4.task",
    LiteRtSession.Options.builder()
        .setPreferredBackend(LiteRtSession.Backend.GPU)
        .build()
)

// Generate response
val result = session.generateResponse("What is Gemma 4?")
println(result)

Método 2 — App Android MLC-LLM

MLC-LLM proporciona un APK Android precompilado que ejecuta modelos Gemma 4 GGUF con aceleración GPU Vulkan. Descarga el APK de GitHub Releases de MLC-LLM, instálalo y carga el modelo Gemma 4 E2B Q4 desde la app. Sin código necesario — funciona en cualquier dispositivo Android 10+ con GPU moderno.

Step 1

Download MLC-LLM APK from GitHub Releases page

Step 2

Install APK (enable "Unknown sources" in settings)

Step 3

Open app → Add Model → select Gemma 4 E2B Q4

Método 3 — Termux + llama.cpp (Usuarios Avanzados)

Para desarrolladores que quieren control total. Instala Termux desde F-Droid, compila llama.cpp con soporte OpenCL o Vulkan, descarga el modelo GGUF y ejecuta la inferencia desde el terminal. Configuración más compleja pero da acceso directo a todos los flags de llama.cpp incluyendo longitud de contexto, temperatura y tamaño de batch.

# Install Termux from F-Droid (not Play Store)
# Then inside Termux:
pkg update && pkg install clang cmake git

# Clone and build llama.cpp with Vulkan
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release -j4

# Download Gemma 4 E2B Q4_K_M GGUF
# (copy to phone storage or wget from Hugging Face)

# Run inference
./build/bin/llama-cli \
  -m /sdcard/gemma4-e2b-q4_k_m.gguf \
  -p "Explain machine learning simply" \
  -n 200 --gpu-layers 99

Requisitos de Hardware Android

Chipset	GPU API	E2B Q4 Speed	Devices
Snapdragon 8 Elite	Vulkan — Full	18–25 tok/s	Galaxy S25, Xiaomi 15
Snapdragon 8 Gen 3	Vulkan — Full	14–20 tok/s	Galaxy S24, OnePlus 12
Snapdragon 8 Gen 2	Vulkan — Full	10–15 tok/s	Galaxy S23, Pixel 8 Pro
Dimensity 9300 / 9400	Vulkan — Full	12–18 tok/s	Xiaomi 14, vivo X100
Snapdragon 7s Gen 2	CPU fallback	3–5 tok/s	Mid-range devices
Older chipsets	CPU only	1–3 tok/s	Not recommended

Los chipsets de gama media (Snapdragon 7s Gen 2 e inferiores) pueden ejecutar E2B Q4 via CPU pero espera 2–4 tokens/seg. Los chips flagship con cómputo GPU Vulkan/OpenCL ofrecen 10–20+ tokens/seg.

Benchmarks de Rendimiento

Task	Pixel 8 Pro (SD 8 Gen 2)	Galaxy S24 (SD 8 Gen 3)
Text generation (tok/s)	13	18
First token latency	~0.5s	~0.3s
512→512 token throughput	10 tok/s	15 tok/s
RAM usage (peak)	2.9 GB	2.7 GB
Battery drain (per hour)	~20%	~16%

Tokens/seg con Gemma 4 E2B Q4_K_M, prompt de 512 tokens. La ruta GPU usa cómputo Vulkan via MLC-LLM o AI Edge SDK.

Consejos para el Mejor Rendimiento

Activa la aceleración GPU — el delegado Vulkan es 4–6× más rápido que CPU
Usa cuantización Q4_K_M — mejor relación calidad/velocidad en móvil
Activa el modo rendimiento de Android antes de sesiones largas (Ajustes → Batería → Rendimiento)
Mantén los prompts bajo 2K tokens — los contextos más largos ralentizan significativamente el primer token