Guía Móvil
Gemma 4 en Android
Ejecuta Gemma 4 de Google directamente en tu teléfono Android — completamente sin conexión, sin costos de nube, privacidad total. El modelo edge E2B ofrece IA en tiempo real en cualquier Android flagship con Snapdragon 8 Gen 2 o posterior.
¿Por qué ejecutar Gemma 4 en Android?
- Privacidad total — prompts y respuestas nunca salen del dispositivo
- Funciona sin conexión — sin Wi-Fi ni datos móviles
- Gratis tras la descarga — sin facturas de API, sin suscripciones
- Respuesta instantánea en Snapdragon 8 Gen 3 / Dimensity 9300
Qué Modelo Usar
| Model | Storage | Active RAM | Speed (SD 8 Gen 3) | Recommendation |
|---|---|---|---|---|
| Gemma 4 E2B Q4_K_M | ~2.4 GB | ~2.5 GB | 14–20 tok/s | Best for Android |
| Gemma 4 E2B Q8 | ~4.4 GB | ~4.6 GB | 9–13 tok/s | Higher quality |
| Gemma 4 E4B Q4_K_M | ~4.2 GB | ~4.5 GB | 8–12 tok/s | Larger model |
E2B Q4_K_M es el punto de partida recomendado para Android. Ocupa ~2.4 GB de almacenamiento, usa ~2.5 GB de RAM durante la inferencia y corre a velocidades prácticas en cualquier chipset flagship desde 2023.
Método 1 — Google AI Edge / MediaPipe (Kotlin)
La ruta oficial de Google. El AI Edge SDK se integra directamente con Android Studio y usa el delegado GPU para inferencia acelerada por hardware. Ideal para construir tu propia app.
build.gradle
// build.gradle (app)
dependencies {
implementation("com.google.ai.edge.litert:litert:1.0.1")
implementation("com.google.ai.edge.litert:litert-gpu:1.0.1")
}Kotlin Inference
import com.google.ai.edge.litert.LiteRtSession
// Initialize with E2B model asset
val session = LiteRtSession.createFromAsset(
context,
"gemma4-e2b-it-q4.task",
LiteRtSession.Options.builder()
.setPreferredBackend(LiteRtSession.Backend.GPU)
.build()
)
// Generate response
val result = session.generateResponse("What is Gemma 4?")
println(result)Método 2 — App Android MLC-LLM
MLC-LLM proporciona un APK Android precompilado que ejecuta modelos Gemma 4 GGUF con aceleración GPU Vulkan. Descarga el APK de GitHub Releases de MLC-LLM, instálalo y carga el modelo Gemma 4 E2B Q4 desde la app. Sin código necesario — funciona en cualquier dispositivo Android 10+ con GPU moderno.
Step 1
Download MLC-LLM APK from GitHub Releases page
Step 2
Install APK (enable "Unknown sources" in settings)
Step 3
Open app → Add Model → select Gemma 4 E2B Q4
Método 3 — Termux + llama.cpp (Usuarios Avanzados)
Para desarrolladores que quieren control total. Instala Termux desde F-Droid, compila llama.cpp con soporte OpenCL o Vulkan, descarga el modelo GGUF y ejecuta la inferencia desde el terminal. Configuración más compleja pero da acceso directo a todos los flags de llama.cpp incluyendo longitud de contexto, temperatura y tamaño de batch.
# Install Termux from F-Droid (not Play Store)
# Then inside Termux:
pkg update && pkg install clang cmake git
# Clone and build llama.cpp with Vulkan
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_VULKAN=ON
cmake --build build --config Release -j4
# Download Gemma 4 E2B Q4_K_M GGUF
# (copy to phone storage or wget from Hugging Face)
# Run inference
./build/bin/llama-cli \
-m /sdcard/gemma4-e2b-q4_k_m.gguf \
-p "Explain machine learning simply" \
-n 200 --gpu-layers 99Requisitos de Hardware Android
| Chipset | GPU API | E2B Q4 Speed | Devices |
|---|---|---|---|
| Snapdragon 8 Elite | Vulkan — Full | 18–25 tok/s | Galaxy S25, Xiaomi 15 |
| Snapdragon 8 Gen 3 | Vulkan — Full | 14–20 tok/s | Galaxy S24, OnePlus 12 |
| Snapdragon 8 Gen 2 | Vulkan — Full | 10–15 tok/s | Galaxy S23, Pixel 8 Pro |
| Dimensity 9300 / 9400 | Vulkan — Full | 12–18 tok/s | Xiaomi 14, vivo X100 |
| Snapdragon 7s Gen 2 | CPU fallback | 3–5 tok/s | Mid-range devices |
| Older chipsets | CPU only | 1–3 tok/s | Not recommended |
Los chipsets de gama media (Snapdragon 7s Gen 2 e inferiores) pueden ejecutar E2B Q4 via CPU pero espera 2–4 tokens/seg. Los chips flagship con cómputo GPU Vulkan/OpenCL ofrecen 10–20+ tokens/seg.
Benchmarks de Rendimiento
| Task | Pixel 8 Pro (SD 8 Gen 2) | Galaxy S24 (SD 8 Gen 3) |
|---|---|---|
| Text generation (tok/s) | 13 | 18 |
| First token latency | ~0.5s | ~0.3s |
| 512→512 token throughput | 10 tok/s | 15 tok/s |
| RAM usage (peak) | 2.9 GB | 2.7 GB |
| Battery drain (per hour) | ~20% | ~16% |
Tokens/seg con Gemma 4 E2B Q4_K_M, prompt de 512 tokens. La ruta GPU usa cómputo Vulkan via MLC-LLM o AI Edge SDK.
Consejos para el Mejor Rendimiento
- Activa la aceleración GPU — el delegado Vulkan es 4–6× más rápido que CPU
- Usa cuantización Q4_K_M — mejor relación calidad/velocidad en móvil
- Activa el modo rendimiento de Android antes de sesiones largas (Ajustes → Batería → Rendimiento)
- Mantén los prompts bajo 2K tokens — los contextos más largos ralentizan significativamente el primer token