Guía Móvil
Gemma 4 en iPhone
Ejecuta Gemma 4 de Google directamente en tu iPhone — sin nube, sin suscripción, privacidad total. El modelo edge E2B ocupa menos de 5 GB y ofrece inferencia en tiempo real en cualquier iPhone 15 Pro o posterior.
¿Por qué ejecutar Gemma 4 en iPhone?
- Privacidad total — tus datos nunca salen del dispositivo
- Funciona completamente sin conexión, sin internet
- Cero costos de API — gratis una vez descargado
- Respuesta sub-segundo en chips A17 Pro / A18
Qué Modelo Usar
| Model | Download | Active RAM | Speed (A17 Pro) | Recommendation |
|---|---|---|---|---|
| Gemma 4 E2B Q4_K_M | ~2.4 GB | ~2.5 GB | 12–18 tok/s | Best for iPhone |
| Gemma 4 E2B BF16 | ~4.6 GB | ~4.8 GB | 6–10 tok/s | Max quality |
| Gemma 4 E4B Q4_K_M | ~4.2 GB | ~4.5 GB | 7–11 tok/s | Higher quality |
El modelo E2B es la recomendación principal para iPhone. Con ~4.6 GB de descarga cabe cómodamente en el almacenamiento del iPhone, y la cuantización de 4 bits reduce la RAM activa a ~2.5 GB — dentro del presupuesto de memoria de los iPhone 15/16.
Método 1 — Google AI Edge SDK (Swift)
La ruta oficial. Google AI Edge proporciona un paquete Swift nativo que ejecuta Gemma 4 con aceleración Metal GPU.
- Añade el paquete Swift de Google AI Edge a tu proyecto Xcode
- Descarga los pesos del modelo E2B en formato TensorFlow Lite / LiteRT
- Inicializa la sesión y llama a generate()
Package.swift
// Package.swift
dependencies: [
.package(
url: "https://github.com/google/generative-ai-swift",
from: "0.5.0"
)
]Swift Inference
import GoogleAIEdge
// Load E2B model (place .task file in app bundle)
let modelPath = Bundle.main.path(forResource: "gemma4-e2b-it-q4", ofType: "task")!
let session = try LlmInference(modelPath: modelPath)
// Generate response
let response = try await session.generateResponse(
inputText: "Explain quantum computing in simple terms."
)
print(response)Método 2 — GGUF vía llama.cpp (LLM Farm / Offline Chat)
Para usuarios que prefieren una app iOS ya hecha. LLM Farm y Offline Chat en la App Store usan llama.cpp internamente y soportan modelos Gemma GGUF. Descarga el GGUF cuantizado Q4_K_M de Hugging Face, impórtalo en la app y empieza a chatear. Sin código.
LLM Farm
Free, open-source, supports custom GGUF import. Available on App Store.
Offline Chat
Simple UI, built-in model browser, supports Gemma GGUF natively.
Método 3 — Ollama en Mac, acceso desde iPhone
¿Ya ejecutas Ollama en Mac? Expón la API en tu red local y conéctate desde el iPhone con cualquier app compatible con OpenAI (p. ej. Enchanted, OllamaChat). Configura OLLAMA_HOST=0.0.0.0 en el Mac y apunta la app a http://tu-mac-ip:11434.
# On your Mac — allow LAN access
export OLLAMA_HOST=0.0.0.0
ollama serve
# Pull Gemma 4 E2B if not already done
ollama pull gemma4:e2b
# iPhone app settings:
# Base URL: http://192.168.x.x:11434 (your Mac's local IP)
# Model: gemma4:e2bRequisitos de Hardware del iPhone
| iPhone | Chip | GPU Acceleration | E2B Q4 Speed |
|---|---|---|---|
| iPhone 16 Pro / Max | A18 Pro | Metal — Full | 18–24 tok/s |
| iPhone 16 / Plus | A18 | Metal — Full | 15–20 tok/s |
| iPhone 15 Pro / Max | A17 Pro | Metal — Full | 12–18 tok/s |
| iPhone 15 / Plus | A16 | Metal — Partial | 6–10 tok/s |
| iPhone 14 series | A15 | CPU fallback | 3–5 tok/s |
| iPhone 13 and older | A15 / A14 | CPU only | 2–3 tok/s |
Los iPhones más antiguos pueden ejecutar el modelo E2B con inferencia por CPU pero serán lentos (2–4 tokens/seg). El iPhone 15 Pro y posteriores con chip A17 Pro tienen aceleración Metal GPU y ofrecen velocidad real en tiempo real.
Benchmarks de Rendimiento
| Task | iPhone 15 Pro (A17) | iPhone 16 Pro (A18 Pro) |
|---|---|---|
| Text generation (tok/s) | 14 | 21 |
| First token latency | ~0.4s | ~0.25s |
| 512→512 token throughput | 11 tok/s | 17 tok/s |
| RAM usage (peak) | 2.8 GB | 2.6 GB |
| Battery drain (per hour) | ~18% | ~14% |
Tokens/seg medidos con Gemma 4 E2B Q4_K_M, prompt de 512 tokens, usando Metal GPU. El fallback solo por CPU es 3–5× más lento.
Consejos para el Mejor Rendimiento
- Usa cuantización Q4_K_M — mejor relación calidad/velocidad en móvil
- Cierra otras apps antes de inferir para liberar RAM
- Mantén los prompts bajo 2K tokens para la respuesta más rápida
- Conecta el cargador en sesiones largas — la inferencia es intensiva en GPU