G4
Tutorial
Gemma 4 Tutorial de Instalación
Instrucciones paso a paso para instalar y ejecutar Gemma 4 en tu máquina — desde configurar un entorno Python hasta ejecutar tu primera inferencia. Cubre tanto el SDK de Python como Ollama.
Python pip Ollama CUDA
Requisitos Previos
Requisitos del Sistema
| OS | Linux, macOS, or Windows (WSL2) |
| Python | 3.9 or higher (3.11 recommended) |
| GPU | NVIDIA with 6 GB+ VRAM (optional but recommended) |
| CUDA | 12.1+ (if using GPU) |
| RAM | 16 GB+ system RAM |
| Disk | 20–60 GB free space per model |
Cuenta de Hugging Face
- Crea una cuenta gratuita en huggingface.co
- Visita la página del modelo (ej. google/gemma-4-E4B-it)
- Haz clic en "Acceder al repositorio" y acepta la licencia
- Genera un token de lectura en Settings → Access Tokens
El acceso al modelo es gratuito — Google solo requiere aceptar la licencia.
Paso 1 — Configurar Entorno Python
Usando Conda (Recomendado)
# Create a dedicated Python environment
conda create -n gemma4 python=3.11 -y
conda activate gemma4Usando venv
python -m venv gemma4-env
# Linux/macOS:
source gemma4-env/bin/activate
# Windows:
gemma4-env\Scripts\activatePaso 2 — Instalar Dependencias
# Core dependencies
pip install -U transformers torch accelerate
# Optional: quantization support
pip install bitsandbytes
# Optional: faster inference
pip install flash-attn --no-build-isolationPara usuarios de GPU: PyTorch selecciona CUDA automáticamente si está disponible. Verifica con python -c "import torch; print(torch.cuda.is_available())".
Paso 3 — Autenticarse con Hugging Face
# Install Hugging Face CLI
pip install huggingface_hub
# Authenticate (get your token at huggingface.co/settings/tokens)
huggingface-cli loginPaso 4 — Descargar el Modelo
Descargar via Python
# Download the E4B model (recommended for 8-16 GB VRAM)
from huggingface_hub import snapshot_download
snapshot_download(
repo_id="google/gemma-4-E4B-it",
local_dir="./models/gemma4-e4b"
)Referencia de Tamaño de Modelos
| Model | Download Size |
|---|---|
| E2B | ~4.6 GB |
| E4B | ~8.0 GB |
| 31B | ~58 GB |
| 26B A4B | ~48 GB |
Paso 5 — Verificar Instalación
import torch
from transformers import AutoProcessor, AutoModelForCausalLM
print("PyTorch:", torch.__version__)
print("CUDA available:", torch.cuda.is_available())
if torch.cuda.is_available():
print("GPU:", torch.cuda.get_device_name(0))
print("VRAM:", round(torch.cuda.get_device_properties(0).total_memory / 1e9, 1), "GB")
# Quick load test
processor = AutoProcessor.from_pretrained("google/gemma-4-E4B-it")
print("Processor loaded OK")Paso 6 — Ejecutar tu Primera Inferencia
from transformers import AutoProcessor, AutoModelForCausalLM
import torch
MODEL_ID = "google/gemma-4-E4B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
MODEL_ID,
torch_dtype=torch.bfloat16,
device_map="auto"
)
messages = [{"role": "user", "content": "Explain what Gemma 4 is in 2 sentences."}]
text = processor.apply_chat_template(
messages, tokenize=False, add_generation_prompt=True
)
inputs = processor(text=text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=200)
print(processor.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))Alternativa — Ollama (Sin Python)
¿Prefieres una configuración más simple? Ollama lo maneja todo automáticamente:
# Linux / macOS
curl -fsSL https://ollama.com/install.sh | sh
# Windows: download installer from ollama.com
# Then in terminal:
ollama pull gemma4:e4b
ollama run gemma4:e4b