Cómo montar un nodo Ollama local en Raspberry Pi 5 desde cero

Si tienes una Raspberry Pi 5 cogiendo polvo o acabas de comprarla, en menos de 30 minutos puedes tener un LLM corriendo localmente, sin mandar ni un token a ningún servidor externo, y accesible desde cualquier dispositivo de tu red.

Lo que necesitas

Raspberry Pi 5 (8GB recomendado, funciona con 4GB para modelos pequeños)
microSD de al menos 32GB clase A2, o mejor un SSD NVMe con adaptador HAT
Raspberry Pi OS 64-bit (Bookworm) — importante que sea 64-bit
Conexión a internet para la instalación inicial

Instalar Ollama

El instalador oficial funciona directamente en Raspberry Pi OS:

curl -fsSL https://ollama.com/install.sh | sh

Tras la instalación, Ollama arranca automáticamente como servicio systemd y queda escuchando en localhost:11434.

Descargar tu primer modelo

Para empezar, Llama 3.2 3B en su versión quantizada es el punto de entrada ideal — ocupa ~2GB y funciona bien incluso con 4GB de RAM:

ollama pull llama3.2:3b
ollama run llama3.2:3b

Si tienes 8GB de RAM, puedes subir a Llama 3.2 8B:

ollama pull llama3.2:8b

Exponer Ollama en tu red local

Por defecto Ollama solo escucha en localhost. Para que otros dispositivos puedan usarlo:

# Editar la configuración del servicio
sudo systemctl edit ollama

# Añadir en la sección [Service]:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"

sudo systemctl restart ollama

Ahora puedes hacer peticiones desde cualquier dispositivo de tu red:

curl http://192.168.1.x:11434/api/generate \
  -d '{"model":"llama3.2:3b","prompt":"Hola, ¿cómo estás?","stream":false}'

Añadir OpenWebUI para tener interfaz web

OpenWebUI es una interfaz web compatible con Ollama que puedes instalar con Docker:

docker run -d \
  --network=host \
  -v open-webui:/app/backend/data \
  -e OLLAMA_BASE_URL=http://127.0.0.1:11434 \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Accede desde tu red en http://ip-de-tu-pi:8080.

Rendimiento esperado

Con Llama 3.2 3B en Q4_K_M en una Raspberry Pi 5 de 8GB: aproximadamente 8-12 tokens/segundo. No es rápido para conversaciones en tiempo real, pero es suficiente para tareas de procesamiento en batch, generación de contenido sin prisa, o como backend de agentes que no requieren baja latencia.

Para mejorar el rendimiento, el Raspberry Pi AI HAT+ 2 con chip Hailo-10H puede acelerar la inferencia significativamente.