Cómo montar un nodo Ollama local en Raspberry Pi 5 desde cero
Guía completa para instalar Ollama en Raspberry Pi 5, correr tu primer LLM local y exponerlo como API para otros dispositivos de tu red.
Si tienes una Raspberry Pi 5 cogiendo polvo o acabas de comprarla, en menos de 30 minutos puedes tener un LLM corriendo localmente, sin mandar ni un token a ningún servidor externo, y accesible desde cualquier dispositivo de tu red.
Lo que necesitas
- Raspberry Pi 5 (8GB recomendado, funciona con 4GB para modelos pequeños)
- microSD de al menos 32GB clase A2, o mejor un SSD NVMe con adaptador HAT
- Raspberry Pi OS 64-bit (Bookworm) — importante que sea 64-bit
- Conexión a internet para la instalación inicial
Instalar Ollama
El instalador oficial funciona directamente en Raspberry Pi OS:
curl -fsSL https://ollama.com/install.sh | sh
Tras la instalación, Ollama arranca automáticamente como servicio systemd y queda escuchando en localhost:11434.
Descargar tu primer modelo
Para empezar, Llama 3.2 3B en su versión quantizada es el punto de entrada ideal — ocupa ~2GB y funciona bien incluso con 4GB de RAM:
ollama pull llama3.2:3b
ollama run llama3.2:3b
Si tienes 8GB de RAM, puedes subir a Llama 3.2 8B:
ollama pull llama3.2:8b
Exponer Ollama en tu red local
Por defecto Ollama solo escucha en localhost. Para que otros dispositivos puedan usarlo:
# Editar la configuración del servicio
sudo systemctl edit ollama
# Añadir en la sección [Service]:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
sudo systemctl restart ollama
Ahora puedes hacer peticiones desde cualquier dispositivo de tu red:
curl http://192.168.1.x:11434/api/generate \
-d '{"model":"llama3.2:3b","prompt":"Hola, ¿cómo estás?","stream":false}'
Añadir OpenWebUI para tener interfaz web
OpenWebUI es una interfaz web compatible con Ollama que puedes instalar con Docker:
docker run -d \
--network=host \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://127.0.0.1:11434 \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
Accede desde tu red en http://ip-de-tu-pi:8080.
Rendimiento esperado
Con Llama 3.2 3B en Q4_K_M en una Raspberry Pi 5 de 8GB: aproximadamente 8-12 tokens/segundo. No es rápido para conversaciones en tiempo real, pero es suficiente para tareas de procesamiento en batch, generación de contenido sin prisa, o como backend de agentes que no requieren baja latencia.
Para mejorar el rendimiento, el Raspberry Pi AI HAT+ 2 con chip Hailo-10H puede acelerar la inferencia significativamente.