ChatGPT Plus kosztuje 20 dolarów miesięcznie (~80 zł). Claude Pro – tyle samo. Rocznie to prawie 1000 zł za dostęp do cudzego serwera, gdzie Twoje rozmowy są przetwarzane przez korporację. A masz stary laptop lub PC zbierający kurz?
Dzięki Ollama i Open WebUI możesz postawić lokalny serwer AI w 15 minut. Zero opłat za tokeny. Zero prywatnych danych wysłanych do chmury. Działa nawet bez internetu.
| Wariant | CPU only | GPU NVIDIA |
|---|---|---|
| RAM | 16 GB (modele 3B–7B) | 8 GB RAM + 6 GB VRAM |
| Procesor | Dowolny x86-64 (4+ rdzenie) | Dowolny + karta NVIDIA |
| Dysk | 50 GB wolnego miejsca | 50 GB wolnego miejsca |
| OS | Ubuntu 22.04 / Debian 12 | Ubuntu 22.04 (CUDA 12.x) |
| Pobór mocy (idle) | ~15–35 W | ~50–120 W |
| Pobór mocy (generowanie) | ~35–65 W | ~120–200 W |
# Pobierz Ubuntu 22.04 LTS Server z ubuntu.com
# Flashuj na pendrive: Balena Etcher lub Rufus
# Przy instalacji: SSH server, brak GUI (oszczędza RAM)
# Po instalacji – zaktualizuj system
sudo apt update && sudo apt upgrade -y
curl -fsSL https://ollama.com/install.sh | sh
# Sprawdź wersję
ollama --version
# Ollama startuje automatycznie jako usługa systemd
systemctl status ollama
# Sprawdź kartę graficzną
lspci | grep -i nvidia
# Zainstaluj sterowniki NVIDIA (Ubuntu)
sudo apt install -y nvidia-driver-535 nvidia-cuda-toolkit
# Restart i weryfikacja
sudo reboot
nvidia-smi
Ollama automatycznie wykryje GPU po instalacji sterowników – nie musisz nic konfigurować.
| Model | Rozmiar | RAM CPU | VRAM GPU | Jakość | Szybkość CPU |
|---|---|---|---|---|---|
| tinyllama:1.1b | 637 MB | 2 GB | 2 GB | ⭐⭐ | ~15 tok/s |
| gemma2:2b | 1.6 GB | 3 GB | 3 GB | ⭐⭐⭐ | ~8 tok/s |
| llama3.2:3b | 2.0 GB | 4 GB | 4 GB | ⭐⭐⭐⭐ | ~5 tok/s |
| mistral:7b | 4.1 GB | 8 GB | 6 GB | ⭐⭐⭐⭐⭐ | ~2 tok/s |
| llama3.1:8b | 4.7 GB | 9 GB | 6 GB | ⭐⭐⭐⭐⭐ | ~1.5 tok/s |
| llama3.1:8b (GPU) | 4.7 GB | — | 6 GB | ⭐⭐⭐⭐⭐ | ~30–50 tok/s |
# CPU only – zacznij od mniejszego modelu
ollama pull llama3.2:3b
# GPU NVIDIA GTX 1060 6GB lub nowsza
ollama pull mistral:7b
# Test w terminalu
ollama run llama3.2:3b "Napisz krótki wiersz o kotach po polsku"
# Zainstaluj Docker
curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER
newgrp docker
# Uruchom Open WebUI (łączy się z lokalnym Ollama)
docker run -d \
--name open-webui \
--restart always \
-p 3000:8080 \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
-v open-webui:/app/backend/data \
--add-host=host.docker.internal:host-gateway \
ghcr.io/open-webui/open-webui:main
# Sprawdź status
docker ps
docker logs open-webui
Otwórz przeglądarkę: http://localhost:3000 (lub http://IP-twojego-PC:3000 z innych urządzeń w sieci).
# Ustaw stałe IP dla serwera
sudo nano /etc/netplan/00-installer-config.yaml
# Przykład (dostosuj do swojej sieci):
network:
ethernets:
eno1:
dhcp4: no
addresses: [192.168.1.50/24]
routes:
- to: default
via: 192.168.1.1
nameservers:
addresses: [8.8.8.8, 1.1.1.1]
version: 2
sudo netplan apply
Teraz każdy w Twojej sieci Wi-Fi może otworzyć http://192.168.1.50:3000 i korzystać z lokalnego ChatGPT.
| Scenariusz | Pobór mocy | Koszt/miesiąc (24h/7d) | Koszt/rok |
|---|---|---|---|
| Stary laptop CPU (8h/d użytkowania) | ~35 W avg | ~7 zł | ~85 zł |
| Stary desktop CPU (8h/d) | ~65 W avg | ~13 zł | ~155 zł |
| Desktop + GTX 1060 (8h/d) | ~150 W avg | ~30 zł | ~355 zł |
| ChatGPT Plus (bez sprzętu) | — | ~80 zł | ~960 zł |
Obliczenia przy cenie prądu 0,80 zł/kWh. Laptop przez 8h/dobę, 20 dni/miesiąc.
# Ustaw liczbę wątków dla Ollama
sudo nano /etc/systemd/system/ollama.service
# W sekcji [Service] dodaj:
Environment="OLLAMA_NUM_PARALLEL=1"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_NUM_THREAD=8" # dostosuj do liczby rdzeni
sudo systemctl daemon-reload
sudo systemctl restart ollama
# Kodowanie (lepszy od ChatGPT w wielu zadaniach)
ollama pull deepseek-coder-v2:16b # wymaga GPU z 12+ GB VRAM
# Analiza dokumentów
ollama pull llama3.1:8b
# Polskie dokumenty (wielojęzyczny)
ollama pull gemma2:9b
# Wizja – analiza obrazów (wymaga GPU)
ollama pull llava:7b
| Pytanie | CPU | GPU (GTX 1060+) |
|---|---|---|
| Prędkość odpowiedzi | 1–5 tok/s (wolno) | 20–50 tok/s (naturalnie) |
| Maksymalny model | 7B (wolno), 3B (OK) | 7B–13B płynnie |
| Użytek okazjonalny | ✅ Wystarczy | Zbędna inwestycja |
| Intensywne użytkowanie | ❌ Frustrujące | ✅ Konieczna |
| Koszt sprzętu | 0 zł (stary laptop) | GTX 1060: ~300–500 zł używana |
Rekomendacja: Zacznij od CPU. Jeśli tempo 2–5 tokenów/sekundę Ci nie przeszkadza (np. głównie piszesz komendy, nie czatów na żywo) – nie potrzebujesz GPU. Jeśli chcesz płynnych rozmów jak ChatGPT – GTX 1060 6 GB używana to minimum.
# Backup danych Open WebUI (historia rozmów, ustawienia)
docker run --rm -v open-webui:/data \
-v $(pwd):/backup ubuntu \
tar czf /backup/open-webui-backup.tar.gz /data
# Aktualizacja Open WebUI
docker pull ghcr.io/open-webui/open-webui:main
docker stop open-webui && docker rm open-webui
# ... uruchom ponownie komendę z Kroku 3