Własny serwer AI na starym laptopie – Ollama + Open WebUI bez opłat za tokeny

Po co płacić za ChatGPT, skoro masz stary komputer?

ChatGPT Plus kosztuje 20 dolarów miesięcznie (~80 zł). Claude Pro – tyle samo. Rocznie to prawie 1000 zł za dostęp do cudzego serwera, gdzie Twoje rozmowy są przetwarzane przez korporację. A masz stary laptop lub PC zbierający kurz?

Dzięki Ollama i Open WebUI możesz postawić lokalny serwer AI w 15 minut. Zero opłat za tokeny. Zero prywatnych danych wysłanych do chmury. Działa nawet bez internetu.

🎯 Co zbudujesz? Prywatny serwer AI dostępny przez przeglądarkę, obsługujący modele Llama 3.1, Mistral, Gemma, Phi i inne – dla całej rodziny lub firmy w sieci lokalnej.

Wymagania minimalne

Wariant	CPU only	GPU NVIDIA
RAM	16 GB (modele 3B–7B)	8 GB RAM + 6 GB VRAM
Procesor	Dowolny x86-64 (4+ rdzenie)	Dowolny + karta NVIDIA
Dysk	50 GB wolnego miejsca	50 GB wolnego miejsca
OS	Ubuntu 22.04 / Debian 12	Ubuntu 22.04 (CUDA 12.x)
Pobór mocy (idle)	~15–35 W	~50–120 W
Pobór mocy (generowanie)	~35–65 W	~120–200 W

Instalacja Ubuntu (jeśli potrzebna)

# Pobierz Ubuntu 22.04 LTS Server z ubuntu.com
# Flashuj na pendrive: Balena Etcher lub Rufus
# Przy instalacji: SSH server, brak GUI (oszczędza RAM)

# Po instalacji – zaktualizuj system
sudo apt update && sudo apt upgrade -y

Krok 1: Instalacja Ollama

curl -fsSL https://ollama.com/install.sh | sh

# Sprawdź wersję
ollama --version

# Ollama startuje automatycznie jako usługa systemd
systemctl status ollama

Dla GPU NVIDIA – instalacja sterowników i CUDA

# Sprawdź kartę graficzną
lspci | grep -i nvidia

# Zainstaluj sterowniki NVIDIA (Ubuntu)
sudo apt install -y nvidia-driver-535 nvidia-cuda-toolkit

# Restart i weryfikacja
sudo reboot
nvidia-smi

Ollama automatycznie wykryje GPU po instalacji sterowników – nie musisz nic konfigurować.

Krok 2: Pobierz modele AI

Model	Rozmiar	RAM CPU	VRAM GPU	Jakość	Szybkość CPU
tinyllama:1.1b	637 MB	2 GB	2 GB	⭐⭐	~15 tok/s
gemma2:2b	1.6 GB	3 GB	3 GB	⭐⭐⭐	~8 tok/s
llama3.2:3b	2.0 GB	4 GB	4 GB	⭐⭐⭐⭐	~5 tok/s
mistral:7b	4.1 GB	8 GB	6 GB	⭐⭐⭐⭐⭐	~2 tok/s
llama3.1:8b	4.7 GB	9 GB	6 GB	⭐⭐⭐⭐⭐	~1.5 tok/s
llama3.1:8b (GPU)	4.7 GB	—	6 GB	⭐⭐⭐⭐⭐	~30–50 tok/s

# CPU only – zacznij od mniejszego modelu
ollama pull llama3.2:3b

# GPU NVIDIA GTX 1060 6GB lub nowsza
ollama pull mistral:7b

# Test w terminalu
ollama run llama3.2:3b "Napisz krótki wiersz o kotach po polsku"

Krok 3: Open WebUI – interfejs jak ChatGPT

# Zainstaluj Docker
curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER
newgrp docker

# Uruchom Open WebUI (łączy się z lokalnym Ollama)
docker run -d \
  --name open-webui \
  --restart always \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v open-webui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  ghcr.io/open-webui/open-webui:main

# Sprawdź status
docker ps
docker logs open-webui

Otwórz przeglądarkę: http://localhost:3000 (lub http://IP-twojego-PC:3000 z innych urządzeń w sieci).

Krok 4: Dostęp z całej sieci lokalnej

# Ustaw stałe IP dla serwera
sudo nano /etc/netplan/00-installer-config.yaml

# Przykład (dostosuj do swojej sieci):
network:
  ethernets:
    eno1:
      dhcp4: no
      addresses: [192.168.1.50/24]
      routes:
        - to: default
          via: 192.168.1.1
      nameservers:
        addresses: [8.8.8.8, 1.1.1.1]
  version: 2

sudo netplan apply

Teraz każdy w Twojej sieci Wi-Fi może otworzyć http://192.168.1.50:3000 i korzystać z lokalnego ChatGPT.

Kalkulator kosztów energii

Scenariusz	Pobór mocy	Koszt/miesiąc (24h/7d)	Koszt/rok
Stary laptop CPU (8h/d użytkowania)	~35 W avg	~7 zł	~85 zł
Stary desktop CPU (8h/d)	~65 W avg	~13 zł	~155 zł
Desktop + GTX 1060 (8h/d)	~150 W avg	~30 zł	~355 zł
ChatGPT Plus (bez sprzętu)	—	~80 zł	~960 zł

Obliczenia przy cenie prądu 0,80 zł/kWh. Laptop przez 8h/dobę, 20 dni/miesiąc.

💰 Oszczędność vs ChatGPT Plus: Desktop z GPU = ~600 zł/rok taniej. CPU-only laptop = ~875 zł/rok taniej. W 2 lata pokrywasz koszt całego sprzętu.

Optymalizacja wydajności CPU

# Ustaw liczbę wątków dla Ollama
sudo nano /etc/systemd/system/ollama.service

# W sekcji [Service] dodaj:
Environment="OLLAMA_NUM_PARALLEL=1"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_NUM_THREAD=8"   # dostosuj do liczby rdzeni

sudo systemctl daemon-reload
sudo systemctl restart ollama

Przydatne modele specjalistyczne

# Kodowanie (lepszy od ChatGPT w wielu zadaniach)
ollama pull deepseek-coder-v2:16b  # wymaga GPU z 12+ GB VRAM

# Analiza dokumentów
ollama pull llama3.1:8b

# Polskie dokumenty (wielojęzyczny)
ollama pull gemma2:9b

# Wizja – analiza obrazów (wymaga GPU)
ollama pull llava:7b

CPU vs GPU – kiedy GPU się opłaca?

Pytanie	CPU	GPU (GTX 1060+)
Prędkość odpowiedzi	1–5 tok/s (wolno)	20–50 tok/s (naturalnie)
Maksymalny model	7B (wolno), 3B (OK)	7B–13B płynnie
Użytek okazjonalny	✅ Wystarczy	Zbędna inwestycja
Intensywne użytkowanie	❌ Frustrujące	✅ Konieczna
Koszt sprzętu	0 zł (stary laptop)	GTX 1060: ~300–500 zł używana

Rekomendacja: Zacznij od CPU. Jeśli tempo 2–5 tokenów/sekundę Ci nie przeszkadza (np. głównie piszesz komendy, nie czatów na żywo) – nie potrzebujesz GPU. Jeśli chcesz płynnych rozmów jak ChatGPT – GTX 1060 6 GB używana to minimum.

Backup i bezpieczeństwo

# Backup danych Open WebUI (historia rozmów, ustawienia)
docker run --rm -v open-webui:/data \
  -v $(pwd):/backup ubuntu \
  tar czf /backup/open-webui-backup.tar.gz /data

# Aktualizacja Open WebUI
docker pull ghcr.io/open-webui/open-webui:main
docker stop open-webui && docker rm open-webui
# ... uruchom ponownie komendę z Kroku 3

⚠️ Bezpieczeństwo: Nie wystawiaj portu 3000 do internetu bez uwierzytelnienia. Używaj VPN lub SSH tunnel do zdalnego dostępu. Open WebUI ma wbudowany system użytkowników – skonfiguruj go przed udostępnieniem w sieci.

Tagi: ai GPU linux Llama lokalny LLM Mistral NVIDIA CUDA Ollama Open WebUI tani serwer AI