🧠

Własny serwer AI na starym laptopie – Ollama + Open WebUI bez opłat za tokeny

📅 9 maja 2026 ⏱ 20 min czytania 🏷️ Komputery i Linux 👁 3 odsłon
← Komputery i Linux

Po co płacić za ChatGPT, skoro masz stary komputer?

ChatGPT Plus kosztuje 20 dolarów miesięcznie (~80 zł). Claude Pro – tyle samo. Rocznie to prawie 1000 zł za dostęp do cudzego serwera, gdzie Twoje rozmowy są przetwarzane przez korporację. A masz stary laptop lub PC zbierający kurz?

Dzięki Ollama i Open WebUI możesz postawić lokalny serwer AI w 15 minut. Zero opłat za tokeny. Zero prywatnych danych wysłanych do chmury. Działa nawet bez internetu.

🎯 Co zbudujesz? Prywatny serwer AI dostępny przez przeglądarkę, obsługujący modele Llama 3.1, Mistral, Gemma, Phi i inne – dla całej rodziny lub firmy w sieci lokalnej.

Wymagania minimalne

WariantCPU onlyGPU NVIDIA
RAM16 GB (modele 3B–7B)8 GB RAM + 6 GB VRAM
ProcesorDowolny x86-64 (4+ rdzenie)Dowolny + karta NVIDIA
Dysk50 GB wolnego miejsca50 GB wolnego miejsca
OSUbuntu 22.04 / Debian 12Ubuntu 22.04 (CUDA 12.x)
Pobór mocy (idle)~15–35 W~50–120 W
Pobór mocy (generowanie)~35–65 W~120–200 W

Instalacja Ubuntu (jeśli potrzebna)

# Pobierz Ubuntu 22.04 LTS Server z ubuntu.com
# Flashuj na pendrive: Balena Etcher lub Rufus
# Przy instalacji: SSH server, brak GUI (oszczędza RAM)

# Po instalacji – zaktualizuj system
sudo apt update && sudo apt upgrade -y

Krok 1: Instalacja Ollama

curl -fsSL https://ollama.com/install.sh | sh

# Sprawdź wersję
ollama --version

# Ollama startuje automatycznie jako usługa systemd
systemctl status ollama

Dla GPU NVIDIA – instalacja sterowników i CUDA

# Sprawdź kartę graficzną
lspci | grep -i nvidia

# Zainstaluj sterowniki NVIDIA (Ubuntu)
sudo apt install -y nvidia-driver-535 nvidia-cuda-toolkit

# Restart i weryfikacja
sudo reboot
nvidia-smi

Ollama automatycznie wykryje GPU po instalacji sterowników – nie musisz nic konfigurować.

Krok 2: Pobierz modele AI

ModelRozmiarRAM CPUVRAM GPUJakośćSzybkość CPU
tinyllama:1.1b637 MB2 GB2 GB⭐⭐~15 tok/s
gemma2:2b1.6 GB3 GB3 GB⭐⭐⭐~8 tok/s
llama3.2:3b2.0 GB4 GB4 GB⭐⭐⭐⭐~5 tok/s
mistral:7b4.1 GB8 GB6 GB⭐⭐⭐⭐⭐~2 tok/s
llama3.1:8b4.7 GB9 GB6 GB⭐⭐⭐⭐⭐~1.5 tok/s
llama3.1:8b (GPU)4.7 GB6 GB⭐⭐⭐⭐⭐~30–50 tok/s
# CPU only – zacznij od mniejszego modelu
ollama pull llama3.2:3b

# GPU NVIDIA GTX 1060 6GB lub nowsza
ollama pull mistral:7b

# Test w terminalu
ollama run llama3.2:3b "Napisz krótki wiersz o kotach po polsku"

Krok 3: Open WebUI – interfejs jak ChatGPT

# Zainstaluj Docker
curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER
newgrp docker

# Uruchom Open WebUI (łączy się z lokalnym Ollama)
docker run -d \
  --name open-webui \
  --restart always \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v open-webui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  ghcr.io/open-webui/open-webui:main
# Sprawdź status
docker ps
docker logs open-webui

Otwórz przeglądarkę: http://localhost:3000 (lub http://IP-twojego-PC:3000 z innych urządzeń w sieci).

Krok 4: Dostęp z całej sieci lokalnej

# Ustaw stałe IP dla serwera
sudo nano /etc/netplan/00-installer-config.yaml

# Przykład (dostosuj do swojej sieci):
network:
  ethernets:
    eno1:
      dhcp4: no
      addresses: [192.168.1.50/24]
      routes:
        - to: default
          via: 192.168.1.1
      nameservers:
        addresses: [8.8.8.8, 1.1.1.1]
  version: 2

sudo netplan apply

Teraz każdy w Twojej sieci Wi-Fi może otworzyć http://192.168.1.50:3000 i korzystać z lokalnego ChatGPT.

Kalkulator kosztów energii

ScenariuszPobór mocyKoszt/miesiąc (24h/7d)Koszt/rok
Stary laptop CPU (8h/d użytkowania)~35 W avg~7 zł~85 zł
Stary desktop CPU (8h/d)~65 W avg~13 zł~155 zł
Desktop + GTX 1060 (8h/d)~150 W avg~30 zł~355 zł
ChatGPT Plus (bez sprzętu)~80 zł~960 zł

Obliczenia przy cenie prądu 0,80 zł/kWh. Laptop przez 8h/dobę, 20 dni/miesiąc.

💰 Oszczędność vs ChatGPT Plus: Desktop z GPU = ~600 zł/rok taniej. CPU-only laptop = ~875 zł/rok taniej. W 2 lata pokrywasz koszt całego sprzętu.

Optymalizacja wydajności CPU

# Ustaw liczbę wątków dla Ollama
sudo nano /etc/systemd/system/ollama.service

# W sekcji [Service] dodaj:
Environment="OLLAMA_NUM_PARALLEL=1"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_NUM_THREAD=8"   # dostosuj do liczby rdzeni

sudo systemctl daemon-reload
sudo systemctl restart ollama

Przydatne modele specjalistyczne

# Kodowanie (lepszy od ChatGPT w wielu zadaniach)
ollama pull deepseek-coder-v2:16b  # wymaga GPU z 12+ GB VRAM

# Analiza dokumentów
ollama pull llama3.1:8b

# Polskie dokumenty (wielojęzyczny)
ollama pull gemma2:9b

# Wizja – analiza obrazów (wymaga GPU)
ollama pull llava:7b

CPU vs GPU – kiedy GPU się opłaca?

PytanieCPUGPU (GTX 1060+)
Prędkość odpowiedzi1–5 tok/s (wolno)20–50 tok/s (naturalnie)
Maksymalny model7B (wolno), 3B (OK)7B–13B płynnie
Użytek okazjonalny✅ WystarczyZbędna inwestycja
Intensywne użytkowanie❌ Frustrujące✅ Konieczna
Koszt sprzętu0 zł (stary laptop)GTX 1060: ~300–500 zł używana

Rekomendacja: Zacznij od CPU. Jeśli tempo 2–5 tokenów/sekundę Ci nie przeszkadza (np. głównie piszesz komendy, nie czatów na żywo) – nie potrzebujesz GPU. Jeśli chcesz płynnych rozmów jak ChatGPT – GTX 1060 6 GB używana to minimum.

Backup i bezpieczeństwo

# Backup danych Open WebUI (historia rozmów, ustawienia)
docker run --rm -v open-webui:/data \
  -v $(pwd):/backup ubuntu \
  tar czf /backup/open-webui-backup.tar.gz /data

# Aktualizacja Open WebUI
docker pull ghcr.io/open-webui/open-webui:main
docker stop open-webui && docker rm open-webui
# ... uruchom ponownie komendę z Kroku 3
⚠️ Bezpieczeństwo: Nie wystawiaj portu 3000 do internetu bez uwierzytelnienia. Używaj VPN lub SSH tunnel do zdalnego dostępu. Open WebUI ma wbudowany system użytkowników – skonfiguruj go przed udostępnieniem w sieci.
Tagi: ai GPU linux Llama lokalny LLM Mistral NVIDIA CUDA Ollama Open WebUI tani serwer AI