KI-gestützte Suchmaschinen liefern heute mehr als bloße Linklisten: Sie fassen Inhalte zusammen und nennen ihre Quellen. Clouddienste bezahlen Anwender dafür jedoch mit ihren Daten. Dieser Workshop zeigt, wie Sie mit SearXNG, Ollama, Open WebUI und Perplexica eine KI-gestützte Suchumgebung auf eigener Hardware aufbauen. Der Fokus liegt auf Installation, Konfiguration und Praxisbetrieb einer anonymen, werbefreien Suche unter voller eigener Kontrolle.
Die meisten Suchmaschinen im Internet haben eines gemeinsam: Sie liefern lange Listen von Links, die zu einer Suchanfrage passen sollen. Viele Anbieter priorisieren dabei Inhalte zahlender Werbekunden. Gleichzeitig sammeln Unternehmen wie Google umfangreiche Nutzerdaten, um Suchergebnisse zu personalisieren. Was Marketingabteilungen als "besseres Nutzererlebnis" bezeichnen, empfinden Anwender oft als aufdringliche Werbung.
Der aktuelle KI-Boom verändert dieses Suchverhalten grundlegend. Dienste wie Perplexity schalten ein KI-Modell zwischen Suchanfrage und Ergebnis. Statt einer Linkliste erhält der Anwender eine konkrete, zusammengefasste Antwort – ergänzt um Quellenverweise. Genau das entspricht dem eigentlichen Informationsbedürfnis vieler Nutzer.
Allerdings fehlt KI-basierten Suchdiensten bislang ein tragfähiges Geschäftsmodell auf Werbebasis. Stattdessen werden Suchanfragen selbst zur zentralen Ressource: Anbieter nutzen sie für Marketingzwecke und zum Training ihrer Modelle. Es ist zudem absehbar, dass auch KI-Suchmaschinen künftig Antworten zahlender Kunden priorisieren werden.
Die meisten Suchmaschinen im Internet haben eines gemeinsam: Sie liefern lange Listen von Links, die zu einer Suchanfrage passen sollen. Viele Anbieter priorisieren dabei Inhalte zahlender Werbekunden. Gleichzeitig sammeln Unternehmen wie Google umfangreiche Nutzerdaten, um Suchergebnisse zu personalisieren. Was Marketingabteilungen als "besseres Nutzererlebnis" bezeichnen, empfinden Anwender oft als aufdringliche Werbung.
Der aktuelle KI-Boom verändert dieses Suchverhalten grundlegend. Dienste wie Perplexity schalten ein KI-Modell zwischen Suchanfrage und Ergebnis. Statt einer Linkliste erhält der Anwender eine konkrete, zusammengefasste Antwort – ergänzt um Quellenverweise. Genau das entspricht dem eigentlichen Informationsbedürfnis vieler Nutzer.
Allerdings fehlt KI-basierten Suchdiensten bislang ein tragfähiges Geschäftsmodell auf Werbebasis. Stattdessen werden Suchanfragen selbst zur zentralen Ressource: Anbieter nutzen sie für Marketingzwecke und zum Training ihrer Modelle. Es ist zudem absehbar, dass auch KI-Suchmaschinen künftig Antworten zahlender Kunden priorisieren werden.
Dabei müssen Anwender ihre Daten nicht zwangsläufig preisgeben, um fundierte Antworten mit Quellenangaben zu erhalten. Datenschutzfreundliche Suchmaschinen wie Qwant oder DuckDuckGo verzichten auf Tracking. Wer noch einen Schritt weitergehen möchte, kann eine eigene Meta-Suchmaschine im lokalen Netz betreiben. Was dieser Lösung bislang fehlte, war die komfortable KI-gestützte Auswertung der Suchergebnisse – doch auch dafür stehen inzwischen offene Werkzeuge zur Verfügung, die sich vollständig auf eigener Hardware betreiben lassen.
Die eigene Suchmaschine mit SearXNG
Das Open-Source-Projekt SearXNG [1] stellt eine quelloffene Meta-Suchmaschine bereit, die Suchanfragen parallel an mehrere externe Suchdienste weiterleitet und deren Ergebnisse zusammenführt. Im Gegensatz zu klassischen Anbietern speichert oder verfolgt SearXNG keine Nutzerdaten und leitet weder Cookies noch Trackinginformationen an die angebundenen Dienste weiter.
Bild 1: Die Meta-Suchmaschine SearXNG führt Ergebnisse mehrerer Suchdienste zusammen und zeigt die jeweiligen Quellen transparent an.
Als Meta-Suchmaschine wertet SearXNG die Antworten verschiedener Backend-Engines aus und vergibt für jedes Ergebnis eine Gewichtung. Treffer, die mehrere Search Engines übereinstimmend liefern, erhalten höhere Scores und erscheinen weiter oben in der Ergebnisliste. Einzelne Antworten, die nur von einer Quelle stammen, bewertet SearXNG entsprechend niedriger. Auf diese Weise filtert die Meta-Engine bevorzugt Werbung oder einseitig priorisierte Ergebnisse einzelner Anbieter heraus. In der Ergebnisliste sieht der Anwender transparent, von welchen Suchmaschinen die einzelnen Treffer stammen.
Dieser Ansatz bringt einen kleinen Nachteil mit sich: Da SearXNG mehrere Suchmaschinen parallel abfragt und deren Antworten abwartet, reagieren Anfragen etwas langsamer als direkte Abfragen bei Google oder DuckDuckGo. Dafür bleiben die Suchanfragen anonym, und die Ergebnislisten kommen ohne personalisierte Werbung aus.
Betrieb und Konfiguration im lokalen Netz
Die Installation von SearXNG fällt denkbar einfach aus. Die Meta-Suchmaschine läuft containerisiert und lässt sich wahlweise mit Podman oder in Kubernetes betreiben. Die Konfiguration bindet der Administrator über ein Volume-Mount ein.
Optional kann SearXNG Suchanfragen zwischenspeichern. Dafür nutzt das Tool entweder eine SQLite-Datenbank auf einem beschreibbaren Volume oder Valkey, eine freie, Redis-kompatible Key/Value-Datenbank, die zusätzlich Statusinformationen bereitstellt.
Für diesen Workshop kommt ein Setup mit Valkey und SearXNG zum Einsatz, einmal als Pod unter Podman und alternativ auf Kubernetes. Das PowerShell-Skript aus Listing 1 erzeugt einen Pod mit beiden Containern. Voraussetzung ist lediglich ein laufendes Podman-Setup unter Windows. Das Verzeichnis "$ProjectPath\etc" enthält die Konfigurationsdateien, das Cacheverzeichnis "$ProjectPath\cache" muss vorab existieren.
Listing 1: Lokaler SearXNG- Stack mit Podman
$PodName = "searxng-pod"
$ProjectPath = "F:\podman\searxng"
$CachePath = "$ProjectPath\cache"
$ConfigPath = "$ProjectPath\etc"
$ExternalPort = 30888
podman pod create --name $PodName -p ${ExternalPort}:8080
Die Basiskonfiguration in "settings.yml", beispielhaft in Listing 2 gezeigt, kann sehr schlank ausfallen. Mit dem Schalter "use_ default_settings: true" aktiviert SearXNG bereits eine vollständige Engine-Konfiguration. Diese legt fest, welche externen Suchmaschinen abgefragt werden. Wollen Sie die Auswahl oder Gewichtung anpassen, können Sie einzelne Suchdienste explizit aktivieren, deaktivieren oder höher priorisieren.
Listing 2: Beispielkonfiguration für SearXNG
use_default_settings: true
general: instance_name: 'searxng'
valkey: url: valkey://localhost:6379/0
search:
autocomplete: 'google'
formats:
- html
- json
server:
secret_key: ' xxx '
Diese Einstellungen lassen sich alternativ auch direkt über die Weboberfläche anpassen. Der Valkey-Eintrag stellt die Verbindung zur Datenbank für Cache- und Statusinformationen her.
Damit SearXNG später mit einem KI-Frontend zusammenarbeitet, müssen Sie im Abschnitt "search" zusätzlich das Ausgabeformat "json" aktivieren. Der einmalig zu setzende "secret_key" dient zur Identifikation interner Browser-Sessions. SearXNG nutzt diesen Schlüssel ausschließlich lokal und gibt keine Informationen nach außen weiter.
Die Zahl der Suchanfragen, die SearXNG an externe Suchmaschinen weiterleitet, ist begrenzt. Überschreitet eine Instanz diese Limits, sperren einige Anbieter die öffentliche IP-Adresse temporär. Um das zu vermeiden, lässt sich SearXNG mit sogenannten Limitern konfigurieren, die Anfragen pro Client oder Zeitraum begrenzen. Für KI-gestützte Suchen empfiehlt es sich jedoch, diese Limitierung sehr großzügig zu konfigurieren oder ganz zu deaktivieren, da eine einzelne KI-Anfrage häufig eine Vielzahl von Suchanfragen auslöst. Die eigentliche Begrenzung sollte in diesem Fall im KI-Frontend erfolgen.
Nach dem Start erreichen Sie Ihre lokale Suchmaschine über den Browser unter "http://localhost:30888". Die Ergebnisliste zeigt zu jedem Treffer transparent an, welche Backend-Suchmaschinen die jeweilige Information geliefert haben.
KI-Server mit Ollama aufsetzen
Für den Betrieb lokaler Large Language Models stehen inzwischen mehrere freie Projekte zur Verfügung. Zu den bekanntesten zählen Ollama [2] und LM-Studio [3]. Beide ermöglichen es, LLMs auf Windows-, macOS- oder Linux-Systemen lokal auszuführen und über ein API anderen Anwendungen bereitzustellen.
LM-Studio richtet sich vor allem an Anwender, die mit verschiedenen Modellen experimentieren möchten. Das Tool kombiniert Inferenzserver und Benutzeroberfläche und unterstützt den direkten Download von Modellen aus Hugging Face. Es zeigt verfügbare Quantisierungen an, berechnet die mögliche Kontextlänge auf Basis der vorhandenen Hardware und gibt Hinweise zur GPU-Auslastung.
LM-Studio ist kostenlos nutzbar, jedoch kein Open-Source-Projekt. Der Hersteller könnte das Lizenzmodell daher zu jeder Zeit ändern.
Ollama verfolgt einen anderen Ansatz. Der Open-Source-Inferenzserver konzentriert sich bewusst auf das Wesentliche: Er lädt ein Modell und stellt es über ein API bereit. Die Verwaltung erfolgt über ein einfaches Kommandozeilen-Tool, Konfigurationsoptionen setzt Ollama überwiegend über Umgebungsvariablen um. Auf der offiziellen Webseite pflegt das Projekt eine kuratierte Sammlung zertifizierter Modelle, die Sie direkt mit ollama pull herunterladen können. Dazu zählen auch Modelle aus der Hugging-Face-Community.
Grundsätzlich ließe sich Ollama containerisiert betreiben, etwa mit Podman. In der Praxis bedeutet das jedoch zusätzlichen Aufwand, da der Container Zugriff auf die GPU-Beschleunigung des Hostsystems benötigt. In unseren Tests läuft Ollama als native Installation auf Windows, macOS und Linux stabiler und schneller. Für alle drei Plattformen stehen passende Installer zur Verfügung.
Mit den Umgebungsvariablen aus Listing 3 starten Sie Ollama so, dass das Modell möglichst vollständig im GPU-Speicher bleibt. Der Parameter "OLLAMA_KV_ CACHE_TYPE" legt die Quantisierung des sogenannten Key-Value-Caches fest, also des "Gedächtnisses" des Modells. Eine stärkere Quantisierung reduziert den Speicherbedarf und verbessert die Performance bei großen Kontextlängen.
Listing 3: Ollama mit optimierten Umgebungsvariablen
Die aktivierte Flash-Attention beschleunigt die Inferenz auf Nvidia-GPUs und senkt gleichzeitig den Speicherverbrauch. Damit steigt die Wahrscheinlichkeit, dass das Modell vollständig im VRAM bleibt. Mit "OLLAMA_CONTEXT_LENGTH" bestimmen Sie explizit die gewünschte Kontextgröße. Ohne diesen Parameter startet Ollama unabhängig von den Modellfähigkeiten mit einer sehr kleinen Voreinstellung.
Über "OLLAMA_HOST" geben Sie das API im lokalen Netzwerk frei. So können später auch andere Dienste wie Open WebUI oder Perplexica auf den Inferenzserver zugreifen.
Ob ein Modell vollständig im VRAM läuft, prüfen Sie während einer laufenden Anfrage mit dem Kommando ollama ps. Lagert Ollama Teile des Modells in den Arbeitsspeicher aus, sinkt die Performance spürbar. In diesem Fall sollten Sie entweder ein kleineres Modell wählen oder die Kontextlänge reduzieren.
LLM-Modellwahl und Hardwareanforderungen
Für den praktischen Einsatz lokaler Large Language Models spielt die Wahl des Modells eine zentrale Rolle. Entscheidend sind dabei weniger Marketingnamen als vielmehr drei technische Faktoren: Modellgröße, Kontextlänge und verfügbarer Speicher. Je größer das Modell und je länger der Kontext, desto höher fallen die Anforderungen an GPU oder Arbeitsspeicher aus.
Für das hier vorgestellte Setup eignet sich aktuell besonders das Modell "gpt-oss: 20b", ein frei verfügbares 20-Milliarden-Parameter-Modell aus dem OpenAI-Umfeld. Das Modell bietet eine Kontextlänge von bis zu 128.000 Token und hält damit auch bei längeren Recherchen den Gesprächszusammenhang zuverlässig aufrecht. Der Kontext bestimmt, wie viele Informationen das Modell gleichzeitig verarbeiten kann. Gerade bei KI-gestützter Websuche ist ein großer Kontext entscheidend, da Suchergebnisse, Quellen und Rückfragen schnell mehrere zehntausend Token umfassen.
Ein weiterer Vorteil des Modells liegt im moderaten Speicherbedarf. Trotz der großen Kontextlänge passt das Modell bei geeigneter Quantisierung vollständig in 24 GByte VRAM und läuft damit ohne Auslagerung in den Systemspeicher. Das ist für die Performance entscheidend.
Für Systeme mit geringerer Ausstattung stehen kleinere Modelle zur Verfügung, etwa "Mistral:7b", "Qwen3:4b", "Qwen3: 8b" oder verschiedene Llama-3-Varianten. Achten Sie bei der Auswahl darauf, dass das Modell den Tag "Tools" trägt. Nur dann kann es Suchanfragen strukturieren und externe Werkzeuge wie Web-Search gezielt nutzen.
Unter Windows und Linux empfiehlt sich der Einsatz einer Nvidia-GPU mit mindestens 16 GByte VRAM, besser 24 GByte. Für macOS eignen sich aktuelle Apple-Silicon-Systeme mit ausreichend Unified Memory. In unseren Setups läuft Ollama einmal auf einem Windows-11-System mit einer Nvidia RTX 4090 (24 GByte VRAM) sowie auf einem MacBook Pro mit M3-SoC und 36 GByte Unified Memory.
Grundsätzlich gilt: Sobald Teile eines Modells aus dem GPU-Speicher in den Arbeitsspeicher ausgelagert werden, sinkt die Antwortgeschwindigkeit deutlich. Ziel sollte daher immer sein, Modell und Kontext vollständig im schnellen Speicher zu halten. Das benötigte Modell laden Sie direkt über Ollama mit dem Kommando:
ollama pull gpt-oss:20b
Für die spätere KI-Suche benötigen Sie zusätzlich ein zweites, kleineres Modell für sogenannte Embeddings. Dieses laden Sie mit:
ollama pull nomic-embed-text:latest
Das Embedding-Modell erzeugt Vektorrepräsentationen von Texten und dient dazu, Suchergebnisse oder Dokumente effizient zu indizieren. Es kommt später sowohl bei der Websuche als auch bei der Nutzung von Retrieval-Augmented Generation (RAG) zum Einsatz. Voraussetzung für den stabilen Betrieb ist, dass Modell und Kontext vollständig im GPU-Speicher verbleiben.
Mit dem geladenen LLM und dem Embedding-Modell ist der Inferenzserver nun vollständig eingerichtet. Was noch fehlt, ist ein leistungsfähiges Webfrontend, das Suchanfragen formuliert, Ergebnisse auswertet und die Interaktion mit dem Modell komfortabel abbildet.
Open WebUI als KI-Frontend
Open WebUI [4] ist ein leistungsfähiges, quelloffenes Webfrontend für die Arbeit mit Large Language Models. Es unterstützt sowohl lokal betriebene Inferenzserver wie Ollama oder LM-Studio als auch kommerzielle Anbieter, sofern diese ein OpenAI-kompatibles API bereitstellen. Damit eignet sich Open WebUI als zentrale Oberfläche für hybride oder vollständig lokale KI-Setups.
Im Gegensatz zu spezialisierten Such-Frontends richtet sich Open WebUI primär an die Interaktion mit einem LLM. Funktionen wie Websuche oder Retrieval-Augmented Generation (RAG) ergänzt das Tool modular. Gerade diese Offenheit macht Open WebUI zu einem guten Bindeglied zwischen lokalem KI-Server, Meta-Suchmaschine und optionaler Vektordatenbank.
Bild 2: Das Webfrontend verbindet lokale KI-Modelle mit Websuche und RAG-Funktionen in einer zentralen Oberfläche.
Technisch handelt es sich bei Open WebUI um eine Python-Anwendung. Sie lässt sich containerisiert betreiben, benötigt das aber nicht zwingend. Für lokale Set-ups reicht ein Python-Virtual-Environment unter Windows, macOS oder Linux aus. Das vereinfacht Installation, Updates und Fehlersuche deutlich.
In der Praxis zeigte sich Open WebUI in unseren Tests als stabil und zuverlässig. Lediglich bei der integrierten Vektordatenbank traten wiederholt Probleme auf. Eine externe Chroma-Datenbank erwies sich hier als robuster. Aus diesem Grund kommt im folgenden Setup eine separate Chroma-Instanz zum Einsatz.
Installation und Grundkonfiguration
Für das Setup unter Windows genügt eine vorhandene Python-Installation, in unserem Fall Python 3.11. Open WebUI installieren Sie am besten in einem eigenen Verzeichnis mit virtuellem Environment. Die folgenden Schritte legen ein solches Environment an und installieren das Frontend:
mkdir f:\owebui
cd f:\owebui
python -m venv env
.\env\Scripts\Activate.ps1
python -m pip install open-webui
Sie erstellen also zunächst ein Arbeitsverzeichnis, wechseln hinein, erzeugen ein virtuelles Environment und aktivieren es. Anschließend installieren Sie Open WebUI per pip install open-webui.
In unseren Setups betreiben wir die Chroma-Vektordatenbank in einem separaten Podman-Container. Dafür legen Sie ein dauerhaftes Datenverzeichnis an, etwa "F:\owebui\vector_db". Die Umgebungsvariablen weisen Open WebUI an, diese externe Datenbank zu verwenden. Gleichzeitig sorgt ein pip install --upgrade wie im Listing 4 dafür, dass immer die aktuelle Version des Frontends zum Einsatz kommt.
Listing 4: Start von Open WebUI
$Env:CHROMA_HTTP_HOST = "127.0.0.1"
$Env:CHROMA_HTTP_PORT = 38001
$Env:CHROMA_TENANT = "default_tenant"
$Env:CHROMA_DATABASE = "default_database"
$Env:CHROMA_HTTP_SSL = $false
Set-Location -Path "F:\owebui"
& ".\env\Scripts\Activate.ps1"
python -m pip install open-webui --upgrade
podman run -d --rm -p 38001:8000 --name chroma `
-v F:\owebui\vector_db:/data:rw `
-e CHROMA_DATA_DIR=/data `
chromadb/chroma:latest
open-webui serve
Nach dem Start erreichen Sie Open Web-UI im Browser unter "http://localhost: 8080". Beim ersten Aufruf legt das System einen Admin-Benutzer an. Dieser kann später bestimmen, welche Modelle, Funktionen und Datenquellen für andere Benutzer oder Gruppen verfügbar sind.
Die grundlegende Konfiguration nehmen Sie im Admin-Panel vor. Unter "Settings / Connections" deaktivieren Sie die OpenAI-Anbindung und aktivieren stattdessen Ollama. Als URL geben Sie in der Regel "http://localhost:11434" an. Sobald die Verbindung steht, listet Open WebUI unter "Settings / Models" automatisch die von Ollama bereitgestellten Modelle auf.
Für die RAG-Funktion wechseln Sie zu "Settings / Documents". Dort konfigurieren Sie das zuvor geladene Embedding-Modell "nomic-embed-text" und verknüpfen es ebenfalls mit Ihrer Ollama-Instanz. Damit ist Open WebUI in der Lage, Dokumente zu indizieren und Suchergebnisse kontextuell auszuwerten.
Im nächsten Schritt binden Sie die Websuche an. Unter "Settings / Web Search" aktivieren Sie die Engine "searxng" und tragen als Query-URL Ihre lokale Instanz ein, beispielsweise "http://localhost:30888/ search?q=<query>&format=json". Achten Sie darauf, die Anzahl paralleler Suchanfragen so zu begrenzen, dass dieser weder SearXNG noch die angebundenen Suchmaschinen überlasten.
KI-Suche mit Perplexica
Perplexica [5] ist ein quelloffenes Webfrontend, das sich gezielt an dem Funktionsprinzip des kommerziellen Dienstes Perplexity orientiert. Anders als Open WebUI versteht sich Perplexica nicht als universelle Oberfläche für LLMs, sondern als dediziertes Werkzeug für KI-gestützte Websuche. Der Fokus liegt darauf, Suchanfragen automatisch zu formulieren, Ergebnisse zusammenzufassen und die verwendeten Quellen transparent anzuzeigen.
Bild 3: Das spezialisierte Frontend Perplexica fasst Suchergebnisse KI-gestützt zusammen und listet die verwendeten Quellen auf.
Die Installation fällt entsprechend einfach aus. Perplexica lässt sich vollständig containerisiert betreiben und benötigt lediglich zwei persistente Volumes. Im Verzeichnis "data" speichert das Tool Konfiguration und Suchhistorie, "uploads" nimmt optional Dokumente auf, die Sie analysieren lassen können. Für den hier beschriebenen Stack nutzen wir eine bestehende SearXNG-Instanz und binden diese explizit an Perplexica an. Sie starten Perplexica mit dem Podman-Kommando aus Listing 5.
Listing 5: Perplexica als KI-Suchfrontend starten
podman run -d --rm -p 3000:3000 --name=perplexica_latest `
Perplexica stellt mehrere Container-Images bereit. Für dieses Setup genügt das Image "slim-latest", da die Suchfunktion bereits auf eine externe SearXNG-Instanz zugreift. Das alternativ verfügbare Image "latest" bringt eine integrierte und vorkonfigurierte SearXNG-Instanz mit und eignet sich vor allem für Anwender, die ausschließlich Perplexica betreiben möchten.
Nach dem Start erreichen Sie die Oberfläche im Browser unter "http://localhost: 3000". Beim ersten Aufruf führt ein kurzer Setup-Dialog durch die Grundkonfiguration. Hier geben Sie die URL Ihrer Ollama-Instanz an. Perplexica erkennt die verfügbaren Modelle automatisch und stellt sie für die Suche bereit.
Im praktischen Einsatz liefert Perplexica meist sehr ausführliche, gut strukturierte Antworten und ergänzt diese häufig um Links zu Bildern oder Videos. Anders als Open WebUI antwortet Perplexica nur dann, wenn tatsächlich Suchergebnisse aus dem Internet vorliegen. Fehlschläge durch rein modellbasierte Antworten treten dadurch seltener auf.
Allerdings zeigt das Tool auch Schwächen. Es bietet derzeit keine Lokalisierung und arbeitet ausschließlich auf Englisch. Das beeinflusst sowohl die Auswahl der Suchquellen als auch die Funktion Discover, die überwiegend US-amerikanische Nachrichtenquellen aggregiert. Zudem lässt sich die Auswahl dieser Quellen aktuell nicht konfigurieren.
In Tests mit gut dokumentierten, technischen Themen liefert Perplexica sehr zuverlässige Ergebnisse. Bei aktuellen oder regionalen Fragestellungen treten hingegen häufiger Ungenauigkeiten auf. Auffällig ist außerdem, dass Perplexica die zuvor in Ollama gesetzte Kontextlänge von 128.000 Token intern auf 32.000 reduziert. Das kann bei Folgeanfragen dazu führen, dass das Modell den Gesprächszusammenhang verliert oder keine Antwort mehr liefert.
Fazit
Der Aufbau einer eigenen KI-gestützten Suchumgebung auf lokaler Hardware ist heute mit überschaubarem Aufwand möglich. Mit SearXNG lassen sich Suchanfragen anonymisieren und werbefrei auswerten, während Ollama die KI vollständig lokal bereitstellt. Daten und Modelle bleiben damit unter eigener Kontrolle.
Als Frontend überzeugt Open WebUI durch Stabilität und eine saubere Integration von Websuche und RAG-Funktionen. Die Ergebnisse sind nachvollziehbar, liefern konsistente Quellen und lassen sich durch Nachfragen gezielt vertiefen. Perplexica ergänzt das Setup als spezialisierte KI-Suchoberfläche mit sehr ausführlichen Antworten, zeigt aktuell jedoch noch Einschränkungen bei Konfigurierbarkeit und Zuverlässigkeit.
Insgesamt bietet der lokale KI- und Such-Stack eine praxistaugliche Alternative zu Clouddiensten. Mit geeigneter Hardware lässt sich die Lösung problemlos auf aktuellen PCs oder Notebooks betreiben und flexibel an eigene Anforderungen anpassen.