Kurzfassung

Heute habe ich eine KI gebaut, die meine rund 1.500 Markdown-Notizen durchsucht und beantwortet — und sie läuft komplett auf eigener Hardware. Das war kein technischer Zufall, sondern eine Entscheidung. Drei Gründe geben für mich den Ausschlag: Datenschutz, Kosten und Unabhängigkeit. Der Preis ist real — langsamer, ein schwächeres Modell, etwas Bastelei. Für eine Wissensbasis, die mir gehört, nehme ich diesen Tausch trotzdem an.

Eine bewusste Entscheidung, keine Notlösung

Es wäre der einfachere Weg gewesen, meine Notizen in einen Cloud-Dienst zu kippen und eine fertige KI darüber laufen zu lassen. Schneller, bequemer, mit einem besseren Modell. Ich habe es bewusst nicht getan. Stattdessen läuft alles auf eigener Hardware — einem Mac mini und einem kleinen KI-NAS, die ohnehin durchlaufen. Keine Notiz verlässt diese Maschinen.

Dieser Artikel ist kein Tutorial. Wie das technisch funktioniert — Embeddings, Vektorsuche, RAG — habe ich an anderer Stelle beschrieben. Hier geht es um die Frage dahinter: Warum lokal? Und ehrlich: Was kostet mich diese Haltung?

Datenschutz: Diese Notizen gehen niemanden etwas an

In meiner Wissensbasis stehen Dinge, die ich nicht für ein fremdes Rechenzentrum geschrieben habe: halbfertige Projektpläne, Gedanken zu Geschäftlichem, Notizen, die mehr über mich verraten als jeder einzelne Satz für sich. Eine Markdown-Datei wirkt harmlos. 1.500 davon sind ein ziemlich genaues Abbild dessen, woran ich arbeite und wie ich denke.

Genau dieses Abbild lade ich nicht zu einem Anbieter hoch. Nicht, weil ich einem bestimmten Dienst Böses unterstelle, sondern weil ich die Kontrolle nicht abgeben will. Sobald Daten das eigene Netz verlassen, gelten fremde Bedingungen: Server in anderen Ländern, wechselnde Datenschutzklauseln, die offene Frage, ob meine Inhalte irgendwann als Trainingsmaterial dienen. Lokal stellt sich diese Frage gar nicht erst. Was hier liegt, bleibt hier.

Kosten: Was sich still aufsummiert

Der zweite Grund ist nüchterner. Eine Wissensbasis ist nichts, was man einmal durchsucht und dann weglegt. Man fragt sie immer wieder, oft täglich, manchmal in Serie. Und sie wächst — bei mir aktuell rund 1.500 Notizen, Tendenz steigend.

Über eine Cloud abgefragt, wird daraus eine laufende Rechnung. Jede Frage kostet Token, jede Antwort kostet Token, und je mehr Kontext aus den Notizen mitgeschickt wird, desto mehr. Einzeln sind das Centbeträge. Über Monate, über eine wachsende Basis, über tägliche Nutzung summiert sich das zu einem dauerhaften Posten — einem Abo, das mit der eigenen Produktivität teurer wird.

Lokal ist diese Rechnung schlicht null. Die Maschinen laufen ohnehin. Im Leerlauf zieht das KI-NAS rund 8 Watt, während es eine Antwort formuliert etwa 19 Watt. Das ist die Größenordnung einer Glühbirne, nicht die einer monatlichen Cloud-Abrechnung. Null Token, null Euro laufende Kosten — und zwar unabhängig davon, wie oft ich frage oder wie groß die Basis wird.

Unabhängigkeit: Das Setup gehört mir

Der dritte Grund wiegt für mich am schwersten. Ein Cloud-Dienst ist ein Versprechen, das jederzeit aufgekündigt werden kann. Preise ändern sich. Modelle werden abgeschaltet oder durch Nachfolger ersetzt, die sich anders verhalten. Nutzungsbedingungen werden angepasst, meist nicht zu meinem Vorteil. Ich habe darauf keinen Einfluss — ich kann nur reagieren.

Mein lokales Setup kennt diese Überraschungen nicht. Das Modell, das heute antwortet, antwortet auch nächstes Jahr noch genau so, weil es auf meiner Festplatte liegt. Niemand kann es mir entziehen, verteuern oder umtrainieren. Das ist keine Bequemlichkeit, sondern Verlässlichkeit: Ein Werkzeug, das ich täglich brauche, sollte nicht von der Geschäftsentscheidung eines Anbieters abhängen.

Der ehrliche Preis

So überzeugt ich von der Haltung bin — sie ist nicht umsonst, und ich will sie nicht schönreden. Drei Dinge kosten mich diese Entscheidung spürbar:

Der TauschWas er konkret bedeutet
GeschwindigkeitEine Antwort dauerte rund 37 Sekunden — ein großes Cloud-Modell ist in wenigen Sekunden fertig.
ModellstärkeLokal läuft Qwen3.5-35B auf einer Intel-Arc-iGPU mit etwa 22 Token/s — solide, aber kein Spitzenmodell.
AufwandEs braucht etwas Bastelei und Pflege. Nichts läuft hier auf Knopfdruck wie ein fertiger Dienst.

37 Sekunden auf eine Antwort zu warten ist im Alltag eine echte Geduldsprobe, gerade wenn man Cloud-Tempo gewohnt ist. Und das 35B-Modell auf einer integrierten GPU ist für das Wiederfinden und Zusammenfassen eigener Notizen stark genug, beim komplexen Schlussfolgern bleibt ein großes Cloud-Modell aber überlegen.

Hinzu kommt eine Beobachtung, die unabhängig von lokal oder Cloud gilt, mir aber wichtig ist: Der eigentliche Engpass ist nicht die Sprachqualität, sondern die Trefferqualität der Suche. Findet die Suche die falschen Stellen, formuliert das Modell die Antwort trotzdem überzeugend — nur eben falsch. Ein gut klingender, inhaltlich falscher Absatz ist gefährlicher als ein offensichtlich schlechter. Ein größeres Modell würde dieses Problem nicht lösen; eine bessere Suche schon.

Unterm Strich ist das eine Abwägung, keine Glaubensfrage. Für eine private Wissensbasis, die mir gehört und die ich täglich nutze, lohnt der Tausch klar: Ich gebe Tempo und ein paar Prozent Modellgüte auf und bekomme dafür Datenschutz, Kostenfreiheit und Verlässlichkeit. Für andere Anwendungsfälle — wenn Geschwindigkeit zählt oder das beste verfügbare Modell gebraucht wird — kann die Rechnung anders ausgehen. Das gestehe ich offen zu.

Warum lokale Alternativen wichtig bleiben

Ein letzter Gedanke, der über mein kleines Setup hinausreicht. Immer mehr von dem, was wir täglich nutzen, läuft über eine Handvoll großer Anbieter. Das ist bequem und oft auch das bessere Produkt — aber es ist auch eine wachsende Abhängigkeit. Wer keine eigene Alternative kennt, hat keine Verhandlungsposition, wenn sich die Bedingungen ändern.

Mir geht es nicht darum, die Cloud zu verteufeln. Sie hat ihren Platz, und für vieles ist sie schlicht die richtige Wahl. Mir geht es darum, dass es überhaupt einen funktionierenden lokalen Weg gibt — und dass er heute, mit quelloffenen Modellen und bezahlbarer Hardware, für eine private Wissensbasis tatsächlich gangbar ist. Dass ich ihn an einem Tag bauen konnte, ist das eigentliche Argument. Die Option, nicht abhängig sein zu müssen, ist es wert, gepflegt zu werden.

Transparenzhinweis: Dieses Projekt ist selbst finanziert. Die genutzten Werkzeuge sind quelloffen; die Hardware habe ich selbst angeschafft. Es bestehen keine bezahlten Kooperationen mit den genannten Herstellern. Alle Zahlen stammen aus einem echten Testlauf am 17. Juni 2026.