ArchivBlick — KI-Bilderkennung für 150.000 Fotos und Videos

Die Herausforderung: 150.000 Dateien, kein einziges verschlagwortet

Wer über Jahre Fotos und Videos sammelt, kennt das: Die Sammlung wächst, aber die Auffindbarkeit sinkt. Ordnerstrukturen nach Datum helfen nur, wenn man weiß wann etwas war. Aber was, wenn man nach „Sonnenuntergang am Meer mit Leuchtturm" suchen will? Oder nach „Motorrad auf Passstraße bei Regen"?

Genau diese Herausforderung löst ArchivBlick — vollautomatische Bildbeschreibung und semantische Suche über ein komplettes Medienarchiv mit über 150.000 Dateien.

Der Ansatz: Vision-KI statt manueller Verschlagwortung

Statt jedes Bild von Hand zu taggen, lassen wir ein Vision-Language-Modell (Qwen2.5-VL mit 32 Milliarden Parametern) jedes einzelne Bild analysieren. Das Modell beschreibt:

Erkennbare Objekte, Personen und Orte
Stimmung, Tageszeit und Wetterbedingungen
Aktivitäten und Szenen
Strukturierte Tags für die Suche

Aus diesen Beschreibungen werden Vektoren berechnet, die eine semantische Suche ermöglichen — also Suche nach Bedeutung statt nach Dateinamen.

Live-Demo: Was sieht die KI?

Hier zwei GoPro-Aufnahmen von einer Motorrad-Tour in den Alpen. Wir haben die KI gebeten, nicht nur die Szene zu beschreiben, sondern auch Kurvenwinkel und Schräglage zu schätzen — relevant für unser Projekt Kurvenfokus.

GoPro-Aufnahme einer Rechtskurve auf einer Waldstraße in den Alpen

Bild 1 — Waldstraße

KI-Analyse (Qwen2.5-VL 32B)

Kurventyp	Rechtskurve, weite Kurve
Kurvenwinkel	ca. 60°–70°
Schräglage	ca. 15°–20°
Straße	Asphalt, guter Zustand, 3–4 m breit, weiße Seitenlinie
Umgebung	Wald, mittlere bis hohe Höhenlage, üppige Vegetation
Sicherheit	Chevron-Warnschild erkannt, begrenzte Sichtweite

GoPro-Aufnahme einer Rechtskurve auf einer Bergstraße mit Panoramablick auf die Dolomiten

Bild 2 — Bergstraße

KI-Analyse (Qwen2.5-VL 32B)

Kurventyp	Rechtskurve, weite Kurve
Kurvenwinkel	ca. 90°
Schräglage	ca. 20°–30°
Straße	Asphalt, guter Zustand, 6–8 m breit, weiße Markierungen
Umgebung	Gebirgsregion, Nadelbäume (Fichten), hohe Lage, bewölkt
Sicherheit	Leitplanke und Delineatorpfosten erkannt

Beide Analysen wurden in Echtzeit auf einem gemieteten GPU-Server erzeugt — pro Bild ca. 15 Sekunden.

Warum kein Cloud-Dienst?

Dienste wie Google Vision oder OpenAI bieten ähnliche Funktionen. Wir haben uns bewusst dagegen entschieden:

Datenschutz: 150.000 private Fotos und Videos gehören nicht auf fremde Server. Die Modelle laufen vollständig auf eigener bzw. gemieteter Hardware — kein Bild verlässt unsere Kontrolle.
Kosten: Cloud-APIs kosten bei dieser Menge schnell mehrere hundert Euro. Ein GPU-Server für eine Woche kostet 80 €.
Flexibilität: Eigene Modelle bedeuten eigene Prompts. Wir können die KI fragen was wir wollen — Kurvenanalyse, Stimmungserkennung, OCR, oder alles zusammen.

Die Technik dahinter

Der Workflow besteht aus drei Phasen:

GPU-Server mieten — RTX 4080 Super (32 GB VRAM), für eine Woche. Darauf läuft vLLM als Inference-Server mit dem Open-Source-Modell Qwen2.5-VL.
Batch-Verarbeitung — Alle Bilder werden asynchron durch das Modell geschickt. Bei 8 parallelen Anfragen schafft das 32B-Modell ca. 5 Bilder pro Minute. Das 7B-Modell ist 5× schneller.
Semantische Suche — Die Beschreibungen werden in Vektoren umgewandelt und in einer lokalen Vektor-Datenbank (Qdrant) gespeichert. Die Suche läuft danach dauerhaft auf einem Mac mini — ohne GPU, ohne Cloud.

7B vs. 32B — lohnt sich das große Modell?

Wir haben beide Modellgrößen auf 500 Testbildern verglichen. Hier ein Beispiel — dasselbe Foto eines irischen Leuchtturms:

LLaVA 7B (alt)

Panoramabild von einer irischen Küste mit einem Leuchtturm und einer kleinen Insel

Qwen 7B

Küstenlandschaft mit Leuchtturm auf felsiger Halbinsel. Welliges Meer, Klippen, grüne Felder, Häuser im Hintergrund. Gedämpfte Farben, bewölkt.

Qwen 32B

Idyllische Küstenlandschaft mit markantem weißen Leuchtturm auf Felsvorsprung, klassisches Design mit schmalem Turm. Felsige Küstenformationen, umspült von Wellen. Kleine Siedlung im Hintergrund, offenes Grasland. Ruhige, abgeschiedene Atmosphäre, erdige Töne mit dem Weiß des Leuchtturms und dem Blau des Meeres.

Der Sprung von LLaVA zu Qwen 7B ist dramatisch. Der Sprung von 7B zu 32B bringt mehr Detailtiefe und Stimmung — ob das die 5× längere Laufzeit rechtfertigt, hängt vom Anwendungsfall ab.

Neu: 360°-Kameras — Insta360 und GoPro MAX

Seit Mai 2026 unterstützt ArchivBlick auch 360°-Material. Insta360 X3/X4 und GoPro MAX erzeugen Dual-Fisheye-Aufnahmen — zwei kreisförmige Weitwinkelbilder in einem einzigen Frame. Kein herkömmliches Tool kann damit etwas anfangen. ArchivBlick schon.

Die KI analysiert beide Halbkugeln und beschreibt die gesamte 360°-Szene: Was ist vorne, was hinten, was links und rechts. Erstmals werden 360°-Videos genauso durchsuchbar wie normale Aufnahmen.

Aktueller Stand

Was am 2. Mai noch „Nächste Schritte" waren, ist heute größtenteils umgesetzt:

✓ Vollständiger Batch-Lauf über 150.000+ Dateien — 135.000 mit KI-Beschreibung
✓ Vektor-Datenbank (Qdrant) mit semantischer Suche auf dem Mac mini
✓ Web-Galerie mit Filmstrip-Viewer, Kartenansicht und Volltextsuche
✓ 4,5 Millionen strukturierte Tags in der Datenbank
✓ 360°-Kamera-Support (Insta360 Dual-Fisheye)
◐ Insta360 Batch-Analyse (511 Videos, läuft gerade)
◐ RAG-basierte Konversationssuche (Prototyp steht)
○ Automatische Beschreibung neuer Videos beim Import
○ Cloud-fähige Architektur für spätere Produktversion

ArchivBlick ist ein aktives Projekt. Updates folgen hier im Blog.

Die Herausforderung: 150.000 Dateien, kein einziges verschlagwortet

Der Ansatz: Vision-KI statt manueller Verschlagwortung

Live-Demo: Was sieht die KI?

KI-Analyse (Qwen2.5-VL 32B)

KI-Analyse (Qwen2.5-VL 32B)

Warum kein Cloud-Dienst?

Die Technik dahinter

7B vs. 32B — lohnt sich das große Modell?

Neu: 360°-Kameras — Insta360 und GoPro MAX

Aktueller Stand

Weitere Artikel