Die Herausforderung: 150.000 Dateien, kein einziges verschlagwortet
Wer über Jahre Fotos und Videos sammelt, kennt das: Die Sammlung wächst, aber die Auffindbarkeit sinkt. Ordnerstrukturen nach Datum helfen nur, wenn man weiß wann etwas war. Aber was, wenn man nach „Sonnenuntergang am Meer mit Leuchtturm" suchen will? Oder nach „Motorrad auf Passstraße bei Regen"?
Genau diese Herausforderung löst ArchivBlick — vollautomatische Bildbeschreibung und semantische Suche über ein komplettes Medienarchiv mit über 150.000 Dateien.
Der Ansatz: Vision-KI statt manueller Verschlagwortung
Statt jedes Bild von Hand zu taggen, lassen wir ein Vision-Language-Modell (Qwen2.5-VL mit 32 Milliarden Parametern) jedes einzelne Bild analysieren. Das Modell beschreibt:
- Erkennbare Objekte, Personen und Orte
- Stimmung, Tageszeit und Wetterbedingungen
- Aktivitäten und Szenen
- Strukturierte Tags für die Suche
Aus diesen Beschreibungen werden Vektoren berechnet, die eine semantische Suche ermöglichen — also Suche nach Bedeutung statt nach Dateinamen.
Live-Demo: Was sieht die KI?
Hier zwei GoPro-Aufnahmen von einer Motorrad-Tour in den Alpen. Wir haben die KI gebeten, nicht nur die Szene zu beschreiben, sondern auch Kurvenwinkel und Schräglage zu schätzen — relevant für unser Projekt Kurvenfokus.
KI-Analyse (Qwen2.5-VL 32B)
| Kurventyp | Rechtskurve, weite Kurve |
| Kurvenwinkel | ca. 60°–70° |
| Schräglage | ca. 15°–20° |
| Straße | Asphalt, guter Zustand, 3–4 m breit, weiße Seitenlinie |
| Umgebung | Wald, mittlere bis hohe Höhenlage, üppige Vegetation |
| Sicherheit | Chevron-Warnschild erkannt, begrenzte Sichtweite |
KI-Analyse (Qwen2.5-VL 32B)
| Kurventyp | Rechtskurve, weite Kurve |
| Kurvenwinkel | ca. 90° |
| Schräglage | ca. 20°–30° |
| Straße | Asphalt, guter Zustand, 6–8 m breit, weiße Markierungen |
| Umgebung | Gebirgsregion, Nadelbäume (Fichten), hohe Lage, bewölkt |
| Sicherheit | Leitplanke und Delineatorpfosten erkannt |
Beide Analysen wurden in Echtzeit auf einem gemieteten GPU-Server erzeugt — pro Bild ca. 15 Sekunden.
Warum kein Cloud-Dienst?
Dienste wie Google Vision oder OpenAI bieten ähnliche Funktionen. Wir haben uns bewusst dagegen entschieden:
- Datenschutz: 150.000 private Fotos und Videos gehören nicht auf fremde Server. Die Modelle laufen vollständig auf eigener bzw. gemieteter Hardware — kein Bild verlässt unsere Kontrolle.
- Kosten: Cloud-APIs kosten bei dieser Menge schnell mehrere hundert Euro. Ein GPU-Server für eine Woche kostet 80 €.
- Flexibilität: Eigene Modelle bedeuten eigene Prompts. Wir können die KI fragen was wir wollen — Kurvenanalyse, Stimmungserkennung, OCR, oder alles zusammen.
Die Technik dahinter
Der Workflow besteht aus drei Phasen:
- GPU-Server mieten — RTX 4080 Super (32 GB VRAM), für eine Woche. Darauf läuft vLLM als Inference-Server mit dem Open-Source-Modell Qwen2.5-VL.
- Batch-Verarbeitung — Alle Bilder werden asynchron durch das Modell geschickt. Bei 8 parallelen Anfragen schafft das 32B-Modell ca. 5 Bilder pro Minute. Das 7B-Modell ist 5× schneller.
- Semantische Suche — Die Beschreibungen werden in Vektoren umgewandelt und in einer lokalen Vektor-Datenbank (Qdrant) gespeichert. Die Suche läuft danach dauerhaft auf einem Mac mini — ohne GPU, ohne Cloud.
7B vs. 32B — lohnt sich das große Modell?
Wir haben beide Modellgrößen auf 500 Testbildern verglichen. Hier ein Beispiel — dasselbe Foto eines irischen Leuchtturms:
Panoramabild von einer irischen Küste mit einem Leuchtturm und einer kleinen Insel
Küstenlandschaft mit Leuchtturm auf felsiger Halbinsel. Welliges Meer, Klippen, grüne Felder, Häuser im Hintergrund. Gedämpfte Farben, bewölkt.
Idyllische Küstenlandschaft mit markantem weißen Leuchtturm auf Felsvorsprung, klassisches Design mit schmalem Turm. Felsige Küstenformationen, umspült von Wellen. Kleine Siedlung im Hintergrund, offenes Grasland. Ruhige, abgeschiedene Atmosphäre, erdige Töne mit dem Weiß des Leuchtturms und dem Blau des Meeres.
Der Sprung von LLaVA zu Qwen 7B ist dramatisch. Der Sprung von 7B zu 32B bringt mehr Detailtiefe und Stimmung — ob das die 5× längere Laufzeit rechtfertigt, hängt vom Anwendungsfall ab.
Neu: 360°-Kameras — Insta360 und GoPro MAX
Seit Mai 2026 unterstützt ArchivBlick auch 360°-Material. Insta360 X3/X4 und GoPro MAX erzeugen Dual-Fisheye-Aufnahmen — zwei kreisförmige Weitwinkelbilder in einem einzigen Frame. Kein herkömmliches Tool kann damit etwas anfangen. ArchivBlick schon.
Die KI analysiert beide Halbkugeln und beschreibt die gesamte 360°-Szene: Was ist vorne, was hinten, was links und rechts. Erstmals werden 360°-Videos genauso durchsuchbar wie normale Aufnahmen.
Aktueller Stand
Was am 2. Mai noch „Nächste Schritte" waren, ist heute größtenteils umgesetzt:
- ✓ Vollständiger Batch-Lauf über 150.000+ Dateien — 135.000 mit KI-Beschreibung
- ✓ Vektor-Datenbank (Qdrant) mit semantischer Suche auf dem Mac mini
- ✓ Web-Galerie mit Filmstrip-Viewer, Kartenansicht und Volltextsuche
- ✓ 4,5 Millionen strukturierte Tags in der Datenbank
- ✓ 360°-Kamera-Support (Insta360 Dual-Fisheye)
- ◐ Insta360 Batch-Analyse (511 Videos, läuft gerade)
- ◐ RAG-basierte Konversationssuche (Prototyp steht)
- ○ Automatische Beschreibung neuer Videos beim Import
- ○ Cloud-fähige Architektur für spätere Produktversion
ArchivBlick ist ein aktives Projekt. Updates folgen hier im Blog.