Wer zehntausende Bilder per KI beschreiben will, stößt schnell an die Grenzen von Cloud-Abos. Für unser Medienarchiv-Projekt haben wir 72.000 Bilder und Filmstrips verarbeitet — 159 Millionen Tokens. Das hätte bei Ollama Pro Monate gedauert und bei Cloud-APIs hunderte Euro gekostet. Eine eigene GPU erledigte den Job in wenigen Tagen für unter 3 Euro Strom.
Das $20-Versprechen
Die Idee klingt verlockend: Ollama Pro für $20 im Monat — Zugriff auf große Cloud-Modelle, 50× mehr Nutzung als im Free-Tier, fertig. Kein Server, keine GPU, kein Aufwand. Einfach API-Key einstecken und loslegen.
Diese Idee hatte ich auch. Und dann habe ich nachgerechnet.
Für ArchivBlick — ein Projekt, das persönliche Foto- und Videoarchive per KI durchsuchbar macht — mussten rund 70.000 Fotos, 13.600 Video-Filmstrips und perspektivisch 5.000 PDFs durch Vision-Modelle geschickt werden. Nicht als gelegentliche Anfrage, sondern als Batch-Job: Bild rein, strukturiertes JSON raus, nächstes Bild.
Was dabei an Tokens zusammenkommt, hat mich selbst überrascht.
Warum Vision-Tokens alles verändern
Bei Text-Anfragen ist die Token-Rechnung überschaubar. Ein typischer Prompt hat 300–500 Tokens, die Antwort vielleicht 200–400. Das sind Bruchteile eines Cents pro Anfrage.
Bei Vision-Modellen sieht die Welt anders aus. Jedes Bild wird intern in Tokens umgewandelt — und ein einziges Foto verbraucht schnell 1.000 bis 5.000 Tokens, je nach Auflösung und Modell. Das ist zehnmal mehr als der gesamte Textprompt.
Ein Filmstrip ist besonders teuer. Dabei werden 20–30 Einzelframes eines Videos zu einem Grid-Bild zusammengefasst — typischerweise 5×6 Frames in einem Bild. Das Modell sieht ein einziges hochauflösendes Bild, aber der Token-Verbrauch explodiert.
Bei 13.600 Filmstrips sind das allein 68 Millionen Input-Tokens — nur für die Bilder, ohne einen einzigen Buchstaben Prompt.
Bilder sind der versteckte Kostentreiber
Cloud-Anbieter bepreisen Input- und Output-Tokens getrennt. Bei Text dominieren die Output-Tokens (die Antwort). Bei Vision dominieren die Input-Tokens (das Bild) — oft im Verhältnis 5:1 bis 20:1. Das stellt die gewohnte Kostenrechnung auf den Kopf.
Die echten Zahlen: 72.000 Items, 159 Millionen Tokens
Über mehrere Batch-Läufe hinweg haben wir den gesamten Medienbestand durch ein lokales Vision-Modell (Qwen2.5-VL-32B) geschickt. Hier die tatsächlichen Zahlen:
Aufschlüsselung nach Job-Typ
| Job | Items | Input-Tokens | Output-Tokens | Ø Output/Item |
|---|---|---|---|---|
| Fotos (iCloud) | 41.117 | ~20M | ~18M | 437 Tokens |
| Screenshots | 10.491 | ~6M | ~5M | 490 Tokens |
| Video-Frames | 6.653 | ~3M | ~2M | 300 Tokens |
| Filmstrips | 13.653 | ~68M | ~34M | 2.500 Tokens |
| Insta360 Dual | 525 | ~2M | ~1M | 1.900 Tokens |
Die Filmstrips verbrauchen 65% aller Tokens — obwohl sie nur 19% der Items ausmachen. Ein einzelner Filmstrip kostet so viel wie 25 Einzelfotos.
Was würde das in der Cloud kosten?
Dieselben 159 Millionen Tokens durch verschiedene Anbieter geschickt — hier die Kostenrechnung:
| Anbieter / Option | Preis Input | Preis Output | Gesamtkosten | Zeitrahmen |
|---|---|---|---|---|
| Eigene GPU (RTX 4090 Pro) | — | — | ~3 € | ~4 Tage |
| Gemini 2.5 Flash | $0,15/1M | $0,60/1M | ~50 € | ~1 Tag |
| Claude Haiku (Batch-API) | $0,40/1M | $1,00/1M | ~100 € | ~1 Tag |
| GPT-4o Vision | $2,50/1M | $10,00/1M | ~850 € | ~1 Tag |
| Claude Opus (Vision) | $15,00/1M | $75,00/1M | ~5.985 € | ~1 Tag |
| Ollama Pro ($20/mo) | Kontingent unklar | $60–320 | 3–16 Monate | |
Selbst die günstigste Cloud-Option (Gemini Flash) kostet 17× mehr als die eigene GPU. Bei Premium-Modellen wie Claude Opus landet man bei knapp 6.000 Euro — für denselben Job, den eine Grafikkarte für 3 Euro Strom erledigt.
Ollama Pro ist nicht für Batch gedacht
„50× mehr Cloud-Nutzung" klingt viel — aber ohne veröffentlichte Token-Limits ist das eine Black Box. Selbst optimistisch geschätzt (50M Tokens/Monat) bräuchte man 3 Monate für unseren Workload. Realistisch eher 10–16 Monate. Das Abo richtet sich an Entwickler, die gelegentlich große Modelle testen wollen — nicht an Batch-Pipelines mit Millionen von Tokens.
Warum man nicht einfach das billigste Modell nehmen kann
Die Kostentabelle suggeriert: Nimm die eigene GPU und fertig. Aber es gibt einen Haken — Schema-Compliance.
Jede Bildbeschreibung muss als strukturiertes JSON zurückkommen: Kurzbeschreibung, Szenen, Aktivität, Ort, Stimmung, Tags. Wenn das Modell kein valides JSON liefert oder Felder leer lässt, ist die Beschreibung für die Suche wertlos.
Schema-Compliance bei Filmstrips (vollständig ausgefülltes JSON mit allen Pflichtfeldern)
Bei Einzelfotos liefern alle Modelle gute Ergebnisse. Der Unterschied zeigt sich bei Filmstrips: Qwen 32B lässt bei 24% der Filmstrips die Felder szenen[] und verlauf leer — obwohl genau diese Felder für die Videosuche entscheidend sind.
Claude Haiku mit Strict JSON Schema Enforcement erreicht dagegen 100%. Jedes Feld wird ausgefüllt, jedes JSON ist valide. Das kostet mehr — aber die Nacharbeit fällt weg.
Schema-Compliance bestimmt die Gesamtkosten
Ein Modell, das 30% unvollständige Ergebnisse liefert, erzeugt 30% Nacharbeit — entweder manuell oder durch einen zweiten Durchlauf mit einem besseren Modell. Die billigste Inference ist nicht immer die billigste Pipeline.
Die richtige Strategie: Ein Mix aus drei Stufen
Nach Monaten mit verschiedenen Modellen und Anbietern hat sich ein dreistufiges System bewährt:
Modell: Qwen2.5-VL-32B (lokal)
Einsatz: Alle Fotos, Screenshots, erste Filmstrip-Runde
Kosten: ~3 € Strom für 72.000 Items
Vorteil: Unbegrenzt, kein Datenschutz-Risiko, keine API-Limits
Nachteil: Schema-Compliance bei komplexen Aufgaben schwächer
Modelle: Claude Haiku (Batch-API), Gemini Flash
Einsatz: Filmstrips mit unvollständigem JSON, Stichproben
Kosten: ~20–30 € für 30.000 Items (Haiku Batch, 50% Rabatt)
Vorteil: Perfekte Schema-Compliance, schnell
Nachteil: Bilder verlassen das eigene Netzwerk
Hardware: H100 (80 GB VRAM) bei Cloud-Anbietern
Einsatz: 70B+ Modelle für PDF-OCR, die lokal nicht passen
Kosten: ~3–4 €/Stunde
Vorteil: Große Modelle ohne eigene Hardware, volle Kontrolle
Nachteil: Nur stundenweise wirtschaftlich
Der Schlüssel ist nicht eine Lösung für alles, sondern das richtige Werkzeug für jeden Job. Die eigene GPU erledigt 80% der Arbeit kostenlos. Cloud-APIs übernehmen die 20%, bei denen Qualität wichtiger ist als Preis. Und für die seltenen Fälle, in denen ein Modell 80 GB VRAM braucht, mietet man eine GPU für ein paar Stunden.
Was noch kommt: 215 Millionen Tokens in der Pipeline
Die PDF-Pipeline wird der nächste Token-Fresser. 5.000 Dokumente — Steuerbescheide, Versicherungspolicen, Verträge — mit durchschnittlich 20 Seiten. Jede Seite muss als Bild durch ein Vision-Modell, weil klassisches OCR bei Handschrift und komplexen Layouts versagt.
Erste Tests laufen mit InternVL2.5-38B, einem Modell, das speziell für Dokumenten-OCR optimiert ist. Bei 48 GB VRAM auf der eigenen GPU passt das noch — knapp.
Fazit: Rechne nach, bevor du ein Abo abschließt
Abo-Modelle wie Ollama Pro lösen ein echtes Problem: Sie geben Entwicklern Zugang zu großen Modellen ohne eigene Hardware. Für gelegentliche Nutzung — mal ein 70B-Modell testen, mal eine Handvoll Bilder analysieren — sind $20 im Monat fair.
Aber für Batch-Workloads mit Vision-Modellen ist die Rechnung eine andere:
Abo-Modell ($20/mo)
- Unklar definiertes Kontingent
- 3–16 Monate für 159M Tokens
- $60–320 Gesamtkosten
- Kein Vision-Batch-Support garantiert
Eigene GPU
- Unbegrenztes Kontingent
- 4 Tage für 159M Tokens
- ~3 € Gesamtkosten
- Volle Kontrolle über Modell und Daten
Die eigene GPU muss dabei kein Vermögen kosten. Eine gebrauchte RTX 3090 (24 GB VRAM) reicht für die meisten lokalen Modelle und kostet auf dem Gebrauchtmarkt um die 600–700 Euro. Nach zwei bis drei Batch-Projekten hat sich die Investition gegenüber Cloud-APIs amortisiert.
Oder man mietet: GPU-Server gibt es ab 80 Euro pro Woche. Für einen einzelnen großen Batch-Lauf kann das die pragmatischste Lösung sein.
Die Kernfrage ist nicht „Welcher Anbieter?" — sondern „Wie viele Tokens brauche ich wirklich?". Wer diese Zahl kennt, trifft bessere Entscheidungen als jedes Marketing-Versprechen erlaubt.
Mehr zum Projekt: Die komplette Pipeline für 151.000+ Medien und Drei Vision-Modelle im Praxistest.