Warum sind Vision-Modelle so viel teurer als Text?

Jedes Bild wird intern in Tokens umgewandelt. Ein Foto kostet 1.000 bis 5.000 Tokens — etwa zehnmal so viel wie ein typischer Textprompt. Bei Vision dominieren die Input-Tokens das Bild, oft im Verhältnis 5:1 bis 20:1, was die gewohnte Kostenrechnung umkehrt.

Lohnt sich ein KI-Abo wie Ollama Pro für Batch-Jobs?

Für gelegentliche Nutzung ja, für Vision-Batch nein. Das Kontingent ist unklar definiert, und selbst optimistisch geschätzt bräuchte man für 159 Millionen Tokens mehrere Monate. Eine eigene GPU erledigt denselben Job in Tagen für rund 3 Euro Strom.

Warum nicht einfach immer das günstigste Modell nehmen?

Weil die Schema-Compliance über die Gesamtkosten entscheidet. Liefert ein Modell unvollständiges JSON, entsteht Nacharbeit oder ein zweiter Durchlauf. Qwen 32B ließ bei 24 Prozent der Filmstrips Pflichtfelder leer, Claude Haiku mit Strict JSON erreichte 100 Prozent.

159 Millionen Tokens für 3 Euro Strom — Warum sich kein KI-Abo für Batch-Jobs lohnt

Kurzfassung

Wer zehntausende Bilder per KI beschreiben will, stößt schnell an die Grenzen von Cloud-Abos. Für unser Medienarchiv-Projekt haben wir 72.000 Bilder und Filmstrips verarbeitet — 159 Millionen Tokens. Das hätte bei Ollama Pro Monate gedauert und bei Cloud-APIs hunderte Euro gekostet. Eine eigene GPU erledigte den Job in wenigen Tagen für unter 3 Euro Strom.

Das $20-Versprechen

Die Idee klingt verlockend: Ollama Pro für $20 im Monat — Zugriff auf große Cloud-Modelle, 50× mehr Nutzung als im Free-Tier, fertig. Kein Server, keine GPU, kein Aufwand. Einfach API-Key einstecken und loslegen.

Diese Idee hatte ich auch. Und dann habe ich nachgerechnet.

Für ArchivBlick — ein Projekt, das persönliche Foto- und Videoarchive per KI durchsuchbar macht — mussten rund 70.000 Fotos, 13.600 Video-Filmstrips und perspektivisch 5.000 PDFs durch Vision-Modelle geschickt werden. Nicht als gelegentliche Anfrage, sondern als Batch-Job: Bild rein, strukturiertes JSON raus, nächstes Bild.

Was dabei an Tokens zusammenkommt, hat mich selbst überrascht.

Warum Vision-Tokens alles verändern

Bei Text-Anfragen ist die Token-Rechnung überschaubar. Ein typischer Prompt hat 300–500 Tokens, die Antwort vielleicht 200–400. Das sind Bruchteile eines Cents pro Anfrage.

Bei Vision-Modellen sieht die Welt anders aus. Jedes Bild wird intern in Tokens umgewandelt — und ein einziges Foto verbraucht schnell 1.000 bis 5.000 Tokens, je nach Auflösung und Modell. Das ist zehnmal mehr als der gesamte Textprompt.

Text-Prompt

~400 Tokens

Einzelfoto

~2.000 Tokens

Filmstrip (30 Frames)

~10.000+ Tokens

Ein Filmstrip ist besonders teuer. Dabei werden 20–30 Einzelframes eines Videos zu einem Grid-Bild zusammengefasst — typischerweise 5×6 Frames in einem Bild. Das Modell sieht ein einziges hochauflösendes Bild, aber der Token-Verbrauch explodiert.

Bei 13.600 Filmstrips sind das allein 68 Millionen Input-Tokens — nur für die Bilder, ohne einen einzigen Buchstaben Prompt.

Warum das wichtig ist

Bilder sind der versteckte Kostentreiber

Cloud-Anbieter bepreisen Input- und Output-Tokens getrennt. Bei Text dominieren die Output-Tokens (die Antwort). Bei Vision dominieren die Input-Tokens (das Bild) — oft im Verhältnis 5:1 bis 20:1. Das stellt die gewohnte Kostenrechnung auf den Kopf.

Die echten Zahlen: 72.000 Items, 159 Millionen Tokens

Über mehrere Batch-Läufe hinweg haben wir den gesamten Medienbestand durch ein lokales Vision-Modell (Qwen2.5-VL-32B) geschickt. Hier die tatsächlichen Zahlen:

Verarbeitete Items 72.400 Fotos, Screenshots, Filmstrips

Gesamte Tokens 159M 99M Input + 60M Output

Kosten ~3 € Strom (eigene GPU)

Aufschlüsselung nach Job-Typ

Job	Items	Input-Tokens	Output-Tokens	Ø Output/Item
Fotos (iCloud)	41.117	~20M	~18M	437 Tokens
Screenshots	10.491	~6M	~5M	490 Tokens
Video-Frames	6.653	~3M	~2M	300 Tokens
Filmstrips	13.653	~68M	~34M	2.500 Tokens
Insta360 Dual	525	~2M	~1M	1.900 Tokens

Die Filmstrips verbrauchen 65% aller Tokens — obwohl sie nur 19% der Items ausmachen. Ein einzelner Filmstrip kostet so viel wie 25 Einzelfotos.

65% aller Tokens entfallen auf Filmstrips — bei nur 19% der Items

Was würde das in der Cloud kosten?

Dieselben 159 Millionen Tokens durch verschiedene Anbieter geschickt — hier die Kostenrechnung:

Anbieter / Option	Preis Input	Preis Output	Gesamtkosten	Zeitrahmen
Eigene GPU (RTX 4090 Pro)	—	—	~3 €	~4 Tage
Gemini 2.5 Flash	$0,15/1M	$0,60/1M	~50 €	~1 Tag
Claude Haiku (Batch-API)	$0,40/1M	$1,00/1M	~100 €	~1 Tag
GPT-4o Vision	$2,50/1M	$10,00/1M	~850 €	~1 Tag
Claude Opus (Vision)	$15,00/1M	$75,00/1M	~5.985 €	~1 Tag
Ollama Pro ($20/mo)	Kontingent unklar		$60–320	3–16 Monate

Selbst die günstigste Cloud-Option (Gemini Flash) kostet 17× mehr als die eigene GPU. Bei Premium-Modellen wie Claude Opus landet man bei knapp 6.000 Euro — für denselben Job, den eine Grafikkarte für 3 Euro Strom erledigt.

Kernproblem

Ollama Pro ist nicht für Batch gedacht

„50× mehr Cloud-Nutzung" klingt viel — aber ohne veröffentlichte Token-Limits ist das eine Black Box. Selbst optimistisch geschätzt (50M Tokens/Monat) bräuchte man 3 Monate für unseren Workload. Realistisch eher 10–16 Monate. Das Abo richtet sich an Entwickler, die gelegentlich große Modelle testen wollen — nicht an Batch-Pipelines mit Millionen von Tokens.

Warum man nicht einfach das billigste Modell nehmen kann

Die Kostentabelle suggeriert: Nimm die eigene GPU und fertig. Aber es gibt einen Haken — Schema-Compliance.

Jede Bildbeschreibung muss als strukturiertes JSON zurückkommen: Kurzbeschreibung, Szenen, Aktivität, Ort, Stimmung, Tags. Wenn das Modell kein valides JSON liefert oder Felder leer lässt, ist die Beschreibung für die Suche wertlos.

Claude Haiku

100%

Gemini Flash

~96%

Qwen 32B

~76%

Gemma 4 26B

~70%

Schema-Compliance bei Filmstrips (vollständig ausgefülltes JSON mit allen Pflichtfeldern)

Bei Einzelfotos liefern alle Modelle gute Ergebnisse. Der Unterschied zeigt sich bei Filmstrips: Qwen 32B lässt bei 24% der Filmstrips die Felder szenen[] und verlauf leer — obwohl genau diese Felder für die Videosuche entscheidend sind.

Claude Haiku mit Strict JSON Schema Enforcement erreicht dagegen 100%. Jedes Feld wird ausgefüllt, jedes JSON ist valide. Das kostet mehr — aber die Nacharbeit fällt weg.

Praxis-Erkenntnis

Schema-Compliance bestimmt die Gesamtkosten

Ein Modell, das 30% unvollständige Ergebnisse liefert, erzeugt 30% Nacharbeit — entweder manuell oder durch einen zweiten Durchlauf mit einem besseren Modell. Die billigste Inference ist nicht immer die billigste Pipeline.

Die richtige Strategie: Ein Mix aus drei Stufen

Nach Monaten mit verschiedenen Modellen und Anbietern hat sich ein dreistufiges System bewährt:

01 Eigene GPU für die Masse

Modell: Qwen2.5-VL-32B (lokal)

Einsatz: Alle Fotos, Screenshots, erste Filmstrip-Runde

Kosten: ~3 € Strom für 72.000 Items

Vorteil: Unbegrenzt, kein Datenschutz-Risiko, keine API-Limits

Nachteil: Schema-Compliance bei komplexen Aufgaben schwächer

02 Cloud-API für Qualitäts-Nachläufe

Modelle: Claude Haiku (Batch-API), Gemini Flash

Einsatz: Filmstrips mit unvollständigem JSON, Stichproben

Kosten: ~20–30 € für 30.000 Items (Haiku Batch, 50% Rabatt)

Vorteil: Perfekte Schema-Compliance, schnell

Nachteil: Bilder verlassen das eigene Netzwerk

03 GPU On-Demand für Spezialfälle

Hardware: H100 (80 GB VRAM) bei Cloud-Anbietern

Einsatz: 70B+ Modelle für PDF-OCR, die lokal nicht passen

Kosten: ~3–4 €/Stunde

Vorteil: Große Modelle ohne eigene Hardware, volle Kontrolle

Nachteil: Nur stundenweise wirtschaftlich

Der Schlüssel ist nicht eine Lösung für alles, sondern das richtige Werkzeug für jeden Job. Die eigene GPU erledigt 80% der Arbeit kostenlos. Cloud-APIs übernehmen die 20%, bei denen Qualität wichtiger ist als Preis. Und für die seltenen Fälle, in denen ein Modell 80 GB VRAM braucht, mietet man eine GPU für ein paar Stunden.

Was noch kommt: 215 Millionen Tokens in der Pipeline

iCloud Retry + Neue ~10.000 Fehlgeschlagene + neue Uploads

PDF-Pipeline 5.000 Dokumente × Ø 20 Seiten

Geschätzte Tokens 215M+ Davon ~200M allein für PDFs

Die PDF-Pipeline wird der nächste Token-Fresser. 5.000 Dokumente — Steuerbescheide, Versicherungspolicen, Verträge — mit durchschnittlich 20 Seiten. Jede Seite muss als Bild durch ein Vision-Modell, weil klassisches OCR bei Handschrift und komplexen Layouts versagt.

Erste Tests laufen mit InternVL2.5-38B, einem Modell, das speziell für Dokumenten-OCR optimiert ist. Bei 48 GB VRAM auf der eigenen GPU passt das noch — knapp.

Fazit: Rechne nach, bevor du ein Abo abschließt

Abo-Modelle wie Ollama Pro lösen ein echtes Problem: Sie geben Entwicklern Zugang zu großen Modellen ohne eigene Hardware. Für gelegentliche Nutzung — mal ein 70B-Modell testen, mal eine Handvoll Bilder analysieren — sind $20 im Monat fair.

Aber für Batch-Workloads mit Vision-Modellen ist die Rechnung eine andere:

Abo-Modell ($20/mo)

Unklar definiertes Kontingent
3–16 Monate für 159M Tokens
$60–320 Gesamtkosten
Kein Vision-Batch-Support garantiert

Eigene GPU

Unbegrenztes Kontingent
4 Tage für 159M Tokens
~3 € Gesamtkosten
Volle Kontrolle über Modell und Daten

Die eigene GPU muss dabei kein Vermögen kosten. Eine gebrauchte RTX 3090 (24 GB VRAM) reicht für die meisten lokalen Modelle und kostet auf dem Gebrauchtmarkt um die 600–700 Euro. Nach zwei bis drei Batch-Projekten hat sich die Investition gegenüber Cloud-APIs amortisiert.

Oder man mietet: GPU-Server gibt es ab 80 Euro pro Woche. Für einen einzelnen großen Batch-Lauf kann das die pragmatischste Lösung sein.

Die Kernfrage ist nicht „Welcher Anbieter?" — sondern „Wie viele Tokens brauche ich wirklich?". Wer diese Zahl kennt, trifft bessere Entscheidungen als jedes Marketing-Versprechen erlaubt.

Transparenzhinweis Alle genannten Preise und Produkte sind selbst finanziert und recherchiert. Es bestehen keine Partnerschaften oder Affiliate-Vereinbarungen mit den genannten Anbietern. Die Token-Zahlen stammen aus eigenen Batch-Läufen.

Mehr zum Projekt: Die komplette Pipeline für 151.000+ Medien und Drei Vision-Modelle im Praxistest.