Technologie
Lokale KI-Modelle vs. OpenAI: Wann lohnt sich was?
Ich bekomme diese Frage fast jede Woche: "Muss ich wirklich OpenAI nehmen, oder geht das auch anders?"
Die ehrliche Antwort: Es kommt darauf an. Aber die meisten Unternehmen, die ich berate, zahlen für Cloud-APIs, obwohl lokale Modelle für ihre Anwendungsfälle völlig ausreichen würden.
Warum die Frage überhaupt relevant ist
Drei Gründe treiben die Diskussion:
Datenschutz. Wenn ich Kundendaten, interne Dokumente oder Gesundheitsinformationen durch eine externe API schicke, verlasse ich die DSGVO-sichere Zone. Selbst wenn der Anbieter EU-Rechenzentren betreibt, bleibt ein Restrisiko. Ein lokales Modell auf dem eigenen Server dagegen schickt nichts nirgendwo.
Kosten. GPT-4o kostet bei intensiver Nutzung schnell einige hundert Euro im Monat. Ein Hetzner-Server mit Grafikkarte für lokale Modelle liegt bei 100 bis 200 Euro einmalig, dazu der monatliche Mietpreis von 50 bis 80 Euro. Wer viel Text verarbeitet, amortisiert das in wenigen Monaten.
Kontrolle. Cloud-APIs ändern Preise, Modelle und Nutzungsbedingungen. Ich habe erlebt, wie ein Update die Ausgabe einer Anwendung verändert hat, ohne dass ich etwas angefasst hatte. Lokal passiert das nicht.
Was lokale Modelle heute können
Vor zwei Jahren war das Gespräch noch einfach: OpenAI hatte die besseren Modelle, basta. Das stimmt heute nicht mehr uneingeschränkt.
Ollama ist das Werkzeug, das ich für lokale Deployments nutze. Man installiert es, lädt ein Modell, und kann es über eine einfache API ansprechen, die kompatibel zu OpenAI ist. Das bedeutet: bestehender Code läuft oft ohne Anpassung.
Aktuelle Modelle, die ich produktiv einsetze:
- Qwen 2.5 (7B bis 72B): Sehr gut für Deutsche und englische Texte, strukturierte Ausgaben, RAG-Anwendungen
- Mistral 7B: Schnell, ressourcenschonend, gut für einfache Klassifizierungsaufgaben
- Llama 3.3 70B: Konkurriert in vielen Aufgaben direkt mit GPT-4o
Für Anwendungen wie interne Dokumentensuche, automatische E-Mail-Klassifizierung, Textzusammenfassungen oder einfache Chatbots reichen diese Modelle vollständig aus. In meinen Projekten laufen solche Anwendungen seit Monaten stabil, ohne dass ein einziger API-Call nach draußen geht.
Wo Cloud-APIs noch überlegen sind
Ich wäre unehrlich, wenn ich das verschweigen würde.
Komplexes Reasoning. Aufgaben, bei denen das Modell mehrere Schritte durchdenken muss, mehrstufige Analysen oder Code-Generierung für unbekannte Frameworks: Hier ist Claude Opus oder GPT-4o nach wie vor deutlich besser. Die 70B-Modelle holen auf, aber der Abstand ist noch messbar.
Multimodalität. Bilder verstehen, PDFs analysieren, Screenshots beschreiben: Das funktioniert lokal zunehmend, aber Cloud-Modelle sind hier noch ein Stück weiter.
Geschwindigkeit ohne GPU. Ein lokales 70B-Modell auf einem CPU-only-Server ist langsam. Für interaktive Anwendungen, bei denen Nutzer auf Antworten warten, braucht man entweder eine Grafikkarte oder bleibt bei der Cloud. Mit GPU ist das kein Problem mehr.
Kostenvergleich in der Praxis
Nehmen wir eine realistische Anwendung: Ein internes Tool, das täglich 500 Dokumente zusammenfasst, je etwa 2.000 Tokens Input und 300 Tokens Output.
Mit GPT-4o-mini: etwa 0,60 Euro pro Tag, also rund 18 Euro im Monat. Klingt wenig. Aber bei intensiveren Anwendungen oder GPT-4o statt mini multipliziert sich das schnell.
Lokal auf einem Hetzner-Server mit Grafikkarte (CCX33, ca. 65 Euro/Monat): Die ersten beiden Monate teurer als die Cloud-API. Ab Monat drei günstiger. Ab Monat sechs bei komplexeren Anwendungen deutlich günstiger, weil keine variablen Kosten entstehen.
Der Break-Even liegt meistens zwischen 3 und 6 Monaten.
Der Hybridansatz, den ich tatsächlich nutze
In meinen Projekten fahre ich nicht entweder-oder. Ich nutze:
Lokal für Routineaufgaben: Textklassifizierung, einfache Zusammenfassungen, FAQ-Beantwortung, Dokumentenindizierung für RAG. Das sind 80 bis 90 Prozent aller KI-Operationen.
Cloud für Ausnahmen: Wenn ein Nutzer eine ungewöhnlich komplexe Frage stellt, wenn multimodale Eingaben verarbeitet werden müssen, oder wenn ich in der Entwicklung schnell ein schwieriges Problem durchdenken will.
Das Muster: Lokale Modelle nehmen die Last, Cloud-Modelle übernehmen die Ausnahmen. Kosten sinken, Datenschutz verbessert sich, Kontrolle bleibt beim Unternehmen.
Was ich empfehle
Fangen Sie mit Ollama an. Das geht in einem Nachmittag. Laden Sie Qwen 2.5 7B herunter und testen Sie Ihren wichtigsten Anwendungsfall. Wenn das Ergebnis passt, brauchen Sie keine Cloud-API.
Wenn das Ergebnis nicht passt: Prüfen Sie, ob ein größeres lokales Modell (32B, 70B) ausreicht. Erst wenn das nicht reicht, lohnt sich die Cloud-API, und dann gezielt und mit Kostenlimit.
Die meisten Unternehmen, die ich begleite, stellen fest: 70 bis 80 Prozent ihrer geplanten KI-Anwendungen funktionieren lokal. Das reicht für einen echten Start.