Was macht Frederik von der Heyden?

Frederik von der Heyden entwickelt individuelle Software und KI-Strategie für mittelständische Unternehmen. 13 Projekte laufen in Produktion, alle auf deutschen Servern, DSGVO- und EU AI Act-konform. Ein Ansprechpartner statt Agentur-Overhead.

Für wen ist das Angebot gedacht?

Für Geschäftsführer und Inhaber im Mittelstand, die jemanden brauchen, der KI versteht und umsetzt. Als Interim KI-Manager, Sparringspartner oder Entwickler. Keine Agentur, keine Folien, keine lange Vertragsbindung.

Welche Leistungen werden angeboten?

Drei Kernbereiche: Prototypen und Produktentwicklung (individuelle Web-Apps und SaaS-Plattformen), KI-Strategie und Coaching (vom 90-Minuten-Impuls bis zum Strategietag) und Interim KI-Management (als Fractional Chief AI Officer auf Zeit).

Wo werden die Daten gespeichert?

Ausschließlich auf deutschen Servern (Hetzner, Standort Deutschland). DSGVO-konform, EU AI Act-konform, eigene Datenbank pro Kunde, kein Vendor Lock-in. Lokale Sprachmodelle statt Cloud-APIs.

Wie schnell kann ein Prototyp stehen?

Ein Proof of Concept steht in 1 bis 2 Tagen. Ein funktionsfähiger Prototyp mit echten Daten in 3 bis 7 Tagen. Ein marktreifes MVP ab 2 Wochen, je nach Komplexität.

Was passiert nach dem Launch?

Frederik betreibt, was er entwickelt. Updates, Security-Patches, Monitoring und Support sind Teil des Angebots. Kein Projekt wird nach dem Launch sich selbst überlassen.

Warum kein Agentur-Modell?

Ein Ansprechpartner, der das System kennt. Keine Übergaben, kein Teamwechsel, kein Briefing-Marathon. Entscheidungen fallen schneller, die Kommunikation ist direkter.

Welche Technologien werden eingesetzt?

Next.js, TypeScript, PostgreSQL, Supabase, Docker, Hetzner Cloud. Dazu lokale Sprachmodelle (Ollama), Grafana für Monitoring und Sentry für Error-Tracking. Alles Open-Source-nah, kein Vendor Lock-in.

Lokale KI-Modelle vs. OpenAI: Vergleich für Unternehmen 2026

Ich bekomme diese Frage fast jede Woche: "Muss ich wirklich OpenAI nehmen, oder geht das auch anders?"

Die ehrliche Antwort: Es kommt darauf an. Aber die meisten Unternehmen, die ich berate, zahlen für Cloud-APIs, obwohl lokale Modelle für ihre Anwendungsfälle völlig ausreichen würden.

Warum die Frage überhaupt relevant ist

Drei Gründe treiben die Diskussion:

Datenschutz. Wenn ich Kundendaten, interne Dokumente oder Gesundheitsinformationen durch eine externe API schicke, verlasse ich die DSGVO-sichere Zone. Selbst wenn der Anbieter EU-Rechenzentren betreibt, bleibt ein Restrisiko. Ein lokales Modell auf dem eigenen Server dagegen schickt nichts nirgendwo.

Kosten. GPT-4o kostet bei intensiver Nutzung schnell einige hundert Euro im Monat. Ein Hetzner-Server mit Grafikkarte für lokale Modelle liegt bei 100 bis 200 Euro einmalig, dazu der monatliche Mietpreis von 50 bis 80 Euro. Wer viel Text verarbeitet, amortisiert das in wenigen Monaten.

Kontrolle. Cloud-APIs ändern Preise, Modelle und Nutzungsbedingungen. Ich habe erlebt, wie ein Update die Ausgabe einer Anwendung verändert hat, ohne dass ich etwas angefasst hatte. Lokal passiert das nicht.

Was lokale Modelle heute können

Vor zwei Jahren war das Gespräch noch einfach: OpenAI hatte die besseren Modelle, basta. Das stimmt heute nicht mehr uneingeschränkt.

Ollama ist das Werkzeug, das ich für lokale Deployments nutze. Man installiert es, lädt ein Modell, und kann es über eine einfache API ansprechen, die kompatibel zu OpenAI ist. Das bedeutet: bestehender Code läuft oft ohne Anpassung.

Aktuelle Modelle, die ich produktiv einsetze:

Qwen 2.5 (7B bis 72B): Sehr gut für Deutsche und englische Texte, strukturierte Ausgaben, RAG-Anwendungen
Mistral 7B: Schnell, ressourcenschonend, gut für einfache Klassifizierungsaufgaben
Llama 3.3 70B: Konkurriert in vielen Aufgaben direkt mit GPT-4o

Für Anwendungen wie interne Dokumentensuche, automatische E-Mail-Klassifizierung, Textzusammenfassungen oder einfache Chatbots reichen diese Modelle vollständig aus. In meinen Projekten laufen solche Anwendungen seit Monaten stabil, ohne dass ein einziger API-Call nach draußen geht.

Wo Cloud-APIs noch überlegen sind

Ich wäre unehrlich, wenn ich das verschweigen würde.

Komplexes Reasoning. Aufgaben, bei denen das Modell mehrere Schritte durchdenken muss, mehrstufige Analysen oder Code-Generierung für unbekannte Frameworks: Hier ist Claude Opus oder GPT-4o nach wie vor deutlich besser. Die 70B-Modelle holen auf, aber der Abstand ist noch messbar.

Multimodalität. Bilder verstehen, PDFs analysieren, Screenshots beschreiben: Das funktioniert lokal zunehmend, aber Cloud-Modelle sind hier noch ein Stück weiter.

Geschwindigkeit ohne GPU. Ein lokales 70B-Modell auf einem CPU-only-Server ist langsam. Für interaktive Anwendungen, bei denen Nutzer auf Antworten warten, braucht man entweder eine Grafikkarte oder bleibt bei der Cloud. Mit GPU ist das kein Problem mehr.

Kostenvergleich in der Praxis

Nehmen wir eine realistische Anwendung: Ein internes Tool, das täglich 500 Dokumente zusammenfasst, je etwa 2.000 Tokens Input und 300 Tokens Output.

Mit GPT-4o-mini: etwa 0,60 Euro pro Tag, also rund 18 Euro im Monat. Klingt wenig. Aber bei intensiveren Anwendungen oder GPT-4o statt mini multipliziert sich das schnell.

Lokal auf einem Hetzner-Server mit Grafikkarte (CCX33, ca. 65 Euro/Monat): Die ersten beiden Monate teurer als die Cloud-API. Ab Monat drei günstiger. Ab Monat sechs bei komplexeren Anwendungen deutlich günstiger, weil keine variablen Kosten entstehen.

Der Break-Even liegt meistens zwischen 3 und 6 Monaten.

Der Hybridansatz, den ich tatsächlich nutze

In meinen Projekten fahre ich nicht entweder-oder. Ich nutze:

Lokal für Routineaufgaben: Textklassifizierung, einfache Zusammenfassungen, FAQ-Beantwortung, Dokumentenindizierung für RAG. Das sind 80 bis 90 Prozent aller KI-Operationen.

Cloud für Ausnahmen: Wenn ein Nutzer eine ungewöhnlich komplexe Frage stellt, wenn multimodale Eingaben verarbeitet werden müssen, oder wenn ich in der Entwicklung schnell ein schwieriges Problem durchdenken will.

Das Muster: Lokale Modelle nehmen die Last, Cloud-Modelle übernehmen die Ausnahmen. Kosten sinken, Datenschutz verbessert sich, Kontrolle bleibt beim Unternehmen.

Was ich empfehle

Fangen Sie mit Ollama an. Das geht in einem Nachmittag. Laden Sie Qwen 2.5 7B herunter und testen Sie Ihren wichtigsten Anwendungsfall. Wenn das Ergebnis passt, brauchen Sie keine Cloud-API.

Wenn das Ergebnis nicht passt: Prüfen Sie, ob ein größeres lokales Modell (32B, 70B) ausreicht. Erst wenn das nicht reicht, lohnt sich die Cloud-API, und dann gezielt und mit Kostenlimit.

Die meisten Unternehmen, die ich begleite, stellen fest: 70 bis 80 Prozent ihrer geplanten KI-Anwendungen funktionieren lokal. Das reicht für einen echten Start.