Lokale LLM-Infrastruktur

Eigene KI auf eigener Hardware.

Wir bauen und betreiben LLM-Infrastruktur, die vollständig in Ihrem Haus läuft. Vom Hardware-Sizing über Installation, Optimierung und Fine-Tuning bis zum Dauerbetrieb – aus einer Hand und in München.

  • Keine API-Kosten – nur Strom und Hardware-Abschreibung
  • Volle Datenkontrolle – auch für regulierte Branchen
  • Auswahl aus Llama, Mistral, Qwen, Phi und vielen anderen Open-Weight-Modellen
  • Optionales Fine-Tuning auf Ihren eigenen Daten
  • Skalierbar von Workstation bis Multi-GPU-Server

Welche Modelle wir einsetzen

Wir wählen das Modell nach Use Case, nicht nach Hype. Open-Weight-Modelle haben in den letzten 18 Monaten massiv aufgeholt – für viele Aufgaben sind sie ebenbürtig zu GPT-4 oder Claude.

Llama 3 (Meta)

Solides Allround-Modell von Meta. 8B-Variante läuft auf einer RTX 4090, 70B auf zwei Karten oder Mac Studio. Sehr gute Mehrsprachigkeit inkl. Deutsch.

Mistral / Mixtral

Effiziente europäische Modelle (Frankreich). Mixtral 8×7B liefert GPT-3.5-Niveau bei deutlich geringerem Ressourcenbedarf. Open Weights, gute deutsche Fähigkeiten.

Qwen (Alibaba)

Aktuell eines der stärksten Open-Weight-Modelle. Qwen 2.5 in verschiedenen Größen (0.5B bis 72B) deckt jeden Use Case ab – von Edge-Device bis Datacenter.

Phi (Microsoft)

Kleine, hocheffiziente Modelle (3.8B–14B). Ideal für Edge-Deployment, mobile Geräte oder ressourcenarme Umgebungen.

CodeLlama / Qwen-Coder

Spezialisierte Modelle für Code-Verständnis, -Generation und -Review. Self-hosted Alternative zu GitHub Copilot.

Custom Fine-Tuned

Wir trainieren bestehende Open-Weight-Modelle auf Ihren Daten – für domänenspezifisches Vokabular, Stil und Wissen.

Hardware für jeden Anspruch

Vom Edge-Device bis zum Multi-GPU-Server. Wir dimensionieren die Hardware passend zu Ihrem Durchsatz und Budget.

GPU-Workstation

NVIDIA RTX 4090 (24GB) oder RTX 5090

Kleinere Modelle (bis 13B), Single-User-Setups, Prototyping. Ab ca. 3.500 €.

Mac Studio / Mac Pro

M2/M3 Ultra mit 64–192 GB Unified Memory

Mittelgroße Modelle (bis 70B). Sehr stromsparend, leise. Ab ca. 5.500 €.

Multi-GPU Server

2–4× NVIDIA L40S, RTX 6000 Ada oder H100

Große Modelle (70B+), Multi-User-Setups, hoher Durchsatz. Ab ca. 25.000 €.

Edge / Embedded

Jetson Orin, Raspberry Pi 5 + Coral

Kleine Spezialmodelle, Offline-Geräte, IoT-Setups. Ab ca. 500 €.

Was wir konkret anbieten

Vom ersten Beratungsgespräch bis zum produktiven Dauerbetrieb. Alles aus einer Hand.

Hardware-Beratung

Wir analysieren Ihren Use Case, dimensionieren Hardware passend zum Durchsatz und beraten zu Kauf, Leasing oder Miete.

Aufbau & Installation

Installation des Betriebssystems, Treiber, Inference-Stack (llama.cpp, vLLM, Ollama), Reverse-Proxy, Monitoring.

Security-Hardening

Netzwerk-Segmentierung, Auth, Rate-Limiting, Logging, Backup. Wir behandeln LLM-Infrastruktur wie jedes andere Produktionssystem.

Modell-Optimierung

Quantisierung (GGUF, AWQ, GPTQ), Batch-Tuning, KV-Cache-Optimierung – damit Ihre Hardware das Maximum liefert.

Fine-Tuning

LoRA/QLoRA-Training auf Ihren Daten. Wir bauen domänenspezifische Modelle, ohne dass Sie GPU-Cluster betreiben müssen.

Betrieb & Updates

Wartung, Modell-Updates, Performance-Monitoring, Kapazitätsplanung. Auch als Managed Service möglich.

Häufige Fragen zu lokaler LLM-Infrastruktur

Welches lokale LLM eignet sich am besten für deutsche Texte?+
Llama 3, Mistral und Qwen 2.5 verarbeiten Deutsch sehr gut. Für anspruchsvolle Aufgaben (juristisch, medizinisch) empfehlen wir Llama 3 70B oder Qwen 2.5 72B. Für leichtgewichtige Aufgaben reicht oft schon Llama 3 8B oder Mistral 7B. Wir testen die Modell-Auswahl immer mit Ihren echten Daten – Benchmark-Scores sind weniger aussagekräftig als die tatsächliche Performance auf Ihrem Use Case.
Was kostet die Hardware für ein lokales LLM-Setup?+
Eine GPU-Workstation mit RTX 4090 (24 GB) für kleinere Modelle kostet ca. 3.500 €. Ein Mac Studio mit M2 Ultra und 192 GB für mittlere Modelle liegt bei ca. 8.000 €. Ein Multi-GPU-Server für große Modelle (70B+) beginnt bei ca. 25.000 €. Im Vergleich zu Cloud-API-Kosten amortisiert sich die Hardware oft binnen 6–18 Monaten.
Brauche ich eine NVIDIA-GPU oder reicht eine CPU?+
Für Inference (also reines Nutzen der Modelle) reicht für kleine Modelle (bis 7B) auch eine moderne CPU mit viel RAM. Mac Studios mit Apple Silicon sind eine sehr effiziente Alternative zu NVIDIA, gerade für mittelgroße Modelle. Für hohen Durchsatz, große Modelle oder Training brauchen Sie aber GPUs – meist NVIDIA, da CUDA-Ökosystem.
Was ist der Vorteil von vLLM gegenüber Ollama oder llama.cpp?+
Ollama und llama.cpp sind perfekt für Single-User-Setups und Prototyping. vLLM ist optimiert für Multi-User-Szenarien mit vielen parallelen Anfragen – durch Paged-Attention und Continuous-Batching erreicht vLLM einen deutlich höheren Durchsatz auf der gleichen Hardware. Welcher Stack passt, hängt vom Use Case ab.
Können Sie ein lokales LLM auf unsere Daten anpassen (Fine-Tuning)?+
Ja. Mit LoRA/QLoRA können wir bestehende Open-Weight-Modelle auf Ihre Daten anpassen – meist mit 100–1000 Beispielen pro Use Case. Das Fine-Tuning eines 7B-Modells dauert je nach Datenmenge wenige Stunden bis Tage auf einer einzelnen GPU. Für domänenspezifisches Vokabular oder Stil ist Fine-Tuning oft effektiver als RAG.
Wie sieht der laufende Betrieb aus?+
Wir bieten Wartungsverträge, die Modell-Updates, Performance-Monitoring, Sicherheits-Patches und Kapazitätsplanung umfassen. Auf Wunsch betreiben wir die Infrastruktur auch als Managed Service – Sie nutzen, wir kümmern uns.

Bereit für eigene KI-Infrastruktur?

Beschreiben Sie uns Ihren Use Case und wir empfehlen passende Hardware, Modelle und Aufwand.

Beratung anfragen