Llama 3 (Meta)
Solides Allround-Modell von Meta. 8B-Variante läuft auf einer RTX 4090, 70B auf zwei Karten oder Mac Studio. Sehr gute Mehrsprachigkeit inkl. Deutsch.
Wir bauen und betreiben LLM-Infrastruktur, die vollständig in Ihrem Haus läuft. Vom Hardware-Sizing über Installation, Optimierung und Fine-Tuning bis zum Dauerbetrieb – aus einer Hand und in München.
Wir wählen das Modell nach Use Case, nicht nach Hype. Open-Weight-Modelle haben in den letzten 18 Monaten massiv aufgeholt – für viele Aufgaben sind sie ebenbürtig zu GPT-4 oder Claude.
Solides Allround-Modell von Meta. 8B-Variante läuft auf einer RTX 4090, 70B auf zwei Karten oder Mac Studio. Sehr gute Mehrsprachigkeit inkl. Deutsch.
Effiziente europäische Modelle (Frankreich). Mixtral 8×7B liefert GPT-3.5-Niveau bei deutlich geringerem Ressourcenbedarf. Open Weights, gute deutsche Fähigkeiten.
Aktuell eines der stärksten Open-Weight-Modelle. Qwen 2.5 in verschiedenen Größen (0.5B bis 72B) deckt jeden Use Case ab – von Edge-Device bis Datacenter.
Kleine, hocheffiziente Modelle (3.8B–14B). Ideal für Edge-Deployment, mobile Geräte oder ressourcenarme Umgebungen.
Spezialisierte Modelle für Code-Verständnis, -Generation und -Review. Self-hosted Alternative zu GitHub Copilot.
Wir trainieren bestehende Open-Weight-Modelle auf Ihren Daten – für domänenspezifisches Vokabular, Stil und Wissen.
Vom Edge-Device bis zum Multi-GPU-Server. Wir dimensionieren die Hardware passend zu Ihrem Durchsatz und Budget.
NVIDIA RTX 4090 (24GB) oder RTX 5090
Kleinere Modelle (bis 13B), Single-User-Setups, Prototyping. Ab ca. 3.500 €.
M2/M3 Ultra mit 64–192 GB Unified Memory
Mittelgroße Modelle (bis 70B). Sehr stromsparend, leise. Ab ca. 5.500 €.
2–4× NVIDIA L40S, RTX 6000 Ada oder H100
Große Modelle (70B+), Multi-User-Setups, hoher Durchsatz. Ab ca. 25.000 €.
Jetson Orin, Raspberry Pi 5 + Coral
Kleine Spezialmodelle, Offline-Geräte, IoT-Setups. Ab ca. 500 €.
Vom ersten Beratungsgespräch bis zum produktiven Dauerbetrieb. Alles aus einer Hand.
Wir analysieren Ihren Use Case, dimensionieren Hardware passend zum Durchsatz und beraten zu Kauf, Leasing oder Miete.
Installation des Betriebssystems, Treiber, Inference-Stack (llama.cpp, vLLM, Ollama), Reverse-Proxy, Monitoring.
Netzwerk-Segmentierung, Auth, Rate-Limiting, Logging, Backup. Wir behandeln LLM-Infrastruktur wie jedes andere Produktionssystem.
Quantisierung (GGUF, AWQ, GPTQ), Batch-Tuning, KV-Cache-Optimierung – damit Ihre Hardware das Maximum liefert.
LoRA/QLoRA-Training auf Ihren Daten. Wir bauen domänenspezifische Modelle, ohne dass Sie GPU-Cluster betreiben müssen.
Wartung, Modell-Updates, Performance-Monitoring, Kapazitätsplanung. Auch als Managed Service möglich.
Beschreiben Sie uns Ihren Use Case und wir empfehlen passende Hardware, Modelle und Aufwand.
Beratung anfragen