Question 1

Welches lokale LLM eignet sich am besten für deutsche Texte?

Accepted Answer

Llama 3, Mistral und Qwen 2.5 verarbeiten Deutsch sehr gut. Für anspruchsvolle Aufgaben (juristisch, medizinisch) empfehlen wir Llama 3 70B oder Qwen 2.5 72B. Für leichtgewichtige Aufgaben reicht oft schon Llama 3 8B oder Mistral 7B. Wir testen die Modell-Auswahl immer mit Ihren echten Daten – Benchmark-Scores sind weniger aussagekräftig als die tatsächliche Performance auf Ihrem Use Case.

Question 2

Was kostet die Hardware für ein lokales LLM-Setup?

Accepted Answer

Eine GPU-Workstation mit RTX 4090 (24 GB) für kleinere Modelle kostet ca. 3.500 €. Ein Mac Studio mit M2 Ultra und 192 GB für mittlere Modelle liegt bei ca. 8.000 €. Ein Multi-GPU-Server für große Modelle (70B+) beginnt bei ca. 25.000 €. Im Vergleich zu Cloud-API-Kosten amortisiert sich die Hardware oft binnen 6–18 Monaten.

Question 3

Brauche ich eine NVIDIA-GPU oder reicht eine CPU?

Accepted Answer

Für Inference (also reines Nutzen der Modelle) reicht für kleine Modelle (bis 7B) auch eine moderne CPU mit viel RAM. Mac Studios mit Apple Silicon sind eine sehr effiziente Alternative zu NVIDIA, gerade für mittelgroße Modelle. Für hohen Durchsatz, große Modelle oder Training brauchen Sie aber GPUs – meist NVIDIA, da CUDA-Ökosystem.

Question 4

Was ist der Vorteil von vLLM gegenüber Ollama oder llama.cpp?

Accepted Answer

Ollama und llama.cpp sind perfekt für Single-User-Setups und Prototyping. vLLM ist optimiert für Multi-User-Szenarien mit vielen parallelen Anfragen – durch Paged-Attention und Continuous-Batching erreicht vLLM einen deutlich höheren Durchsatz auf der gleichen Hardware. Welcher Stack passt, hängt vom Use Case ab.

Question 5

Können Sie ein lokales LLM auf unsere Daten anpassen (Fine-Tuning)?

Accepted Answer

Ja. Mit LoRA/QLoRA können wir bestehende Open-Weight-Modelle auf Ihre Daten anpassen – meist mit 100–1000 Beispielen pro Use Case. Das Fine-Tuning eines 7B-Modells dauert je nach Datenmenge wenige Stunden bis Tage auf einer einzelnen GPU. Für domänenspezifisches Vokabular oder Stil ist Fine-Tuning oft effektiver als RAG.

Question 6

Wie sieht der laufende Betrieb aus?

Accepted Answer

Wir bieten Wartungsverträge, die Modell-Updates, Performance-Monitoring, Sicherheits-Patches und Kapazitätsplanung umfassen. Auf Wunsch betreiben wir die Infrastruktur auch als Managed Service – Sie nutzen, wir kümmern uns.

Eigene KI auf eigener Hardware.

Welche Modelle wir einsetzen

Llama 3 (Meta)

Mistral / Mixtral

Qwen (Alibaba)

Phi (Microsoft)

CodeLlama / Qwen-Coder

Custom Fine-Tuned

Hardware für jeden Anspruch

GPU-Workstation

Mac Studio / Mac Pro

Multi-GPU Server

Edge / Embedded

Was wir konkret anbieten

Hardware-Beratung

Aufbau & Installation

Security-Hardening

Modell-Optimierung

Fine-Tuning

Betrieb & Updates

Häufige Fragen zu lokaler LLM-Infrastruktur

Bereit für eigene KI-Infrastruktur?