Wie viel VRAM brauche ich für lokale KI?

Das hängt vom Modell und der Quantisierung ab. Ein 30B-Modell in Q4 braucht ca. 20 GB, ein 7B-Modell ca. 4 GB. Unser Rechner berücksichtigt zusätzlich Kontextlänge und gleichzeitige Nutzer.

Apple Silicon oder NVIDIA für lokale LLMs?

Apple Silicon bietet lautlosen Betrieb und niedrige Stromkosten. NVIDIA ist schneller bei Inferenz und besser für Bild-/Videogenerierung. Der Rechner vergleicht beide Plattformen direkt.

Kann ich Llama 4 oder Qwen 3 lokal betreiben?

Ja, abhängig von der Modellgröße und Ihrem VRAM. Qwen 3 30B läuft ab 20 GB (Q4), Llama 4 Scout braucht 55+ GB wegen der MoE-Architektur.

Systeme Online

KI-Hardware-Rechner

Dimensionierung Ihrer lokalen Infrastruktur.

VRAM-Rechner für lokale KI-Modelle

Welche Hardware brauchen Sie, um LLMs wie Qwen, Llama oder DeepSeek lokal zu betreiben? Dieser Rechner vergleicht Apple Silicon und NVIDIA direkt und zeigt, ob Ihr Wunschmodell auf eine bestimmte Hardware passt, welche Geschwindigkeit realistisch ist und wo die Grenzen liegen.

Für Entwickler, datenschutzbewusste Nutzer und alle, die lokale KI-Inferenz ohne Cloud aufsetzen möchten.

Schritt 1von 3

Was möchten Sie lokal betreiben?

Wählen Sie alles Zutreffende aus.

FAQ zum KI-Hardware-Rechner

Wie genau ist die Empfehlung?

Die Empfehlung ist eine belastbare Erstabschätzung auf Basis Ihrer Angaben. Für finalen Einkauf sollten Sie einen Architektur-Check mit realen Testlasten durchführen.

Ist das für DSGVO-relevante Daten geeignet?

Ja, der Rechner ist speziell auf lokale/on-prem Szenarien ausgelegt. Für produktiven Betrieb sind zusätzlich Rollenrechte, Logging und Sicherheitsrichtlinien wichtig.

Brauche ich sofort mehrere GPUs?

Nicht immer. Viele Teams starten mit einer kleineren Konfiguration und skalieren bei steigender Parallelität oder strengeren Latenzanforderungen.

Kann ich Cloud und On-Prem kombinieren?

Ja. Ein hybrides Modell ist oft sinnvoll: sensible Prozesse lokal, unkritische Lasten optional in der Cloud - je nach Compliance-Vorgaben.

Wie wir berechnen

VRAM

VRAM = Modellgewichte (nach Quantisierung) + KV-Cache × Kontext × Nutzer. Ein 7B-Modell in Q4 belegt ca. 4 GB; längere Kontexte addieren pro Nutzer 0,5–16 GB.

Speed

Geschwindigkeit: Jede Quantisierungsstufe skaliert relativ zu Q4 — Q5 ≈ 92 %, Q8 ≈ 78 %, FP16 ≈ 62 % der Q4-Geschwindigkeit für LLMs. Video-Modelle skalieren umgekehrt (höhere Präzision = mehr Sekunden pro Clip).

Energy

Strom = TDP (W) × Nutzungsstunden × 30 Tage ÷ 1.000 × Stromtarif. Der Tarif stammt aus Ihrem gewählten Land.

TCO

TCO (Total Cost of Ownership) = Hardware ÷ 3 Jahre Abschreibung + jährliche Stromkosten.