AI Inference Engineer (all genders)

EXXETA · Stuttgart, Baden-Württemberg, Germany

Location
Stuttgart
Job Type
Full-time
Posted
June 29, 2026

Job Description

Was erwartet dich
  • Du konzipierst, entwickelst und betreibst produktive LLM-Inferenzplattformen für Kunden mit hohen Anforderungen an Datensouveränität, Sicherheit und Betriebskontrolle – on-premises, in privaten Cloud-Umgebungen oder souveränen europäischen Cloud-Setups.

  • Gemeinsam mit Cloud-, Plattform-, Security- und Data-Engineering-Teams sowie unseren Kunden überführst du AI-Use-Cases in den produktiven Betrieb.

  • Dabei integrierst du moderne Inferenz-Engines und Open-Weights-Modelle in Kubernetes-, Container- und Plattformumgebungen.

  • Außerdem planst und optimierst du GPU- und Speicherressourcen sowie Inferenz-Workloads: Von Modellgrößen, Quantisierung und Batching bis hin zu KV-Cache-Strategien, Latenz, Durchsatz und Kosten.

  • Du verantwortest die Runtime produktiver AI-Systeme, inklusive Modellserving, APIs, Authentifizierung, Secrets, Observability, Logging

  • Aus Kundenprojekten entwickelst du wiederverwendbare Referenzarc...
  • Ready to Apply?

    Submit your application for AI Inference Engineer (all genders) at EXXETA

    Apply Now