Search

Senior KI/ML Engineer oder Postdoc / Wissenschaftliche:r Mitarbeiter:in – LLM-Infrastruktur (m/w/d)

Technische Informationsbibliothek (TIB)
locationHannover, Deutschland
VeröffentlichtVeröffentlicht: Gestern
Wissenschaft
Vollzeit

Tätigkeitsprofil:

Als Deutsche Zentrale Fachbibliothek für Technik und Naturwissenschaften sichern wir mit unseren zukunftsweisenden Dienstleistungen die infrastrukturellen Voraussetzungen einer qualitativ hochwertigen Informations- und Literaturversorgung für Forschung in Wissenschaft und Industrie. Mit dem Open Research Knowledge Graph (ORKG) arbeiten wir daran, den Austausch und die Nutzung wissenschaftlicher Erkenntnisse im digitalen Zeitalter zu revolutionieren.

Die Technische Informationsbibliothek (TIB), Programmbereich D, Open Research Knowledge Graph, , sucht für die Forschungsgruppe AI for Scholarly Communication (Prof. Dr. Sahar Vahdati) zum 1. September 2026 eine:n

Senior KI/ML Engineer oder Postdoc / Wissenschaftliche:r Mitarbeiter:in – LLM-Infrastruktur (m/w/d)

Die Stelle ist zunächst auf die Projektlaufzeit von drei Jahren befristet. Eine Verlängerung ist möglich. Die regelmäßige wöchentliche Arbeitszeit beträgt 39,8 Stunden (Vollzeit). Der Arbeitsplatz ist grundsätzlich teilzeitgeeignet. Die Tätigkeit soll grundsätzlich am Standort Hannover ausgeübt werden. Mobiles Arbeiten ist nach Maßgabe der dienstlichen Erfordernisse anteilig möglich. Die Eingruppierung erfolgt in die Entgeltgruppe 13 TV-L.

Ihre Aufgaben / Ihr Arbeitsgebiet
Wir suchen einen Senior KI/ML Engineer mit Interesse am Aufbau, an der Optimierung und am Betrieb skalierbarer, universell einsetzbarer KI-Assistenten im Ökosystem der European Open Science Cloud (EOSC). Die erfolgreiche Bewerberin / der erfolgreiche Bewerber verfügt über fundierte Kenntnisse im Bereich Machine Learning und Künstliche Intelligenz, ein solides mathematisches Verständnis sowie praktische Erfahrung mit der Optimierung von LLM-Inferenz in Cloud-Umgebungen.

Der Schwerpunkt der Tätigkeit liegt auf skalierbaren Trainings- und Inferenzpipelines, Token-Effizienz und Strategien zur Modellauswahl, verteilten ML-Systemen im produktiven Einsatz sowie der Evaluation offener Modelle. Darüber hinaus umfasst die Tätigkeit die Optimierung von Latenz-, Kosten- und Performance-Abwägungen, die Unterstützung parameter-effizienter Anpassungsworkflows sowie die zuverlässige Integration in Orchestrierungsschichten in EOSC-Serviceumgebungen.

Ihre Tätigkeit umfasst

  • Konzeption und Entwicklung von Inferenzinfrastrukturen in Cloud-Umgebungen unter kontinuierlicher Optimierung von Latenz, Durchsatz und Kosteneffizienz
  • Benchmarking von Modellen anhand aufgabenspezifischer und allgemeiner Evaluationskriterien sowie Ableitung datenbasierter Empfehlungen zur Modell-Task-Passung
  • Anwendung von Quantisierung, Distillation, parameter-effizientem Fine-Tuning und weiteren Optimierungstechniken zur Verbesserung von Effizienz, Leistung und Kosteneffizienz
  • Aufbau einer Orchestrierungsschicht, die sich nahtlos in das übergreifende Agenten-Framework integriert und neue KI-Protokolle wie MCP, A2A und ACP unterstützt
  • Einbindung von Observability von Beginn an unter Einsatz von Tools wie OpenTelemetry und Grafana, um Modellleistung, Kosten und Zuverlässigkeit transparent, messbar und handlungsleitend abzubilden

Anforderungsprofil:

  • Abgeschlossenes wissenschaftliches Hochschulstudium (Master oder gleichwertiger Abschluss) in Informatik, Software Engineering, Künstlicher Intelligenz, Data Science oder einem verwandten Fachgebiet
  • Nachgewiesene Erfahrung mit der Optimierung von LLM-Inferenz in Cloud-Umgebungen
  • Praktische Erfahrung mit Fine-Tuning, Quantisierung, parameter-effizientem Fine-Tuning (PEFT) und der Bereitstellung großer Sprachmodelle in produktiven oder produktionsnahen Umgebungen
  • Erfahrung mit Modell-Profiling, Benchmarking und der Festlegung von Performance-Baselines
  • Erfahrung in der Konzeption, Entwicklung oder im Betrieb skalierbarer Trainings- und Inferenzpipelines in verteilten KI-/ML-Systemen
  • Kenntnisse in Multi-Agenten-Systemen, agentischen Workflows oder Orchestrierungsframeworks wie LangGraph oder AutoGen
  • Erfahrung im Umgang mit Open-Source-LLMs wie Llama oder Mistral
  • Sehr gute Programmierkenntnisse in Python sowie Erfahrung in der Entwicklung reproduzierbaren Codes, z. B. mit PyTorch oder vergleichbaren Frameworks
  • Gute Kenntnisse cloud-nativer Technologien, insbesondere Docker und Kubernetes
  • Sehr gute Englischkenntnisse in Wort und Schrift

Wünschenswerte Qualifikationen

  • Abgeschlossene Promotion in einem einschlägigen Fachgebiet
  • Erfahrung mit agentischen Design Patterns, z. B. Reflection, Ranking, Exploration/Discovery oder Human-in-the-Loop-Feedbackschleifen
  • Erfahrung im Umgang mit wissenschaftlichen Datensätzen sowie in der Anwendung von FAIR-Prinzipien auf Daten, Modellergebnisse oder Forschungsworkflows
  • Ausgeprägte schriftliche Kommunikationsfähigkeit und Erfahrung in interdisziplinärer Zusammenarbeit, einschließlich Beiträgen zu wissenschaftlichen Veröffentlichungen
  • Kenntnisse der Programmiersprache Rust