Senior KI/ML Engineer oder Postdoc / Wissenschaftliche:r Mitarbeiter:in – LLM-Infrastruktur (m/w/d)

Technische Informationsbibliothek (TIB)

Hannover, Deutschland

Veröffentlicht: Gestern

Wissenschaft

Vollzeit

Tätigkeitsprofil:

Als Deutsche Zentrale Fachbibliothek für Technik und Naturwissenschaften sichern wir mit unseren zukunftsweisenden Dienstleistungen die infrastrukturellen Voraussetzungen einer qualitativ hochwertigen Informations- und Literaturversorgung für Forschung in Wissenschaft und Industrie. Mit dem Open Research Knowledge Graph (ORKG) arbeiten wir daran, den Austausch und die Nutzung wissenschaftlicher Erkenntnisse im digitalen Zeitalter zu revolutionieren.

Die Technische Informationsbibliothek (TIB), Programmbereich D, Open Research Knowledge Graph, , sucht für die Forschungsgruppe AI for Scholarly Communication (Prof. Dr. Sahar Vahdati) zum 1. September 2026 eine:n

Senior KI/ML Engineer oder Postdoc / Wissenschaftliche:r Mitarbeiter:in – LLM-Infrastruktur (m/w/d)

Die Stelle ist zunächst auf die Projektlaufzeit von drei Jahren befristet. Eine Verlängerung ist möglich. Die regelmäßige wöchentliche Arbeitszeit beträgt 39,8 Stunden (Vollzeit). Der Arbeitsplatz ist grundsätzlich teilzeitgeeignet. Die Tätigkeit soll grundsätzlich am Standort Hannover ausgeübt werden. Mobiles Arbeiten ist nach Maßgabe der dienstlichen Erfordernisse anteilig möglich. Die Eingruppierung erfolgt in die Entgeltgruppe 13 TV-L.

Ihre Aufgaben / Ihr Arbeitsgebiet
Wir suchen einen Senior KI/ML Engineer mit Interesse am Aufbau, an der Optimierung und am Betrieb skalierbarer, universell einsetzbarer KI-Assistenten im Ökosystem der European Open Science Cloud (EOSC). Die erfolgreiche Bewerberin / der erfolgreiche Bewerber verfügt über fundierte Kenntnisse im Bereich Machine Learning und Künstliche Intelligenz, ein solides mathematisches Verständnis sowie praktische Erfahrung mit der Optimierung von LLM-Inferenz in Cloud-Umgebungen.

Der Schwerpunkt der Tätigkeit liegt auf skalierbaren Trainings- und Inferenzpipelines, Token-Effizienz und Strategien zur Modellauswahl, verteilten ML-Systemen im produktiven Einsatz sowie der Evaluation offener Modelle. Darüber hinaus umfasst die Tätigkeit die Optimierung von Latenz-, Kosten- und Performance-Abwägungen, die Unterstützung parameter-effizienter Anpassungsworkflows sowie die zuverlässige Integration in Orchestrierungsschichten in EOSC-Serviceumgebungen.

Ihre Tätigkeit umfasst

Konzeption und Entwicklung von Inferenzinfrastrukturen in Cloud-Umgebungen unter kontinuierlicher Optimierung von Latenz, Durchsatz und Kosteneffizienz
Benchmarking von Modellen anhand aufgabenspezifischer und allgemeiner Evaluationskriterien sowie Ableitung datenbasierter Empfehlungen zur Modell-Task-Passung
Anwendung von Quantisierung, Distillation, parameter-effizientem Fine-Tuning und weiteren Optimierungstechniken zur Verbesserung von Effizienz, Leistung und Kosteneffizienz
Aufbau einer Orchestrierungsschicht, die sich nahtlos in das übergreifende Agenten-Framework integriert und neue KI-Protokolle wie MCP, A2A und ACP unterstützt
Einbindung von Observability von Beginn an unter Einsatz von Tools wie OpenTelemetry und Grafana, um Modellleistung, Kosten und Zuverlässigkeit transparent, messbar und handlungsleitend abzubilden

Anforderungsprofil:

Abgeschlossenes wissenschaftliches Hochschulstudium (Master oder gleichwertiger Abschluss) in Informatik, Software Engineering, Künstlicher Intelligenz, Data Science oder einem verwandten Fachgebiet
Nachgewiesene Erfahrung mit der Optimierung von LLM-Inferenz in Cloud-Umgebungen
Praktische Erfahrung mit Fine-Tuning, Quantisierung, parameter-effizientem Fine-Tuning (PEFT) und der Bereitstellung großer Sprachmodelle in produktiven oder produktionsnahen Umgebungen
Erfahrung mit Modell-Profiling, Benchmarking und der Festlegung von Performance-Baselines
Erfahrung in der Konzeption, Entwicklung oder im Betrieb skalierbarer Trainings- und Inferenzpipelines in verteilten KI-/ML-Systemen
Kenntnisse in Multi-Agenten-Systemen, agentischen Workflows oder Orchestrierungsframeworks wie LangGraph oder AutoGen
Erfahrung im Umgang mit Open-Source-LLMs wie Llama oder Mistral
Sehr gute Programmierkenntnisse in Python sowie Erfahrung in der Entwicklung reproduzierbaren Codes, z. B. mit PyTorch oder vergleichbaren Frameworks
Gute Kenntnisse cloud-nativer Technologien, insbesondere Docker und Kubernetes
Sehr gute Englischkenntnisse in Wort und Schrift

Wünschenswerte Qualifikationen

Abgeschlossene Promotion in einem einschlägigen Fachgebiet
Erfahrung mit agentischen Design Patterns, z. B. Reflection, Ranking, Exploration/Discovery oder Human-in-the-Loop-Feedbackschleifen
Erfahrung im Umgang mit wissenschaftlichen Datensätzen sowie in der Anwendung von FAIR-Prinzipien auf Daten, Modellergebnisse oder Forschungsworkflows
Ausgeprägte schriftliche Kommunikationsfähigkeit und Erfahrung in interdisziplinärer Zusammenarbeit, einschließlich Beiträgen zu wissenschaftlichen Veröffentlichungen
Kenntnisse der Programmiersprache Rust