Weitere Projekte

PROJEKTDETAILS

AI Data Engineer im Bereich Wissensmanagement Bots (m/w/d)

Projekt-Nr.: 106260

Dauer: 6M+
Einsatzort: D8
Starttermin: 01.07.2026
Stellentyp: freiberuflich
Branche: Bank

SOLCOM zählt zu den führenden Technologiedienstleistern in den Bereichen Softwareentwicklung, IT und Engineering. Seit mehr als 30 Jahren arbeiten wir als Partner global agierender Spitzenunternehmen aller Branchen und sind weltweit im Einsatz, wo Innovation entscheidet.

Aktuell sind wir auf der Suche nach einem AI Data Engineer im Bereich Wissensmanagement Bots für einen unserer Kunden.
Auslastung 100%, 2-3 Tage pro Quartal onsite, der Rest remote

Aufgaben:

Entwicklung und Optimierung von skalierbaren Datenmodellen für große Datenmengen (Big Data)
Aufbau und Pflege von Datenbanken und Data-Warehouses, insbesondere mit PostgreSQL
Sicherstellung der Performance und Skalierbarkeit von Datenarchitekturen für mehrere tausend parallele Nutzer (inkl. Query-Optimierung, Index-Strategien, Partitionierung)
Entwicklung und Umsetzung robuster ETL-/ELT-Pipelines mit Fokus auf:
Skalierbarkeit und Fehlerisolierung
Observability (Logging, Metrics, Tracing)
Design und Implementierung moderner Data-Lake- / Data-Warehouse-Architekturen mit Schichten wie:
Raw Layer
Staging/Cleansing
Curated/Business Layer
Entwicklung und Optimierung von ETL-/ELT-Strecken mit Tools wie z. B. Airflow, dbt, Kafka, Spark oder vergleichbaren Technologien
Sicherstellung der Datenqualität in produktiven Pipelines durch:
Schema-Validierung, Null-/Range-Checks, Duplikat-Prüfungen
automatisierte Tests, Data Contracts und Data Lineage
Monitoring von Freshness, SLAs/SLOs und Alerting
Konzeption und Umsetzung von Batch- und Near-Real-Time-Pipelines (inkl. Event-Driven-Architekturen, Streaming-Lösungen, DLQ-Handling, Replay-Fähigkeit)
Optimierung von SQL-Abfragen auf sehr großen Tabellen (Execution Plans, Index-Design, Window Functions, Materialized Views, Voraggregation etc.)
Entwicklung performanter Datenverarbeitungslogik in Python (z. B. Pandas, Spark, Dask, Polars) inkl. Umgang mit Speicher- und Skalierungsgrenzen
Enge Zusammenarbeit mit anderen Entwicklern und Fachbereichen zur Umsetzung datengetriebener Lösungen und Etablierung guter Data-Engineering-Praktiken

Anforderungen:

Must:

Mehrjährige praktische Erfahrung in der Datenmodellierung und im Aufbau skalierbarer Datenarchitekturen für große Datenmengen
Sehr gute SQL-Kenntnisse und fundierte Erfahrung mit relationalen Datenbanken, insbesondere PostgreSQL (inkl.:
Performance-Tuning, Index-Strategien, Partitionierung
Nutzung von Window Functions
Mehrjährige Python-Erfahrung im Data-Engineering-Umfeld (z. B. Pandas, PySpark, Dask, Polars) inkl.:
effizienter Umgang mit großen Datenmengen (Vektorisierung, Chunk Processing, Typenoptimierung)
sinnvoller Aufteilung von Logik zwischen SQL und Python
Erfahrung in der Entwicklung robuster ETL-/ELT-Pipelines:
Orchestrierung (z. B. Airflow oder vergleichbare Tools)
Trennung von Raw-, Staging- und Business-Layern
Berücksichtigung von Schema-Evolution
Praxis in der Sicherstellung von Datenqualität in produktiven Umgebungen:
Einsatz von Data-Quality-Frameworks (z. B. Great Expectations, dbt Tests oder vergleichbar)
Erfahrung mit Observability im Data-Engineering-Kontext:
Logging, Metriken, Tracing (z. B. Prometheus, Grafana, OpenTelemetry oder ähnliche Lösungen)
Debugging von sporadisch fehlschlagenden Pipelines (Race Conditions, Timeouts, Speicherengpässe etc.)
Erfahrung im Umgang mit großen Datenmengen (Big Data) und verteilten Systemen (z. B. Spark, Kafka, Streaming-Frameworks)
Nachweisbare Erfahrung in der Entwicklung von Lösungen, die für hohe Nutzerzahlen und parallele Zugriffe optimiert sind
Kenntnisse in der Optimierung von Datenbankabfragen und Performance-Tuning, insbesondere:
Analyse von Execution Plans (EXPLAIN/EXPLAIN ANALYZE)
Vermeidung typischer Anti-Patterns (SELECT *, unnötige Subqueries, nicht indexierbare Filter)
Idealerweise Erfahrung mit Cloud-Technologien und modernen Datenplattformen (z. B. AWS, Azure, GCP, Snowflake, Databricks oder vergleichbar)
Verständnis typischer Data-Engineering-Anti-Patterns (z. B. zu viel Businesslogik in Skripten, fehlende Data Contracts, Monolith-ETL, fehlende Idempotenz, CSV als Dauerformat)
Erfahrung im Design von Near-Real-Time-Architekturen (Streaming, Event Processing, Exactly-/At-least-once-Semantik, Umgang mit Late Data) ist ein Plus
Teamplayer, kein Einzelkämpfer
Ausgeprägtes analytisches Denkvermögen und strukturierte, qualitätsorientierte Arbeitsweise
Teamfähigkeit und Fähigkeit, Fachbereiche sowie andere Tech-Teams in Daten- und Architekturfragen zu beraten
„Product Mindset“ im Umgang mit Datenprodukten (Ownership, Versionierung, Stabilität, Wartbarkeit)

Zusätzliche Informationen:

Konnten wir Ihr Interesse wecken? Dann freuen wir uns auf die Zusendung Ihres aussagekräftigen Expertenprofils unter Angabe Ihrer Stundensatzvorstellung.