Poste : Contexte :
Vous intégrez l'équipe Data et votre objectif et de concevoir, maintenir et faire évoluer les infrastructures et pipelines de données permettant l'exploitation de données génomiques et cliniques pour la recherche en cancérologie.
Missions principales : - Développer et optimiser les pipelines de données sur des environnements HPC et cloud
- Administrer et améliorer l'architecture Lakehouse
- Garantir la performance, la scalabilité et la fiabilité des traitements de données
- Administrer et faire évoluer les systèmes qui soutiennent l'analyse des données et la prise de décision
- Mettre en place des processus pour organiser, nettoyer, transformer et acheminer les données destinées au reporting et à l'analytique
- Collaborer avec les bioinformaticiens, data scientists et analystes pour répondre à leurs besoins métier
- Assurer la sécurité, la conformité et la gouvernance des données de santé
- Produire et maintenir la documentation technique des systèmes et processus
Stack :
Python, SQL, DBT, Groovy (Nextflow), Airflow AWS, Kubernetes (EKS), Linux, Docker, AWS Batch
PostgreSQL (RDS), Datadog, Loki, Grafana