Air France, en tant qu’acteur majeur du transport aérien accompagne chaque année des millions de passagers tout autour du globe. Nos métiers, au-delà du service offert à nos clients, sont générateurs d’une grande diversité de données au quotidien, elles mêmes créatrices de valeur ajoutée et point de départ de nombreuses initiatives.
Le département de développement Data d’Air France, au sein de la direction
des Systèmes d’Information, intervient dans toute la chaîne de captation/traitement des données du groupe et historisation pour délivrer à nos métiers des solutions applicatives, des extractions ainsi que du reporting clés en main. En lien avec le pôle Ops responsable de la partie hardware il est également en charge de la supervision des outils (ETL, DataLakes, DataWarehouses, Data Visualisation) et du développement des talents et compétences de Data Engineering.
Au sein du département Data d'Air France, vous rejoindrez une équipe en charge de la gestion et de l'optimisation des pipelines de données Opérations Aériennes.
Dans un contexte post migration vers Cloud Google Platform (GCP), nous cherchons à transformer nos infrastructures et nos processus pour garantir performance, maintenabilité et scalabilité.
Le projet s'inscrit dans cette démarche de transformation digitale, visant à améliorer la gestion des données opérationnelles, notamment celles liées aux temps de consommation d'APU (Auxiliary Power Unit) durant les phases précédant et suivant le vol..
Le sujet de ce stage consiste en l'optimisation d'un script SQL complexe existant. Afin d'améliorer de lisibilité, de maintenance et de traçabilité, la ou le stagiaire aura pour mission de mener une refonte progressive du flux, en deux temps :
- Découpage et clarification du script SQL :
- Analyser le script SQL existant pour en comprendre la logique métier et identifier les points d'optimisation.
- Refactoriser le code en utilisant des CTE (Common Table Expressions) et en créant des vues intermédiaires pour améliorer la lisibilité, la modularité et la traçabilité des étapes métier.
- Documenter les différentes étapes du script refactorisé.
- Migration et industrialisation sur Dataform (GCP) :
- Participer à la migration du pipeline refactorisé vers Dataform sur Google Cloud Platform.
- Modéliser le pipeline en tables et vues Dataform, en tirant parti des capacités de l'outil.
- Mettre en place des tests unitaires pour garantir la qualité et la fiabilité des données.
- Rédiger une documentation technique et fonctionnelle complète du pipeline, facilitant sa maintenance et sa transmission.
- Contribuer à l'optimisation des performances du flux sur l'environnement GCP.
Ce projet représente une opportunité de moderniser un flux critique, d'acquérir une expertise concrète sur les technologies Cloud (GCP, Dataform) et de contribuer à la définition d'une méthodologie réutilisable pour la gestion agile et pérenne de nos pipelines data.
Vous êtes étudiant(e) en avant-dernière année de formation supérieure (Bac+4, Master ou école d'ingénieur) en informatique ou mathématiques appliquées, spécialisé(e) en Data Engineering, Business Intelligence, développement ou équivalent.
- Vous avez un fort intérêt pour les technologies cloud, en particulier Google Cloud Platform (GCP).
- Vous maîtrisez le langage SQL et avez une appétence pour l'analyse et l'optimisation de requêtes complexes.
- Des connaissances en modélisation de données et/ou en outils d'orchestration de pipelines (comme Dataform) seraient un plus.
- Vous êtes reconnu(e) pour votre curiosité, votre dynamisme, votre autonomie et votre rigueur.