Informations générales
Entité de rattachement
Avec le premier réseau long-courrier au départ de l'Europe, le groupe Air France /KLM est un acteur majeur du transport aérien mondial.
Ses principaux métiers sont le transport aérien de passagers, de fret et la maintenance aéronautique.
Référence
2024-20819
Description du poste
Intitulé du poste
Stage – Data Science / NLP –Analyse de corpus massifs H/F
Métier
Systèmes d'informations - Développement
Catégorie socio-professionnelle
Stagiaire
Présentation du contexte
Au sein du groupe Air France-KLM, le département Data, RO & IA a la charge de développer des outils de prévision, d’optimisation et d’analyse de données pour diverses entités du groupe. Ces outils couvrent un large éventail de domaines, tels que le traitement automatique des données textuelles, la maintenance prédictive, la prévision des retards, l'optimisation des plannings de vols et d’agents, ou encore le pricing des billets.
Au sein de ce département, l’équipe NLP-GenAI joue un rôle transverse en traitant toutes les problématiques liées au traitement du langage naturel pour la compagnie. Une grande partie de ses projets porte sur les modèles génératifs.
Description de la mission
Rattaché(e) au département Data, RO & IA d’Air France-KLM et intégré(e) à l’équipe NLP-GenAI, vous aurez pour mission principale d'explorer diverses approches afin de construire un pipeline d’analyse automatique et agnostique de grands corpus textuels. Un tel modèle pourrait être utilisé sur des réclamations clients, des retours utilisateurs, des résultats de sondages ou encore des rapports d’incidents. Étant donnée la volumétrie importante de ces corpus, une utilisation directe des LLM n'est pas envisageable. Vous devrez donc développer un modèle d’extraction d’information capable de fournir des insights et des recommandations pour la compagnie. Enfin, vous créerez une interface de restitution, sous forme de rapport ou de dashboard, pour illustrer les sources de ces recommandations et leurs impacts potentiels. Un autre sujet potentiel durant le stage pourrait être l’optimisation d'un algorithme de Matching entre les données des bagages perdus (photos, descriptions, informations logistiques) dont le propriétaire n’est pas identifiable, et les réclamations clients. En intégrant l’équipe, vous aurez également l'opportunité de contribuer aux autres sujets de l’équipe, telles que la classification de texte, et les approches de génération de données (RAG). Vous testerez et évaluerez vos modèles sur des données réelles et pourrez être amené(e) à industrialiser un modèle dans l'environnement Google Cloud. Approches à explorer : Transformers, BERT, t-SNE, UMAP, Clustering, CLIP, Latent Dirichlet allocation Stack technique : Python, Google Cloud Plateform, Vertex AI (Gemini), OpenAI, VS Code, GitHub, pytorch, langchain
Profil recherché
Rattaché(e) au département Data, RO & IA d’Air France-KLM et intégré(e) à l’équipe NLP-GenAI, vous aurez pour mission principale d'explorer diverses approches afin de construire un pipeline d’analyse automatique et agnostique de grands corpus textuels.
Un tel modèle pourrait être utilisé sur des réclamations clients, des retours utilisateurs, des résultats de sondages ou encore des rapports d’incidents. Étant donnée la volumétrie importante de ces corpus, une utilisation directe des LLM n'est pas envisageable. Vous devrez donc développer un modèle d’extraction d’information capable de fournir des insights et des recommandations pour la compagnie. Enfin, vous créerez une interface de restitution, sous forme de rapport ou de dashboard, pour illustrer les sources de ces recommandations et leurs impacts potentiels.
Un autre sujet potentiel durant le stage pourrait être l’optimisation d'un algorithme de Matching entre les données des bagages perdus (photos, descriptions, informations logistiques) dont le propriétaire n’est pas identifiable, et les réclamations clients.
En intégrant l’équipe, vous aurez également l'opportunité de contribuer aux autres sujets de l’équipe, telles que la classification de texte, et les approches de génération de données (RAG). Vous testerez et évaluerez vos modèles sur des données réelles et pourrez être amené(e) à industrialiser un modèle dans l'environnement Google Cloud.
Approches à explorer : Transformers, BERT, t-SNE, UMAP, Clustering, CLIP, Latent Dirichlet allocation
Stack technique : Python, Google Cloud Plateform, Vertex AI (Gemini), OpenAI, VS Code, GitHub, pytorch, langchain
Durée du contrat (mois) :
6
Type de contrat
Convention de stage
Date de prise de poste souhaitée
17/03/2025
Type d'horaires
Administratif
Profil candidat
Niveau d'études min. requis
Bac + 5 et plus
Localisation du poste
Localisation du poste
France, Ile-de-France, Val d'Oise (95)
Site
45 rue de Paris 95747 ROISSY CHARLES DE GAULLE CEDEX