AIR FRANCE vacancy search engine

Stage – Data Science / NLP –Analyse de corpus massifs H/F


Détail de l'offre

Informations générales

Entité de rattachement

Avec le premier réseau long-courrier au départ de l'Europe, le groupe Air France /KLM est un acteur majeur du transport aérien mondial.
Ses principaux métiers sont le transport aérien de passagers, de fret et la maintenance aéronautique.  

Référence

2024-20819  

Description du poste

Intitulé du poste

Stage – Data Science / NLP –Analyse de corpus massifs H/F

Métier

Systèmes d'informations - Développement

Catégorie socio-professionnelle

Stagiaire

Présentation du contexte

Au sein du groupe Air France-KLM, le département Data, RO & IA a la charge de développer des outils de prévision, d’optimisation et d’analyse de données pour diverses entités du groupe. Ces outils couvrent un large éventail de domaines, tels que le traitement automatique des données textuelles, la maintenance prédictive, la prévision des retards, l'optimisation des plannings de vols et d’agents, ou encore le pricing des billets.

 

Au sein de ce département, l’équipe NLP-GenAI joue un rôle transverse en traitant toutes les problématiques liées au traitement du langage naturel pour la compagnie. Une grande partie de ses projets porte sur les modèles génératifs.

Description de la mission

Rattaché(e) au département Data, RO & IA d’Air France-KLM et intégré(e) à l’équipe NLP-GenAI, vous aurez pour mission principale d'explorer diverses approches afin de construire un pipeline d’analyse automatique et agnostique de grands corpus textuels. Un tel modèle pourrait être utilisé sur des réclamations clients, des retours utilisateurs, des résultats de sondages ou encore des rapports d’incidents. Étant donnée la volumétrie importante de ces corpus, une utilisation directe des LLM n'est pas envisageable. Vous devrez donc développer un modèle d’extraction d’information capable de fournir des insights et des recommandations pour la compagnie. Enfin, vous créerez une interface de restitution, sous forme de rapport ou de dashboard, pour illustrer les sources de ces recommandations et leurs impacts potentiels. Un autre sujet potentiel durant le stage pourrait être l’optimisation d'un algorithme de Matching entre les données des bagages perdus (photos, descriptions, informations logistiques) dont le propriétaire n’est pas identifiable, et les réclamations clients. En intégrant l’équipe, vous aurez également l'opportunité de contribuer aux autres sujets de l’équipe, telles que la classification de texte, et les approches de génération de données (RAG). Vous testerez et évaluerez vos modèles sur des données réelles et pourrez être amené(e) à industrialiser un modèle dans l'environnement Google Cloud. Approches à explorer : Transformers, BERT, t-SNE, UMAP, Clustering, CLIP, Latent Dirichlet allocation Stack technique : Python, Google Cloud Plateform, Vertex AI (Gemini), OpenAI, VS Code, GitHub, pytorch, langchain

Profil recherché

Rattaché(e) au département Data, RO & IA d’Air France-KLM et intégré(e) à l’équipe NLP-GenAI, vous aurez pour mission principale d'explorer diverses approches afin de construire un pipeline d’analyse automatique et agnostique de grands corpus textuels.

Un tel modèle pourrait être utilisé sur des réclamations clients, des retours utilisateurs, des résultats de sondages ou encore des rapports d’incidents. Étant donnée la volumétrie importante de ces corpus, une utilisation directe des LLM n'est pas envisageable. Vous devrez donc développer un modèle d’extraction d’information capable de fournir des insights et des recommandations pour la compagnie. Enfin, vous créerez une interface de restitution, sous forme de rapport ou de dashboard, pour illustrer les sources de ces recommandations et leurs impacts potentiels.


Un autre sujet potentiel durant le stage pourrait être l’optimisation d'un algorithme de Matching entre les données des bagages perdus (photos, descriptions, informations logistiques) dont le propriétaire n’est pas identifiable, et les réclamations clients.


En intégrant l’équipe, vous aurez également l'opportunité de contribuer aux autres sujets de l’équipe, telles que la classification de texte, et les approches de génération de données (RAG). Vous testerez et évaluerez vos modèles sur des données réelles et pourrez être amené(e) à industrialiser un modèle dans l'environnement Google Cloud.

 

Approches à explorer : Transformers, BERT, t-SNE, UMAP, Clustering, CLIP, Latent Dirichlet allocation

Stack technique : Python, Google Cloud Plateform, Vertex AI (Gemini), OpenAI, VS Code, GitHub, pytorch, langchain

Durée du contrat (mois) :

6

Type de contrat

Convention de stage

Date de prise de poste souhaitée

17/03/2025

Type d'horaires

Administratif

Profil candidat

Niveau d'études min. requis

Bac + 5 et plus

Localisation du poste

Localisation du poste

France, Ile-de-France, Val d'Oise (95)

Site

45 rue de Paris 95747 ROISSY CHARLES DE GAULLE CEDEX