Stage - Data Scientist - Traitement de logs pour la détection d'anomalies (F/H)
Stage Lannion (Côtes-d'Armor)
Description de l'offre
Date de publication : Jan 07, 2026, 5:11PM
Description de la mission et des activités
Au sein de l’équipe AI4Ops, nous développons des solutions de Machine Learning appliquée à l’observabilité des systèmes IT, avec pour objectif de détecter automatiquement des anomalies à partir des logs systèmes.
Les logs sont souvent non structurés, bruités et massifs, et nécessitent l’usage de techniques avancées de traitement automatique du langage (NLP) combinées à des méthodes de détection d’anomalies à base de méthodes non supervisée en machine learning (ML) ou deep learning (DL).
Une approche classique consiste d’abord à parser les logs (analyse syntaxique à base d’expressions régulières) pour rattacher chaque log à un template (modèle de message). On passe ainsi d’une information non structurée (logs bruts souvent très verbeux et variés) en séquences de templates ce qui permet aussi de réduire la dimensionnalité du problème. Ensuite interviennent des opérations de groupage de ces templates (fenêtre fixe, glissante etc) puis de transformation de la représentation (comptage simple, séquence, sémantique). Dans le cas le plus simple, le problème se ramène à la détection d’anomalies sur des séries temporelles multivariées.
Une autre approache, qui aurait l’avantage d’être plus robuste à la variabilité des données de logs (mot hors vocabulaires, etc) et pourrait se révéler plus performante, serait de calculer des embeddings sur les logs. Différentes approches sont envisageables. Une approche naïve (CountVectorizer ou TF-IDFVectorizer), en passant par la création d’embeddings avec des embeddings pré-entraînés (Word2Vec, Log2Vec), ou l’utilisation de framework comme LogBERT.
Le stage portera principalement sur le prétraitement des logs pour les rendre utilisables par les algorithmes ML/DL de détection d’anomalies. Il s’agit d’un cas d’usage concret sur des logs de production. Le stagiaire sera intégré dans une équipe de data scientists et sera en contact avec l’équipe cliente qui a la connaissance métier (signification des logs). Il aura à sa disposition des outils d’exploration comme ElasticSearch, Kibana, etc.
Objectifs du stage :
· Réaliser un benchmark des algorithmes de templating des logs (DRAIN, SPELL, LogMine etc) et identifier le plus pertinent sur les logs du projet
· Appliquer des méthodes NLP pour transformer les logs non structurés en représentations exploitables (TF-IDF, embeddings, clustering, etc.)
· Travailler en collaboration avec les équipes clientes pour évaluer l’intérêt métier
__PRESENT
__PRESENT
__PRESENT
Profil recherché externe/compétences
Vous préparez un Bac+5 en Data Science / Intelligence Artificielle et recherchez un stage de 6 mois à temps plein à partir d' avril 2026 .
(Pour information, nous ne proposons pas de stage alterné.)
· Solide maîtrise de Python et des bibliothèques de traitement des données.
· Connaissances en NLP appliqué et/ou en modèles de détection d’anomalies.
· Intérêt pour l’observabilité IT, les logs systèmes, les architectures cloud/devops.
· Curiosité, autonomie, esprit de recherche, capacité à vulgariser.
__PRESENT
__PRESENT
__PRESENT
Ce que vous allez apprendre
· Manipuler de grandes volumétries de logs réels, non étiquetés, en contexte cloud.
· Travailler sur des problématiques IA appliquées au monitoring et à la cybersécurité.
· Approfondir vos compétences en NLP appliqué, unsupervised learning et MLOps.
· Participer à un projet stratégique en lien avec des équipes multidisciplinaires (Data scientists, DevOps, Chef de projet et équipe cliente).
__PRESENT
__PRESENT
__PRESENT
Description de l'entité/équipe
Au sein d'Orange Innovation, le département Data Intelligence Factory accueille toutes les activités permettant d’extraire, de traiter et de valoriser des données dans des environnements clouds natifs et d’en assurer la sécurité. Il porte en particulier les activités de moteurs de traitement de données, d’observabilité, ainsi que des environnements et enablers en data science et machine learning.
Au sein de ce département, l’équipe ADIS (Automated Data Intelligence at Scale) développe de nouvelles méthodes d’analyse de données, et fournit les environnements et outils de traitements et analyse de données en production. Elle apporte un soutien aux équipes métiers pour l’analyse de leurs données, et notamment sur l’usage des outils et le développement de cas d’usage dans un environnement de production. Elle identifie, qualifie des solutions (internes ou externes) selon les besoins.
__PRESENT
__PRESENT
__PRESENT
Date de début souhaitée : Apr 01, 2026, 12:00AM
Seules vos compétences comptent
Quel(s) que soient votre âge, votre sexe, vos origines, votre religion, votre orientation sexuelle, votre neuro-diversité, votre handicap ou votre apparence, nous encourageons activement la diversité au sein de nos équipes, car elle est à la fois une force collective et un moteur d'innovation. Orange est une entreprise accessible aux personnes en situation de handicap : n'hésitez pas à nous faire part de vos besoins spécifiques.