Stage recherche - Classification précoce de séries temporelles F/H
Stage Châtillon-en-Vendelais (Ille-et-Vilaine) Développement informatique
Description de l'offre
about the role
"Vous vous rêvez bâtisseur, construisez un nouvel algorithme de ML pour analyser les séries temporelles" et rejoignez nous !, Bruno manager
Dans ce stage, nous nous intéresserons à la classification précoce de séries temporelles, où des séries sont observées au fur et à mesure, et dont l’objectif est de déclencher les prédictions de classe avant que les séries observées ne soient complètes. D’un côté la collecte de plus d'information permet souvent d'obtenir une meilleure prédiction, mais attendre peut poser des problèmes importants (pannes, sécurité, …). Il s’agit donc d’'optimiser le compromis entre la qualité des prédictions et leur précocité. Pour ce faire, on dispose d’une matrice de coût de mauvaise classification et d’un coût d’attente.
Dans ce contexte, Orange a réalisé une étude comparative extensive des principales approches de la littérature [1], une librairie python a également été open sourcée [2]. Le but de ce stage de recherche est de mettre au point de nouveaux algorithmes en raffinant deux approches de la littérature, parmi les plus performantes :
1 – CALIMERA [3] est une approche dite non-myope, qui estime l’espérance de coût pour les instants futurs et qui déclenche sa prédiction lorsque l’espérance de coût est minimale à l’instant courant. Cette approche est inspirée de [4] et a pour originalité de se baser sur un modèle de régression pour choisir les moments de déclenchement. Dans ce stage, nous tenterons d’améliorer cette approche de deux manières : (i) en posant un problème de régression différent ; (ii) en raffinent le calcul d’espérance grâce au parcours complet de la matrice de coût de mauvaise classification.
2 – STOPING RULE [5] est une fonction de déclenchement définie a priori, qui comporte trois termes pondérés par des hyperparamètres : (i) la probabilité de la classe la plus probable ; (ii) l’écart de probabilité entre les deux classes les plus probables ; (iii) la proportion de la série visible à l’instant courant. Dans ce stage, nous tenterons d’améliorer cette approche en l’informant du coût de mauvaise classification et du coût d’attente.
La rédaction d’un article scientifique sera envisagée si les résultats expérimentaux sont probants.
"Rejoignez une équipe passionnée, solidaire et dynamique basée sur un campus à l'américaine et des installations derniers cris", Bruno, manager
about you
Profil souhaité :
· BAC + 5, Master informatique et/ou statistiques ou école d'ingénieur.
· Intérêt pour la recherche et pour les aspects applicatifs et théoriques du sujet.
Compétences :
· Les connaissances en Python et Scikit-learn sont indispensables.
· Des connaissances minimales en statistiques, mathématiques et/ou apprentissage statistique sont indispensables.
Bibliographie
[1] Renault, Aurélien, et al. "Early Classification of Time Series: Taxonomy and Benchmark.", 2024
[2] Renault, Aurélien, et al. "ml_edm package: a Python toolkit for Machine Learning based Early Decision Making.", 2024
[3] Bilski, Jakub Michał, and Agnieszka Jastrzębska. "CALIMERA: A new early time series classification method." Information Processing & Management, 2023
[4] Achenchabe, Youssef, et al. "Early classification of time series: Cost-based optimization criterion and algorithms." Machine Learning, 2021
[5] Mori, Usue, et al. "Early classification of time series by simultaneously optimizing the accuracy and earliness." IEEE transactions on neural networks and learning systems, 2017
additional information
Vous serez accueilli au sein d’une équipe composée de chercheurs en Machine Learning, de Data Scientists dans une direction d’innovation.
department
L'analyse de données et l'intelligence artificielle constituent aujourd'hui des puissants leviers pour Orange permettant à la fois de réinventer la relation client mais également d'optimiser et d'automatiser la gestion de nos réseaux, d'améliorer l'expérience client et d'apporter un avantage différenciant vis-à-vis de nos clients.
L’ambition de la Division Innovation est de porter plus loin l’innovation d’Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l’humain, éclairer les choix stratégiques du Groupe à long terme et influencer l’écosystème digital mondial.
Au sein de la division Innovation, le domaine fonctionnel Digital Cloud Services a pour ambition de proposer à toutes les équipes de développement logiciel d’Orange l’ensemble des fondamentaux techniques communs, structurellement sécurisés et automatisés, utilisables par tous et partout, capables de soutenir des productions digitales, rapides et de qualité, sur l’ensemble du cycle de vie de celles-ci : de la conception jusqu’au fonctionnement nominal (run) en passant par le développement, le test, le déploiement, la supervision ou l'intégration de l'IA.
Dans ce cadre, vous rejoignez l'équipe Automated Data Intelligence at Scale, qui regroupe des chercheurs, des data scientists opérationnels et des architectes logiciels. Sa mission s'étend de la recherche académique à l'industrialisation de solutions opérationnelles.
contract
Internship
Duration : 6 months
Start date : 03 Feb 2025
Level : Master 2
Paid internship
Only your skills matter
Regardless of your age, gender, origin, religion, sexual orientation, neuroatypia, disability or appearance, we encourage diversity within our teams because it is a strength for the collective and a vector of innovation. Orange Group is a disabled-friendly company: don't hesitate to tell us about your specific needs.