Utilisation LLMs pour la spécification des politiques de partage des données - CDD - Paris-Saclay F/H
CDD Palaiseau (Essonne) Développement informatique
Description de l'offre
Détail de l'offre
Informations générales
Entité de rattachement
Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un socle de recherche fondamentale. Le CEA s'engage depuis plus de 75 ans au service de la souveraineté scientifique, technologique et industrielle de la France et de l'Europe pour un présent et un avenir mieux maîtrisés et plus sûrs.
Implanté au cœur des territoires équipés de très grandes infrastructures de recherche, le CEA dispose d'un large éventail de partenaires académiques et industriels en France, en Europe et à l'international.
Les 20 000 collaboratrices et collaborateurs du CEA partagent trois valeurs fondamentales :
• La conscience des responsabilités
• La coopération
• La curiosité
Référence
2024-33325Description de la Direction
Le Commissariat à l'énergie atomique et aux énergies alternatives (CEA) est un organisme public de recherche.
Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans le cadre de ses quatre missions :
• la défense et la sécurité
• l'énergie nucléaire (fission et fusion)
• la recherche technologique pour l'industrie
• la recherche fondamentale (sciences de la matière et sciences de la vie).
Avec ses 16000 salariés -techniciens, ingénieurs, chercheurs, et personnel en soutien à la recherche- le CEA participe à de nombreux projets de collaboration.
Description de l'unité
Le laboratoire LECS (Laboratoire d'Études et de Conception de Systèmes) du département DILS au sein de l'institut LIST de la direction DRT du CEA se concentre principalement sur la cybersécurité et la protection des données dans les systèmes distribués. Il participe à des projets tels que le projet TASTING, qui vise à moderniser et sécuriser les infrastructures énergétiques. Le LECS collabore avec plusieurs organismes de recherche et partenaires industriels comme RTE pour développer des solutions basées sur des méthodes formelles de vérification en temps réel.
Description du poste
Domaine
Sciences pour l'ingénieur
Contrat
CDD
Intitulé de l'offre
Utilisation LLMs pour la spécification des politiques de partage des données - CDD - Paris-Saclay F/H
Statut du poste
Cadre
Durée du contrat (en mois)
36
Description de l'offre
« Rejoignez le CEA pour donner du sens à votre activité, mener et soutenir des projets de R&D nationaux et internationaux, cultiver et faire vivre votre esprit de curiosité. »
EN SYNTHESE, QU’EST-CE QUE NOUS VOUS PROPOSONS ?
Le CEA recherche un(e)Ingénieur(e) en usage des LLMs pour la spécification des politiques de partage des donnéespour la CEA/DRT(Direction de laRechercheTechnologique). Ce poste decadreenCDDde36mois est basé sur le siteNano-Innovde Paris-Saclay, Essonne (91).
Il s'agit d'un poste à pourvoir à partirdès que possible.
POURQUOI NOUS REJOINDRE ?
Le développement de systèmes physiques ou numériques estcomplexeet implique desdéfis techniquesethumains. La première étape consiste àformaliserles idées enrédigeantdes spécifications ou un cahier des charges, généralement rédigés enlangage naturelpar des analystes fonctionnels. Ces documents sontcruciauxpour leprojetet facilitent lacommunicationentre les parties prenantes. L'ingénierie des exigences propose destechniques(revues, modélisation, formalisation) pouraméliorerlaqualitédes documents (cohérence, complétude) etcorrigerles défauts avant l’implémentation du système.
Les réseaux de neurones à grands modèles (LLM) apportent denouvelles possibilitésdans ce domaine [2]. Nous proposons d’utiliser unagent conversationnel(ChatGPT, Lama) pour modéliser les politiques departage de données(ODRL[1]) à partir detexte naturel. L’outil recommandera des options de réécriture inspirées des normesINCOSEetEARS, analysera les résultats et fournira un audit sur la qualité du modèle obtenu.
Les LLM sont particulièrement prometteurs pour :
- transformerles exigences non structurées en modèles structurés comme EARS ou des user stories [2]
- classifierles exigences [3] : comportementale, non fonctionnelles, etc. comme défini par exemple dans [4]
- signalerles ambiguïtés, incohérences ou violations potentielles sur la base d'heuristiques de validation prédéfinies [5] [2]
Cependant, les LLM présentent des limites :hallucinations,biais algorithmiquesetgénéralisationlimitée[2]. Pour pallier cela, nous suggéronsd’hybrider, comme dans [1], les LLM avec d’autres techniques (NLP, algèbres de processus) afin de réduire ces impacts.
QU’ATTENDONS-NOUS DE VOUS ?
Au sein de l’équipe « Exigences intelligentes » du laboratoire, votrechallengeconsistera à :
- Déterminerdes schémas ou un langage contrôlé pour représenter le modèle ODRL.
- Déterminerl’efficacité de différentes techniques et formalismes, tel que le NLP [6] ou inspiration de la métrique Bleu [7], pour éviter les hallucinations lors de la réécriture.
- Analyser,gérerougénérerdes données d’entrainement pour des LLM
- Configureret piloter un ou plusieurs LLM avec les techniques les plus efficaces pour améliorer la cohérence et la complétude de politiques de partage de données.
- Développerl’outillage logiciel nécessaire aux travaux ci-dessus.
#CEA-List
Profil recherché
Profil du candidat
COMPÉTENCES REQUISES :
- Titulaires d'undoctoratou d'un Master eninformatique, enmathématiquesou en ingénierie dessystèmes
VOUS AVEZ ENCORE UN DOUTE ?
Les à-côtés de votre mission principale peuvent nous intéresser :
- Un écosystème derecherche à la pointe, unique en son genre et dédié à des thématiques àfort enjeu sociétal, qui donne du sens à votre mission
- Desformationspour renforcer vos compétences, en acquérir de nouvelles et booster votre mission
- Unéquilibrevie privée / vie professionnelle reconnu par nos collaborateurs
- La possibilité detélétravaillerpour équilibrer les temps de transport et contribuer à votre qualité de vie
- UnCEriche en avantages et en activités sociales, culturelles et sportives
- Un lieu de travail au cœur d’un plateaudynamique, entouré d’écoles et d’entreprises de la tech
Cela vous tente ? Postulez, ce poste est fait pour vous !
Conformément aux engagements pris par le CEA en faveur de l'intégration des personnes en situation de handicap, cet emploi est ouvert à toutes et à tous
#CEA-List #NumericalSimulation#AI
[1] « ODRL Information Model 2.2 » : https://www.w3.org/TR/odrl-model/
[2] C. Arora, J. Grundy, et M. Abdelrazek, « Advancing Requirements Engineering through Generative AI: Assessing the Role of LLMs », 1 novembre 2023, arXiv: arXiv:2310.13976 : http://arxiv.org/abs/2310.13976
[3] X. Luo, Y. Xue, Z. Xing, et J. Sun, « PRCBERT: Prompt Learning for Requirement Classification using BERT-based Pretrained Language Models », in Proceedings of the 37th IEEE/ACM International Conference on Automated Software Engineering, Rochester MI USA: ACM, oct. 2022, p. 1‑13. doi: 10.1145/3551349.3560417.
[4] A. Fan et al., « Large Language Models for Software Engineering: Survey and Open Problems », 11 novembre 2023, arXiv: arXiv:2310.03533. doi: 10.48550/arXiv.2310.03533.
[5] D. V. Dzung et A. Ohnishi, « Improvement of Quality of Software Requirements with Requirements Ontology », in 2009 Ninth International Conference on Quality Software, août 2009, p. 284‑289. doi: 10.1109/QSIC.2009.44.
[6] I. K. Raharjana, D. Siahaan, et C. Fatichah, « User Stories and Natural Language Processing: A Systematic Literature Review », IEEE Access, vol. 9, p. 53811‑53826, 2021, doi: 10.1109/ACCESS.2021.3070606.
[7] K. Papineni, S. Roukos, T. Ward, et W.-J. Zhu, « Bleu: a Method for Automatic Evaluation of Machine Translation », in Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, P. Isabelle, E. Charniak, et D. Lin, Éd., Philadelphia, Pennsylvania, USA: Association for Computational Linguistics, juill. 2002, p. 311‑318. doi: 10.3115/1073083.1073135.