LUCIE, un modèle universel centré sur l’apprenant

Michel-Marie Maudet nous présente l'entreprise à mission LINAGORA, qui prône une "Goodtech for good" et son modèle universel LUCIE.

Entretien avec Michel Marie Maudet, directeur général de LINAGORA France.

Créée il y a 25 ans, l’entreprise à mission LINAGORA prône une “Goodtech for good”. Comprenez : une tech au bénéfice du bien commun qui soit, elle aussi, éthique et transparente. La société travaille au développement d’une troisième voie numérique, loin des GAFAM et de l’Internet chinois, avec un numérique respectueux des valeurs, des cultures et des réglementations. Spécialisée dans le logiciel libre, LINAGORA est à l’initiative de la communauté OpenLLM France, qui rassemble des centaines de contributeurs autour des communs numériques dans l’IA générative. Depuis 2023, elle prend également part, aux côtés de Class’Code, à la construction d’un grand modèle de langage dédié à l’éducation. Où en est le projet ? Pourquoi est-il essentiel d’aboutir à un LLM ouvert pour l’éducation ? On en parle avec Michel Marie Maudet, directeur général de LINAGORA France.

Comment définiriez-vous la notion de grand modèle de langage ouvert ? 

À la différence des outils comme ChatGPT ou Claude AI, les grands modèles de langage ouverts sont des modèles sans restriction d’usage. Ils peuvent être utilisés par n’importe qui, à n’importe quelle condition. Aujourd’hui, on ne connaît pas les données des modèles existants. Les plus vertueux indiquent seulement leur répartition du point de vue de la langue. Le modèle LLaMa dans sa version 2, par exemple, s’appuie sur 90 % de données en anglais, et seulement 0,17 % en français ! Un LLM ouvert comme celui que nous construisons s’appuie sur un corpus d’apprentissage et un entraînement sous licence libre. Sa génération offre une transparence, une confiance et un grand niveau d’interprétabilité. Elle donne aussi la possibilité de corriger le déséquilibre entre l’anglais et d’autres langues.

OpenLLM Europe est la plus grande communauté francophone sur l’IA Générative. Pouvez-vous m’en dire plus ?

À l’heure du développement des IA génératives pour le grand public, il nous semblait intéressant de créer une communauté autour des communs numériques dans l’IA générative. J’ai donc publié un manifeste pour rassembler les personnes convaincues sur le sujet. C’était en juin 2023. Fin septembre, nous étions déjà 300 personnes sur notre serveur Discord ! Aujourd’hui, nous sommes plus de 800. La grande majorité sont simplement des curieux, mais environ 80 sont très actifs, acteurs privés spécialisés ou issus de laboratoires de recherche publique (CNRS, INRIA, CEA…). Il nous serait impossible de recruter autant de personnes ! C’est là toute la puissance d’une communauté open source. 


Comment est né le projet de modèle de langage pour l’éducation ?

À l’été 2023, le gouvernement a lancé un appel à projet autour des communs numériques en IA générative. J’ai fait la connaissance à ce moment-là de Bastien Masse et de Class’Code. Pour répondre à l’appel à projet, nous avons créé un consortium d’une dizaine d’acteurs, essentiellement issus du monde académique et de startups. Nous avons été retenus parmi 60 dossiers de candidature dans le cadre du programme France 2030. Je suis fier de faire partie de cette aventure avec Class’Code ! Ça m’a donné l’occasion de replonger dans l’œuvre “Le meilleur des mondes”, qui interroge la manière dont l’IA va révolutionner le futur. Partir de cette thèse nous permet de constituer un cas d’usage spécifique autour de l’éducation.


Pourquoi est-ce essentiel de produire un LLM ouvert pour l’éducation ?

Il me semble nécessaire de créer une alternative aux LLM actuels, influencés par des données d'entraînement dont nous n’avons pas connaissance. Pour l’éducation, l’enjeu est de créer un outil avec lequel on soit en confiance et aligné sur la langue, la culture et les valeurs de la communauté éducative en France et en Europe. C’est une question de maîtrise et d’indépendance, si nous voulons, demain, un modèle qui sache répondre précisément aux besoins d’un élève de tel ou tel niveau. Qui plus est, les LLM utilisés à ce jour impliquent un surcoût pour transformer le français en langage compréhensible par le modèle. C’est ce qu’on l’on appelle la “tokenisation” : l’outil découpe les mots pour les traiter efficacement. Mais cette opération a un impact économique et écologique ! Avec Lucie, le nom donné à notre modèle, nous avons créé un modèle compact, plus sobre en énergie, capable de tourner sur un PC classique. C’est aussi un moyen de sortir de la dépendance aux cartes graphiques, dont le coût financier et environnemental est de plus en plus élevé. 

Quels sont les autres atouts de ce modèle de langage ?

Dans le monde éducatif, les enseignants sont friands de travailler en “boîte ouverte”. Lucie offre une vraie transparence dans les données. Le modèle de langage fournit une brique de base, mais il ne connaît ni les exercices des enseignants, ni les manuels scolaires, ni les ressources éducatives libres (REL) parfois difficiles à trouver sur le net. Toutes ces données vont donc venir compléter le corpus de connaissances de notre IA ! À terme, notre modèle ouvert permettra à la communauté enseignante de préparer des séances de travail, soit en s’appuyant sur les connaissances de l’outil, soit en y ajoutant des données. L’idée étant d’offrir aux élèves une réponse parfaitement adaptée et sourcée. 

Comment voyez-vous l’avenir d’Open LLM ?

Très récemment, nous avons reçu la décision du premier ministre qui valide et finance notre projet. Si nous obtenons le soutien de la DNE, nous aimerions aller au-delà du simple chatbot et construire une plateforme ultra-personnalisée et centrée sur l’apprenant. Lucie pourrait devenir un assistant d’enseignement. Sous la forme d’une application, elle offrirait des sessions d’apprentissage ludiques, en fonction du niveau et des résultats d’évaluation. Un précepteur du XIe siècle, centré sur l’apprenant !


Vous êtes actuellement dans une phase de test. Qu’est-ce que cela implique ?

Pour entraîner un modèle comme celui-ci, il faut trois trillions de tokens. En clair, le modèle a besoin d’ingérer plusieurs milliards de mots ! C’est la phase de pré-training, en cours sur le supercalculateur Jean Zay, un des plus puissants de France. Après quatre mois d'entraînement, nous obtiendrons bientôt un modèle de fondation, inutilisable en l’état. Nous entrerons ensuite dans la phase de pré-instruction, qui permettra d’obtenir un modèle à utiliser sous la forme d’un chatbot. Il sera mis à disposition du grand public fin novembre. Entretemps, nous aurons déjà lancé les travaux d’évaluation avec une trentaine de personnes au sein du consortium. 

Curieux, enseignant ou développeur dans une EdTech… Comment est-il possible de contribuer à la démarche ?

La particularité de Lucie, c’est que chaque citoyen peut nous aider en testant le modèle et en faisant remonter les bugs. En comparaison, ChatGPT a nécessité plusieurs milliers de personnes pour cette étape, payées une poignée de dollars de l'heure. Dans les semaines à venir, chacun pourra participer à ce travail collectif via la plateforme https://comparia.beta.gouv.fr/ . Nous utiliserons ces données d’évaluation pour faire évoluer les différentes versions de Lucie. Construire un modèle universel, c’est répondre à des enjeux d’emploi, d’éthique, de prises de décisions. C’est une IA gouvernée par les citoyens, et qui tient compte de notre société. Récolter des données de préférence est extrêmement riche. Cela pourrait nous amener, dans le futur, à créer une fondation autour de cette idée d’universalité de l’IA.


Vous prévoyez d’organiser des webinaires sur le projet. Quel est l’objectif ?

Lors de l’événement Numérique en commun(s), qui s’est tenu cette année à Chambéry, nous avons été happés de questions avec Bastien. Nous avons donc décidé de mettre en place des webinaires pour réexpliquer les ambitions et les objectifs d’OpenLLM, mais aussi faire le point sur l’avancée de l'entraînement de Lucie. Nous espérons, avec ce format, élargir notre communauté, en proposant à ceux qui le souhaitent de travailler sur l’identification et l’évaluation du modèle. Dans la même lignée, nous serons présents au salon Educatech Expo du 13 au 15 novembre. Enfin, LINAGORA va organiser une journée consacrée aux IA Open Source dans les locaux de l’Unesco d'ici à la fin de l’année - avant l’AI Action Summit organisé par la France en février 2025. Objectif : rassembler chercheurs et citoyens autour de tables rondes et d’ateliers pour mieux comprendre les enjeux liés aux IA Open Source et éclairer sur les challenges de l’interprétabilité des LLM pour leur usage dans des systèmes critiques. Nous aborderons l’évaluation des modèles non entraînés massivement sur des données en anglais.



Retrouvez plus d'infos sur notre article dédié à OpenLLM et sur le site du projet OpenLLM-France.