Un grand modèle de langage (LLM) ouvert et dédié à l’éducation

D’ici à quelques mois, l’équipe Class’Code sera investie dans un chantier colossal : la création d’un grand modèle de langage (LLM) entièrement ouvert et dédié à l’éducation. Le consortium OpenLLM-France, dont notre association fait partie, est en effet lauréat de l’appel à projet Communs Numériques pour IA Générative. On vous explique.

groupe de personnes qui travaillent

Un LLM dédié à la communauté éducative

Créer un assistant pour l’éducation et la recherche

Le consortium OpenLLM France, qui fédère un écosystème d’acteurs autour de l’IA Générative - dont Class’Code - se donne pour mission de créer des communs numériques d’IA générative de confiance, maîtrisés, transparents et surtout réellement Open Source. Conscient des besoins et des attentes des acteurs de l’éducation en matière d’IA, il a répondu il y a quelques mois à l’appel à projets France 2030 porté par Bpifrance, “Communs Numériques pour IA Générative”. 

Notre projet de développement d’un modèle fondation ouvert (poids et données d’apprentissage), multimodal (voix et texte), dédié à l’éducation, et particulièrement entraîné pour la génération de contenus pédagogiques en français, a été retenu par le jury !

Les travaux débuteront dès la rentrée 2024 pour une durée de deux ans, avec pour ambition de mettre dès que possible à disposition du public nos premières versions tests.

Les grands axes du chantier

Avec ce chantier de développement d’un grand modèle de langage, OpenLLM-France se donne pour objectif de  : 

  • Créer un accès public à ce modèle. Avec une entrée sans login ni mot de passe, conforme au RGPD et aux contraintes des établissements scolaires (cependant limité pour la phase de test) 

  • Concevoir une version de petite taille, pour favoriser une utilisation en local 

  • Offrir aux utilisateurs la possibilité de faire du RAG (intégration de document ou de corpus) 

  • Évaluer les performances d’un modèle utilisant exclusivement des données d’apprentissage ouvertes, respectant le droit d’auteur, et en grande partie en français 

  • Mettre à disposition ce modèle auprès des Edtech partenaires (Vittascience et Rivière Yuan EdTech) et de toute autre structure intéressée 

  • Diffuser des ressources pédagogiques pour une compréhension technique et pédagogique de cet outil, notamment à travers le GTNUM GenIAL.

Focus sur OpenLLM-FranceUne communauté ouverte

Créé en juin 2023, OpenLLM-France est une communauté ouverte de plus de 400 membres. Fournisseurs de données publiques, chercheurs, ingénieurs, étudiants échangent de manière publique et transparente pour écrire ensemble le futur de l’IA générative. 

Face à la concentration des acteurs big tech de l'IA, ou des stratégies de surcapitalisation actuellement déployées, le projet OpenLLM-France se veut une alternative collaborative, ouverte et industrielle, visant à créer de la biodiversité digitale et des communs réellement ouverts avec le souci de l'intérêt général et de l'accessibilité au plus grand nombre.

Un consortium d’acteurs engagés

Dans le prolongement de cette communauté, le Consortium OpenLLM-France réunit quant à lui 17 acteurs accompagnés de personnalités qualifiées et reconnues. Sa mission : faire progresser la recherche académique et démontrer que des modèles spécialisés et sobres peuvent concurrencer les plus grands LLM.

Porté par l’éditeur open-source Linagora, il rassemble des structures de la recherche et de l’industrie (Le Centre national de la recherche scientifique, Loria, Genci, l’Idris, l’École Polytechnique, la Dascim, l’Université Paris Panthéon Sorbonne 1, l’Association Class'Code, opsci.ai, ou encore Talkr.ai) soutenus par le Secrétariat Général Pour l’Investissement), Bpifrance et la Direction Générale des Entreprises.


Toutes les infos sur le site du projet OpenLLM-FRance !