Une alternative à GPT ? Une vue d’ensemble des grands modèles de language.

Suite au buzz des modèles d’OpenAI, que ce soit GPT3, ChatGPT ou GPT4, on s’imagine une hégémonie totale de cette entreprise en matière d’innovation sur les grands modèles de langages, mais qu’en est il vraiment ?

Regardons de plus près ce qu’est un grand modèle de language, puis quels ont été les nombreux modèles qui ont amené leur pierre à l’édifice et enfin étayons une vue globale des modèles et des acteurs existant actuellement dans ce domaine.

Qu’est ce qu’un Grand modèle de langage

Les grands modèles de langages sont plus souvent appelés par leur anglicisme : Large Language Models ou juste LLMs.

Avant d’être “grands” ce sont surtout des modèles de langage, c’est à dire des représentations statistiques du langage humain. Il est important de ne pas oublier que, fondamentalement, les modèles de langage ne sont que des probabilités d’enchainements de mots (ou plus précisément de tokens). Sinon, en oubliant cela, on peut vite se retrouver à aider une IA à s’échapper des locaux de Google comme c’est arrivé à Blake Lemoine qui a cru reconnaître une âme en discutant avec le modèle LaMDA dont nous allons parler plus bas.

Les grands modèles de langages ont la particularité d’être de très gros réseaux de neurones profonds entrainés sur des textes contenant des milliards de mots. Avec tant de paramètres et tant de données, ces représentations statistiques du langage sont devenues extrêmement précises et efficaces. Il faut d’ailleurs concéder que l’on a tous été plus ou moins bluffés par les réponses de ChatGPT. Il ne faut néanmoins pas oublier tous les modèles intermédiaires qui ont rendu possible ce genre d’algorithme.

De nombreux modèles pour de nombreuses avancées

L’emergence des grands modèles de langages telle qu’on la connait aujourd’hui n’est bien sûr pas dû qu’aux quelques algorithmes récents d’openAI, mais plutôt à une avalanche de recherches successives depuis des années dans différents laboratoires.

Reprenons le fil à Juin 2017 : Google introduit les Transformers à travers son papier “Attention is all you need”. Cette nouvelle architecture remplace les LSTM et autres RNN, en lisant l’entrée d’un coup au lieu de le faire séquentiellement et en se basant sur l’idée d’”attention”. Dit grossièrement, le transformer apprend à se concentrer dynamiquement sur certaines partie du texte d’entrée en fonction du contexte, ce qui permet de développer des dépendances “longue distance” et dynamiques dans le texte et donc une représentation statistique du langage plus complexe. Ce n’est cependant pas un grand modèle de langage mais une nouvelle architecture pour les modèles de langage qui va se révéler être décisive. On va d’ailleurs retrouver cette architecture aussi dans des modèles traitant des images et non seulement du texte.

Le premier transformer pouvant être considéré comme un grand modèle de langage est BERT pour Bidirectional Encoder Representations from Transformers. En 2018, ce modèle constitué seulement de la partie Encoder est tout de suite considéré comme une référence académique pour diverses tâches de NLP comme l’analyse de sentiment. Il a également servi de base pour de nombreux autres travaux sur l’adaptation à des domaines spécifiques (SciBERT, FinBERT…), sur la modélisation multilingue (CamemBERT, FlauBERT, RuBERT…), ou encore sur l’amélioration des tailles et performances des modèles (DistillBERT, RoBERTa…).

Contrairement à BERT, la première version de GPT (pour Generative Pre-trained Transformer) sortie la même année comprend un décodeur dans son architecture de transformer, et s’attaque ainsi plus spécifiquement aux tâches de génération de texte.

Remarquant qu’en démultipliant les données d’entrainement, la taille des modèles et les temps de calculs, les performances continuaient de grimper proportionnellement, il s’en est alors suivi une course à l’échelle afin d’en tester les limites. C’est ainsi que des modèles gigantesques ont fait leur apparition comme les version 2(1.5B), 3(175B) et 4(1000B) de GPT mais également Gopher(280B), Megatron-Turing(530B), Jurassic-1(178B), lambda(137B), PaLM(540B), Glam(1200B)…

Dans le même temps, des modèles moins mégalos ont proposé des approches visant à optimiser les performances. C’est le cas du modèle Chinchilla(70B) qui, en suivant sa méthode de Compute optimal training, définit comment allouer un budget fixe entre taille de modèle, temps d’entrainement et quantité de donnée. Il permis de mettre en évidence que les énormes modèles cités ci-dessus étaient globalement sous-entrainés et ne nécessitaient pas tant de paramètres.

Chaque modèle s’appuyant sur les qualités de ces prédécesseurs, on assiste à une démultiplication des modèles, toujours plus performants. Ces performances ont rendu plus abordables le développement de modèles et les acteurs engagés dans ce domaine se sont ainsi diversifiés.

De nombreux acteurs pour de nombreux modèles

Les acteurs principaux sont bien sûr les géants de la tech, surtout Google et ses filiales qui ont sorti un grand nombre de modèles depuis des années : BERT, GLaM, FLAN, PaLM, LaMBDA, T5, Minerva, Chinchilla, Gopher, Sparrow…

Parmi les GAFAM, on comptera aussi Meta qui a notamment conçu OPT, Galactica et LLaMA, et Microsoft qui a sorti en partenariat avec NVIDIA le géant Megatron-Turing NLG.

La plupart des autres grandes compagnies de la tech ont également emboité le pas comme LG AI (avec son modèle Exaone), Salesforce (CodeGen), Yandex (YaLM), ou les entreprises chinoises Baidu (Ernie) et Huawei (Pangu-alpha).

D’un autre côté il existe également une multitude d’acteurs qui se sont impliqués dans le développement de LLM à visée ouverte avec une idéologie du “libre”.

C’est le cas du leader actuel, OpenAI, conçu comme une organisation à but non lucratif, promouvant des modèles ouverts et le développement de projets centrés sur la santé, l’écologie et l’éducation. Comme on a pu le constater, il y a eu un changement d’idéologie chez (NotSo)OpenAI, qui a même changé son statut pour passer en “organisation à but lucratif plafonné”.

L’idéologie du “libre” est néanmoins toujours portée par différentes organisations qui ont récemment développé des alternatives à tous les modèles plus ou moins fermés déjà conçus.

Quand on parle de libre ou de modèle ouvert, il faut faire la distinction entre différents degrés d’ouverture allant de la description technique un peu vague à la mise à disposition de modèle en license totalement ouverte. En général, pour les LLMs, on considère ces différents niveaux :

Fermé : Au maximum une doc technique expliquant plus ou moins ce qui à été réalisé.ex : GPT-4
Communication de recherche : Un article décrivant les recherches effectuées, en théorie reproductible s’il se veut scientifique.ex : GPT-3
Code en source ouverte : Un dépôt avec le code permettant d’obtenir le modèle, même sans les donnéesex : OPT, Alpaca
Modèles en source ouverte : Les poids du modèle sont disponiblesex : LLaMA, FLAN-UL2
License ouverte : Possibilité d’utilisation du modèle plus ou moins élargie.ex : GPT-Neo-X, Dolly

Parmi les contributeurs majeurs des LLMs libres, on citera EleutherAI, Together, Replicate, BigScience, CarperAI, HugginFace ou encore OpenAssistant.

Conclusion

OpenAI a en effet pris les devant en faisant le buzz avec ses modèles ChatGPT et GPT4, la scène des grands modèles de langage est cependant très diverse. Elle comprend des modèles ayant des visées et particularités différentes, qui se sont construit en combinant les avantages des uns et des autres. Les acteurs sont tout aussi éclectiques, bien qu’au début réservé aux laboratoires de certains gros de la tech, d’autres acteurs plus petits ont pu tirer profit des avancées dans le domaine pour construire leur propre modèles.

Références

Quelques acteurs :

Eleuther https://www.eleuther.ai/
Together https://www.together.xyz/
BigScience https://bigscience.huggingface.co/
Open assistant https://open-assistant.io/fr
CarperAI https://carper.ai/
HugginFace https://huggingface.co/