Traquer une rumeur: GPT-4 et les 100.000 milliards de paramètres

Adrien Foucart | 13 Feb 2023
2xRien - un blog

GPT-3.5, le “modèle de langage” derrière ChatGPT, est constitué de 175 milliards de paramètres. Une rumeur persistante annonce que son successeur GPT-4 en aura plus de 500 fois plus: 100.000 milliards [note: 100 trillions en anglais = 100.000 milliards en français, à ne pas confondre avec 100 trillions en français, qui correspondrait à 100 milliards de milliards. Oui, c’est confus.]

C’est une information qu’on retrouve par exemple dans le magazine en ligne presse-citron.net le 16 janvier, dans Le Soir du 21 janvier, ou plus récemment dans La Libre du 11 février. Pourtant, c’est une information qui est vigoureusement démentie par Sam Altman, CEO d’OpenAI:

When asked about one viral (and factually incorrect) chart that purportedly compares the number of parameters in GPT-3 (175 billion) to GPT-4 (100 trillion), Altman called it “complete bullshit.”

https://www.theverge.com/23560328/openai-gpt-4-rumor-release-date-sam-altman-interview, 18 janvier 2023

Ni Le Soir, ni La Libre ne fournissent de sources pour cette affirmation. Presse-citron, de leur côté, l’attribue à un certain Simon Høiberg.

Simon Høiberg

Le 11 janvier 2023, Simon Høiberg diffuse sur Twitter et LinkedIn cette infographie, accompagnée de l’explication:

GPT-4 is going to launch soon. And it will make ChatGPT look like a toy… → GPT-3 has 175 billion parameters → GPT-4 has 100 trillion parameters I think we’re gonna see something absolutely mindblowing this time!

https://twitter.com/SimonHoiberg/status/1613089457116258306?cxt=HHwWhIC9pZKU7OIsAAAA, 11 janvier 2023

Mais… Simon Høiberg n’a – selon son profil en tout cas – pas de lien particulier avec OpenAI. Et ne semble pas disposé à citer ses sources, lui non plus… Continuons donc la recherche.

Resemble.ai

La première version de l’infographie, d’après ce que j’ai pu trouvé, provient du blog de “Resemble.ai”, en décembre 2022. L’image est moins jolie, mais l’essentiel de l’information est présente:

GPT-4 is substantially bigger than its predecessor, GPT-3, and is estimated to have been trained with over 100 trillion parameters compared to GPT-3’s 175 billion parameters. GPT-4 performs better on jobs like language production and translation because of its bigger size, which enables it to collect more information and subtleties in language.

https://www.resemble.ai/gpt-4-blog/, 22 décembre 2022

On avance… mais on reste toujours sur les mêmes questions. Resemble.ai n’a pas de lien évident avec OpenAI (mis à part le fait qu’ils utilisent GPT-3 dans leurs propres produits), et l’information n’est pas vraiment présentée comme un scoop inédit: “estimated to have been trained with over 100 trillion parameters” semble plutôt indiquer que c’est un fait établi et rapporté… mais à nouveau sans citation.

Andrew Feldman

En continuant à chercher des mentions antérieures de ces “100 trillions” de paramètres, on finit par tomber sur une vraie source identifiée. Elle remonte au 24 août 2021, dans le magazine Wired. La citation est attribuée à Andrew Feldman, CEO de la société Cerebras, qui lui-même se base sur une conversation “avec OpenAI”.

“From talking to OpenAI, GPT-4 will be about 100 trillion parameters,” Feldman says. “That won’t be ready for several years.”

https://www.wired.com/story/cerebras-chip-cluster-neural-networks-ai/, Will Knight, Wired, 24 août 2021

Ouf, on y arrive? Peut-être… mais plusieurs questions subsistent.

Lex Friedman

D’abord, concernant l’information en elle-même. Si c’est faux, comme semble l’indiquer Sam Altman, comment cette idée est-elle arrivée chez Andrew Feldman? Était-ce que OpenAI a simplement changé ses plans depuis août 2021? Cela semble peu probable. Déjà en septembre 2021, Altman démentait la rumeur, lors d’un meetup en ligne, rapporté par the-decoder.com:

GPT-4 probably won’t be much larger than GPT-3, but will require significantly more computing power, Altman said. Progress should come primarily from higher-quality data, better algorithms, and more precise fine-tuning. (…)

At the LessWrong event, however, Altman stressed that a possible 100 trillion parameter AI model would be a long time coming. OpenAI would also not target this mark for GPT-4.

https://the-decoder.com/openai-first-insights-into-gpt-4-and-the-possible-ai-future/, 13 septembre 2021

D’où vient le chiffre de “100 trillions”, alors? La source la plus probable de tout ce bazar, d’après ce que j’ai pu trouvé, est une vidéo de Lex Fridman, scientifique du MIT et podcaster assez influent dans le domaine de l’intelligence artificielle. Le 1er août 2020, il publie “GPT-3 vs Human Brain”, qu’il résume sur Twitter:

GPT-3 has 175 billion parameters (synapses). Human brain has 100+ trillion synapses. In 2020, it costs ~$2.6 billion to train neural net the size of the human brain. If ML training efficiency improvement trends continue, in 2040, it’ll cost $80,000.

https://twitter.com/lexfridman/status/1290327912986509312, 3 août 2020

Cette comparaison entre le nombre de paramètres de GPT-3 et le nombre de synapses du cerveau humain semble avoir lancé un cycle de spéculation sur les capacités de GPT-4. Dans la vidéo, en effet, Fridman s’intéresse à “combien ça couterait” d’entraîner un réseau avec autant de paramètres qu’il n’y a de synapses dans le cerveau. Et, dans son analyse, il étudie donc un hypothétique GPT-4 qui aurait cette capacité:

Il est important de noter que Fridman, dans sa vidéo, ne prétend pas que ce GPT-4 est réellement planifié par OpenAI. Il dit: “… let’s call it GPT-4, HB [Human Brain], with 100 trillion parameters”. C’est un modèle hypothétique qu’il invente pour les besoins de la question qu’il explore, celle du coût d’entraîner un modèle de la “taille” du cerveau humain. Mais la vidéo semble avoir été parfois interprétée comme une réelle prédiction sur les capacités de GPT-4 [exemple].

Retour aux sources

Voilà qui semble donc un chemin plausible pour la propagation de cette (dés)information: Lex Fridman spécule sur un “GPT-4” hypothétique avec 100.000 milliards de paramètres, l’information est répétée et sortie de son contexte, se diffuse, peut-être jusqu’à être discutée chez OpenAI. Andrew Feldman, en tout cas, semble le comprendre, et Wired publie l’information, qui se propage malgré les démentis de Sam Altman. Resemble.ai la prend pour argent comptant et en fait un visuel marquant, reprit et embellit par Simon Høiberg, et l’image devient virale. Un nouveau cycle s’enclenche, et on retrouve la fausse information répétée dans les journaux, malgré les nouveaux démentis de Sam Altman.

GPT-4 sera-t-il encore une avancée majeure dans les modèles de langage? À ce stade, personne ne le sait à part (peut-être) les ingénieurs d’OpenAI. Si c’est le cas, ce ne sera sans doute pas grâce à une multiplication du nombre de paramètres. Les limitations principales de GPT-3 et de ChatGPT aujourd’hui sont plus liées à un set de données pas assez filtré, et donc contenant beaucoup de bruit. Une des méthodes pour récupérer des pages web “fiables”, par exemple, a consisté à prendre tous les liens publiés sur Reddit ayant un “karma” (votes des utilisateurs) supérieur à 3 [Radford et al., 2018]. Ce n’est pas vraiment un filtre très restrictif. Augmenter le nombre de paramètres nécessiterait d’augmenter la quantité de données, et là, OpenAI commence à arriver au bout des possibilités.

Quand bien même GPT-4 aurait 500x plus de paramètres, cela ne se traduirait pas par “500x plus puissant”. Et GPT-4 n’aura sans doute pas 500x plus de paramètres que GPT-3.5. Enfin, sauf si Simon Høiberg en sait plus sur GPT-4 que le CEO d’OpenAI…

Si ce post vous fait réagir, vous pouvez contacter l'auteur (moi) par mail: adrien@adfoucart.be