Traquer une rumeur: GPT-4 et les 100.000 milliards de paramètres

GPT-3.5, le “modèle de langage” derrière ChatGPT, est constitué de 175 milliards de paramètres. Une rumeur persistante annonce que son successeur GPT-4 en aura plus de 500 fois plus: 100.000 milliards [note: 100 trillions en anglais = 100.000 milliards en français, à ne pas confondre avec 100 trillions en français, qui correspondrait à 100 milliards de milliards. Oui, c’est confus.]

C’est une information qu’on retrouve par exemple dans le magazine en ligne presse-citron.net le 16 janvier, dans Le Soir du 21 janvier, ou plus récemment dans La Libre du 11 février. Pourtant, c’est une information qui est vigoureusement démentie par Sam Altman, CEO d’OpenAI:

When asked about one viral (and factually incorrect) chart that purportedly compares the number of parameters in GPT-3 (175 billion) to GPT-4 (100 trillion), Altman called it “complete bullshit.”

https://www.theverge.com/23560328/openai-gpt-4-rumor-release-date-sam-altman-interview, 18 janvier 2023

Ni Le Soir, ni La Libre ne fournissent de sources pour cette affirmation. Presse-citron, de leur côté, l’attribue à un certain Simon Høiberg.

Simon Høiberg

Le 11 janvier 2023, Simon Høiberg diffuse sur Twitter et LinkedIn cette infographie, accompagnée de l’explication:

GPT-4 is going to launch soon. And it will make ChatGPT look like a toy… → GPT-3 has 175 billion parameters → GPT-4 has 100 trillion parameters I think we’re gonna see something absolutely mindblowing this time!

https://twitter.com/SimonHoiberg/status/1613089457116258306?cxt=HHwWhIC9pZKU7OIsAAAA, 11 janvier 2023

Mais… Simon Høiberg n’a – selon son profil en tout cas – pas de lien particulier avec OpenAI. Et ne semble pas disposé à citer ses sources, lui non plus… Continuons donc la recherche.

Resemble.ai

La première version de l’infographie, d’après ce que j’ai pu trouvé, provient du blog de “Resemble.ai”, en décembre 2022. L’image est moins jolie, mais l’essentiel de l’information est présente:

GPT-4 is substantially bigger than its predecessor, GPT-3, and is estimated to have been trained with over 100 trillion parameters compared to GPT-3’s 175 billion parameters. GPT-4 performs better on jobs like language production and translation because of its bigger size, which enables it to collect more information and subtleties in language.

https://www.resemble.ai/gpt-4-blog/, 22 décembre 2022

On avance… mais on reste toujours sur les mêmes questions. Resemble.ai n’a pas de lien évident avec OpenAI (mis à part le fait qu’ils utilisent GPT-3 dans leurs propres produits), et l’information n’est pas vraiment présentée comme un scoop inédit: “estimated to have been trained with over 100 trillion parameters” semble plutôt indiquer que c’est un fait établi et rapporté… mais à nouveau sans citation.

Andrew Feldman

En continuant à chercher des mentions antérieures de ces “100 trillions” de paramètres, on finit par tomber sur une vraie source identifiée. Elle remonte au 24 août 2021, dans le magazine Wired. La citation est attribuée à Andrew Feldman, CEO de la société Cerebras, qui lui-même se base sur une conversation “avec OpenAI”.

“From talking to OpenAI, GPT-4 will be about 100 trillion parameters,” Feldman says. “That won’t be ready for several years.”

https://www.wired.com/story/cerebras-chip-cluster-neural-networks-ai/, Will Knight, Wired, 24 août 2021

Ouf, on y arrive? Peut-être… mais plusieurs questions subsistent.

Lex Friedman

D’abord, concernant l’information en elle-même. Si c’est faux, comme semble l’indiquer Sam Altman, comment cette idée est-elle arrivée chez Andrew Feldman? Était-ce que OpenAI a simplement changé ses plans depuis août 2021? Cela semble peu probable. Déjà en septembre 2021, Altman démentait la rumeur, lors d’un meetup en ligne, rapporté par the-decoder.com:

GPT-4 probably won’t be much larger than GPT-3, but will require significantly more computing power, Altman said. Progress should come primarily from higher-quality data, better algorithms, and more precise fine-tuning. (…)

At the LessWrong event, however, Altman stressed that a possible 100 trillion parameter AI model would be a long time coming. OpenAI would also not target this mark for GPT-4.

https://the-decoder.com/openai-first-insights-into-gpt-4-and-the-possible-ai-future/, 13 septembre 2021

D’où vient le chiffre de “100 trillions”, alors? La source la plus probable de tout ce bazar, d’après ce que j’ai pu trouvé, est une vidéo de Lex Fridman, scientifique du MIT et podcaster assez influent dans le domaine de l’intelligence artificielle. Le 1er août 2020, il publie “GPT-3 vs Human Brain“, qu’il résume sur Twitter:

GPT-3 has 175 billion parameters (synapses). Human brain has 100+ trillion synapses. In 2020, it costs ~$2.6 billion to train neural net the size of the human brain. If ML training efficiency improvement trends continue, in 2040, it’ll cost $80,000.

https://twitter.com/lexfridman/status/1290327912986509312, 3 août 2020

Cette comparaison entre le nombre de paramètres de GPT-3 et le nombre de synapses du cerveau humain semble avoir lancé un cycle de spéculation sur les capacités de GPT-4. Dans la vidéo, en effet, Fridman s’intéresse à “combien ça couterait” d’entraîner un réseau avec autant de paramètres qu’il n’y a de synapses dans le cerveau. Et, dans son analyse, il étudie donc un hypothétique GPT-4 qui aurait cette capacité:

Il est important de noter que Fridman, dans sa vidéo, ne prétend pas que ce GPT-4 est réellement planifié par OpenAI. Il dit: “… let’s call it GPT-4, HB [Human Brain], with 100 trillion parameters”. C’est un modèle hypothétique qu’il invente pour les besoins de la question qu’il explore, celle du coût d’entraîner un modèle de la “taille” du cerveau humain. Mais la vidéo semble avoir été parfois interprétée comme une réelle prédiction sur les capacités de GPT-4 [exemple].

Retour aux sources

Voilà qui semble donc un chemin plausible pour la propagation de cette (dés)information: Lex Fridman spécule sur un “GPT-4” hypothétique avec 100.000 milliards de paramètres, l’information est répétée et sortie de son contexte, se diffuse, peut-être jusqu’à être discutée chez OpenAI. Andrew Feldman, en tout cas, semble le comprendre, et Wired publie l’information, qui se propage malgré les démentis de Sam Altman. Resemble.ai la prend pour argent comptant et en fait un visuel marquant, reprit et embellit par Simon Høiberg, et l’image devient virale. Un nouveau cycle s’enclenche, et on retrouve la fausse information répétée dans les journaux, malgré les nouveaux démentis de Sam Altman.

GPT-4 sera-t-il encore une avancée majeure dans les modèles de langage? À ce stade, personne ne le sait à part (peut-être) les ingénieurs d’OpenAI. Si c’est le cas, ce ne sera sans doute pas grâce à une multiplication du nombre de paramètres. Les limitations principales de GPT-3 et de ChatGPT aujourd’hui sont plus liées à un set de données pas assez filtré, et donc contenant beaucoup de bruit. Une des méthodes pour récupérer des pages web “fiables”, par exemple, a consisté à prendre tous les liens publiés sur Reddit ayant un “karma” (votes des utilisateurs) supérieur à 3 [Radford et al., 2018]. Ce n’est pas vraiment un filtre très restrictif. Augmenter le nombre de paramètres nécessiterait d’augmenter la quantité de données, et là, OpenAI commence à arriver au bout des possibilités.

Quand bien même GPT-4 aurait 500x plus de paramètres, cela ne se traduirait pas par “500x plus puissant”. Et GPT-4 n’aura sans doute pas 500x plus de paramètres que GPT-3.5. Enfin, sauf si Simon Høiberg en sait plus sur GPT-4 que le CEO d’OpenAI…

ChatGPT: quand Le Soir part en vrille…

Dans le journal du 17 décembre 2022, Le Soir propose une double page sur le buzz technologique du moment: ChatGPT, le “chatbot” d’OpenAI (décliné en 3 articles en ligne [1, 2, 3]). Il y a certainement des choses intéressantes à dire sur ce buzz et sur les technologies des modèles de langage, mais malheureusement l’article du Soir ressemble plus à un flyer promotionnel d’OpenAI qu’à un travail journalistique. Allons-y point par point…

1. La parole des expert.e.s et le parti pris

Le titre donne le ton de l’article: “Tsunami technologique”, “invention du siècle”. De qui viennent ces affirmations enthousiastes? La première est attribuée à Sam Altman… CEO d’OpenAI. Pas tout à fait la source la plus neutre sur le sujet, donc. La seconde est anonyme:

“L’invention du siècle”, s’aventurent même certains, pourtant aguerris à l’innovation.

Certains, donc, sont convaincus. Bien. Qui d’autre a été interrogé pour construire ce dossier? La majorité de l’article principal “expliquant” ChatGPT semble être basée sur l’expérience du journaliste, Philippe Laloux, qui a “discuté plusieurs heures avec cet outil”, ainsi que sur l’expérience de David Frenay, “ingénieur et président de Medispring (coopérative de médecin)”, qui s’est aussi “amusé” à demander une série de choses à ChatGPT et en est ressorti très enthousiaste. L’autre gros morceau du dossier est une “interview avec ChatGPT”, où la “parole” est donc laissée à l’outil lui-même.

Enfin, dans un petit encart, on laisse une petite note attribuée à… “la plupart des chercheurs en intelligence artificielle”, qui sont visiblement des mauvais joueurs parce qu’ils disent bêtement que “les chatbots ne seraient jamais que des ‘perroquets stochastiques'”, et que “leurs connaissances ne proviennent que de gigaoctets de données, plutôt que d’une compréhension humaine du monde en tant que système complexe et abstrait.” Cette tentative de tempérer les ardeurs est immédiatement elle-même tempérée par David Frenay, et ce n’est que toute à la fin de ce dossier qu’on mentionne en passant les “flagrant délit de biais algorithmiques, raciste et sexistes, notamment”.

Et pour s’assurer qu’on ne se quitte pas sur une mauvaise note, la dernière phrase est:

Pour l’heure, ses rares difficultés à distinguer le vrai du faux et sa capacité à inventer certains faits le rendent peut-être plus proche encore de l’humain, surtout sur les réseaux sociaux.

Le parti pris du dossier est donc très clair: ChatGPT est révolutionnaire, c’est un outil formidable, et si quelques mauvaises langues (comme “la plupart des experts”) viennent dire le contraire c’est qu’ils n’ont pas du assez jouer avec ChatGPT, sinon ils se seraient bien rendu compte du génie de l’outil.

2. Erreurs factuelles

Je reconnais au journaliste le droit d’avoir un parti pris. Je suis convaincu que la “neutralité journalistique” n’existe pas, et au moins ici le parti pris a le mérite d’être relativement clair et assumé. Mais la ligne choisie ici par Philippe Laloux le pousse dans des erreurs factuelles qui auraient sans doute pu être évitées si les “experts” avaient eu un peu plus de place pour s’exprimer par rapport aux “enthousiastes”…

Un remplaçant pour Google?

L’article annonce que “Google vient de prendre un sacré coup de vieux”: ChatGPT, au lieu de juste donner des liens, “répond à la question” et “quand il ne sait pas (c’est rare), il le dit.”

C’est faux, à plusieurs niveaux.

D’abord — et je reconnais que c’est un peu subtil — ChatGPT ne “répond” pas: il génère un texte qui a une forte probabilité d’être reconnu par un humain comme une réponse. ChatGPT n’a pas de “base de connaissance”. Ce n’est pas “rare” qu’il ne sache pas. Il ne sait jamais. Savoir ne fait pas partie de sa conception. Lorsqu’on lui pose une question, il va construire un texte sur base de contenus disponibles dans ses “données d’apprentissage”. Lorsque la question est “facile” (c’est-à-dire qu’il y a beaucoup de textes qui y répondent dans sa base d’apprentissage), il y a une très forte probabilité que sa réponse sera factuellement correcte. Dès qu’on s’écarte un peu des cas faciles, par contre, ChatGPT va combler ses lacunes en inventant ce qui lui manque. Et, contrairement à ce que dit ici Le Soir, le plus souvent il ne le “dit” pas. Il ne s’en rend pas compte, parce qu’à nouveau il ne “sait” rien, donc il ne sait pas qu’il invente!

Même Sam Altman d’ailleurs (le CEO d’OpenAI) ne dit pas le contraire: Philippe Laloux aurait pu choisir une autre citation de ce dernier pour ouvrir un article d’un autre ton:

ChatGPT is incredibly limited, but good enough at some things to create a misleading impression of greatness. it’s a mistake to be relying on it for anything important right now. it’s a preview of progress; we have lots of work to do on robustness and truthfulness.

fun creative inspiration; great! reliance for factual queries; not such a good idea. we will work hard to improve!

Sam Altman sur Twitter

“ChatGPT est incroyablement limité, mais assez bon pour certaines choses pour créer une impression trompeuse de grandeur. C’est une erreur de s’y fier pour quoi que ce soit d’important pour le moment. (…) inspiration créative amusante; super! s’y fier pour des recherches factuelles; pas une si bonne idée.”

Proche de la singularité

C’est une affirmation un peu bizarre, parce que même chez OpenAI je n’ai pas l’impression qu’ils se sont avancés dans cette direction, donc ici je ne sais pas d’où vient cet enthousiasme particulier. Mais on affirme donc que ChatGPT “n’est pas loin d’atteindre ce tant redouté « point de singularité technologique » où la machine, au final, est capable de s’améliorer elle-même.”

Ceci est entièrement de la science-fiction. ChatGPT n’a aucune capacité particulière à “s’améliorer elle-même”. Toutes ses “améliorations”, à ce stade, proviennent du feedback humain qui lui indique quand ses réponses sont à côté de la plaque ou quand elles sont convaincantes (c’est d’ailleurs un des objectifs probables principaux d’OpenAI en poussant le “buzz” sur ChatGPT: tous ces gens qui jouent avec fournissent gratuitement des masses de données d’apprentissage qui leur coûterait des millions s’ils devaient payer des gens pour le faire). ChatGPT n’a pas non plus d’interface lui permettant de toucher à son propre code, où de faire quelque action que ce soit de manière autonome. ChatGPT n’est pas plus proche de la singularité que ne l’était le chatbot ELIZA dans les années 1960.

Remplacement des avocats, ingénieurs, médecins…

David Frenay a “coécrit un livre de 400 pages consacré aux modèles des coopératives”, s’est “amusé avec un neurologue à lui demander un diagnostic pointu: il y est arrivé”, se demande “pourquoi dépenser 1.000 euros pour rédiger des conditions d’utilisations standard pour un site” auprès d’un avocat si ChatGPT peut le faire pour lui, et constate qu’il est désormais “inutile de savoir coder”, et que cet outil “remet en cause tous mes plans pour engager du personnel”, car “mes meilleurs développeurs ont besoin d’une demi-heure pour repérer un bug dans un code. ChatGPT m’a donné quatre solutions en dix secondes.”

Je suis sûr que les ingénieurs de Medispring auront été ravis de lire cette interview, mais attardons-nous un peu sur ces affirmations. ChatGPT est-il capable de faire tout cela?

À nouveau, la réponse est non. Il peut par contre en donner l’illusion.

Le livre de 400 pages? Je suis sûr qu’il donne l’impression d’être correct, et peut-être même intéressant. Mais outre le fait que, d’un point de vue du style, ChatGPT est souvent répétitif et, à part quand on joue à lui faire imiter des styles rigolos, un peu chiant, on retombe à nouveau sur le même problème. Tout ce qui se retrouverait dans ce livre va être des informations largement disponibles dans les données d’apprentissage du modèle. Autrement dit: des informations bien connues. “Co-écrire” un livre avec ChatGPT, c’est se résigner dès le départ à faire un livre vide de contenu nouveau.

On va retrouver le même problème pour tous ces cas d’utilisations: bien sûr, faire des “conditions d’utilisations standard pour un site” semble facile… Mais on ne paye pas les avocats pour le template tout prêt: on les paye pour penser aux petits détails spécifiques à l’activité de la société qui pourraient coûter très cher s’ils sont oubliés. Et ces petits détails, ChatGPT ne va jamais les trouver. Le code? J’ai vu plusieurs exemples des capacités de ChatGPT à ce niveau partagés sur les réseaux sociaux. En général, on a deux catégories: des résultats justes, pour lesquels j’ai systématiquement trouvé une version plus complète et plus détaillée dans le premier résultat d’une recherche Google; et des résultats faux ou sous-optimaux, souvent par des petites subtilités difficile à repérer directement, dès que la question s’écarte des exemples classiques utilisés dans des tutoriels habituels.

Si Medispring décide de licencier ses ingénieurs pour les remplacer par ChatGPT, je conseille vivement à tous les médecins qui utilisent leurs logiciels de fuir avant l’hécatombe…

3. Arrêtons d’humaniser les logiciels, par pitié!

Le Soir présente ChatGPT comme une personne. On a une interview qui est formatée comme un entretien classique avec un être humain, on a l’illustration où une forme robotique humanoïde lui est donnée, et le denier article du dossier est sur ses “failles tellement humaines”.

J’ai déjà mis le lien plus haut, mais ça vaut la peine de le remettre: Philippe Laloux et David Frenay sont tombés tous droits dans le classique “effet ELIZA“:

En interagissant avec le programme, ces derniers [les utilisateurs] ont commencé à attribuer à ELIZA des qualités de compréhension et une certaine motivation

C’est un grand classique de l’histoire de l’intelligence artificielle: dès qu’un logiciel est conçu pour “ressembler” à un humain, notre cerveau tombe dans le panneau et commence à associer tout le lexique des émotions et des raisonnements humains pour décrire son “comportement”. C’est complètement passer à côté de comment fonctionne réellement ces logiciels.

Il n’y a pas de “pensée” dans ChatGPT. Pas d’autonomie. Pas de conscience. Pas de libre-arbitre. Pas de raisonnement symbolique. Pas de compréhension. Pas de connaissance. La référence au “perroquet stochastique” (stochastic parrot) vient d’un excellent article scientifique par Emily Bender et trois collègues. Comme cet article l’explique, les limitations des “modèles de langage” qui sont derrière les logiciels comme ChatGPT ne sont pas juste des petits problèmes “difficiles à résoudre” ou “des petites bêtises rigolotes de débutant”, pour reprendre David Frenay. Ces limitations sont des aspects fondamentaux de la technologie, dont rien n’indique aujourd’hui qu’il est possible de se débarrasser sans un changement complet d’approche. Autrement dit: ce n’est pas pour tout de suite qu’on pourra accorder le moindre degré de “certitude” à ce que ChatGPT ou ses successeurs nous sortent.

Et ses erreurs ne sont pas du tout “humaines”. Elles reflètent certainement parfois des biais humains, mais ce sont des erreurs complètement liées à la technologie en elle-même.

ChatGPT est un logiciel informatique. Le présenter comme une personne ne profite pas aux lecteurs qui se retrouvent dans ce dossier avec une impression trompeuse des capacités du logiciel. Et ce n’est pas à ce stade un logiciel utile. C’est un jouet, impressionnant, parfois rigolo, mais extrêmement peu fiable et à bien des égards dangereux.

Le buzz sur ChatGPT permet à OpenAI d’avoir des testeurs gratuits, et sans doute de convaincre de nouveaux investisseurs de leur donner un joli tas de sous. C’est dommage de voir les médias tomber aussi facilement dans le panneau en leur donnant une double page de publicité gratuite.


Notes:

David Frenay a réagit à cet article sur LinkedIn [à lire ici], ce qui a conduit à une discussion raisonnablement intéressante sur les limitations de ChatGPT. Mes conclusions suite à ses remarques (et à celles de quelques autres intervenants) sont également lisibles sur LinkedIn.

Philippe Laloux a également réagi, via un Google Doc [à lire ici], qui ne nécessite je pense pas de réponse…