ChatGPT: quand Le Soir part en vrille…

Dans le journal du 17 décembre 2022, Le Soir propose une double page sur le buzz technologique du moment: ChatGPT, le “chatbot” d’OpenAI (décliné en 3 articles en ligne [1, 2, 3]). Il y a certainement des choses intéressantes à dire sur ce buzz et sur les technologies des modèles de langage, mais malheureusement l’article du Soir ressemble plus à un flyer promotionnel d’OpenAI qu’à un travail journalistique. Allons-y point par point…

1. La parole des expert.e.s et le parti pris

Le titre donne le ton de l’article: “Tsunami technologique”, “invention du siècle”. De qui viennent ces affirmations enthousiastes? La première est attribuée à Sam Altman… CEO d’OpenAI. Pas tout à fait la source la plus neutre sur le sujet, donc. La seconde est anonyme:

“L’invention du siècle”, s’aventurent même certains, pourtant aguerris à l’innovation.

Certains, donc, sont convaincus. Bien. Qui d’autre a été interrogé pour construire ce dossier? La majorité de l’article principal “expliquant” ChatGPT semble être basée sur l’expérience du journaliste, Philippe Laloux, qui a “discuté plusieurs heures avec cet outil”, ainsi que sur l’expérience de David Frenay, “ingénieur et président de Medispring (coopérative de médecin)”, qui s’est aussi “amusé” à demander une série de choses à ChatGPT et en est ressorti très enthousiaste. L’autre gros morceau du dossier est une “interview avec ChatGPT”, où la “parole” est donc laissée à l’outil lui-même.

Enfin, dans un petit encart, on laisse une petite note attribuée à… “la plupart des chercheurs en intelligence artificielle”, qui sont visiblement des mauvais joueurs parce qu’ils disent bêtement que “les chatbots ne seraient jamais que des ‘perroquets stochastiques'”, et que “leurs connaissances ne proviennent que de gigaoctets de données, plutôt que d’une compréhension humaine du monde en tant que système complexe et abstrait.” Cette tentative de tempérer les ardeurs est immédiatement elle-même tempérée par David Frenay, et ce n’est que toute à la fin de ce dossier qu’on mentionne en passant les “flagrant délit de biais algorithmiques, raciste et sexistes, notamment”.

Et pour s’assurer qu’on ne se quitte pas sur une mauvaise note, la dernière phrase est:

Pour l’heure, ses rares difficultés à distinguer le vrai du faux et sa capacité à inventer certains faits le rendent peut-être plus proche encore de l’humain, surtout sur les réseaux sociaux.

Le parti pris du dossier est donc très clair: ChatGPT est révolutionnaire, c’est un outil formidable, et si quelques mauvaises langues (comme “la plupart des experts”) viennent dire le contraire c’est qu’ils n’ont pas du assez jouer avec ChatGPT, sinon ils se seraient bien rendu compte du génie de l’outil.

2. Erreurs factuelles

Je reconnais au journaliste le droit d’avoir un parti pris. Je suis convaincu que la “neutralité journalistique” n’existe pas, et au moins ici le parti pris a le mérite d’être relativement clair et assumé. Mais la ligne choisie ici par Philippe Laloux le pousse dans des erreurs factuelles qui auraient sans doute pu être évitées si les “experts” avaient eu un peu plus de place pour s’exprimer par rapport aux “enthousiastes”…

Un remplaçant pour Google?

L’article annonce que “Google vient de prendre un sacré coup de vieux”: ChatGPT, au lieu de juste donner des liens, “répond à la question” et “quand il ne sait pas (c’est rare), il le dit.”

C’est faux, à plusieurs niveaux.

D’abord — et je reconnais que c’est un peu subtil — ChatGPT ne “répond” pas: il génère un texte qui a une forte probabilité d’être reconnu par un humain comme une réponse. ChatGPT n’a pas de “base de connaissance”. Ce n’est pas “rare” qu’il ne sache pas. Il ne sait jamais. Savoir ne fait pas partie de sa conception. Lorsqu’on lui pose une question, il va construire un texte sur base de contenus disponibles dans ses “données d’apprentissage”. Lorsque la question est “facile” (c’est-à-dire qu’il y a beaucoup de textes qui y répondent dans sa base d’apprentissage), il y a une très forte probabilité que sa réponse sera factuellement correcte. Dès qu’on s’écarte un peu des cas faciles, par contre, ChatGPT va combler ses lacunes en inventant ce qui lui manque. Et, contrairement à ce que dit ici Le Soir, le plus souvent il ne le “dit” pas. Il ne s’en rend pas compte, parce qu’à nouveau il ne “sait” rien, donc il ne sait pas qu’il invente!

Même Sam Altman d’ailleurs (le CEO d’OpenAI) ne dit pas le contraire: Philippe Laloux aurait pu choisir une autre citation de ce dernier pour ouvrir un article d’un autre ton:

ChatGPT is incredibly limited, but good enough at some things to create a misleading impression of greatness. it’s a mistake to be relying on it for anything important right now. it’s a preview of progress; we have lots of work to do on robustness and truthfulness.

fun creative inspiration; great! reliance for factual queries; not such a good idea. we will work hard to improve!

Sam Altman sur Twitter

“ChatGPT est incroyablement limité, mais assez bon pour certaines choses pour créer une impression trompeuse de grandeur. C’est une erreur de s’y fier pour quoi que ce soit d’important pour le moment. (…) inspiration créative amusante; super! s’y fier pour des recherches factuelles; pas une si bonne idée.”

Proche de la singularité

C’est une affirmation un peu bizarre, parce que même chez OpenAI je n’ai pas l’impression qu’ils se sont avancés dans cette direction, donc ici je ne sais pas d’où vient cet enthousiasme particulier. Mais on affirme donc que ChatGPT “n’est pas loin d’atteindre ce tant redouté « point de singularité technologique » où la machine, au final, est capable de s’améliorer elle-même.”

Ceci est entièrement de la science-fiction. ChatGPT n’a aucune capacité particulière à “s’améliorer elle-même”. Toutes ses “améliorations”, à ce stade, proviennent du feedback humain qui lui indique quand ses réponses sont à côté de la plaque ou quand elles sont convaincantes (c’est d’ailleurs un des objectifs probables principaux d’OpenAI en poussant le “buzz” sur ChatGPT: tous ces gens qui jouent avec fournissent gratuitement des masses de données d’apprentissage qui leur coûterait des millions s’ils devaient payer des gens pour le faire). ChatGPT n’a pas non plus d’interface lui permettant de toucher à son propre code, où de faire quelque action que ce soit de manière autonome. ChatGPT n’est pas plus proche de la singularité que ne l’était le chatbot ELIZA dans les années 1960.

Remplacement des avocats, ingénieurs, médecins…

David Frenay a “coécrit un livre de 400 pages consacré aux modèles des coopératives”, s’est “amusé avec un neurologue à lui demander un diagnostic pointu: il y est arrivé”, se demande “pourquoi dépenser 1.000 euros pour rédiger des conditions d’utilisations standard pour un site” auprès d’un avocat si ChatGPT peut le faire pour lui, et constate qu’il est désormais “inutile de savoir coder”, et que cet outil “remet en cause tous mes plans pour engager du personnel”, car “mes meilleurs développeurs ont besoin d’une demi-heure pour repérer un bug dans un code. ChatGPT m’a donné quatre solutions en dix secondes.”

Je suis sûr que les ingénieurs de Medispring auront été ravis de lire cette interview, mais attardons-nous un peu sur ces affirmations. ChatGPT est-il capable de faire tout cela?

À nouveau, la réponse est non. Il peut par contre en donner l’illusion.

Le livre de 400 pages? Je suis sûr qu’il donne l’impression d’être correct, et peut-être même intéressant. Mais outre le fait que, d’un point de vue du style, ChatGPT est souvent répétitif et, à part quand on joue à lui faire imiter des styles rigolos, un peu chiant, on retombe à nouveau sur le même problème. Tout ce qui se retrouverait dans ce livre va être des informations largement disponibles dans les données d’apprentissage du modèle. Autrement dit: des informations bien connues. “Co-écrire” un livre avec ChatGPT, c’est se résigner dès le départ à faire un livre vide de contenu nouveau.

On va retrouver le même problème pour tous ces cas d’utilisations: bien sûr, faire des “conditions d’utilisations standard pour un site” semble facile… Mais on ne paye pas les avocats pour le template tout prêt: on les paye pour penser aux petits détails spécifiques à l’activité de la société qui pourraient coûter très cher s’ils sont oubliés. Et ces petits détails, ChatGPT ne va jamais les trouver. Le code? J’ai vu plusieurs exemples des capacités de ChatGPT à ce niveau partagés sur les réseaux sociaux. En général, on a deux catégories: des résultats justes, pour lesquels j’ai systématiquement trouvé une version plus complète et plus détaillée dans le premier résultat d’une recherche Google; et des résultats faux ou sous-optimaux, souvent par des petites subtilités difficile à repérer directement, dès que la question s’écarte des exemples classiques utilisés dans des tutoriels habituels.

Si Medispring décide de licencier ses ingénieurs pour les remplacer par ChatGPT, je conseille vivement à tous les médecins qui utilisent leurs logiciels de fuir avant l’hécatombe…

3. Arrêtons d’humaniser les logiciels, par pitié!

Le Soir présente ChatGPT comme une personne. On a une interview qui est formatée comme un entretien classique avec un être humain, on a l’illustration où une forme robotique humanoïde lui est donnée, et le denier article du dossier est sur ses “failles tellement humaines”.

J’ai déjà mis le lien plus haut, mais ça vaut la peine de le remettre: Philippe Laloux et David Frenay sont tombés tous droits dans le classique “effet ELIZA“:

En interagissant avec le programme, ces derniers [les utilisateurs] ont commencé à attribuer à ELIZA des qualités de compréhension et une certaine motivation

C’est un grand classique de l’histoire de l’intelligence artificielle: dès qu’un logiciel est conçu pour “ressembler” à un humain, notre cerveau tombe dans le panneau et commence à associer tout le lexique des émotions et des raisonnements humains pour décrire son “comportement”. C’est complètement passer à côté de comment fonctionne réellement ces logiciels.

Il n’y a pas de “pensée” dans ChatGPT. Pas d’autonomie. Pas de conscience. Pas de libre-arbitre. Pas de raisonnement symbolique. Pas de compréhension. Pas de connaissance. La référence au “perroquet stochastique” (stochastic parrot) vient d’un excellent article scientifique par Emily Bender et trois collègues. Comme cet article l’explique, les limitations des “modèles de langage” qui sont derrière les logiciels comme ChatGPT ne sont pas juste des petits problèmes “difficiles à résoudre” ou “des petites bêtises rigolotes de débutant”, pour reprendre David Frenay. Ces limitations sont des aspects fondamentaux de la technologie, dont rien n’indique aujourd’hui qu’il est possible de se débarrasser sans un changement complet d’approche. Autrement dit: ce n’est pas pour tout de suite qu’on pourra accorder le moindre degré de “certitude” à ce que ChatGPT ou ses successeurs nous sortent.

Et ses erreurs ne sont pas du tout “humaines”. Elles reflètent certainement parfois des biais humains, mais ce sont des erreurs complètement liées à la technologie en elle-même.

ChatGPT est un logiciel informatique. Le présenter comme une personne ne profite pas aux lecteurs qui se retrouvent dans ce dossier avec une impression trompeuse des capacités du logiciel. Et ce n’est pas à ce stade un logiciel utile. C’est un jouet, impressionnant, parfois rigolo, mais extrêmement peu fiable et à bien des égards dangereux.

Le buzz sur ChatGPT permet à OpenAI d’avoir des testeurs gratuits, et sans doute de convaincre de nouveaux investisseurs de leur donner un joli tas de sous. C’est dommage de voir les médias tomber aussi facilement dans le panneau en leur donnant une double page de publicité gratuite.


Notes:

David Frenay a réagit à cet article sur LinkedIn [à lire ici], ce qui a conduit à une discussion raisonnablement intéressante sur les limitations de ChatGPT. Mes conclusions suite à ses remarques (et à celles de quelques autres intervenants) sont également lisibles sur LinkedIn.

Philippe Laloux a également réagi, via un Google Doc [à lire ici], qui ne nécessite je pense pas de réponse…

Laisser un commentaire