Le magazine Médor, que je lis régulièrement et qui en général fait des choses plutôt bien je trouve, a lancé récemment une grande enquête sur “les mouvements de jeunesse belges et leurs éventuels débordements” [medor.coop]. Sur les réseaux sociaux, ils ont lancé en mars un appel aux témoignages [mastodon.social], qui semblait quelque peu… comment dire… orienté?
Dans une nouvelle série de posts ce 14 avril 2023 [mastodon.social], ils “clarifient leur démarche” suite à des “messages de personnes interpellées” (dont moi):
1 – L’enquête démarre parce que nous sommes alerté·es par plusieurs personnes qui ont vécu des abus dans les mouvements de jeunesse. Faits isolés ? Débordements récurrents ? Nos journalistes sondent leur entourage et récoltent facilement une dizaine de témoignages ;
2 – En nous documentant, nous constatons que la gestion de ces abus est aussi une priorité des mouvements de jeunesse. Nous ne sommes donc pas les seul·es à considérer le phénomène comme problématique ; 3 – Nous avons interviewés les 5 mouvements de jeunesse et leur avons proposé de relayer l’appel. Ils ne le feront pas mais sont au courant de la démarche, de la temporalité. Nous avons pris en considération leurs remarques. Il ne s’agit donc pas de taper gratuitement sur ces mouvements ;
4 – Nous lançons un mur de témoignages anonymes dans un cadre qui espère réduire tout débordement. Il n’y a pas de publication automatique et nous retirons ce qui permet d’identifier quiconque (nous n’avons pas vocation à devenir un tribunal médiatique).
5 –Voici un premier long témoignage édifiant qui a contribué à lancer notre enquête. “Saïmiri” est un jeune adulte encore marqué par le harcèlement et l’homophobie subie chez les scouts, 15 ans auparavant. A lire : https://medor.coop/nos-series/scout-to
6 – Les phases suivantes sont la diffusion et récolte de témoignages, la réalisation d’interviews complémentaires, les confrontations ou droits de réplique. Et enfin la rédaction. L’enquête sera publiée en juin.
Nous ne généralisons pas “mouvement de jeunesse = violence”. Nous nous attachons à la gravité des faits et à leur fréquence. Pour les victimes, l’expression compte beaucoup et leur parole mérite d’être entendue. C’est d’ailleurs ça, l’esprit scout (on le sait, on a été scouts).
Nous sommes conscients que notre enquête ne va pas faire la part belle aux mouvements de jeunesse. Ce peut être regrettable mais là n’est pas l’objet. La question est d’intérêt public: y a-t-il des abus récurrents dans les mouvements de jeunesse ? Quels sont-ils et comment sont-ils considérés? Notre enquête entend y répondre, avec sérieux et nuance.
Je salue le fait qu’iels prennent la peine de faire cette clarification, et je veux bien croire que la démarche part d’une bonne intention. Mais la méthodologie de leur enquête me parait franchement problématique, et je voulais partager ici la réponse que j’ai faite sur Mastodon à leurs posts:
Le problème n’est évidemment pas — à mes yeux — de donner la paroles à des victimes d’abus ou de harcèlements. Sensibiliser sur l’impact que les actions souvent irréfléchies des adultes ont sur les jeunes est important. Permettre aux victimes d’être entendues est important. Mais la méthodologie de cette enquête me semble à première vue un peu étrange, et je m’inquiète de l’impression trompeuse qu’elle peut donner.
Le point principal pour moi, c’est le focus sur les mouvements de jeunesses (qui ne sont pas tous scouts d’ailleurs, raison supplémentaire pour laquelle le titre fait grincer des dents…) par rapport à tous les autres acteurs de la jeunesse. Trouver des récits d’abus dans un mouvement qui compte des dizaines de milliers d’animateurs et plus de cent milles jeunes, ce ne sera malheureusement pas compliqué (surtout si on prend des témoignages qui s’étalent sur des décennies…)
Est-ce plus ou moins fréquent que dans les écoles? Les plaines? Les stages? Les clubs sportifs? Personnellement — et c’est évidemment anecdotique — j’ai vu et vécu plus de comportements problématiques hors du scoutisme que dedans. S’il y a réellement plus d’abus dans les mouvements de jeunesse, cela vaut la peine de le savoir. Mais cette enquête ne le permet pas. Et j’ai du mal, du coup, à y voir autre chose que du voyeurisme, quelles que soient ses belles intentions.
Je ne veux certainement pas ici chercher à justifier, excuser, ou minimiser les abus qui ont lieu dans le scoutisme et dans les autres mouvements de jeunesse. Mais je ne vois pas l’intérêt d’une enquête qui cherche spécifiquement, et avec de solides œillères, à pêcher des témoignages dans un type particulier d’organisation de jeunesse. En particulier lorsque le type visé est celui où les animateurs et cadres — ceux qui se trouvent ainsi par association sur le banc des accusés, quelle que soit la qualité de leur animation — sont des jeunes bénévoles.
Si cette enquête doit avoir une quelconque valeur, elle doit être élargie. Et autant donner une place aux témoignages a du sens, autant en faire (comme c’est le cas pour l’instant, on peut espérer mieux pour l’article final) le point central me semble malsain.
GPT-3.5, le “modèle de langage” derrière ChatGPT, est constitué de 175 milliards de paramètres. Une rumeur persistante annonce que son successeur GPT-4 en aura plus de 500 fois plus: 100.000 milliards [note: 100 trillions en anglais = 100.000 milliards en français, à ne pas confondre avec 100 trillions en français, qui correspondrait à 100 milliards de milliards. Oui, c’est confus.]
C’est une information qu’on retrouve par exemple dans le magazine en ligne presse-citron.net le 16 janvier, dans Le Soir du 21 janvier, ou plus récemment dans La Libre du 11 février. Pourtant, c’est une information qui est vigoureusement démentie par Sam Altman, CEO d’OpenAI:
When asked about one viral (and factually incorrect) chart that purportedly compares the number of parameters in GPT-3 (175 billion) to GPT-4 (100 trillion), Altman called it “complete bullshit.”
Ni Le Soir, ni La Libre ne fournissent de sources pour cette affirmation. Presse-citron, de leur côté, l’attribue à un certain Simon Høiberg.
Simon Høiberg
Le 11 janvier 2023, Simon Høiberg diffuse sur Twitter et LinkedIn cette infographie, accompagnée de l’explication:
GPT-4 is going to launch soon. And it will make ChatGPT look like a toy… → GPT-3 has 175 billion parameters → GPT-4 has 100 trillion parameters I think we’re gonna see something absolutely mindblowing this time!
Mais… Simon Høiberg n’a – selon son profil en tout cas – pas de lien particulier avec OpenAI. Et ne semble pas disposé à citer ses sources, lui non plus… Continuons donc la recherche.
Resemble.ai
La première version de l’infographie, d’après ce que j’ai pu trouvé, provient du blog de “Resemble.ai”, en décembre 2022. L’image est moins jolie, mais l’essentiel de l’information est présente:
GPT-4 is substantially bigger than its predecessor, GPT-3, and is estimated to have been trained with over 100 trillion parameters compared to GPT-3’s 175 billion parameters. GPT-4 performs better on jobs like language production and translation because of its bigger size, which enables it to collect more information and subtleties in language.
On avance… mais on reste toujours sur les mêmes questions. Resemble.ai n’a pas de lien évident avec OpenAI (mis à part le fait qu’ils utilisent GPT-3 dans leurs propres produits), et l’information n’est pas vraiment présentée comme un scoop inédit: “estimated to have been trained with over 100 trillion parameters” semble plutôt indiquer que c’est un fait établi et rapporté… mais à nouveau sans citation.
Andrew Feldman
En continuant à chercher des mentions antérieures de ces “100 trillions” de paramètres, on finit par tomber sur une vraie source identifiée. Elle remonte au 24 août 2021, dans le magazine Wired. La citation est attribuée à Andrew Feldman, CEO de la société Cerebras, qui lui-même se base sur une conversation “avec OpenAI”.
“From talking to OpenAI, GPT-4 will be about 100 trillion parameters,” Feldman says. “That won’t be ready for several years.”
Ouf, on y arrive? Peut-être… mais plusieurs questions subsistent.
Lex Friedman
D’abord, concernant l’information en elle-même. Si c’est faux, comme semble l’indiquer Sam Altman, comment cette idée est-elle arrivée chez Andrew Feldman? Était-ce que OpenAI a simplement changé ses plans depuis août 2021? Cela semble peu probable. Déjà en septembre 2021, Altman démentait la rumeur, lors d’un meetup en ligne, rapporté par the-decoder.com:
GPT-4 probably won’t be much larger than GPT-3, but will require significantly more computing power, Altman said. Progress should come primarily from higher-quality data, better algorithms, and more precise fine-tuning. (…)
At the LessWrong event, however, Altman stressed that a possible 100 trillion parameter AI model would be a long time coming. OpenAI would also not target this mark for GPT-4.
D’où vient le chiffre de “100 trillions”, alors? La source la plus probable de tout ce bazar, d’après ce que j’ai pu trouvé, est une vidéo de Lex Fridman, scientifique du MIT et podcaster assez influent dans le domaine de l’intelligence artificielle. Le 1er août 2020, il publie “GPT-3 vs Human Brain“, qu’il résume sur Twitter:
GPT-3 has 175 billion parameters (synapses). Human brain has 100+ trillion synapses. In 2020, it costs ~$2.6 billion to train neural net the size of the human brain. If ML training efficiency improvement trends continue, in 2040, it’ll cost $80,000.
Cette comparaison entre le nombre de paramètres de GPT-3 et le nombre de synapses du cerveau humain semble avoir lancé un cycle de spéculation sur les capacités de GPT-4. Dans la vidéo, en effet, Fridman s’intéresse à “combien ça couterait” d’entraîner un réseau avec autant de paramètres qu’il n’y a de synapses dans le cerveau. Et, dans son analyse, il étudie donc un hypothétique GPT-4 qui aurait cette capacité:
Il est important de noter que Fridman, dans sa vidéo, ne prétend pas que ce GPT-4 est réellement planifié par OpenAI. Il dit: “… let’s call it GPT-4, HB [Human Brain], with 100 trillion parameters”. C’est un modèle hypothétique qu’il invente pour les besoins de la question qu’il explore, celle du coût d’entraîner un modèle de la “taille” du cerveau humain. Mais la vidéo semble avoir été parfois interprétée comme une réelle prédiction sur les capacités de GPT-4 [exemple].
Retour aux sources
Voilà qui semble donc un chemin plausible pour la propagation de cette (dés)information: Lex Fridman spécule sur un “GPT-4” hypothétique avec 100.000 milliards de paramètres, l’information est répétée et sortie de son contexte, se diffuse, peut-être jusqu’à être discutée chez OpenAI. Andrew Feldman, en tout cas, semble le comprendre, et Wired publie l’information, qui se propage malgré les démentis de Sam Altman. Resemble.ai la prend pour argent comptant et en fait un visuel marquant, reprit et embellit par Simon Høiberg, et l’image devient virale. Un nouveau cycle s’enclenche, et on retrouve la fausse information répétée dans les journaux, malgré les nouveaux démentis de Sam Altman.
GPT-4 sera-t-il encore une avancée majeure dans les modèles de langage? À ce stade, personne ne le sait à part (peut-être) les ingénieurs d’OpenAI. Si c’est le cas, ce ne sera sans doute pas grâce à une multiplication du nombre de paramètres. Les limitations principales de GPT-3 et de ChatGPT aujourd’hui sont plus liées à un set de données pas assez filtré, et donc contenant beaucoup de bruit. Une des méthodes pour récupérer des pages web “fiables”, par exemple, a consisté à prendre tous les liens publiés sur Reddit ayant un “karma” (votes des utilisateurs) supérieur à 3 [Radford et al., 2018]. Ce n’est pas vraiment un filtre très restrictif. Augmenter le nombre de paramètres nécessiterait d’augmenter la quantité de données, et là, OpenAI commence à arriver au bout des possibilités.
Quand bien même GPT-4 aurait 500x plus de paramètres, cela ne se traduirait pas par “500x plus puissant”. Et GPT-4 n’aura sans doute pas 500x plus de paramètres que GPT-3.5. Enfin, sauf si Simon Høiberg en sait plus sur GPT-4 que le CEO d’OpenAI…
J’ai publié nettement plus régulièrement en 2022 sur ce blog (et sur mon blog de recherche) que les quelques années précédentes. Voici un bref retour sur ce dont j’ai parlé cette année :
Come-back et Big Data : où j’examine pourquoi les “modèles prédictifs” dans le sport ne sont pas vraiment “prédictifs”, à l’aide de Rafael Nadal et Sergio Perez.
Stop à la blockchain : où j’explique pourquoi, vraiment, il est temps d’accepter que la “blockchain”, ça ne sert à rien.
Bitcoin et médias: La Libre Belgique et bit4you : où j’observe l’inquiétant flou entre contenu publicitaire et contenu journalistique dans la couverture médiatique des cryptomonnaies dans La Libre Belgique.
Ma thèse en 180 secondes : où l’on peut retrouver la vidéo et le texte de mon passage dans le concours “Ma thèse en 180 secondes” en 2021.
Suite: La Libre Belgique et bit4you : où je revient sur la réponse de La Libre Belgique à ma plainte au Conseil de Déontologie Journalistique par rapport à leur couverture des cryptomonnaies.
La France à droite, bien à droite : où je tente d’analyser si la gauche se plante en France aux élections parce qu’ils sont “dispersés” dans leurs candidatures, où juste parce qu’il n’y a pas d’électorat de gauche.
La carte et la variole : où je montre pourquoi une carte sur la variole du singe qui circulait dans les tabloïds et les réseaux sociaux à l’époque où on en avait quelque chose à faire de la variole du singe était trompeuse.
L’affaire Julius Pringles : où je m’intéresse enfin à une vraie controverse, l’origine du nom de la mascotte de Pringles.
ChatGPT: quand Le Soir part en vrille : où je suis un poil irrité par un article du journal Le Soir qui manque un peu de discernement face au “phénomène” de ChatGPT.
Dans le journal du 17 décembre 2022, Le Soir propose une double page sur le buzz technologique du moment: ChatGPT, le “chatbot” d’OpenAI (décliné en 3 articles en ligne [1, 2, 3]). Il y a certainement des choses intéressantes à dire sur ce buzz et sur les technologies des modèles de langage, mais malheureusement l’article du Soir ressemble plus à un flyer promotionnel d’OpenAI qu’à un travail journalistique. Allons-y point par point…
1. La parole des expert.e.s et le parti pris
Le titre donne le ton de l’article: “Tsunami technologique”, “invention du siècle”. De qui viennent ces affirmations enthousiastes? La première est attribuée à Sam Altman… CEO d’OpenAI. Pas tout à fait la source la plus neutre sur le sujet, donc. La seconde est anonyme:
“L’invention du siècle”, s’aventurent même certains, pourtant aguerris à l’innovation.
Certains, donc, sont convaincus. Bien. Qui d’autre a été interrogé pour construire ce dossier? La majorité de l’article principal “expliquant” ChatGPT semble être basée sur l’expérience du journaliste, Philippe Laloux, qui a “discuté plusieurs heures avec cet outil”, ainsi que sur l’expérience de David Frenay, “ingénieur et président de Medispring (coopérative de médecin)”, qui s’est aussi “amusé” à demander une série de choses à ChatGPT et en est ressorti très enthousiaste. L’autre gros morceau du dossier est une “interview avec ChatGPT”, où la “parole” est donc laissée à l’outil lui-même.
Enfin, dans un petit encart, on laisse une petite note attribuée à… “la plupart des chercheurs en intelligence artificielle”, qui sont visiblement des mauvais joueurs parce qu’ils disent bêtement que “les chatbots ne seraient jamais que des ‘perroquets stochastiques'”, et que “leurs connaissances ne proviennent que de gigaoctets de données, plutôt que d’une compréhension humaine du monde en tant que système complexe et abstrait.” Cette tentative de tempérer les ardeurs est immédiatement elle-même tempérée par David Frenay, et ce n’est que toute à la fin de ce dossier qu’on mentionne en passant les “flagrant délit de biais algorithmiques, raciste et sexistes, notamment”.
Et pour s’assurer qu’on ne se quitte pas sur une mauvaise note, la dernière phrase est:
Pour l’heure, ses rares difficultés à distinguer le vrai du faux et sa capacité à inventer certains faits le rendent peut-être plus proche encore de l’humain, surtout sur les réseaux sociaux.
Le parti pris du dossier est donc très clair: ChatGPT est révolutionnaire, c’est un outil formidable, et si quelques mauvaises langues (comme “la plupart des experts”) viennent dire le contraire c’est qu’ils n’ont pas du assez jouer avec ChatGPT, sinon ils se seraient bien rendu compte du génie de l’outil.
2. Erreurs factuelles
Je reconnais au journaliste le droit d’avoir un parti pris. Je suis convaincu que la “neutralité journalistique” n’existe pas, et au moins ici le parti pris a le mérite d’être relativement clair et assumé. Mais la ligne choisie ici par Philippe Laloux le pousse dans des erreurs factuelles qui auraient sans doute pu être évitées si les “experts” avaient eu un peu plus de place pour s’exprimer par rapport aux “enthousiastes”…
Un remplaçant pour Google?
L’article annonce que “Google vient de prendre un sacré coup de vieux”: ChatGPT, au lieu de juste donner des liens, “répond à la question” et “quand il ne sait pas (c’est rare), il le dit.”
C’est faux, à plusieurs niveaux.
D’abord — et je reconnais que c’est un peu subtil — ChatGPT ne “répond” pas: il génère un texte qui a une forte probabilité d’être reconnu par un humain comme une réponse. ChatGPT n’a pas de “base de connaissance”. Ce n’est pas “rare” qu’il ne sache pas. Il ne sait jamais. Savoir ne fait pas partie de sa conception. Lorsqu’on lui pose une question, il va construire un texte sur base de contenus disponibles dans ses “données d’apprentissage”. Lorsque la question est “facile” (c’est-à-dire qu’il y a beaucoup de textes qui y répondent dans sa base d’apprentissage), il y a une très forte probabilité que sa réponse sera factuellement correcte. Dès qu’on s’écarte un peu des cas faciles, par contre, ChatGPT va combler ses lacunes en inventant ce qui lui manque. Et, contrairement à ce que dit ici Le Soir, le plus souvent il ne le “dit” pas. Il ne s’en rend pas compte, parce qu’à nouveau il ne “sait” rien, donc il ne sait pas qu’il invente!
Même Sam Altman d’ailleurs (le CEO d’OpenAI) ne dit pas le contraire: Philippe Laloux aurait pu choisir une autre citation de ce dernier pour ouvrir un article d’un autre ton:
ChatGPT is incredibly limited, but good enough at some things to create a misleading impression of greatness. it’s a mistake to be relying on it for anything important right now. it’s a preview of progress; we have lots of work to do on robustness and truthfulness.
fun creative inspiration; great! reliance for factual queries; not such a good idea. we will work hard to improve!
“ChatGPT est incroyablement limité, mais assez bon pour certaines choses pour créer une impression trompeuse de grandeur. C’est une erreur de s’y fier pour quoi que ce soit d’important pour le moment. (…) inspiration créative amusante; super! s’y fier pour des recherches factuelles; pas une si bonne idée.”
Proche de la singularité
C’est une affirmation un peu bizarre, parce que même chez OpenAI je n’ai pas l’impression qu’ils se sont avancés dans cette direction, donc ici je ne sais pas d’où vient cet enthousiasme particulier. Mais on affirme donc que ChatGPT “n’est pas loin d’atteindre ce tant redouté « point de singularité technologique » où la machine, au final, est capable de s’améliorer elle-même.”
Ceci est entièrement de la science-fiction. ChatGPT n’a aucune capacité particulière à “s’améliorer elle-même”. Toutes ses “améliorations”, à ce stade, proviennent du feedback humain qui lui indique quand ses réponses sont à côté de la plaque ou quand elles sont convaincantes (c’est d’ailleurs un des objectifs probables principaux d’OpenAI en poussant le “buzz” sur ChatGPT: tous ces gens qui jouent avec fournissent gratuitement des masses de données d’apprentissage qui leur coûterait des millions s’ils devaient payer des gens pour le faire). ChatGPT n’a pas non plus d’interface lui permettant de toucher à son propre code, où de faire quelque action que ce soit de manière autonome. ChatGPT n’est pas plus proche de la singularité que ne l’était le chatbot ELIZA dans les années 1960.
Remplacement des avocats, ingénieurs, médecins…
David Frenay a “coécrit un livre de 400 pages consacré aux modèles des coopératives”, s’est “amusé avec un neurologue à lui demander un diagnostic pointu: il y est arrivé”, se demande “pourquoi dépenser 1.000 euros pour rédiger des conditions d’utilisations standard pour un site” auprès d’un avocat si ChatGPT peut le faire pour lui, et constate qu’il est désormais “inutile de savoir coder”, et que cet outil “remet en cause tous mes plans pour engager du personnel”, car “mes meilleurs développeurs ont besoin d’une demi-heure pour repérer un bug dans un code. ChatGPT m’a donné quatre solutions en dix secondes.”
Je suis sûr que les ingénieurs de Medispring auront été ravis de lire cette interview, mais attardons-nous un peu sur ces affirmations. ChatGPT est-il capable de faire tout cela?
À nouveau, la réponse est non. Il peut par contre en donner l’illusion.
Le livre de 400 pages? Je suis sûr qu’il donne l’impression d’être correct, et peut-être même intéressant. Mais outre le fait que, d’un point de vue du style, ChatGPT est souvent répétitif et, à part quand on joue à lui faire imiter des styles rigolos, un peu chiant, on retombe à nouveau sur le même problème. Tout ce qui se retrouverait dans ce livre va être des informations largement disponibles dans les données d’apprentissage du modèle. Autrement dit: des informations bien connues. “Co-écrire” un livre avec ChatGPT, c’est se résigner dès le départ à faire un livre vide de contenu nouveau.
On va retrouver le même problème pour tous ces cas d’utilisations: bien sûr, faire des “conditions d’utilisations standard pour un site” semble facile… Mais on ne paye pas les avocats pour le template tout prêt: on les paye pour penser aux petits détails spécifiques à l’activité de la société qui pourraient coûter très cher s’ils sont oubliés. Et ces petits détails, ChatGPT ne va jamais les trouver. Le code? J’ai vu plusieurs exemples des capacités de ChatGPT à ce niveau partagés sur les réseaux sociaux. En général, on a deux catégories: des résultats justes, pour lesquels j’ai systématiquement trouvé une version plus complète et plus détaillée dans le premier résultat d’une recherche Google; et des résultats faux ou sous-optimaux, souvent par des petites subtilités difficile à repérer directement, dès que la question s’écarte des exemples classiques utilisés dans des tutoriels habituels.
Si Medispring décide de licencier ses ingénieurs pour les remplacer par ChatGPT, je conseille vivement à tous les médecins qui utilisent leurs logiciels de fuir avant l’hécatombe…
3. Arrêtons d’humaniser les logiciels, par pitié!
Le Soir présente ChatGPT comme une personne. On a une interview qui est formatée comme un entretien classique avec un être humain, on a l’illustration où une forme robotique humanoïde lui est donnée, et le denier article du dossier est sur ses “failles tellement humaines”.
J’ai déjà mis le lien plus haut, mais ça vaut la peine de le remettre: Philippe Laloux et David Frenay sont tombés tous droits dans le classique “effet ELIZA“:
En interagissant avec le programme, ces derniers [les utilisateurs] ont commencé à attribuer à ELIZA des qualités de compréhension et une certaine motivation
C’est un grand classique de l’histoire de l’intelligence artificielle: dès qu’un logiciel est conçu pour “ressembler” à un humain, notre cerveau tombe dans le panneau et commence à associer tout le lexique des émotions et des raisonnements humains pour décrire son “comportement”. C’est complètement passer à côté de comment fonctionne réellement ces logiciels.
Il n’y a pas de “pensée” dans ChatGPT. Pas d’autonomie. Pas de conscience. Pas de libre-arbitre. Pas de raisonnement symbolique. Pas de compréhension. Pas de connaissance. La référence au “perroquet stochastique” (stochastic parrot) vient d’un excellent article scientifique par Emily Bender et trois collègues. Comme cet article l’explique, les limitations des “modèles de langage” qui sont derrière les logiciels comme ChatGPT ne sont pas juste des petits problèmes “difficiles à résoudre” ou “des petites bêtises rigolotes de débutant”, pour reprendre David Frenay. Ces limitations sont des aspects fondamentaux de la technologie, dont rien n’indique aujourd’hui qu’il est possible de se débarrasser sans un changement complet d’approche. Autrement dit: ce n’est pas pour tout de suite qu’on pourra accorder le moindre degré de “certitude” à ce que ChatGPT ou ses successeurs nous sortent.
Et ses erreurs ne sont pas du tout “humaines”. Elles reflètent certainement parfois des biais humains, mais ce sont des erreurs complètement liées à la technologie en elle-même.
ChatGPT est un logiciel informatique. Le présenter comme une personne ne profite pas aux lecteurs qui se retrouvent dans ce dossier avec une impression trompeuse des capacités du logiciel. Et ce n’est pas à ce stade un logiciel utile. C’est un jouet, impressionnant, parfois rigolo, mais extrêmement peu fiable et à bien des égards dangereux.
Le buzz sur ChatGPT permet à OpenAI d’avoir des testeurs gratuits, et sans doute de convaincre de nouveaux investisseurs de leur donner un joli tas de sous. C’est dommage de voir les médias tomber aussi facilement dans le panneau en leur donnant une double page de publicité gratuite.
Notes:
David Frenay a réagit à cet article sur LinkedIn [à lire ici], ce qui a conduit à une discussion raisonnablement intéressante sur les limitations de ChatGPT. Mes conclusions suite à ses remarques (et à celles de quelques autres intervenants) sont également lisibles sur LinkedIn.
Philippe Laloux a également réagi, via un Google Doc [à lire ici], qui ne nécessite je pense pas de réponse…
(Initialement publié dans un thread sur Mastodon, je me suis dis qu’en fait ça pouvait faire un article de blog aussi — donc le voici!)
Une des parties de ma thèse que j’ai trouvée la plus fun à écrire est la partie plus “historique” sur les prémisses de l’analyse d’image médicale. En particulier, une fascinante série d’articles des années 60 sur le système CYDAC, une des premières tentatives d’analyser automatiquement des cellules et des chromosomes au microscope, sous la direction de Mortimer Mendelsohn [1].
Image — Mayall, 1970 [2]
Pas de disques durs ou de clé USB pour stocker les images. Pas vraiment encore de format standard non plus (GIF, PNG, JPG… ne seront inventés que 20 ans plus tard!). La “matrice des valeurs” des niveaux de gris (on ne parle pas encore de “pixels”) est enregistrée sur des bandes magnétiques.
Image — Mendelsohn, 1965 [3]
Cette matrice de valeurs peut être représentées par des symboles pour l’imprimer. On utilise des caractères occupant plus ou moins de surface pour indiquer le niveau d’intensité lumineuse et obtenir une image qui “ressemble” – en plissant les yeux – à la photo. On peut aussi lire la bande magnétique et appliquer à la matrice des opérations mathématiques pour, par exemple, identifier les bords. C’est ce que fait Judith Prewitt, pionnière de l’analyse d’images!
Image — Mendelsohn, 1965 [3]
On tente même déjà d’extraire des statistiques des objets, ce qui permet de représenter chaque image dans un “espace de décision”, que l’on peut tenter de séparer en classes que l’on cherche à reconnaître — ici, les types cellulaires. On a donc dans la “pipeline” de Mendelsohn et Prewitt tous les éléments de l’analyse d’image: acquisition, pré-traitement, extraction de descripteurs, décision dans l’espace des descripteurs. Ce qu’on fait toujours aujourd’hui (sans bande magnétique).
Image — Prewitt, 1966 [4]
Je parle plus souvent d’intelligence artificielle et d’analyse d’image médicale sur mon blog de recherche (en anglais). Si ça vous intéresse d’être au courant de ce que j’y poste, j’ai mis en place une newsletter sur Substack — n’hésitez pas à vous y inscrire!
Sources
[1] Mendelsohn et al., 1964, “Initial approaches to the computer analysis of cytophotometric fields”, Ann. NY Ac. of Sciences. [2] Mayall and Mendelsohn, 1970, “The mechanical scanner of CYDAC”, The journal of histochemistry and cytochemistry. (5/5) [3] Mendelsohn et al., 1965, “Computer Analysis of Cell Images”, Postgraduate Medecine. [4] Prewitt and Mendelsohn, 1966, “The analysis of cell images**”** Ann. NY Ac. of Sciences.
La mascotte de Pringles s’appelle Julius. Ce n’est pas vraiment un fait intéressant. C’est, au mieux, une petite anecdote bonne à remplir un “Topito” ou un quizz. Mais derrière Julius Pringles se trouve un terrible mensonge, vieux de plus de quinze ans.
23 décembre 2020
Il est 14h58, le 23 décembre 2020.
Sur Wikipedia.fr, un utilisateur non-identifié se connecte depuis un iPhone. Il édite l’article “Pringles” pour y ajouter deux mots : “Julius Pringles”, identifiant ainsi la “mascotte” de la marque. Quelques minutes plus tard (à 15h23), il fait une autre modification, sans lien apparent. Sur la page de “Marcel Duchamp“, il transforme le nom de la mère de Duchamp (Marie Caroline Lucie) en lien hypertexte. Ce seront les deux seules contributions de l’adresse IP 82.250.180.110 à Wikipedia.fr.
Modification de l’article “Pringles” sur Wikipedia.fr, 23 décembre 2020 [source : Wikipedia].
Il n’y a pas de source pour cette information. Mais qui inventerait une chose pareille?
Décembre 2006 – Mars 2007
Sur la version anglophone de l’encyclopédie, l’identité de Mr Pringles est connue depuis beaucoup plus longtemps. Elle apparaît en réalité le 4 décembre 2006. Cette fois-ci, ce n’est pas le fait d’un utilisateur anonyme. Il s’agit de “Platypus222”, Justin Shillock de son vrai nom, éditeur régulièrement actif sur le site.
Dans la section “Trivia” de la page, il rajoute l’information:
The man depicted in the Pringles logo is actually named Julius Pringles.
Là non plus, pas de citation. Pendant un temps, l’information passe inaperçue (combien de gens se préoccupent vraiment de fact-checker la page “Pringles” de Wikipedia ?), mais quelqu’un finit par se poser la question. En février 2007, un utilisateur supprime la ligne… Mais – anonymement cette fois-ci – Shillock ou un comparse la remet, en rajoutant la fameuse mention [citation needed] à côté de l’affirmation.
Le mystère est insoutenable. Non ? [source : Wikipedia].
Dans les semaines qui suivent, l’information est plusieurs fois supprimée, mais Platypus222 veille au grain : chaque fois, un utilisateur anonyme persiste et réaffirme l’identité de Julius. Il finit par réussir à la glisser dans l’introduction, où elle passera visiblement plus facilement inaperçue.
En 2012, la marque Pringles, jusque là détenue par Procter & Gamble, est rachetée par Kellogg’s. Dans le rapport d’activité annuel de la société, la liste des “trademarks” détenus par Kellogg’s inclus “Mr. P or Julius Pringles for Pringles potato crisps and sticks”.
Pourtant… il s’agit là de la première fois que “Julius” est officiellement associé à Pringles, et aucune trace d’un trademark enregistré officiellement n’a été trouvée. Mais Kellogg’s, comme tout le monde, se fie visiblement à Wikipedia. Si l’encyclopédie dit que la mascotte s’appelle Julius, c’est que ça doit être vrai.
Mars 2022 : la vérité éclate
Le 22 mars 2022, sur Twitter, un certain @Platypus222 affirme avoir créé Julius Pringles de tout pièce. Julius est un canular qui, après avoir passé des années discrètes sur Wikipedia, s’est finalement transformé en réalité.
J’accuse l’homme-ornithorynque, armé d’un clavier, sur Wikipedia. [source : Twitter]
L’histoire se propage rapidement. Des articles fleurissent résumant l’affaire [Mashable]. Justin Shillock, Platypus Man, devient brièvement une star. Puis tout se tasse, évidemment (à croire qu’il y a des choses plus importantes qui se passent dans le monde en mars 2022). Sur Wikipedia en anglais, l’origine réelle de la mascotte se retrouve maintenant mentionnée. La version française, elle, n’a guère bougé depuis décembre 2020. Le logo a été mis à jour. La page a été retirée de la catégorie “Procter & Gamble” et rajoutée à celle de “Kellogg’s”. Des oignons ont été rajoutés à la crème aigre dans les recettes classiques. Julius reste là, simplement, information non sourcée, pas remise en question.
Il a perdu des cheveux, mais sa moustache reste glorieuse [source : Wikipedia]
La citogénèse
“Citogenesis”, un terme inventé par Randall Munroe dans son webcomic xkcd en 2011 [xkcd.com], décrit un phénomène d’auto-génération de “citations fiables”, observé de façon malheureusement régulière sur Wikipedia. Le mécanisme est simple : quelqu’un, par malice ou par erreur, met une fausse information sur Wikipedia. Un journaliste, ou autre “source fiable”, pressé de publier un article et à la conscience professionnelle défaillante, utilise cette information sans la vérifier. Un éditeur de Wikipedia y voit le fait non sourcé, cherche rapidement sur Google, et trouve l’article du journaliste. Il l’ajoute comme source. La boucle est bouclée, le fait est sourcé.
L’affaire Julius Pringles est intéressante parce que presque toutes les étapes de la supercherie sont visibles, publiques. On peut retracer, minute par minute, la façon dont le canular s’est lentement transformé en réalité.
Et c’est ce qui fait de Wikipedia, potentiellement, une source extrêmement fiable… si on l’utilise correctement. On peut y retracer le chemin de l’information comme nulle part ailleurs. S’agit-il d’un ajout récent? Est-il sujet à discussion entre les éditeurs? A-t-il été sourcé à un moment? Tout cela est publiquement disponible. Et si au bout du fil on ne trouve aucune source antérieure à l’apparition de l’information sur Wikipedia, c’est peut-être bien parce qu’on a la chance d’être témoin de la naissance d’une citation…
Une carte illustrant les pays où la variole du singe a été détectée fait tout doucement le tour des réseaux complotistes et/ou antivax. Son origine semble être différents tabloïds anglais, comme Metro ou le Daily Mail.
Version diffusée sur Twitter par Bertrand Scholler [Source], initialement publiée par le Daily Mail [Source]
Si l’on suit le raisonnement qui accompagne généralement l’image, on est supposé voir cette carte et se dire: tiens, c’est curieux, pourquoi la variole du singe touche-t-elle principalement les pays occidentaux, ceux “où la population a été la plus vaccinée“. Serait-ce le plan du nouvel ordre mondial: nous affaiblir avec un vaccin pour mieux nous assommer après avec un nouveau virus?
Mais avant de chercher à interpréter la carte, une question fondamentale doit être résolue… ils sortent d’où, exactement, ces chiffres?
Une constante des partages complotistes sur les réseaux sociaux, c’est de ne pas citer leurs sources: pas moyen de vérifier les chiffres par là. Le Daily Mail n’est pas particulièrement connu pour sa rigueur scientifique non plus, et on peut supposer que ce n’est pas eux qui ont compilé les cas. Mais si le Daily Mail ne cite pas directement la source pour la carte, on la retrouve facilement à travers tout leurs articles : sans surprise, il s’agit de l’OMS.
Et à première vue, l’OMS semble bien confirmer ces chiffres. Ils ont même leur propre carte:
Mais… il y a une petite subtilité. Le texte qui accompagne cette carte indique qu’il s’agit de la distribution géographique des cas détectés dans les pays où le virus n’est pas endémique. Si on regarde les rapports hebdomadaires de l’OMS sur les différentes épidémies sévissant sur le continent africain, on peut par exemple voir qu’entre le 6 mars 2022 et le 17 avril 2022 il y a eu 448 cas recensés en République Démocratique du Congo, principal foyer de contamination. Cela correspond à une dizaine de cas détectés par jour. Par comparaison, le Royaume-Unis, l’Espagne et le Portugal, pays non-endémiques les plus touchés selon le rapport de l’OMS, ont entre 21 et 30 cas signalés entre le 13 et le 21 mai 2022, ce qui revient à peu près à 10 nouveaux cas par jour pour les trois pays mis ensemble.
Une carte plus fidèle à la réalité complète serait donc par exemple celle proposée par Al Jazeera (qui, par ailleurs, a le mérite de nommer la source de ses données directement dans l’image!):
Donc pour résumer: non, la variole du singe ne touche pas en particulier les pays “affaiblis par la vaccination”. Et une carte sans source et sans légende, c’est aussi informatif qu’une boussole sans aiguille.
(Et non, ce n’est pas lié au fait que le vaccin AstraZeneca utilise un adénovirus de chimpanzé comme vecteur pour transporter la protéine Spike. La variole du singe, comme son nom ne l’indique pas, est principalement présente dans la nature chez des rongeurs, même s’il a été originellement identifié dans des singes de laboratoire.)
Mise à jour 11/04/2022 avec les résultats définitifs du premier tour 2022.
Pour la deuxième élection consécutive, il n’y aura pas de candidat étiqueté “à gauche” au second tour de l’élection présidentielle française. Sur les cinq dernières élections, la gauche n’y aura été présente que deux fois: Ségolène Royal en 2007, et François Hollande en 2012.
On met souvent cette absence sur le dos d’une dispersion des voix de gauche entre de trop nombreux candidats, mais je ne pense pas que ce soit une analyse très juste (à part pour 2002, on y reviendra).
Si on veut compter la dispersion des voix “de gauche” en y incluant PS, les écolos, et les diverses mouvances communistes, ouvrières, etc., on doit la comparer avec la dispersion des voix “de droite” en y incluant Républicains, et les diverses mouvances nationalistes, identitaires, etc. Les convergences d’idées y sont certainement aussi forte (surtout ces dernières années, ou même les discours du “centre” macroniste sont parfois difficiles à distinguer de ceux de l’extrême-droite “adoucie” de Marine Le Pen).
En 2022, Jean-Luc Mélenchon aura obtenu 69% des suffrages “de gauche” (21,95%, contre 9.99% pour tous les autres candidat.e.s “de gauche” rassemblé.e.s). Marine Le Pen, de son côté, rassemble 62% des suffrages “de droite”. Quand on regarde toutes les élections depuis 2002, on voit que la concentration des voix “à gauche” n’est pas fondamentalement plus mauvaise qu’à droite:
Proportion des votes “de gauche” et “de droite” obtenu par le premier candidat de la faction.
En 2007, 2012 et 2022, la concentration des voix est relativement similaire. En 2017, les votes de droite se sont particulièrement dispersés entre Fillon et Le Pen (mais le total des voix “de gauche” était largement plus faible, les électeurs ayant été happés par le “centre” macroniste).
Et puis il y a 2002… Lionel Jospin n’avait obtenu que 34% des voix “de gauche”, une dispersion qui très clairement lui a coûté l’élection.
Car l’autre côté des chiffres, c’est la balance totale entre “la gauche” (et l’extrême-gauche), “la droite” (et l’extrême-droite) et “le centre”.
Distribution des voix entre “gauche/extrême-gauche”, “centre” et “droite/extrême-droite” depuis 2002.
Des cinq dernières élections, la seule dans laquelle la gauche a obtenu plus de voix que la droite au premier tour est celle de 2002, où malgré cette “victoire” le second tour s’était finalement joué entre Jacques Chirac et Jean-Marie Le Pen.
Il est clair en regardant l’évolution de la distribution des voix que le “centre” siphonne largement plus de voix à gauche qu’à droite. On pourrait y voir une indication que le centre français est un centre-gauche… mais ni le discours, ni le programme d’Emmanuel Macron ne colle avec cette analyse.
Non, le constat me semble plutôt que le réservoir de voix “de gauche” est, tout simplement, aujourd’hui trop faible en France que pour permettre de gagner des élections au niveau national.
Et aussi (mais ce n’est pas nouveau): le système présidentiel est vraiment nul. Le système belge est loin d’être parfait, mais chaque fois que je vois une élection française ou américaine, je me dis qu’on est quand même mieux lotis.
Notes: candidats inclus dans chaque “faction” pour les diverses élections:
Je notais le 20 février dans l’article “Bitcoin et médias: La Libre Belgique et bit4you” le traitement douteux des cryptomonnaies par les médias, et en particulier les mauvaises pratiques apparentes de La Libre, dont le partenariat commercial avec la plateforme bit4you semblait parfois déborder dangereusement sur leur contenu journalistique.
Des tweets n’indiquant pas la nature publicitaire de certains “publireportages” de bit4you.
Un manque de clarté sur les pages de ces publireportages quand au fait qu’on regardait un contenu publicitaire.
Un possible conflit d’intérêt avec des articles non-publicitaires mettant largement en avant bit4you et son cofondateur Marc Toledo alors qu’une relation commerciale existe aussi entre La Libre et bit4you (exemples: [1, 2, 3]).
Réponse de La Libre
Suite à la transmission de ma plainte au journal, La Libre a supprimé les “tweets” incriminés (sauf un…), et a modifié l’apparence des publireportages pour les rendre plus distinctifs et plus visiblement “publicitaires”. Dans sa réponse au CDJ, M. Legge, rédacteur en chef de LaLibre.be, indique que les tweets sont le résultat d’un problème technique qui, de mi-janvier à mi-février, a perturbé leur système de publication automatique sur Twitter qui ne filtrait plus les publireportages. Ce problème serait maintenant résolu.
Avant / Après: apparence du publireportage
Concernant les articles “non-publicitaires”, ils invoquent l’indépendance de la rédaction qui implique de “ne pas exclure un interlocuteur pertinent parce qu’il est aussi un annonceur régulier ou pas”, ce qui serait contraire à “l’esprit de l’indépendance journalistique”. M. Legge note également que La Libre a aussi publié des articles critiques des cryptomonnaies et pointe quelques exemples [1, 2, 3, 4].
Suffisant ?
Le CDJ m’a demandé si, suite à cette réponse, je souhaitais poursuivre et demander à ce qu’ils traitent la plainte sur le fond. J’ai répondu que non.
Je reste très dubitatif quand au choix rédactionnel de La Libre. Les plateformes d’échanges de cryptomonnaies ne sont pas de simples business. Il est impossible d’y participer sans être associé, directement ou indirectement, à des pratiques douteuses et/ou frauduleuses. Bit4you, par exemple, utilise pour toutes ses transactions la cryptomonnaie de la société “Tether” (USDT), qui est largement soupçonnée de fraude et de manipulation du marché. Il me semble qu’une attention particulière devrait être prise par les journalistes lorsqu’ils traitent avec de tels partenaires.
Mais il s’agit là d’un choix rédactionnel. Je pense que La Libre fait ici un mauvais choix, et qu’ils auraient besoin de se tourner vers d’autres experts pour traiter les questions relatives aux cryptomonnaies, mais je ne dispose pas d’éléments permettant de soupçonner de la malhonnêteté de la part du journal. Je pense que c’est du mauvais journalisme, mais ça c’est une toute autre question !
L’édition 2022 de “Ma Thèse en 180 secondes” va démarrer le mois prochain avec les sélections ULB le 31 mars. J’ai eu le plaisir de participer à l’édition 2021 (quelque peu perturbée par le COVID, mais c’était chouette quand même!). Je me rends compte que j’avais prévu de mettre la vidéo et mon texte ici et que j’ai complètement oubliée de le faire, donc avec à peu près un an de retard, les voici !
Je ne peux que conseiller l’exercice aux doctorant.e.s qui approchent de leur fin de thèse: synthétiser et vulgariser, ça pousse à se poser des bonnes questions sur les objectifs réels de ce qu’on est en train de faire.
16:07 – Introduction (Quentin Delhaye) 24:45 – Sébastien Lamproye – Le progrès technique et le partage du gâteau 28:25 – Léni Jodaitis – La bactérie : une boite de nuit très select 32:00 – Ruth Ringer – C’est quoi cette image ? 35:45 – Alexandre Popotas – La pneumonie vient de Mars, l’asthme de Vénus 39:15 – Adrien Foucart – Intelligence artificielle et histologie : un ingénieur au pays des médecins 42:55 – Intermède musical : Dolores – Kearo Zenn Quartet 47:05 – Cyrine Ben Dhaou – Trinquons à la chémérine contre le cancer 50:53 – Delphine Laho – Mise au point d’un test de diagnostic moléculaire rapide de l’otite moyenne aigüe chez l’enfant. 54:42 – Benjamin Swedlund – Choisir c’est renoncer : quand les cellules souches pluripotentes font le choix du coeur 58:25 – Valentin Fortier – Le Méthane sur Mars : d’où ça vient ? 1:02:10 – Charlotte Minsart – Implication de la protéine HMGB1 dans l’overdose au paracétamol 1:07:00 – Cyrine Ben Dhaou – Trinquons à la chémérine contre le cancer (deuxième présentation, suite à un problème technique) 1:13:00 – Intermède musical / Délibération : Joel Rabesolo / Aleph Quintet Music / Kearo Zenn Quartet / Isadora / Jean-Paul Groove 1:54:00 – Résultats du jury & du vote du public (Serge Schiffmann)
Mon texte
Ma thèse se trouve à cheval entre deux mondes : l’intelligence artificielle, dans le monde des ingénieurs, et l’histologie, dans le monde des médecins.
L’intelligence artificielle, on la retrouve partout. Prenez votre smartphone, par exemple. Si vous ouvrez l’appareil photo, un algorithme va détecter les visages et les entourer d’un petit rectangle. Pour créer un tel algorithme, on utilise des millions de photos, sur lesquelles on a noté où se trouvait chaque visage. Plus on a d’images différentes (de face, de profil, de loin, de près…), mieux l’algorithme sera capable de détecter les visages en toute circonstance.
Noter où se trouve un visage sur une photo, c’est facile, tout le monde peut le faire. Mais en histologie, dans le monde des médecins, les choses sont plus compliquées.
L’histologie, c’est ce qui se passe par exemple quand on prélève un morceau de tumeur durant une biopsie ou une opération. On le fixe ensuite dans un bloc de paraffine, qu’on coupe en fines tranches. On ajoute un peu de couleurs, et puis on peut venir regarder au microscope pour estimer la gravité du cancer et prendre les meilleures décisions pour le patient : faut-il opérer plus, faire une chimio, faire des rayons ?
Est-ce que vous pouvez dire quel type de cancer se trouve sur cette image ? Probablement pas. Les cellules cancéreuses ne portent pas de pancarte indiquant leur niveau de gravité. Les indicateurs sur lesquels se basent les médecins sont souvent subjectifs, et le désaccord entre experts est courant.
Produire et annoter les images histologiques prend du matériel spécialisé, des personnes expérimentées, et beaucoup de temps. On doit donc travailler sur des bases de données réduites, où les annotations sont incertaines, voire contradictoires d’un expert à l’autre.
Pour appliquer les techniques d’intelligence artificielle au monde de l’histologie, nous avons donc développé des méthodes qui permettent à nos algorithmes d’apprendre malgré les données imparfaites, et à donner des résultats utiles pour la recherche et le diagnostic.
Il faut aussi se poser la question de comment on peut évaluer nos résultats. Si je teste un algorithme qui détecte des visages, je peux prendre une série de photos et compter le nombre d’erreurs. Mais qu’est-ce qu’une « erreur » lorsque même les meilleurs experts ont des avis différents ? Là aussi, nous avons dû développer des méthodes qui tiennent compte de cette incertitude, et qui nous permettent de mieux évaluer si un algorithme est plus intéressant qu’un autre.
La rencontre du monde de l’ingénieur et du monde de la médecine apporte beaucoup des deux côtés. Le développement de nouvelles méthodes et de nouveaux algorithmes pour les uns ; la possibilité de faciliter le travail des médecins, et d’améliorer la qualité des soins proposés aux patients pour les autres.
Venant du côté des ingénieurs, c’est une rencontre qui n’est pas toujours facile. Le monde médical est compliqué, et réussir à s’adapter à cette complexité est toute la difficulté, et aussi pour moi tout l’intérêt, de ma thèse.