Traquer une rumeur: GPT-4 et les 100.000 milliards de paramètres

GPT-3.5, le “modèle de langage” derrière ChatGPT, est constitué de 175 milliards de paramètres. Une rumeur persistante annonce que son successeur GPT-4 en aura plus de 500 fois plus: 100.000 milliards [note: 100 trillions en anglais = 100.000 milliards en français, à ne pas confondre avec 100 trillions en français, qui correspondrait à 100 milliards de milliards. Oui, c’est confus.]

C’est une information qu’on retrouve par exemple dans le magazine en ligne presse-citron.net le 16 janvier, dans Le Soir du 21 janvier, ou plus récemment dans La Libre du 11 février. Pourtant, c’est une information qui est vigoureusement démentie par Sam Altman, CEO d’OpenAI:

When asked about one viral (and factually incorrect) chart that purportedly compares the number of parameters in GPT-3 (175 billion) to GPT-4 (100 trillion), Altman called it “complete bullshit.”

https://www.theverge.com/23560328/openai-gpt-4-rumor-release-date-sam-altman-interview, 18 janvier 2023

Ni Le Soir, ni La Libre ne fournissent de sources pour cette affirmation. Presse-citron, de leur côté, l’attribue à un certain Simon Høiberg.

Simon Høiberg

Le 11 janvier 2023, Simon Høiberg diffuse sur Twitter et LinkedIn cette infographie, accompagnée de l’explication:

GPT-4 is going to launch soon. And it will make ChatGPT look like a toy… → GPT-3 has 175 billion parameters → GPT-4 has 100 trillion parameters I think we’re gonna see something absolutely mindblowing this time!

https://twitter.com/SimonHoiberg/status/1613089457116258306?cxt=HHwWhIC9pZKU7OIsAAAA, 11 janvier 2023

Mais… Simon Høiberg n’a – selon son profil en tout cas – pas de lien particulier avec OpenAI. Et ne semble pas disposé à citer ses sources, lui non plus… Continuons donc la recherche.

Resemble.ai

La première version de l’infographie, d’après ce que j’ai pu trouvé, provient du blog de “Resemble.ai”, en décembre 2022. L’image est moins jolie, mais l’essentiel de l’information est présente:

GPT-4 is substantially bigger than its predecessor, GPT-3, and is estimated to have been trained with over 100 trillion parameters compared to GPT-3’s 175 billion parameters. GPT-4 performs better on jobs like language production and translation because of its bigger size, which enables it to collect more information and subtleties in language.

https://www.resemble.ai/gpt-4-blog/, 22 décembre 2022

On avance… mais on reste toujours sur les mêmes questions. Resemble.ai n’a pas de lien évident avec OpenAI (mis à part le fait qu’ils utilisent GPT-3 dans leurs propres produits), et l’information n’est pas vraiment présentée comme un scoop inédit: “estimated to have been trained with over 100 trillion parameters” semble plutôt indiquer que c’est un fait établi et rapporté… mais à nouveau sans citation.

Andrew Feldman

En continuant à chercher des mentions antérieures de ces “100 trillions” de paramètres, on finit par tomber sur une vraie source identifiée. Elle remonte au 24 août 2021, dans le magazine Wired. La citation est attribuée à Andrew Feldman, CEO de la société Cerebras, qui lui-même se base sur une conversation “avec OpenAI”.

“From talking to OpenAI, GPT-4 will be about 100 trillion parameters,” Feldman says. “That won’t be ready for several years.”

https://www.wired.com/story/cerebras-chip-cluster-neural-networks-ai/, Will Knight, Wired, 24 août 2021

Ouf, on y arrive? Peut-être… mais plusieurs questions subsistent.

Lex Friedman

D’abord, concernant l’information en elle-même. Si c’est faux, comme semble l’indiquer Sam Altman, comment cette idée est-elle arrivée chez Andrew Feldman? Était-ce que OpenAI a simplement changé ses plans depuis août 2021? Cela semble peu probable. Déjà en septembre 2021, Altman démentait la rumeur, lors d’un meetup en ligne, rapporté par the-decoder.com:

GPT-4 probably won’t be much larger than GPT-3, but will require significantly more computing power, Altman said. Progress should come primarily from higher-quality data, better algorithms, and more precise fine-tuning. (…)

At the LessWrong event, however, Altman stressed that a possible 100 trillion parameter AI model would be a long time coming. OpenAI would also not target this mark for GPT-4.

https://the-decoder.com/openai-first-insights-into-gpt-4-and-the-possible-ai-future/, 13 septembre 2021

D’où vient le chiffre de “100 trillions”, alors? La source la plus probable de tout ce bazar, d’après ce que j’ai pu trouvé, est une vidéo de Lex Fridman, scientifique du MIT et podcaster assez influent dans le domaine de l’intelligence artificielle. Le 1er août 2020, il publie “GPT-3 vs Human Brain“, qu’il résume sur Twitter:

GPT-3 has 175 billion parameters (synapses). Human brain has 100+ trillion synapses. In 2020, it costs ~$2.6 billion to train neural net the size of the human brain. If ML training efficiency improvement trends continue, in 2040, it’ll cost $80,000.

https://twitter.com/lexfridman/status/1290327912986509312, 3 août 2020

Cette comparaison entre le nombre de paramètres de GPT-3 et le nombre de synapses du cerveau humain semble avoir lancé un cycle de spéculation sur les capacités de GPT-4. Dans la vidéo, en effet, Fridman s’intéresse à “combien ça couterait” d’entraîner un réseau avec autant de paramètres qu’il n’y a de synapses dans le cerveau. Et, dans son analyse, il étudie donc un hypothétique GPT-4 qui aurait cette capacité:

Il est important de noter que Fridman, dans sa vidéo, ne prétend pas que ce GPT-4 est réellement planifié par OpenAI. Il dit: “… let’s call it GPT-4, HB [Human Brain], with 100 trillion parameters”. C’est un modèle hypothétique qu’il invente pour les besoins de la question qu’il explore, celle du coût d’entraîner un modèle de la “taille” du cerveau humain. Mais la vidéo semble avoir été parfois interprétée comme une réelle prédiction sur les capacités de GPT-4 [exemple].

Retour aux sources

Voilà qui semble donc un chemin plausible pour la propagation de cette (dés)information: Lex Fridman spécule sur un “GPT-4” hypothétique avec 100.000 milliards de paramètres, l’information est répétée et sortie de son contexte, se diffuse, peut-être jusqu’à être discutée chez OpenAI. Andrew Feldman, en tout cas, semble le comprendre, et Wired publie l’information, qui se propage malgré les démentis de Sam Altman. Resemble.ai la prend pour argent comptant et en fait un visuel marquant, reprit et embellit par Simon Høiberg, et l’image devient virale. Un nouveau cycle s’enclenche, et on retrouve la fausse information répétée dans les journaux, malgré les nouveaux démentis de Sam Altman.

GPT-4 sera-t-il encore une avancée majeure dans les modèles de langage? À ce stade, personne ne le sait à part (peut-être) les ingénieurs d’OpenAI. Si c’est le cas, ce ne sera sans doute pas grâce à une multiplication du nombre de paramètres. Les limitations principales de GPT-3 et de ChatGPT aujourd’hui sont plus liées à un set de données pas assez filtré, et donc contenant beaucoup de bruit. Une des méthodes pour récupérer des pages web “fiables”, par exemple, a consisté à prendre tous les liens publiés sur Reddit ayant un “karma” (votes des utilisateurs) supérieur à 3 [Radford et al., 2018]. Ce n’est pas vraiment un filtre très restrictif. Augmenter le nombre de paramètres nécessiterait d’augmenter la quantité de données, et là, OpenAI commence à arriver au bout des possibilités.

Quand bien même GPT-4 aurait 500x plus de paramètres, cela ne se traduirait pas par “500x plus puissant”. Et GPT-4 n’aura sans doute pas 500x plus de paramètres que GPT-3.5. Enfin, sauf si Simon Høiberg en sait plus sur GPT-4 que le CEO d’OpenAI…

ChatGPT: quand Le Soir part en vrille…

Dans le journal du 17 décembre 2022, Le Soir propose une double page sur le buzz technologique du moment: ChatGPT, le “chatbot” d’OpenAI (décliné en 3 articles en ligne [1, 2, 3]). Il y a certainement des choses intéressantes à dire sur ce buzz et sur les technologies des modèles de langage, mais malheureusement l’article du Soir ressemble plus à un flyer promotionnel d’OpenAI qu’à un travail journalistique. Allons-y point par point…

1. La parole des expert.e.s et le parti pris

Le titre donne le ton de l’article: “Tsunami technologique”, “invention du siècle”. De qui viennent ces affirmations enthousiastes? La première est attribuée à Sam Altman… CEO d’OpenAI. Pas tout à fait la source la plus neutre sur le sujet, donc. La seconde est anonyme:

“L’invention du siècle”, s’aventurent même certains, pourtant aguerris à l’innovation.

Certains, donc, sont convaincus. Bien. Qui d’autre a été interrogé pour construire ce dossier? La majorité de l’article principal “expliquant” ChatGPT semble être basée sur l’expérience du journaliste, Philippe Laloux, qui a “discuté plusieurs heures avec cet outil”, ainsi que sur l’expérience de David Frenay, “ingénieur et président de Medispring (coopérative de médecin)”, qui s’est aussi “amusé” à demander une série de choses à ChatGPT et en est ressorti très enthousiaste. L’autre gros morceau du dossier est une “interview avec ChatGPT”, où la “parole” est donc laissée à l’outil lui-même.

Enfin, dans un petit encart, on laisse une petite note attribuée à… “la plupart des chercheurs en intelligence artificielle”, qui sont visiblement des mauvais joueurs parce qu’ils disent bêtement que “les chatbots ne seraient jamais que des ‘perroquets stochastiques'”, et que “leurs connaissances ne proviennent que de gigaoctets de données, plutôt que d’une compréhension humaine du monde en tant que système complexe et abstrait.” Cette tentative de tempérer les ardeurs est immédiatement elle-même tempérée par David Frenay, et ce n’est que toute à la fin de ce dossier qu’on mentionne en passant les “flagrant délit de biais algorithmiques, raciste et sexistes, notamment”.

Et pour s’assurer qu’on ne se quitte pas sur une mauvaise note, la dernière phrase est:

Pour l’heure, ses rares difficultés à distinguer le vrai du faux et sa capacité à inventer certains faits le rendent peut-être plus proche encore de l’humain, surtout sur les réseaux sociaux.

Le parti pris du dossier est donc très clair: ChatGPT est révolutionnaire, c’est un outil formidable, et si quelques mauvaises langues (comme “la plupart des experts”) viennent dire le contraire c’est qu’ils n’ont pas du assez jouer avec ChatGPT, sinon ils se seraient bien rendu compte du génie de l’outil.

2. Erreurs factuelles

Je reconnais au journaliste le droit d’avoir un parti pris. Je suis convaincu que la “neutralité journalistique” n’existe pas, et au moins ici le parti pris a le mérite d’être relativement clair et assumé. Mais la ligne choisie ici par Philippe Laloux le pousse dans des erreurs factuelles qui auraient sans doute pu être évitées si les “experts” avaient eu un peu plus de place pour s’exprimer par rapport aux “enthousiastes”…

Un remplaçant pour Google?

L’article annonce que “Google vient de prendre un sacré coup de vieux”: ChatGPT, au lieu de juste donner des liens, “répond à la question” et “quand il ne sait pas (c’est rare), il le dit.”

C’est faux, à plusieurs niveaux.

D’abord — et je reconnais que c’est un peu subtil — ChatGPT ne “répond” pas: il génère un texte qui a une forte probabilité d’être reconnu par un humain comme une réponse. ChatGPT n’a pas de “base de connaissance”. Ce n’est pas “rare” qu’il ne sache pas. Il ne sait jamais. Savoir ne fait pas partie de sa conception. Lorsqu’on lui pose une question, il va construire un texte sur base de contenus disponibles dans ses “données d’apprentissage”. Lorsque la question est “facile” (c’est-à-dire qu’il y a beaucoup de textes qui y répondent dans sa base d’apprentissage), il y a une très forte probabilité que sa réponse sera factuellement correcte. Dès qu’on s’écarte un peu des cas faciles, par contre, ChatGPT va combler ses lacunes en inventant ce qui lui manque. Et, contrairement à ce que dit ici Le Soir, le plus souvent il ne le “dit” pas. Il ne s’en rend pas compte, parce qu’à nouveau il ne “sait” rien, donc il ne sait pas qu’il invente!

Même Sam Altman d’ailleurs (le CEO d’OpenAI) ne dit pas le contraire: Philippe Laloux aurait pu choisir une autre citation de ce dernier pour ouvrir un article d’un autre ton:

ChatGPT is incredibly limited, but good enough at some things to create a misleading impression of greatness. it’s a mistake to be relying on it for anything important right now. it’s a preview of progress; we have lots of work to do on robustness and truthfulness.

fun creative inspiration; great! reliance for factual queries; not such a good idea. we will work hard to improve!

Sam Altman sur Twitter

“ChatGPT est incroyablement limité, mais assez bon pour certaines choses pour créer une impression trompeuse de grandeur. C’est une erreur de s’y fier pour quoi que ce soit d’important pour le moment. (…) inspiration créative amusante; super! s’y fier pour des recherches factuelles; pas une si bonne idée.”

Proche de la singularité

C’est une affirmation un peu bizarre, parce que même chez OpenAI je n’ai pas l’impression qu’ils se sont avancés dans cette direction, donc ici je ne sais pas d’où vient cet enthousiasme particulier. Mais on affirme donc que ChatGPT “n’est pas loin d’atteindre ce tant redouté « point de singularité technologique » où la machine, au final, est capable de s’améliorer elle-même.”

Ceci est entièrement de la science-fiction. ChatGPT n’a aucune capacité particulière à “s’améliorer elle-même”. Toutes ses “améliorations”, à ce stade, proviennent du feedback humain qui lui indique quand ses réponses sont à côté de la plaque ou quand elles sont convaincantes (c’est d’ailleurs un des objectifs probables principaux d’OpenAI en poussant le “buzz” sur ChatGPT: tous ces gens qui jouent avec fournissent gratuitement des masses de données d’apprentissage qui leur coûterait des millions s’ils devaient payer des gens pour le faire). ChatGPT n’a pas non plus d’interface lui permettant de toucher à son propre code, où de faire quelque action que ce soit de manière autonome. ChatGPT n’est pas plus proche de la singularité que ne l’était le chatbot ELIZA dans les années 1960.

Remplacement des avocats, ingénieurs, médecins…

David Frenay a “coécrit un livre de 400 pages consacré aux modèles des coopératives”, s’est “amusé avec un neurologue à lui demander un diagnostic pointu: il y est arrivé”, se demande “pourquoi dépenser 1.000 euros pour rédiger des conditions d’utilisations standard pour un site” auprès d’un avocat si ChatGPT peut le faire pour lui, et constate qu’il est désormais “inutile de savoir coder”, et que cet outil “remet en cause tous mes plans pour engager du personnel”, car “mes meilleurs développeurs ont besoin d’une demi-heure pour repérer un bug dans un code. ChatGPT m’a donné quatre solutions en dix secondes.”

Je suis sûr que les ingénieurs de Medispring auront été ravis de lire cette interview, mais attardons-nous un peu sur ces affirmations. ChatGPT est-il capable de faire tout cela?

À nouveau, la réponse est non. Il peut par contre en donner l’illusion.

Le livre de 400 pages? Je suis sûr qu’il donne l’impression d’être correct, et peut-être même intéressant. Mais outre le fait que, d’un point de vue du style, ChatGPT est souvent répétitif et, à part quand on joue à lui faire imiter des styles rigolos, un peu chiant, on retombe à nouveau sur le même problème. Tout ce qui se retrouverait dans ce livre va être des informations largement disponibles dans les données d’apprentissage du modèle. Autrement dit: des informations bien connues. “Co-écrire” un livre avec ChatGPT, c’est se résigner dès le départ à faire un livre vide de contenu nouveau.

On va retrouver le même problème pour tous ces cas d’utilisations: bien sûr, faire des “conditions d’utilisations standard pour un site” semble facile… Mais on ne paye pas les avocats pour le template tout prêt: on les paye pour penser aux petits détails spécifiques à l’activité de la société qui pourraient coûter très cher s’ils sont oubliés. Et ces petits détails, ChatGPT ne va jamais les trouver. Le code? J’ai vu plusieurs exemples des capacités de ChatGPT à ce niveau partagés sur les réseaux sociaux. En général, on a deux catégories: des résultats justes, pour lesquels j’ai systématiquement trouvé une version plus complète et plus détaillée dans le premier résultat d’une recherche Google; et des résultats faux ou sous-optimaux, souvent par des petites subtilités difficile à repérer directement, dès que la question s’écarte des exemples classiques utilisés dans des tutoriels habituels.

Si Medispring décide de licencier ses ingénieurs pour les remplacer par ChatGPT, je conseille vivement à tous les médecins qui utilisent leurs logiciels de fuir avant l’hécatombe…

3. Arrêtons d’humaniser les logiciels, par pitié!

Le Soir présente ChatGPT comme une personne. On a une interview qui est formatée comme un entretien classique avec un être humain, on a l’illustration où une forme robotique humanoïde lui est donnée, et le denier article du dossier est sur ses “failles tellement humaines”.

J’ai déjà mis le lien plus haut, mais ça vaut la peine de le remettre: Philippe Laloux et David Frenay sont tombés tous droits dans le classique “effet ELIZA“:

En interagissant avec le programme, ces derniers [les utilisateurs] ont commencé à attribuer à ELIZA des qualités de compréhension et une certaine motivation

C’est un grand classique de l’histoire de l’intelligence artificielle: dès qu’un logiciel est conçu pour “ressembler” à un humain, notre cerveau tombe dans le panneau et commence à associer tout le lexique des émotions et des raisonnements humains pour décrire son “comportement”. C’est complètement passer à côté de comment fonctionne réellement ces logiciels.

Il n’y a pas de “pensée” dans ChatGPT. Pas d’autonomie. Pas de conscience. Pas de libre-arbitre. Pas de raisonnement symbolique. Pas de compréhension. Pas de connaissance. La référence au “perroquet stochastique” (stochastic parrot) vient d’un excellent article scientifique par Emily Bender et trois collègues. Comme cet article l’explique, les limitations des “modèles de langage” qui sont derrière les logiciels comme ChatGPT ne sont pas juste des petits problèmes “difficiles à résoudre” ou “des petites bêtises rigolotes de débutant”, pour reprendre David Frenay. Ces limitations sont des aspects fondamentaux de la technologie, dont rien n’indique aujourd’hui qu’il est possible de se débarrasser sans un changement complet d’approche. Autrement dit: ce n’est pas pour tout de suite qu’on pourra accorder le moindre degré de “certitude” à ce que ChatGPT ou ses successeurs nous sortent.

Et ses erreurs ne sont pas du tout “humaines”. Elles reflètent certainement parfois des biais humains, mais ce sont des erreurs complètement liées à la technologie en elle-même.

ChatGPT est un logiciel informatique. Le présenter comme une personne ne profite pas aux lecteurs qui se retrouvent dans ce dossier avec une impression trompeuse des capacités du logiciel. Et ce n’est pas à ce stade un logiciel utile. C’est un jouet, impressionnant, parfois rigolo, mais extrêmement peu fiable et à bien des égards dangereux.

Le buzz sur ChatGPT permet à OpenAI d’avoir des testeurs gratuits, et sans doute de convaincre de nouveaux investisseurs de leur donner un joli tas de sous. C’est dommage de voir les médias tomber aussi facilement dans le panneau en leur donnant une double page de publicité gratuite.


Notes:

David Frenay a réagit à cet article sur LinkedIn [à lire ici], ce qui a conduit à une discussion raisonnablement intéressante sur les limitations de ChatGPT. Mes conclusions suite à ses remarques (et à celles de quelques autres intervenants) sont également lisibles sur LinkedIn.

Philippe Laloux a également réagi, via un Google Doc [à lire ici], qui ne nécessite je pense pas de réponse…

CYDAC – l’analyse d’image dans les années 60

(Initialement publié dans un thread sur Mastodon, je me suis dis qu’en fait ça pouvait faire un article de blog aussi — donc le voici!)

Une des parties de ma thèse que j’ai trouvée la plus fun à écrire est la partie plus “historique” sur les prémisses de l’analyse d’image médicale. En particulier, une fascinante série d’articles des années 60 sur le système CYDAC, une des premières tentatives d’analyser automatiquement des cellules et des chromosomes au microscope, sous la direction de Mortimer Mendelsohn [1].

Image — Mayall, 1970 [2]

Pas de disques durs ou de clé USB pour stocker les images. Pas vraiment encore de format standard non plus (GIF, PNG, JPG… ne seront inventés que 20 ans plus tard!). La “matrice des valeurs” des niveaux de gris (on ne parle pas encore de “pixels”) est enregistrée sur des bandes magnétiques.

Image — Mendelsohn, 1965 [3]

Cette matrice de valeurs peut être représentées par des symboles pour l’imprimer. On utilise des caractères occupant plus ou moins de surface pour indiquer le niveau d’intensité lumineuse et obtenir une image qui “ressemble” – en plissant les yeux – à la photo. On peut aussi lire la bande magnétique et appliquer à la matrice des opérations mathématiques pour, par exemple, identifier les bords. C’est ce que fait Judith Prewitt, pionnière de l’analyse d’images!

Image — Mendelsohn, 1965 [3]

On tente même déjà d’extraire des statistiques des objets, ce qui permet de représenter chaque image dans un “espace de décision”, que l’on peut tenter de séparer en classes que l’on cherche à reconnaître — ici, les types cellulaires. On a donc dans la “pipeline” de Mendelsohn et Prewitt tous les éléments de l’analyse d’image: acquisition, pré-traitement, extraction de descripteurs, décision dans l’espace des descripteurs. Ce qu’on fait toujours aujourd’hui (sans bande magnétique).

Image — Prewitt, 1966 [4]

Je parle plus souvent d’intelligence artificielle et d’analyse d’image médicale sur mon blog de recherche (en anglais). Si ça vous intéresse d’être au courant de ce que j’y poste, j’ai mis en place une newsletter sur Substack — n’hésitez pas à vous y inscrire!

Sources

[1] Mendelsohn et al., 1964, “Initial approaches to the computer analysis of cytophotometric fields”, Ann. NY Ac. of Sciences.
[2] Mayall and Mendelsohn, 1970, “The mechanical scanner of CYDAC”, The journal of histochemistry and cytochemistry. (5/5)
[3] Mendelsohn et al., 1965, “Computer Analysis of Cell Images”, Postgraduate Medecine.
[4] Prewitt and Mendelsohn, 1966, “The analysis of cell images**”** Ann. NY Ac. of Sciences.

L’affaire Julius Pringles

La mascotte de Pringles s’appelle Julius. Ce n’est pas vraiment un fait intéressant. C’est, au mieux, une petite anecdote bonne à remplir un “Topito” ou un quizz. Mais derrière Julius Pringles se trouve un terrible mensonge, vieux de plus de quinze ans.

23 décembre 2020

Il est 14h58, le 23 décembre 2020.

Sur Wikipedia.fr, un utilisateur non-identifié se connecte depuis un iPhone. Il édite l’article “Pringles” pour y ajouter deux mots : “Julius Pringles”, identifiant ainsi la “mascotte” de la marque. Quelques minutes plus tard (à 15h23), il fait une autre modification, sans lien apparent. Sur la page de “Marcel Duchamp“, il transforme le nom de la mère de Duchamp (Marie Caroline Lucie) en lien hypertexte. Ce seront les deux seules contributions de l’adresse IP 82.250.180.110 à Wikipedia.fr.

Modification de l’article “Pringles” sur Wikipedia.fr, 23 décembre 2020 [source : Wikipedia].

Il n’y a pas de source pour cette information. Mais qui inventerait une chose pareille?

Décembre 2006 – Mars 2007

Sur la version anglophone de l’encyclopédie, l’identité de Mr Pringles est connue depuis beaucoup plus longtemps. Elle apparaît en réalité le 4 décembre 2006. Cette fois-ci, ce n’est pas le fait d’un utilisateur anonyme. Il s’agit de “Platypus222”, Justin Shillock de son vrai nom, éditeur régulièrement actif sur le site.

Dans la section “Trivia” de la page, il rajoute l’information:

The man depicted in the Pringles logo is actually named Julius Pringles.

Là non plus, pas de citation. Pendant un temps, l’information passe inaperçue (combien de gens se préoccupent vraiment de fact-checker la page “Pringles” de Wikipedia ?), mais quelqu’un finit par se poser la question. En février 2007, un utilisateur supprime la ligne… Mais – anonymement cette fois-ci – Shillock ou un comparse la remet, en rajoutant la fameuse mention [citation needed] à côté de l’affirmation.

Le mystère est insoutenable. Non ? [source : Wikipedia].

Dans les semaines qui suivent, l’information est plusieurs fois supprimée, mais Platypus222 veille au grain : chaque fois, un utilisateur anonyme persiste et réaffirme l’identité de Julius. Il finit par réussir à la glisser dans l’introduction, où elle passera visiblement plus facilement inaperçue.

2012 : Kellogg’s

Gloire à Kellogg’s, Leader des Céréales ! [source : Kellogg’s 2012 annual report]

En 2012, la marque Pringles, jusque là détenue par Procter & Gamble, est rachetée par Kellogg’s. Dans le rapport d’activité annuel de la société, la liste des “trademarks” détenus par Kellogg’s inclus “Mr. P or Julius
Pringles
for Pringles potato crisps and sticks”.

Pourtant… il s’agit là de la première fois que “Julius” est officiellement associé à Pringles, et aucune trace d’un trademark enregistré officiellement n’a été trouvée. Mais Kellogg’s, comme tout le monde, se fie visiblement à Wikipedia. Si l’encyclopédie dit que la mascotte s’appelle Julius, c’est que ça doit être vrai.

Mars 2022 : la vérité éclate

Le 22 mars 2022, sur Twitter, un certain @Platypus222 affirme avoir créé Julius Pringles de tout pièce. Julius est un canular qui, après avoir passé des années discrètes sur Wikipedia, s’est finalement transformé en réalité.

J’accuse l’homme-ornithorynque, armé d’un clavier, sur Wikipedia. [source : Twitter]

L’histoire se propage rapidement. Des articles fleurissent résumant l’affaire [Mashable]. Justin Shillock, Platypus Man, devient brièvement une star. Puis tout se tasse, évidemment (à croire qu’il y a des choses plus importantes qui se passent dans le monde en mars 2022). Sur Wikipedia en anglais, l’origine réelle de la mascotte se retrouve maintenant mentionnée. La version française, elle, n’a guère bougé depuis décembre 2020. Le logo a été mis à jour. La page a été retirée de la catégorie “Procter & Gamble” et rajoutée à celle de “Kellogg’s”. Des oignons ont été rajoutés à la crème aigre dans les recettes classiques. Julius reste là, simplement, information non sourcée, pas remise en question.

Il a perdu des cheveux, mais sa moustache reste glorieuse [source : Wikipedia]

La citogénèse

“Citogenesis”, un terme inventé par Randall Munroe dans son webcomic xkcd en 2011 [xkcd.com], décrit un phénomène d’auto-génération de “citations fiables”, observé de façon malheureusement régulière sur Wikipedia. Le mécanisme est simple : quelqu’un, par malice ou par erreur, met une fausse information sur Wikipedia. Un journaliste, ou autre “source fiable”, pressé de publier un article et à la conscience professionnelle défaillante, utilise cette information sans la vérifier. Un éditeur de Wikipedia y voit le fait non sourcé, cherche rapidement sur Google, et trouve l’article du journaliste. Il l’ajoute comme source. La boucle est bouclée, le fait est sourcé.

[Source: xkcd.com]

L’affaire Julius Pringles est intéressante parce que presque toutes les étapes de la supercherie sont visibles, publiques. On peut retracer, minute par minute, la façon dont le canular s’est lentement transformé en réalité.

Et c’est ce qui fait de Wikipedia, potentiellement, une source extrêmement fiable… si on l’utilise correctement. On peut y retracer le chemin de l’information comme nulle part ailleurs. S’agit-il d’un ajout récent? Est-il sujet à discussion entre les éditeurs? A-t-il été sourcé à un moment? Tout cela est publiquement disponible. Et si au bout du fil on ne trouve aucune source antérieure à l’apparition de l’information sur Wikipedia, c’est peut-être bien parce qu’on a la chance d’être témoin de la naissance d’une citation…

La carte et la variole

Une carte illustrant les pays où la variole du singe a été détectée fait tout doucement le tour des réseaux complotistes et/ou antivax. Son origine semble être différents tabloïds anglais, comme Metro ou le Daily Mail.

Version diffusée sur Twitter par Bertrand Scholler [Source], initialement publiée par le Daily Mail [Source]

Si l’on suit le raisonnement qui accompagne généralement l’image, on est supposé voir cette carte et se dire: tiens, c’est curieux, pourquoi la variole du singe touche-t-elle principalement les pays occidentaux, ceux “où la population a été la plus vaccinée“. Serait-ce le plan du nouvel ordre mondial: nous affaiblir avec un vaccin pour mieux nous assommer après avec un nouveau virus?

Mais avant de chercher à interpréter la carte, une question fondamentale doit être résolue… ils sortent d’où, exactement, ces chiffres?

Une constante des partages complotistes sur les réseaux sociaux, c’est de ne pas citer leurs sources: pas moyen de vérifier les chiffres par là. Le Daily Mail n’est pas particulièrement connu pour sa rigueur scientifique non plus, et on peut supposer que ce n’est pas eux qui ont compilé les cas. Mais si le Daily Mail ne cite pas directement la source pour la carte, on la retrouve facilement à travers tout leurs articles : sans surprise, il s’agit de l’OMS.

Et à première vue, l’OMS semble bien confirmer ces chiffres. Ils ont même leur propre carte:

Version de l’OMS. [Source]

Mais… il y a une petite subtilité. Le texte qui accompagne cette carte indique qu’il s’agit de la distribution géographique des cas détectés dans les pays où le virus n’est pas endémique. Si on regarde les rapports hebdomadaires de l’OMS sur les différentes épidémies sévissant sur le continent africain, on peut par exemple voir qu’entre le 6 mars 2022 et le 17 avril 2022 il y a eu 448 cas recensés en République Démocratique du Congo, principal foyer de contamination. Cela correspond à une dizaine de cas détectés par jour. Par comparaison, le Royaume-Unis, l’Espagne et le Portugal, pays non-endémiques les plus touchés selon le rapport de l’OMS, ont entre 21 et 30 cas signalés entre le 13 et le 21 mai 2022, ce qui revient à peu près à 10 nouveaux cas par jour pour les trois pays mis ensemble.

Une carte plus fidèle à la réalité complète serait donc par exemple celle proposée par Al Jazeera (qui, par ailleurs, a le mérite de nommer la source de ses données directement dans l’image!):

Version de Al Jazeera [Source]

Donc pour résumer: non, la variole du singe ne touche pas en particulier les pays “affaiblis par la vaccination”. Et une carte sans source et sans légende, c’est aussi informatif qu’une boussole sans aiguille.

(Et non, ce n’est pas lié au fait que le vaccin AstraZeneca utilise un adénovirus de chimpanzé comme vecteur pour transporter la protéine Spike. La variole du singe, comme son nom ne l’indique pas, est principalement présente dans la nature chez des rongeurs, même s’il a été originellement identifié dans des singes de laboratoire.)

Suite: La Libre Belgique et bit4you

Je notais le 20 février dans l’article “Bitcoin et médias: La Libre Belgique et bit4you” le traitement douteux des cryptomonnaies par les médias, et en particulier les mauvaises pratiques apparentes de La Libre, dont le partenariat commercial avec la plateforme bit4you semblait parfois déborder dangereusement sur leur contenu journalistique.

Suite à cet article, j’ai signalé le problème au Conseil de Déontologie Journalistique, en notant en particulier:

  • Des tweets n’indiquant pas la nature publicitaire de certains “publireportages” de bit4you.
  • Un manque de clarté sur les pages de ces publireportages quand au fait qu’on regardait un contenu publicitaire.
  • Un possible conflit d’intérêt avec des articles non-publicitaires mettant largement en avant bit4you et son cofondateur Marc Toledo alors qu’une relation commerciale existe aussi entre La Libre et bit4you (exemples: [1, 2, 3]).

Réponse de La Libre

Suite à la transmission de ma plainte au journal, La Libre a supprimé les “tweets” incriminés (sauf un…), et a modifié l’apparence des publireportages pour les rendre plus distinctifs et plus visiblement “publicitaires”. Dans sa réponse au CDJ, M. Legge, rédacteur en chef de LaLibre.be, indique que les tweets sont le résultat d’un problème technique qui, de mi-janvier à mi-février, a perturbé leur système de publication automatique sur Twitter qui ne filtrait plus les publireportages. Ce problème serait maintenant résolu.

Avant / Après : nature publicitaire plus clairement établie
Avant / Après: apparence du publireportage

Concernant les articles “non-publicitaires”, ils invoquent l’indépendance de la rédaction qui implique de “ne pas exclure un interlocuteur pertinent parce qu’il est aussi un annonceur régulier ou pas”, ce qui serait contraire à “l’esprit de
l’indépendance journalistique”. M. Legge note également que La Libre a aussi publié des articles critiques des cryptomonnaies et pointe quelques exemples [1, 2, 3, 4].

Suffisant ?

Le CDJ m’a demandé si, suite à cette réponse, je souhaitais poursuivre et demander à ce qu’ils traitent la plainte sur le fond. J’ai répondu que non.

Je reste très dubitatif quand au choix rédactionnel de La Libre. Les plateformes d’échanges de cryptomonnaies ne sont pas de simples business. Il est impossible d’y participer sans être associé, directement ou indirectement, à des pratiques douteuses et/ou frauduleuses. Bit4you, par exemple, utilise pour toutes ses transactions la cryptomonnaie de la société “Tether” (USDT), qui est largement soupçonnée de fraude et de manipulation du marché. Il me semble qu’une attention particulière devrait être prise par les journalistes lorsqu’ils traitent avec de tels partenaires.

Mais il s’agit là d’un choix rédactionnel. Je pense que La Libre fait ici un mauvais choix, et qu’ils auraient besoin de se tourner vers d’autres experts pour traiter les questions relatives aux cryptomonnaies, mais je ne dispose pas d’éléments permettant de soupçonner de la malhonnêteté de la part du journal. Je pense que c’est du mauvais journalisme, mais ça c’est une toute autre question !

Ma Thèse en 180 secondes

L’édition 2022 de “Ma Thèse en 180 secondes” va démarrer le mois prochain avec les sélections ULB le 31 mars. J’ai eu le plaisir de participer à l’édition 2021 (quelque peu perturbée par le COVID, mais c’était chouette quand même!). Je me rends compte que j’avais prévu de mettre la vidéo et mon texte ici et que j’ai complètement oubliée de le faire, donc avec à peu près un an de retard, les voici !

Je ne peux que conseiller l’exercice aux doctorant.e.s qui approchent de leur fin de thèse: synthétiser et vulgariser, ça pousse à se poser des bonnes questions sur les objectifs réels de ce qu’on est en train de faire.

Le “Live”

“Facebook Live” de l’événement: https://www.facebook.com/watch/live/?v=1071437936709269&ref=watch_permalink

Timecodes des participant.e.s:

16:07 – Introduction (Quentin Delhaye)
24:45 – Sébastien Lamproye – Le progrès technique et le partage du gâteau
28:25 – Léni Jodaitis – La bactérie : une boite de nuit très select
32:00 – Ruth Ringer – C’est quoi cette image ?
35:45 – Alexandre Popotas – La pneumonie vient de Mars, l’asthme de Vénus
39:15 – Adrien Foucart – Intelligence artificielle et histologie : un ingénieur au pays des médecins
42:55 – Intermède musical : Dolores – Kearo Zenn Quartet
47:05 – Cyrine Ben Dhaou – Trinquons à la chémérine contre le cancer
50:53 – Delphine Laho – Mise au point d’un test de diagnostic moléculaire rapide de l’otite moyenne aigüe chez l’enfant.
54:42 – Benjamin Swedlund – Choisir c’est renoncer : quand les cellules souches pluripotentes font le choix du coeur
58:25 – Valentin Fortier – Le Méthane sur Mars : d’où ça vient ?
1:02:10 – Charlotte Minsart – Implication de la protéine HMGB1 dans l’overdose au paracétamol
1:07:00 – Cyrine Ben Dhaou – Trinquons à la chémérine contre le cancer (deuxième présentation, suite à un problème technique)
1:13:00 – Intermède musical / Délibération : Joel Rabesolo / Aleph Quintet Music / Kearo Zenn Quartet / Isadora / Jean-Paul Groove
1:54:00 – Résultats du jury & du vote du public (Serge Schiffmann)

Mon texte

Ma thèse se trouve à cheval entre deux mondes : l’intelligence artificielle, dans le monde des ingénieurs, et l’histologie, dans le monde des médecins.

L’intelligence artificielle, on la retrouve partout. Prenez votre smartphone, par exemple. Si vous ouvrez l’appareil photo, un algorithme va détecter les visages et les entourer d’un petit rectangle. Pour créer un tel algorithme, on utilise des millions de photos, sur lesquelles on a noté où se trouvait chaque visage. Plus on a d’images différentes (de face, de profil, de loin, de près…), mieux l’algorithme sera capable de détecter les visages en toute circonstance.

Noter où se trouve un visage sur une photo, c’est facile, tout le monde peut le faire. Mais en histologie, dans le monde des médecins, les choses sont plus compliquées.

L’histologie, c’est ce qui se passe par exemple quand on prélève un morceau de tumeur durant une biopsie ou une opération. On le fixe ensuite dans un bloc de paraffine, qu’on coupe en fines tranches. On ajoute un peu de couleurs, et puis on peut venir regarder au microscope pour estimer la gravité du cancer et prendre les meilleures décisions pour le patient : faut-il opérer plus, faire une chimio, faire des rayons ?

Est-ce que vous pouvez dire quel type de cancer se trouve sur cette image ? Probablement pas. Les cellules cancéreuses ne portent pas de pancarte indiquant leur niveau de gravité. Les indicateurs sur lesquels se basent les médecins sont souvent subjectifs, et le désaccord entre experts est courant.

Produire et annoter les images histologiques prend du matériel spécialisé, des personnes expérimentées, et beaucoup de temps. On doit donc travailler sur des bases de données réduites, où les annotations sont incertaines, voire contradictoires d’un expert à l’autre.

Pour appliquer les techniques d’intelligence artificielle au monde de l’histologie, nous avons donc développé des méthodes qui permettent à nos algorithmes d’apprendre malgré les données imparfaites, et à donner des résultats utiles pour la recherche et le diagnostic.

Il faut aussi se poser la question de comment on peut évaluer nos résultats. Si je teste un algorithme qui détecte des visages, je peux prendre une série de photos et compter le nombre d’erreurs. Mais qu’est-ce qu’une « erreur » lorsque même les meilleurs experts ont des avis différents ? Là aussi, nous avons dû développer des méthodes qui tiennent compte de cette incertitude, et qui nous permettent de mieux évaluer si un algorithme est plus intéressant qu’un autre.

La rencontre du monde de l’ingénieur et du monde de la médecine apporte beaucoup des deux côtés. Le développement de nouvelles méthodes et de nouveaux algorithmes pour les uns ; la possibilité de faciliter le travail des médecins, et d’améliorer la qualité des soins proposés aux patients pour les autres.

Venant du côté des ingénieurs, c’est une rencontre qui n’est pas toujours facile. Le monde médical est compliqué, et réussir à s’adapter à cette complexité est toute la difficulté, et aussi pour moi tout l’intérêt, de ma thèse.

Bitcoin et médias: La Libre Belgique et bit4you

Suite (18/3/2022).

Il est difficile de ne pas voir une certaine responsabilité médiatique dans la vaste arnaque que sont les cryptomonnaies, NFTs, et autres “révolutions” de la blockchain. En traitant bien souvent les cryptomonnaies comme “un investissement” (risqué, certes, mais légitime) dont on rapporte les montées et descentes comme si c’était une action cotée en bourse, ils leur donne une aura de respectabilité qui aide à recruter les nouvelles générations d’investisseurs… qui se retrouvent bien souvent les cibles de la prochaine arnaque, ou simplement les victimes de la nature légèrement… “pyramidale” de l’investissement.

Au vu de la vaste quantité d’argent sale au cœur de cette “crypto-économie”, il me semble particulièrement important pour les médias de s’assurer que, dans leurs propres transactions avec le milieu, ils sont irréprochables et au-dessus de tout conflit d’intérêt. Ce qui m’amène à La Libre Belgique et à la société bit4you.

La Libre Belgique a attiré mon attention par leur couverture particulièrement positive et constante des cryptomonnaies. C’est peut-être une impression personnelle, mais je les vois plus que la plupart des autres médias francophones diffuser chaque montée du prix, et offrir une tribune à des entrepreneurs en blockchain et cryptomonnaies.

Avec parfois, me semble-t-il, un léger flou entre le contenu publicitaire et le contenu journalistique. Parce que La Libre publie des “publireportages”, contenu sponsorisé prenant le format d’un article “normal”. Par exemple: cette série de 6 articles “#Décrypto”. Ces articles sont clairement marqués comme “contenu de partenaire” et “PUBLICITE”, mais ils se retrouvent catégorisés dans la section “Placements et marchés” du site et sont écrits comme des articles “informatifs”. Plus récemment, on a ces articles “Le bitcoin, un nouvel eldorado pour les jeunes” et “Les jeunes investisseurs“, eux aussi marqués “publireportage” et avec une note indiquant qu’il s’agit d’un contenu publicitaire à la fin, mais visuellement absolument identiques à tous les articles “légitimes” (et aussi écris dans un style “neutre” qui cherche clairement à donner l’impression qu’il s’agit d’articles et pas de publicités).

Cette limite floue entre “contenu journalistique” et “publicité” est déjà un peu dérangeante, mais jusque là “ça peut aller”. Mais voici où les choses deviennent un peu plus franchement problématiques. Ces contenus publicitaires proviennent tous des “bit4you“, une plateforme d’échange de cryptomonnaies basée en Belgique et dirigée par un certain Marc Toledo.

Et, en même temps que La Libre se fait payer pour diffuser les contenus publicitaires de bit4you, ils diffusent aussi des “vrais” articles faisant les louanges de cette même société. Voir aussi ici et ici. Aucun de ces articles ne sont des publicités, mais ils mettent clairement en avant une société en particulier, et donnent largement la parole à Marc Toledo qui se retrouve de facto “l’expert” de prédilection sur les questions de cryptomonnaies pour le journal.

La relation entre La Libre et bit4you est donc trouble: d’un côté, c’est une relation commerciale, où bit4you paie La Libre pour y placer son contenu publicitaire. D’un autre côté, c’est une relation journalistique, où La Libre interview Marc Toledo en tant qu’expert pour alimenter du contenu informatif.

Est-ce illégal ou une faute professionnelle? Honnêtement, je n’en sais rien du tout. Mais ce qui me semble très clair, c’est que le milieu des cryptomonnaies est pourri jusqu’à l’os, est remplis d’arnaques et de sociétés à l’honnêteté plus que douteuse, et que face à ce genre de milieu les médias devraient faire preuve d’une attention particulière à éviter de se retrouver dans des situations de potentiel conflits d’intérêt, qui les rendraient (éthiquement si pas juridiquement) complices des malversations en tout genre qui font tourner cette “crypto-économie”.

Stop à la blockchain

J’ai partagé il y a peu l’excellente vidéo de Dan Olson “Line Goes Up – The Problem with NFTs”, que vous pouvez retrouver ici: https://www.youtube.com/watch?v=YQ_xWvX1n9g. C’est long, mais ça en vaut la peine. Dan couvre le sujet de Bitcoin, des “smart contracts”, des NFTs et du “Web 3.0”, et il y a clairement de quoi tenir les 2 heures qu’il prend pour tout expliquer.

C’est un sujet dont j’ai déjà eu envie de parler, mais sans jamais trouver un angle qui me convenait. Il y a juste trop de choses à couvrir. Les arnaques pures et simples, l’impact environnemental, l’inadéquation du bitcoin en tant que monnaie… Dan Olson réussit je trouve assez bien (en tout cas mieux que dans tous mes brouillons!) à trouver le juste milieu entre “assez exact” et “assez compréhensible”.

Il y a cependant un point que j’aimerais encore couvrir de mon côté. Même si on ignore l’aspect écologique, et l’aspect économique, et les arnaques… la blockchain reste fondamentalement une technologie absolument inutile dans l’écrasante majorité des secteurs pour lesquelles elle est aujourd’hui régulièrement proposée. Allons-y point par point.

1. L’intérêt théorique

L’intérêt théorique de la blockchain (par rapport à n’importe quel autre moyen de stocker des données) est dans son immutabilité (une fois qu’on met quelque chose dedans, on ne peut plus le changer), dans sa décentralisation (de multiples copies du contenu sont dispersées dans des ordinateurs différents), et dans l’absence d’entité de confiance (c’est-à-dire que le réseau entier est “garant” de l’intégrité des données via un processus de consensus, pas une ou plusieurs personnes désignées à qui il faut donc “faire confiance”).

C’est ce dernier point en particulier qui distingue réellement la blockchain d’autres systèmes. L’immutabilité peut se faire facilement dans une base de données standard si on peut fait confiance dans le fait que l’entité qui administre cette base de donnée l’a bien configurée. La décentralisation, elle non plus, ne nécessite pas de blockchain si on peut s’accorder sur une (ou quelques) entités de confiance qui “décident” de qui a raison si plusieurs versions de la base de donnée se trouvent en conflit.

2. Ce qu’on peut stocker

Une limitation fondamentale d’un système “décentralisé” et “immuable”, c’est que l’on multiplie dramatiquement les ressources nécessaires pour stocker les données. Tout ce qu’on veut mettre sur la blockchain doit être envoyé à tous les ordinateurs qui participent au réseau, et doit y être stocké. Si on limite le nombre de participants au consensus, on transforme nécessairement ces participants en “entités de confiance”. Si on augment le nombre de participants, on multiplie la bande passante et l’espace de stockage nécessaire à faire fonctionner la base de données.

Comme le système est immuable, on ne peut jamais supprimer une donnée une fois qu’elle est entrée. Même si elle était erronée, même si on est certain qu’elle ne sera plus jamais utilisée: elle doit rester stockée chez tous les participants du réseau. Si on n’a pas toutes les données, on ne peut pas garantir l’intégrité de la blockchain, et on ne peut donc pas participer au consensus.

Le résultat est que toutes les blockchains ne stockent que des données textuelles de petite taille. On ne stocke pas d’images, de vidéos, de musique, ou même de PDFs ou de larges fichiers de texte sur la blockchain.

3. Si on veut stocker une autre ressource numérique, la blockchain devient inutile

Le moyen typiquement utilisé dès qu’on veut stocker autre chose que du texte et tout de même utiliser la blockchain, c’est d’utiliser celle-ci pour stocker des liens vers une ressource extérieure. Par exemple, dans les NFTs, la blockchain contient des petits programmes (du texte, donc) qui font un lien entre le propriétaire du NFT et, typiquement, une URL vers une image qui est stockée quelque part. La blockchain devient donc un “index” qui peut diriger vers les bonnes ressources.

Et comme l’image est stockée quelque part, celui qui contrôle ce “quelque part” doit nécessairement être considéré comme une entité de confiance. S’il supprime le fichier vers lequel la blockchain pointait, ou s’il change l’adresse de son serveur, la blockchain ne peut rien faire pour l’en empêcher. Pire: comme la blockchain est immuable, on ne peut même pas décider de mettre une copie du fichier ailleurs et de modifier le lien. Modifier, c’est interdit. La blockchain dit que le fichier est là. S’il n’y est plus: pas de bol. Des hébergements “décentralisés” comme IPFS permettent de rendre le système un peu plus robuste, mais cela ne change rien au fond du problème: la blockchain en elle-même n’a pas le contrôle sur les biens qu’elle est supposée gérer.

Dès lors que celui, celle ou ceux qui stockent les ressources sont des entités de confiance, il est infiniment plus efficace qu’elles conservent aussi l’index, qui peut du coup être stocké dans une base de donnée traditionnelle qui ne consomme pas l’électricité d’une nation.

4. Si ce qu’on veut stocker est en lien avec le monde non-numérique, la blockchain devient inutile.

Dans les cas typiques de “blockchain qui vont révolutionner le monde”, on a régulièrement des idées qui ont trait à des “supply chains” (suivons le produit du producteur au consommateur, sur la blockchain!), ou à des certificats de propriété (remplaçons les notaires par une blockchain!), ou à diverses données sensibles (votre dossier médical sur la blockchain!).

L’idée derrière l’utilisation de la blockchain, dans tous ces cas, est de se prémunir contre une modification malveillante des données. On ne veut pas que quelqu’un vienne traficoter la base de donnée pour soudain se prétendre propriétaire d’une maison, ou que le produit a été livré quelque part.

Là encore, cependant, la blockchain est totalement inadaptée. Oui, il peut y avoir de gros soucis avec des données erronées dans toutes ces applications. Mais ces erreurs ne viennent pas de hackers qui se glissent sur le serveur et modifient les données avant de s’enfuir vers le soleil couchant. Elles viennent presque toujours, simplement, de l’encodage. Dès qu’on parle de données du “monde réel”, on a nécessairement pour toute donnée quelqu’un, quelque part, qui va être responsable de traduire le “monde réel” en sa représentation numérique. Scanner un QR code, entrer un numéro de client, signer un reçu électronique… S’il y a manipulation (ou erreur de bonne fois), c’est toujours à cet endroit là que ça se passe. Et la blockchain n’a évidemment aucun moyen de valider que ce qui est entré correspond à la réalité. La blockchain ne peut pas savoir si le produit “reçu” est bel et bien présent là où le QR code a été scanné.

C’est le problème du “Garbage In, Garbage Out”: si on rentre des données pourries dans le système, on en sortira des données pourries. Le problème est même aggravé par la blockchain car, à nouveau, immuabilité = impossible de corriger si c’est une vraie erreur. Maintenir une blockchain “synchronisée” avec le monde réel est inutilement compliqué. Et dans tous ces cas de figures, on a de toute façon quelque part une “autorité” qui sera chargée de résoudre les conflits lorsqu’il y a un doute. À nouveau, tout le monde gagnerait à ce que cette autorité gère directement la base de données… rendant la blockchain obsolète.

5. Qu’est-ce qu’il reste, alors?

La blockchain peut se justifier si on a une application où l’on ne doit stocker que des données qui prennent peu de place et qui sont entièrement numériques (donc qui existent indépendamment de tout objet réel).

Qu’est-ce qui remplit ces critères? Globalement: le Bitcoin (et ses divers successeurs). Ce n’est pas pour rien que, si “la blockchain” en tant que telle date du début des années 90, Bitcoin reste aujourd’hui la seule application réellement “fonctionnelle” du concept. Et elle fonctionne bien mal.

Certains diront que les “smart contracts” d’Ethereum sont fondamentalement une application différente, mais je pense que c’est tirer trop loin la définition de “fonctionnelle”. Tous les projets autour de ces smart contracts souffrent des défauts énoncés ici, et sont au mieux des mauvaises solutions à de réels problèmes. Et, dans la majorité des cas, ils sont une excuse pour une quelconque bulle spéculative comme les NFTs, et n’ont aucune “fonctionnalité” à proprement parler.

David Rosenthal explique assez bien ici pourquoi toute blockchain décentralisée finit nécessairement en bulle spéculative. En résumé: pour que le système soit décentralisé, il faut qu’il soit difficile (pratiquement impossible) d’attaquer le système de “consensus” en contrôlant plus de la moitié des participants. Pour cela, il faut que la participation ait un coût élevé (c’est le concept du “Proof-of-Work”). Pour que des gens veuillent quand même participer, il faut que ce coût soit au final couvert par une rémunération. Pour que le système reste décentralisé, il faut que cette rémunération soit générée “automatiquement” par le système (si on a une autorité centrale qui distribue des gains aux “bons” participants, elle a de facto le contrôle du système): on doit donc avoir une cryptomonnaie. Comme les coûts de participation (matériel, électricité…) ne sont a priori pas payables dans cette cryptomonnaie, les participants vont nécessairement vouloir écouler leur cryptomonnaie et la vendre contre de la vraie monnaie. Pour qu’ils puissent la vendre, il faut que des gens achètent. Et la seule raison qui va pousser assez de gens à acheter pour que le système continue à tourner, c’est l’espoir que la valeur monte. Les seules possibilités sont donc: le système se plante faute d’acheteurs, ou on a une bulle spéculative jusqu’à ce que le système se plante faute d’acheteurs.

Conclusions

Quelques remarques pour terminer:

  • Oui, tout cela n’empêche pas qu’on puisse “se faire de l’argent” avec le Bitcoin, les NFTs, et tout le cryptobazar. C’est une bulle: tant qu’elle n’a pas explosé, il y a certainement moyen d’en profiter. J’aurais tendance à dire que ce n’est pas très éthique, et que les risques de tout perdre et/ou de participer malgré soi à quelque chose d’illégal sont un peu trop grands, mais chacun son truc.
  • Je n’ai jamais possédé la moindre cryptomonnaie et je ne compte pas en posséder un jour. Je n’ai donc aucun intérêt financier dans un sens ou dans l’autre. J’ai par contre un intérêt dans le fait que nos ressources technologiques et énergétiques servent à des choses moins dommageables pour le monde que de faire tourner des blockchains.
  • “Mais en vrai, Ethereum va quitter le Proof-of-Work et on peut faire de la blockchain qui ne détruit pas l’environnement, et en plus grâce aux blockchain on développe l’énergie solaire, etc., etc.” Non. Sorry, mais tout ça c’est du bullshit. Même à un coût environnemental réduit (et Ethereum “va quitter le Proof-of-Work” très bientôt depuis sept ans, donc la crédibilité est assez limitée), cela reste un énorme gaspillage. Quand aux sources d’énergies, les “mineurs” vont là où l’énergie est la moins chère. Parfois, c’est de l’énergie solaire ou géothermale, souvent c’est du charbon. Même si l’énergie était 100% verte, ce serait tout de même de l’énergie mieux utilisée ailleurs.
  • Y-a-t’il des utilisations légitimes et utiles de la blockchain? Certainement… pour certains de ces aspects, qui ne sont pas nouveaux et pas uniques à la blockchain. Il y a certainement des idées intéressantes en cryptographie et en gestion de systèmes décentralisés liés à des travaux sur la blockchain. Mais le milieu “de la crypto” est devenu tellement toxique que, à ce stade, toute association au concept de blockchain rend une idée suspecte. Il est temps de balayer tout, de jeter toutes les cryptomonnaies à la poubelle, et de passer à autre chose.

Ressources supplémentaires

Dr. Elisabeth Bik, manipulations d’images, et controverses scientifiques.

Le Dr. Elisabeth Bik est une microbiologiste qui s’est spécialisée dans la détection de manipulations potentiellement frauduleuses dans les articles scientifiques, et en particulier dans les images. Ces manipulations sont parfois très subtiles. Dans l’image ci-dessous, par exemple, on retrouve un exemple de ce que le Dr Bik appelle une duplication de “catégorie 2”, c’est-à-dire une image dupliquée avec un repositionnement.

Annotations par Elisabeth Bik sur PubPeer, illustration dans Yan et al [1].

Ce qu’on peut voir ici, avec de bons yeux, c’est que deux images de cette figure représentent clairement le même morceau de tissu cellulaire, légèrement décalé. Le problème est que, selon la méthodologie de l’article, ces deux images devraient normalement provenir de deux souris différentes. Un tel degré de similitude serait en ce cas une sacrée coïncidence.

Cela signifie soit qu’il y a eu un moment dans le processus un mélange qui a été fait dans la labellisation et l’identification des images (autrement dit: leurs fichiers images ne sont pas correctement reliés aux échantillons), soit qu’au moment de construire les figures il y a eu un “léger raccourci” qui a été fait, et que les auteurs ont décidés d’utiliser une image qui illustrait peut-être mieux leur propos et le résultat de leurs mesures, même si l’image ne correspondait pas aux labels associés. Dans les deux cas, cela rend très douteux les résultats de l’expérience, et a fortiori les conclusions de l’article.

Ce genre de fautes, le Dr. Bik en trouve des tonnes. Ses trouvailles se retrouvent sur PubPeer, et elle les publie régulièrement sur son compte Twitter. Dans de nombreux cas, les manipulations sont beaucoup plus flagrantes, et il est difficile de trouver une autre explication à la figure que “Photoshop”. Par exemple, ici:

Image partagée par Elisabeth Bik sur Twitter.

Dans la seconde ligne (Beta-Actin), les deux premières bandes (M et 1) sont l’image miroir des deux suivantes (2 et 3). La coupure est clairement visible, et c’est quelque chose qui ne pourrait juste pas apparaître naturellement dans ce genre d’images.

Jusque là, c’est embêtant mais ce n’est pas non plus un drame. Des articles sont publiés avec des erreurs, d’autres scientifiques trouvent ces erreurs, c’est comme ça que la science avance. Là où les choses deviennent plus inquiétantes, c’est quand on regarde ce qui se passe après que les erreurs soient identifiées.

Science et sociétés d’édition

En 2016, Bik et deux collègues ont publiés une étude dans laquelle elles ont analysé les images de plus de 20.000 articles publiés entre 1995 et 2014, et ont trouvé que prêt de 4% d’entre eux contenaient au moins une image problématique [2]. Mais lorsque ces erreurs sont rapportées aux journaux concernés, elles sont souvent entièrement ignorées. Dans certains cas, malgré des manipulations flagrantes, le journal demande juste aux auteur·rice·s de fournir une figure corrigée, sans que les résultats soient ré-examinés. Il faut souvent qu’un article attire une attention un peu trop soutenue pour que les éditeurs du journal se décident à envisager une rétraction.

Pourquoi les éditeurs (et les reviewers) ne font-ils pas correctement leur boulot? Même en l’absence de malversations ou de conflits d’intérêt, il reste un problème majeur dans le système.

Il y a en effet un conflit entre les besoins de la communauté scientifique, et les besoins des sociétés d’édition. La méthode scientifique est fondée sur une certaine “auto-régulation”: les résultats publiés doivent être reproductibles et vérifiables. Lorsque des erreurs sont découvertes, elles doivent être corrigées. Lorsque des manipulations sont découvertes, les résultats deviennent immédiatement suspects et doivent être rétractés.

Mais pour les sociétés d’édition, tout cela nécessiterait de mettre de sérieuses ressources dans le “contrôle de qualité”, ce qui va directement à l’opposé de leur objectif principal qui est, nécessairement, d’engranger un maximum de profit. Les éditeurs scientifiques ne sont (généralement) pas des ASBL. Springer Nature, Elsevier, Taylor & Francis… les plus grandes sociétés d’édition sont aujourd’hui des multinationales avec des revenus qui se comptent en milliards de dollars. Et la majorité des publications sont concentrées dans seulement une poignée de sociétés (5, selon une étude de 2015) [3].

Aujourd’hui, lorsqu’on publie un article, on a un processus dans lequel les auteurs payent le journal pour que leur article y apparaisse, les reviewers qui évaluent la qualité de l’article sont bénévoles, les éditeurs qui recrutent ces reviewers et prennent les décisions finales concernant la publication sont également souvent bénévoles (ou peu payés), et les universités payent des fortunes pour avoir accès aux articles, qui sont sinon souvent vendus “à la pièce” pour des tarifs de l’ordre de 30 à 40 dollars.

De nombreux journaux “offrent” maintenant la possibilité aux auteurs de publier en “Open Access”, pour que l’article soit accessible gratuitement à tous… et demandent pour ce faire aux auteurs de payer un tarif plus élevé, souvent de l’ordre de plusieurs milliers de dollars, jusqu’à plus de 10.000 dollars dans des cas extrêmes comme celui de Nature Neuroscience. Ce modèle d’Open Access fait que seul les laboratoires ayant un certain budget peuvent se permettre de rendre leur recherche accessible à tous (en dehors des solutions “alternatives” de diffusion comme sci-hub et autres, évidemment).

À l’ère de l’édition numérique, le travail de la société d’édition est devenu assez limité: repasser un coup sur l’article pour corriger la mise en page, et héberger des PDFs sur un serveur. Faire de “l’après-vente” sur ces articles, cela demanderait un travail supplémentaire qui retomberait soit sur des éditeurs bénévoles et déjà surchargés, soit nécessiterait pour la société d’édition de payer quelqu’un pour le faire. Et ça, ça couperait dans la marge de profit.

Elisabeth Bik note un cas particulièrement cynique (corrigé depuis) où Springer vendait un article pour $40 sans indiquer nul part qu’il avait été rétracté depuis plus de 15 ans… et si l’on tombait via un moteur de recherche comme PubMed sur la notice de rétraction, on pouvait également obtenir celle-ci… pour $40 supplémentaires.

La “symbiose” entre la communauté scientifique et les maisons d’édition ressemble de plus en plus à une relation parasitique où les scientifiques produisent l’essentiel du travail, et les sociétés d’édition récupèrent l’entièreté des bénéfices. Et rétracter des articles, ce n’est pas tellement bon pour le business.

Traders et Marseillais

Le plus souvent, les suites données aux remarques du Dr Bik et des autres contributeurs réguliers de PubPeer ou RetractionWatch (lorsque ce n’est pas juste du silence) restent fermement dans la sphère scientifique. Corrections, commentaires sur les corrections, rétractions: le processus est lent et frustrant, et souvent dysfonctionnel, mais les principaux acteurs des débats ont le mérite de rester dans le cadre prévu.

Et puis parfois, les choses débordent un peu.

Deux cas en particulier sortent du lot: celui de la firme pharmaceutique Cassava Sciences et, bien entendu, celui de l’inévitable IHU-Marseille du Professeur Didier Raoult.

Cassava Sciences: quand les traders s’en mêlent

Cassava Sciences développe un possible traitement pour la maladie d’Alzheimer. D’après les publications de la société, les essais cliniques “Phase 2” montrent un effet bénéfique sur les capacités cognitives pour leur médicament. (Pour résumer très grossièrement: la phase 1 cherche à déterminer avant tout si un médicament est dangereux, la phase 2 s’il a un effet bénéfique, la phase 3 si cet effet est meilleur que le meilleur traitement actuellement recommandé, et la phase 4 observe les effets long terme après que le médicament ait été mis sur le marché.)

En août 2021, un rapport a été envoyé à la FDA demandant l’arrêt des essais cliniques, notant une série de possibles manipulations dans les données et images publiées. Le Dr Bik détaille de son côté sur son blog sa propre analyse, après avoir lu le rapport et les articles originaux. Elle relève effectivement une série de possibles manipulations d’image.

Notons que quand on parle ici de “manipulation”, il ne s’agit pas nécessairement de “malversation”. Une manipulation peut être simplement faite pour respecter des contraintes de places, ou des besoins de clarté lors de la publication, et avoir été réalisée “de bonne foi”. Mais les explications fournies à ce jour par Cassava Sciences n’ont pas vraiment convaincu les experts.

Analyse de certaines figures par un utilisateur anonyme sur PubPeer mettant en évidence de possibles manipulations dans un article de Wang et al [4], avec notamment des discontinuités étranges dans le “bruit de fond” de l’image qui pourraient indiquer que certaines portions ont été découpées et viennent d’une autre image.

Une notice a été publiée sur au moins l’un des articles incriminés avertissant qu’une enquête était en cours… menée par l’Université où les auteurs de l’étude sont affiliés, ce qui ne sera peut-être pas suffisant pour éteindre les doutes.

Ce qui fait sortir l’affaire Cassava Sciences du lot, cependant, c’est que la quasi-entièreté des discussions sur le sujet est polluée par une bataille de traders. Parce qu’à la base de toute l’histoire, il y a la cotation en bourse de Cassava, et un grand conflit entre ceux qui ont pariés “à la hausse” et ceux qui ont pariés “à la baisse.” Après des premiers résultats d’essais cliniques “phase 2” décevants, le cours avait chuté. Quelques mois plus tard, ils reviennent sur leurs résultats et publient cette fois-ci des effets positifs remarquables… et l’action remonte. Les investisseurs ayant parié “à la baisse” crient à la fraude. Ceux ayant parié “à la hausse” défendent les résultats corps et âme (et portefeuille).

Sans être de mon côté un expert dans le domaine de la recherche médicamenteuse, je le suis suffisamment dans celui de l’analyse d’image pour voir que certains des problèmes relevés par le Dr Bik sont indéniables. Il y a eu des manipulations d’images, et sans une transparence totale de la part de la firme pharmaceutique et du laboratoire de recherche qui a effectué les expériences, on ne peut juste à ce stade pas faire confiance en leurs résultats.

Et s’il s’avère que ces manipulations ont une explication bénigne, et que les résultats sont effectivement prometteurs, tant mieux ! Un médicament réduisant les effets de la maladie d’Alzheimer serait formidable. Mais on ne peut pas mettre sur le marché ce médicament sans avoir levé les doutes qui subsistent aujourd’hui.

Gautret, Raoult, et l’excellence marseillaise

En mars 2020, Philippe Gautret et ses collègues de l’IHU-Méditerranée Infection, sous la direction de Didier Raoult, publient les fameux “essais cliniques” sur l’hydroxychloroquine pour traiter le COVID-19 [5].

Cet article est truffé de problèmes. Elisabeth Bik les détaille mieux que moi, mais en résumé on a:

  • Des patients “contrôle” (sans hydroxychloroquine) recrutés dans d’autres centres que les patients “test” (qui étaient tous suivis à l’IHU), introduisant immédiatement des facteurs de confusion dans toute analyse des résultats.
  • Une sélection non-aléatoire des patients “contrôle” et “test”, introduisant un possible biais de sélection.
  • Des protocoles de test différents selon le centre pour déterminer la charge virale.
  • Des patients qui changent de groupe ou qui sont retirés de l’étude lorsque les résultats ne vont pas dans le sens voulu (les patients qui vont en soins intensifs ou meurent avec le traitement hydroxychloroquine sont retirés de l’étude, mais les patients ayant des antécédents rendant le traitement inadéquat sont mis dans le groupe contrôle alors qu’eux devraient être retirés).
  • Des patients dont on a pas de données pour le “6e jour” du traitement mais à qui on attribue tout de même un résultat positif ou négatif selon les dernières données disponibles, malgré le fait qu’on voit régulièrement des résultats fluctuant d’un jour à l’autre chez d’autres patients.
  • Un énorme conflit d’intérêt non déclaré dans le processus de peer-review, avec l’un des auteurs de l’étude qui est aussi éditeur en chef du journal où elle est publiée. Avec en prime des délais extrêmement courts entre la réception du manuscrit et la date de publication (publié le lendemain de la réception, alors que la plupart des articles mettent des mois avant de recevoir une réponse positive ou négative).

Bref, cet article n’aurait clairement jamais dû être publié. Et vu le total refus par Raoult et compagnie d’accepter les critiques sur leur manuscrit, cela a forcément attiré l’attention sur leurs autres publications. Est-ce que toute la production scientifique de l’IHU-Marseille est à remettre en cause? En tout cas, Bik a depuis passé en revue de nombreux autres articles de la même équipe, et a relevé des problèmes de manipulation d’images, et de pratiques éthiques discutables dans des expériences sur des personnes sans domicile fixe et sur des populations africaines. Avec des publications qui sont très souvent faites dans des journaux où des membres de l’IHU occupent des positions éditoriales.

Peu désireux de se défendre sur le plan scientifique (il faut dire que, si pour Cassava il y a un réel doute sur la validité des résultats, il n’y a ici pas vraiment de défense possible), Raoult, son collègue Éric Chabrière et leurs partisans répondent aux critiques par du harcèlement et des menaces, et finalement à un dépôt de plainte contre le Dr Bik.

Notons que l’article de Gautret à l’origine de toute cette controverse n’a jamais été rétracté. Une déclaration de l’International Society of Antimicrobial Chemoterapy, qui est co-propriétaire de la revue avec Elsevier, note que l’article ne répond pas aux attentes de qualité de l’association, mais aucune action concrète n’a été entreprise par le journal.

Conclusions

Il y a pour l’instant une certaine crise de confiance du “grand public” vis-à-vis des scientifiques.

Il y a aussi une crise de confiance des scientifiques envers l’industrie de l’édition.

Il y a derrière ces crises un certain nombre de fantasmes complotistes. Il y a aussi des réalités inquiétantes.

Je suis convaincu que l’écrasante majorité des scientifiques cherchent à produire un travail de qualité. Mais le système académique aujourd’hui ne favorise pas la qualité. Pour avancer dans leur carrière, les scientifiques doivent publier, idéalement publier dans des “bonnes” revues, et idéalement publier beaucoup. Cela donne aux sociétés d’édition de ces revues un pouvoir immense, et cela incite les scientifiques à prendre des raccourcis méthodologiques.

Les journaux de leur côté n’hésitent pas à recruter des reviewers (bénévoles) de manière agressive pour augmenter la quantité d’articles qu’ils peuvent traiter, quitte à prendre des reviewers de moindre expertise.

Certaines initiatives sont de bonne augure pour le futur. Certains journaux, par exemple, cherchent maintenant au moins à rendre transparent le processus de peer-review, en nommant les reviewers qui ont participé au process et en publiant leurs commentaires. Cela permettrait déjà de plus facilement identifier les articles qui auraient pu bénéficier d’un “traitement de faveur” éditorial. Des journaux entièrement “open access” et avec des tarifs raisonnables de publication voient aussi régulièrement le jour.

Mais ils doivent faire face à une énorme inertie: pour qu’une publication ait de la valeur dans un CV académique, elle doit être faite dans un “bon journal”. Mais pour qu’un journal devienne “bon”, il faut que de bons chercheurs y publient leurs résultats. On a donc un cercle vicieux: les chercheurs vont toujours d’abord viser les journaux bien établis, et ne proposer aux nouveaux venus que les articles qui ont été refusés par des publications plus prestigieuses. Ceux-ci se retrouvent donc avec un contenu de moindre qualité, justifiant leur statut de “mauvais journal”, et le cycle continue.

Le travail d’Elisabeth Bik est révélateur des faiblesses du système actuel, et montre l’importance de voir le “peer review” autrement. Un processus continu, où auteurs et éditeurs peuvent être amené à rendre des comptes lorsque des problèmes majeurs sont identifiés. Où l’on n’accepte pas que des raccourcis soient pris dans des domaines aussi critiques que les essais cliniques sous prétexte que des investisseurs aimeraient bien voir une courbe monter ou descendre, ou qu’un directeur d’institut estime que ses travaux n’ont pas besoin d’être revus par ses pairs (après tout, c’est lui l’élite).

On ne peut qu’espérer que la médiatisation apportée par les controverses de Cassava Sciences et de l’IHU vont inspirer d’autres chercheurs à avoir un œil plus critique sur les articles qu’ils lisent, et à contribuer à ce processus continu. On peut aussi espérer que les journaux rendent plus facile l’intégration de remarques du reste de la communauté scientifique auprès des articles publiés, mais là ce n’est clairement pas gagné d’avance.