CYDAC – l’analyse d’image dans les années 60

(Initialement publié dans un thread sur Mastodon, je me suis dis qu’en fait ça pouvait faire un article de blog aussi — donc le voici!)

Une des parties de ma thèse que j’ai trouvée la plus fun à écrire est la partie plus “historique” sur les prémisses de l’analyse d’image médicale. En particulier, une fascinante série d’articles des années 60 sur le système CYDAC, une des premières tentatives d’analyser automatiquement des cellules et des chromosomes au microscope, sous la direction de Mortimer Mendelsohn [1].

Image — Mayall, 1970 [2]

Pas de disques durs ou de clé USB pour stocker les images. Pas vraiment encore de format standard non plus (GIF, PNG, JPG… ne seront inventés que 20 ans plus tard!). La “matrice des valeurs” des niveaux de gris (on ne parle pas encore de “pixels”) est enregistrée sur des bandes magnétiques.

Image — Mendelsohn, 1965 [3]

Cette matrice de valeurs peut être représentées par des symboles pour l’imprimer. On utilise des caractères occupant plus ou moins de surface pour indiquer le niveau d’intensité lumineuse et obtenir une image qui “ressemble” – en plissant les yeux – à la photo. On peut aussi lire la bande magnétique et appliquer à la matrice des opérations mathématiques pour, par exemple, identifier les bords. C’est ce que fait Judith Prewitt, pionnière de l’analyse d’images!

Image — Mendelsohn, 1965 [3]

On tente même déjà d’extraire des statistiques des objets, ce qui permet de représenter chaque image dans un “espace de décision”, que l’on peut tenter de séparer en classes que l’on cherche à reconnaître — ici, les types cellulaires. On a donc dans la “pipeline” de Mendelsohn et Prewitt tous les éléments de l’analyse d’image: acquisition, pré-traitement, extraction de descripteurs, décision dans l’espace des descripteurs. Ce qu’on fait toujours aujourd’hui (sans bande magnétique).

Image — Prewitt, 1966 [4]

Je parle plus souvent d’intelligence artificielle et d’analyse d’image médicale sur mon blog de recherche (en anglais). Si ça vous intéresse d’être au courant de ce que j’y poste, j’ai mis en place une newsletter sur Substack — n’hésitez pas à vous y inscrire!

Sources

[1] Mendelsohn et al., 1964, “Initial approaches to the computer analysis of cytophotometric fields”, Ann. NY Ac. of Sciences.
[2] Mayall and Mendelsohn, 1970, “The mechanical scanner of CYDAC”, The journal of histochemistry and cytochemistry. (5/5)
[3] Mendelsohn et al., 1965, “Computer Analysis of Cell Images”, Postgraduate Medecine.
[4] Prewitt and Mendelsohn, 1966, “The analysis of cell images**”** Ann. NY Ac. of Sciences.

L’affaire Julius Pringles

La mascotte de Pringles s’appelle Julius. Ce n’est pas vraiment un fait intéressant. C’est, au mieux, une petite anecdote bonne à remplir un “Topito” ou un quizz. Mais derrière Julius Pringles se trouve un terrible mensonge, vieux de plus de quinze ans.

23 décembre 2020

Il est 14h58, le 23 décembre 2020.

Sur Wikipedia.fr, un utilisateur non-identifié se connecte depuis un iPhone. Il édite l’article “Pringles” pour y ajouter deux mots : “Julius Pringles”, identifiant ainsi la “mascotte” de la marque. Quelques minutes plus tard (à 15h23), il fait une autre modification, sans lien apparent. Sur la page de “Marcel Duchamp“, il transforme le nom de la mère de Duchamp (Marie Caroline Lucie) en lien hypertexte. Ce seront les deux seules contributions de l’adresse IP 82.250.180.110 à Wikipedia.fr.

Modification de l’article “Pringles” sur Wikipedia.fr, 23 décembre 2020 [source : Wikipedia].

Il n’y a pas de source pour cette information. Mais qui inventerait une chose pareille?

Décembre 2006 – Mars 2007

Sur la version anglophone de l’encyclopédie, l’identité de Mr Pringles est connue depuis beaucoup plus longtemps. Elle apparaît en réalité le 4 décembre 2006. Cette fois-ci, ce n’est pas le fait d’un utilisateur anonyme. Il s’agit de “Platypus222”, Justin Shillock de son vrai nom, éditeur régulièrement actif sur le site.

Dans la section “Trivia” de la page, il rajoute l’information:

The man depicted in the Pringles logo is actually named Julius Pringles.

Là non plus, pas de citation. Pendant un temps, l’information passe inaperçue (combien de gens se préoccupent vraiment de fact-checker la page “Pringles” de Wikipedia ?), mais quelqu’un finit par se poser la question. En février 2007, un utilisateur supprime la ligne… Mais – anonymement cette fois-ci – Shillock ou un comparse la remet, en rajoutant la fameuse mention [citation needed] à côté de l’affirmation.

Le mystère est insoutenable. Non ? [source : Wikipedia].

Dans les semaines qui suivent, l’information est plusieurs fois supprimée, mais Platypus222 veille au grain : chaque fois, un utilisateur anonyme persiste et réaffirme l’identité de Julius. Il finit par réussir à la glisser dans l’introduction, où elle passera visiblement plus facilement inaperçue.

2012 : Kellogg’s

Gloire à Kellogg’s, Leader des Céréales ! [source : Kellogg’s 2012 annual report]

En 2012, la marque Pringles, jusque là détenue par Procter & Gamble, est rachetée par Kellogg’s. Dans le rapport d’activité annuel de la société, la liste des “trademarks” détenus par Kellogg’s inclus “Mr. P or Julius
Pringles
for Pringles potato crisps and sticks”.

Pourtant… il s’agit là de la première fois que “Julius” est officiellement associé à Pringles, et aucune trace d’un trademark enregistré officiellement n’a été trouvée. Mais Kellogg’s, comme tout le monde, se fie visiblement à Wikipedia. Si l’encyclopédie dit que la mascotte s’appelle Julius, c’est que ça doit être vrai.

Mars 2022 : la vérité éclate

Le 22 mars 2022, sur Twitter, un certain @Platypus222 affirme avoir créé Julius Pringles de tout pièce. Julius est un canular qui, après avoir passé des années discrètes sur Wikipedia, s’est finalement transformé en réalité.

J’accuse l’homme-ornithorynque, armé d’un clavier, sur Wikipedia. [source : Twitter]

L’histoire se propage rapidement. Des articles fleurissent résumant l’affaire [Mashable]. Justin Shillock, Platypus Man, devient brièvement une star. Puis tout se tasse, évidemment (à croire qu’il y a des choses plus importantes qui se passent dans le monde en mars 2022). Sur Wikipedia en anglais, l’origine réelle de la mascotte se retrouve maintenant mentionnée. La version française, elle, n’a guère bougé depuis décembre 2020. Le logo a été mis à jour. La page a été retirée de la catégorie “Procter & Gamble” et rajoutée à celle de “Kellogg’s”. Des oignons ont été rajoutés à la crème aigre dans les recettes classiques. Julius reste là, simplement, information non sourcée, pas remise en question.

Il a perdu des cheveux, mais sa moustache reste glorieuse [source : Wikipedia]

La citogénèse

“Citogenesis”, un terme inventé par Randall Munroe dans son webcomic xkcd en 2011 [xkcd.com], décrit un phénomène d’auto-génération de “citations fiables”, observé de façon malheureusement régulière sur Wikipedia. Le mécanisme est simple : quelqu’un, par malice ou par erreur, met une fausse information sur Wikipedia. Un journaliste, ou autre “source fiable”, pressé de publier un article et à la conscience professionnelle défaillante, utilise cette information sans la vérifier. Un éditeur de Wikipedia y voit le fait non sourcé, cherche rapidement sur Google, et trouve l’article du journaliste. Il l’ajoute comme source. La boucle est bouclée, le fait est sourcé.

[Source: xkcd.com]

L’affaire Julius Pringles est intéressante parce que presque toutes les étapes de la supercherie sont visibles, publiques. On peut retracer, minute par minute, la façon dont le canular s’est lentement transformé en réalité.

Et c’est ce qui fait de Wikipedia, potentiellement, une source extrêmement fiable… si on l’utilise correctement. On peut y retracer le chemin de l’information comme nulle part ailleurs. S’agit-il d’un ajout récent? Est-il sujet à discussion entre les éditeurs? A-t-il été sourcé à un moment? Tout cela est publiquement disponible. Et si au bout du fil on ne trouve aucune source antérieure à l’apparition de l’information sur Wikipedia, c’est peut-être bien parce qu’on a la chance d’être témoin de la naissance d’une citation…

La carte et la variole

Une carte illustrant les pays où la variole du singe a été détectée fait tout doucement le tour des réseaux complotistes et/ou antivax. Son origine semble être différents tabloïds anglais, comme Metro ou le Daily Mail.

Version diffusée sur Twitter par Bertrand Scholler [Source], initialement publiée par le Daily Mail [Source]

Si l’on suit le raisonnement qui accompagne généralement l’image, on est supposé voir cette carte et se dire: tiens, c’est curieux, pourquoi la variole du singe touche-t-elle principalement les pays occidentaux, ceux “où la population a été la plus vaccinée“. Serait-ce le plan du nouvel ordre mondial: nous affaiblir avec un vaccin pour mieux nous assommer après avec un nouveau virus?

Mais avant de chercher à interpréter la carte, une question fondamentale doit être résolue… ils sortent d’où, exactement, ces chiffres?

Une constante des partages complotistes sur les réseaux sociaux, c’est de ne pas citer leurs sources: pas moyen de vérifier les chiffres par là. Le Daily Mail n’est pas particulièrement connu pour sa rigueur scientifique non plus, et on peut supposer que ce n’est pas eux qui ont compilé les cas. Mais si le Daily Mail ne cite pas directement la source pour la carte, on la retrouve facilement à travers tout leurs articles : sans surprise, il s’agit de l’OMS.

Et à première vue, l’OMS semble bien confirmer ces chiffres. Ils ont même leur propre carte:

Version de l’OMS. [Source]

Mais… il y a une petite subtilité. Le texte qui accompagne cette carte indique qu’il s’agit de la distribution géographique des cas détectés dans les pays où le virus n’est pas endémique. Si on regarde les rapports hebdomadaires de l’OMS sur les différentes épidémies sévissant sur le continent africain, on peut par exemple voir qu’entre le 6 mars 2022 et le 17 avril 2022 il y a eu 448 cas recensés en République Démocratique du Congo, principal foyer de contamination. Cela correspond à une dizaine de cas détectés par jour. Par comparaison, le Royaume-Unis, l’Espagne et le Portugal, pays non-endémiques les plus touchés selon le rapport de l’OMS, ont entre 21 et 30 cas signalés entre le 13 et le 21 mai 2022, ce qui revient à peu près à 10 nouveaux cas par jour pour les trois pays mis ensemble.

Une carte plus fidèle à la réalité complète serait donc par exemple celle proposée par Al Jazeera (qui, par ailleurs, a le mérite de nommer la source de ses données directement dans l’image!):

Version de Al Jazeera [Source]

Donc pour résumer: non, la variole du singe ne touche pas en particulier les pays “affaiblis par la vaccination”. Et une carte sans source et sans légende, c’est aussi informatif qu’une boussole sans aiguille.

(Et non, ce n’est pas lié au fait que le vaccin AstraZeneca utilise un adénovirus de chimpanzé comme vecteur pour transporter la protéine Spike. La variole du singe, comme son nom ne l’indique pas, est principalement présente dans la nature chez des rongeurs, même s’il a été originellement identifié dans des singes de laboratoire.)

Suite: La Libre Belgique et bit4you

Je notais le 20 février dans l’article “Bitcoin et médias: La Libre Belgique et bit4you” le traitement douteux des cryptomonnaies par les médias, et en particulier les mauvaises pratiques apparentes de La Libre, dont le partenariat commercial avec la plateforme bit4you semblait parfois déborder dangereusement sur leur contenu journalistique.

Suite à cet article, j’ai signalé le problème au Conseil de Déontologie Journalistique, en notant en particulier:

  • Des tweets n’indiquant pas la nature publicitaire de certains “publireportages” de bit4you.
  • Un manque de clarté sur les pages de ces publireportages quand au fait qu’on regardait un contenu publicitaire.
  • Un possible conflit d’intérêt avec des articles non-publicitaires mettant largement en avant bit4you et son cofondateur Marc Toledo alors qu’une relation commerciale existe aussi entre La Libre et bit4you (exemples: [1, 2, 3]).

Réponse de La Libre

Suite à la transmission de ma plainte au journal, La Libre a supprimé les “tweets” incriminés (sauf un…), et a modifié l’apparence des publireportages pour les rendre plus distinctifs et plus visiblement “publicitaires”. Dans sa réponse au CDJ, M. Legge, rédacteur en chef de LaLibre.be, indique que les tweets sont le résultat d’un problème technique qui, de mi-janvier à mi-février, a perturbé leur système de publication automatique sur Twitter qui ne filtrait plus les publireportages. Ce problème serait maintenant résolu.

Avant / Après : nature publicitaire plus clairement établie
Avant / Après: apparence du publireportage

Concernant les articles “non-publicitaires”, ils invoquent l’indépendance de la rédaction qui implique de “ne pas exclure un interlocuteur pertinent parce qu’il est aussi un annonceur régulier ou pas”, ce qui serait contraire à “l’esprit de
l’indépendance journalistique”. M. Legge note également que La Libre a aussi publié des articles critiques des cryptomonnaies et pointe quelques exemples [1, 2, 3, 4].

Suffisant ?

Le CDJ m’a demandé si, suite à cette réponse, je souhaitais poursuivre et demander à ce qu’ils traitent la plainte sur le fond. J’ai répondu que non.

Je reste très dubitatif quand au choix rédactionnel de La Libre. Les plateformes d’échanges de cryptomonnaies ne sont pas de simples business. Il est impossible d’y participer sans être associé, directement ou indirectement, à des pratiques douteuses et/ou frauduleuses. Bit4you, par exemple, utilise pour toutes ses transactions la cryptomonnaie de la société “Tether” (USDT), qui est largement soupçonnée de fraude et de manipulation du marché. Il me semble qu’une attention particulière devrait être prise par les journalistes lorsqu’ils traitent avec de tels partenaires.

Mais il s’agit là d’un choix rédactionnel. Je pense que La Libre fait ici un mauvais choix, et qu’ils auraient besoin de se tourner vers d’autres experts pour traiter les questions relatives aux cryptomonnaies, mais je ne dispose pas d’éléments permettant de soupçonner de la malhonnêteté de la part du journal. Je pense que c’est du mauvais journalisme, mais ça c’est une toute autre question !

Ma Thèse en 180 secondes

L’édition 2022 de “Ma Thèse en 180 secondes” va démarrer le mois prochain avec les sélections ULB le 31 mars. J’ai eu le plaisir de participer à l’édition 2021 (quelque peu perturbée par le COVID, mais c’était chouette quand même!). Je me rends compte que j’avais prévu de mettre la vidéo et mon texte ici et que j’ai complètement oubliée de le faire, donc avec à peu près un an de retard, les voici !

Je ne peux que conseiller l’exercice aux doctorant.e.s qui approchent de leur fin de thèse: synthétiser et vulgariser, ça pousse à se poser des bonnes questions sur les objectifs réels de ce qu’on est en train de faire.

Le “Live”

“Facebook Live” de l’événement: https://www.facebook.com/watch/live/?v=1071437936709269&ref=watch_permalink

Timecodes des participant.e.s:

16:07 – Introduction (Quentin Delhaye)
24:45 – Sébastien Lamproye – Le progrès technique et le partage du gâteau
28:25 – Léni Jodaitis – La bactérie : une boite de nuit très select
32:00 – Ruth Ringer – C’est quoi cette image ?
35:45 – Alexandre Popotas – La pneumonie vient de Mars, l’asthme de Vénus
39:15 – Adrien Foucart – Intelligence artificielle et histologie : un ingénieur au pays des médecins
42:55 – Intermède musical : Dolores – Kearo Zenn Quartet
47:05 – Cyrine Ben Dhaou – Trinquons à la chémérine contre le cancer
50:53 – Delphine Laho – Mise au point d’un test de diagnostic moléculaire rapide de l’otite moyenne aigüe chez l’enfant.
54:42 – Benjamin Swedlund – Choisir c’est renoncer : quand les cellules souches pluripotentes font le choix du coeur
58:25 – Valentin Fortier – Le Méthane sur Mars : d’où ça vient ?
1:02:10 – Charlotte Minsart – Implication de la protéine HMGB1 dans l’overdose au paracétamol
1:07:00 – Cyrine Ben Dhaou – Trinquons à la chémérine contre le cancer (deuxième présentation, suite à un problème technique)
1:13:00 – Intermède musical / Délibération : Joel Rabesolo / Aleph Quintet Music / Kearo Zenn Quartet / Isadora / Jean-Paul Groove
1:54:00 – Résultats du jury & du vote du public (Serge Schiffmann)

Mon texte

Ma thèse se trouve à cheval entre deux mondes : l’intelligence artificielle, dans le monde des ingénieurs, et l’histologie, dans le monde des médecins.

L’intelligence artificielle, on la retrouve partout. Prenez votre smartphone, par exemple. Si vous ouvrez l’appareil photo, un algorithme va détecter les visages et les entourer d’un petit rectangle. Pour créer un tel algorithme, on utilise des millions de photos, sur lesquelles on a noté où se trouvait chaque visage. Plus on a d’images différentes (de face, de profil, de loin, de près…), mieux l’algorithme sera capable de détecter les visages en toute circonstance.

Noter où se trouve un visage sur une photo, c’est facile, tout le monde peut le faire. Mais en histologie, dans le monde des médecins, les choses sont plus compliquées.

L’histologie, c’est ce qui se passe par exemple quand on prélève un morceau de tumeur durant une biopsie ou une opération. On le fixe ensuite dans un bloc de paraffine, qu’on coupe en fines tranches. On ajoute un peu de couleurs, et puis on peut venir regarder au microscope pour estimer la gravité du cancer et prendre les meilleures décisions pour le patient : faut-il opérer plus, faire une chimio, faire des rayons ?

Est-ce que vous pouvez dire quel type de cancer se trouve sur cette image ? Probablement pas. Les cellules cancéreuses ne portent pas de pancarte indiquant leur niveau de gravité. Les indicateurs sur lesquels se basent les médecins sont souvent subjectifs, et le désaccord entre experts est courant.

Produire et annoter les images histologiques prend du matériel spécialisé, des personnes expérimentées, et beaucoup de temps. On doit donc travailler sur des bases de données réduites, où les annotations sont incertaines, voire contradictoires d’un expert à l’autre.

Pour appliquer les techniques d’intelligence artificielle au monde de l’histologie, nous avons donc développé des méthodes qui permettent à nos algorithmes d’apprendre malgré les données imparfaites, et à donner des résultats utiles pour la recherche et le diagnostic.

Il faut aussi se poser la question de comment on peut évaluer nos résultats. Si je teste un algorithme qui détecte des visages, je peux prendre une série de photos et compter le nombre d’erreurs. Mais qu’est-ce qu’une « erreur » lorsque même les meilleurs experts ont des avis différents ? Là aussi, nous avons dû développer des méthodes qui tiennent compte de cette incertitude, et qui nous permettent de mieux évaluer si un algorithme est plus intéressant qu’un autre.

La rencontre du monde de l’ingénieur et du monde de la médecine apporte beaucoup des deux côtés. Le développement de nouvelles méthodes et de nouveaux algorithmes pour les uns ; la possibilité de faciliter le travail des médecins, et d’améliorer la qualité des soins proposés aux patients pour les autres.

Venant du côté des ingénieurs, c’est une rencontre qui n’est pas toujours facile. Le monde médical est compliqué, et réussir à s’adapter à cette complexité est toute la difficulté, et aussi pour moi tout l’intérêt, de ma thèse.

Bitcoin et médias: La Libre Belgique et bit4you

Suite (18/3/2022).

Il est difficile de ne pas voir une certaine responsabilité médiatique dans la vaste arnaque que sont les cryptomonnaies, NFTs, et autres “révolutions” de la blockchain. En traitant bien souvent les cryptomonnaies comme “un investissement” (risqué, certes, mais légitime) dont on rapporte les montées et descentes comme si c’était une action cotée en bourse, ils leur donne une aura de respectabilité qui aide à recruter les nouvelles générations d’investisseurs… qui se retrouvent bien souvent les cibles de la prochaine arnaque, ou simplement les victimes de la nature légèrement… “pyramidale” de l’investissement.

Au vu de la vaste quantité d’argent sale au cœur de cette “crypto-économie”, il me semble particulièrement important pour les médias de s’assurer que, dans leurs propres transactions avec le milieu, ils sont irréprochables et au-dessus de tout conflit d’intérêt. Ce qui m’amène à La Libre Belgique et à la société bit4you.

La Libre Belgique a attiré mon attention par leur couverture particulièrement positive et constante des cryptomonnaies. C’est peut-être une impression personnelle, mais je les vois plus que la plupart des autres médias francophones diffuser chaque montée du prix, et offrir une tribune à des entrepreneurs en blockchain et cryptomonnaies.

Avec parfois, me semble-t-il, un léger flou entre le contenu publicitaire et le contenu journalistique. Parce que La Libre publie des “publireportages”, contenu sponsorisé prenant le format d’un article “normal”. Par exemple: cette série de 6 articles “#Décrypto”. Ces articles sont clairement marqués comme “contenu de partenaire” et “PUBLICITE”, mais ils se retrouvent catégorisés dans la section “Placements et marchés” du site et sont écrits comme des articles “informatifs”. Plus récemment, on a ces articles “Le bitcoin, un nouvel eldorado pour les jeunes” et “Les jeunes investisseurs“, eux aussi marqués “publireportage” et avec une note indiquant qu’il s’agit d’un contenu publicitaire à la fin, mais visuellement absolument identiques à tous les articles “légitimes” (et aussi écris dans un style “neutre” qui cherche clairement à donner l’impression qu’il s’agit d’articles et pas de publicités).

Cette limite floue entre “contenu journalistique” et “publicité” est déjà un peu dérangeante, mais jusque là “ça peut aller”. Mais voici où les choses deviennent un peu plus franchement problématiques. Ces contenus publicitaires proviennent tous des “bit4you“, une plateforme d’échange de cryptomonnaies basée en Belgique et dirigée par un certain Marc Toledo.

Et, en même temps que La Libre se fait payer pour diffuser les contenus publicitaires de bit4you, ils diffusent aussi des “vrais” articles faisant les louanges de cette même société. Voir aussi ici et ici. Aucun de ces articles ne sont des publicités, mais ils mettent clairement en avant une société en particulier, et donnent largement la parole à Marc Toledo qui se retrouve de facto “l’expert” de prédilection sur les questions de cryptomonnaies pour le journal.

La relation entre La Libre et bit4you est donc trouble: d’un côté, c’est une relation commerciale, où bit4you paie La Libre pour y placer son contenu publicitaire. D’un autre côté, c’est une relation journalistique, où La Libre interview Marc Toledo en tant qu’expert pour alimenter du contenu informatif.

Est-ce illégal ou une faute professionnelle? Honnêtement, je n’en sais rien du tout. Mais ce qui me semble très clair, c’est que le milieu des cryptomonnaies est pourri jusqu’à l’os, est remplis d’arnaques et de sociétés à l’honnêteté plus que douteuse, et que face à ce genre de milieu les médias devraient faire preuve d’une attention particulière à éviter de se retrouver dans des situations de potentiel conflits d’intérêt, qui les rendraient (éthiquement si pas juridiquement) complices des malversations en tout genre qui font tourner cette “crypto-économie”.

Stop à la blockchain

J’ai partagé il y a peu l’excellente vidéo de Dan Olson “Line Goes Up – The Problem with NFTs”, que vous pouvez retrouver ici: https://www.youtube.com/watch?v=YQ_xWvX1n9g. C’est long, mais ça en vaut la peine. Dan couvre le sujet de Bitcoin, des “smart contracts”, des NFTs et du “Web 3.0”, et il y a clairement de quoi tenir les 2 heures qu’il prend pour tout expliquer.

C’est un sujet dont j’ai déjà eu envie de parler, mais sans jamais trouver un angle qui me convenait. Il y a juste trop de choses à couvrir. Les arnaques pures et simples, l’impact environnemental, l’inadéquation du bitcoin en tant que monnaie… Dan Olson réussit je trouve assez bien (en tout cas mieux que dans tous mes brouillons!) à trouver le juste milieu entre “assez exact” et “assez compréhensible”.

Il y a cependant un point que j’aimerais encore couvrir de mon côté. Même si on ignore l’aspect écologique, et l’aspect économique, et les arnaques… la blockchain reste fondamentalement une technologie absolument inutile dans l’écrasante majorité des secteurs pour lesquelles elle est aujourd’hui régulièrement proposée. Allons-y point par point.

1. L’intérêt théorique

L’intérêt théorique de la blockchain (par rapport à n’importe quel autre moyen de stocker des données) est dans son immutabilité (une fois qu’on met quelque chose dedans, on ne peut plus le changer), dans sa décentralisation (de multiples copies du contenu sont dispersées dans des ordinateurs différents), et dans l’absence d’entité de confiance (c’est-à-dire que le réseau entier est “garant” de l’intégrité des données via un processus de consensus, pas une ou plusieurs personnes désignées à qui il faut donc “faire confiance”).

C’est ce dernier point en particulier qui distingue réellement la blockchain d’autres systèmes. L’immutabilité peut se faire facilement dans une base de données standard si on peut fait confiance dans le fait que l’entité qui administre cette base de donnée l’a bien configurée. La décentralisation, elle non plus, ne nécessite pas de blockchain si on peut s’accorder sur une (ou quelques) entités de confiance qui “décident” de qui a raison si plusieurs versions de la base de donnée se trouvent en conflit.

2. Ce qu’on peut stocker

Une limitation fondamentale d’un système “décentralisé” et “immuable”, c’est que l’on multiplie dramatiquement les ressources nécessaires pour stocker les données. Tout ce qu’on veut mettre sur la blockchain doit être envoyé à tous les ordinateurs qui participent au réseau, et doit y être stocké. Si on limite le nombre de participants au consensus, on transforme nécessairement ces participants en “entités de confiance”. Si on augment le nombre de participants, on multiplie la bande passante et l’espace de stockage nécessaire à faire fonctionner la base de données.

Comme le système est immuable, on ne peut jamais supprimer une donnée une fois qu’elle est entrée. Même si elle était erronée, même si on est certain qu’elle ne sera plus jamais utilisée: elle doit rester stockée chez tous les participants du réseau. Si on n’a pas toutes les données, on ne peut pas garantir l’intégrité de la blockchain, et on ne peut donc pas participer au consensus.

Le résultat est que toutes les blockchains ne stockent que des données textuelles de petite taille. On ne stocke pas d’images, de vidéos, de musique, ou même de PDFs ou de larges fichiers de texte sur la blockchain.

3. Si on veut stocker une autre ressource numérique, la blockchain devient inutile

Le moyen typiquement utilisé dès qu’on veut stocker autre chose que du texte et tout de même utiliser la blockchain, c’est d’utiliser celle-ci pour stocker des liens vers une ressource extérieure. Par exemple, dans les NFTs, la blockchain contient des petits programmes (du texte, donc) qui font un lien entre le propriétaire du NFT et, typiquement, une URL vers une image qui est stockée quelque part. La blockchain devient donc un “index” qui peut diriger vers les bonnes ressources.

Et comme l’image est stockée quelque part, celui qui contrôle ce “quelque part” doit nécessairement être considéré comme une entité de confiance. S’il supprime le fichier vers lequel la blockchain pointait, ou s’il change l’adresse de son serveur, la blockchain ne peut rien faire pour l’en empêcher. Pire: comme la blockchain est immuable, on ne peut même pas décider de mettre une copie du fichier ailleurs et de modifier le lien. Modifier, c’est interdit. La blockchain dit que le fichier est là. S’il n’y est plus: pas de bol. Des hébergements “décentralisés” comme IPFS permettent de rendre le système un peu plus robuste, mais cela ne change rien au fond du problème: la blockchain en elle-même n’a pas le contrôle sur les biens qu’elle est supposée gérer.

Dès lors que celui, celle ou ceux qui stockent les ressources sont des entités de confiance, il est infiniment plus efficace qu’elles conservent aussi l’index, qui peut du coup être stocké dans une base de donnée traditionnelle qui ne consomme pas l’électricité d’une nation.

4. Si ce qu’on veut stocker est en lien avec le monde non-numérique, la blockchain devient inutile.

Dans les cas typiques de “blockchain qui vont révolutionner le monde”, on a régulièrement des idées qui ont trait à des “supply chains” (suivons le produit du producteur au consommateur, sur la blockchain!), ou à des certificats de propriété (remplaçons les notaires par une blockchain!), ou à diverses données sensibles (votre dossier médical sur la blockchain!).

L’idée derrière l’utilisation de la blockchain, dans tous ces cas, est de se prémunir contre une modification malveillante des données. On ne veut pas que quelqu’un vienne traficoter la base de donnée pour soudain se prétendre propriétaire d’une maison, ou que le produit a été livré quelque part.

Là encore, cependant, la blockchain est totalement inadaptée. Oui, il peut y avoir de gros soucis avec des données erronées dans toutes ces applications. Mais ces erreurs ne viennent pas de hackers qui se glissent sur le serveur et modifient les données avant de s’enfuir vers le soleil couchant. Elles viennent presque toujours, simplement, de l’encodage. Dès qu’on parle de données du “monde réel”, on a nécessairement pour toute donnée quelqu’un, quelque part, qui va être responsable de traduire le “monde réel” en sa représentation numérique. Scanner un QR code, entrer un numéro de client, signer un reçu électronique… S’il y a manipulation (ou erreur de bonne fois), c’est toujours à cet endroit là que ça se passe. Et la blockchain n’a évidemment aucun moyen de valider que ce qui est entré correspond à la réalité. La blockchain ne peut pas savoir si le produit “reçu” est bel et bien présent là où le QR code a été scanné.

C’est le problème du “Garbage In, Garbage Out”: si on rentre des données pourries dans le système, on en sortira des données pourries. Le problème est même aggravé par la blockchain car, à nouveau, immuabilité = impossible de corriger si c’est une vraie erreur. Maintenir une blockchain “synchronisée” avec le monde réel est inutilement compliqué. Et dans tous ces cas de figures, on a de toute façon quelque part une “autorité” qui sera chargée de résoudre les conflits lorsqu’il y a un doute. À nouveau, tout le monde gagnerait à ce que cette autorité gère directement la base de données… rendant la blockchain obsolète.

5. Qu’est-ce qu’il reste, alors?

La blockchain peut se justifier si on a une application où l’on ne doit stocker que des données qui prennent peu de place et qui sont entièrement numériques (donc qui existent indépendamment de tout objet réel).

Qu’est-ce qui remplit ces critères? Globalement: le Bitcoin (et ses divers successeurs). Ce n’est pas pour rien que, si “la blockchain” en tant que telle date du début des années 90, Bitcoin reste aujourd’hui la seule application réellement “fonctionnelle” du concept. Et elle fonctionne bien mal.

Certains diront que les “smart contracts” d’Ethereum sont fondamentalement une application différente, mais je pense que c’est tirer trop loin la définition de “fonctionnelle”. Tous les projets autour de ces smart contracts souffrent des défauts énoncés ici, et sont au mieux des mauvaises solutions à de réels problèmes. Et, dans la majorité des cas, ils sont une excuse pour une quelconque bulle spéculative comme les NFTs, et n’ont aucune “fonctionnalité” à proprement parler.

David Rosenthal explique assez bien ici pourquoi toute blockchain décentralisée finit nécessairement en bulle spéculative. En résumé: pour que le système soit décentralisé, il faut qu’il soit difficile (pratiquement impossible) d’attaquer le système de “consensus” en contrôlant plus de la moitié des participants. Pour cela, il faut que la participation ait un coût élevé (c’est le concept du “Proof-of-Work”). Pour que des gens veuillent quand même participer, il faut que ce coût soit au final couvert par une rémunération. Pour que le système reste décentralisé, il faut que cette rémunération soit générée “automatiquement” par le système (si on a une autorité centrale qui distribue des gains aux “bons” participants, elle a de facto le contrôle du système): on doit donc avoir une cryptomonnaie. Comme les coûts de participation (matériel, électricité…) ne sont a priori pas payables dans cette cryptomonnaie, les participants vont nécessairement vouloir écouler leur cryptomonnaie et la vendre contre de la vraie monnaie. Pour qu’ils puissent la vendre, il faut que des gens achètent. Et la seule raison qui va pousser assez de gens à acheter pour que le système continue à tourner, c’est l’espoir que la valeur monte. Les seules possibilités sont donc: le système se plante faute d’acheteurs, ou on a une bulle spéculative jusqu’à ce que le système se plante faute d’acheteurs.

Conclusions

Quelques remarques pour terminer:

  • Oui, tout cela n’empêche pas qu’on puisse “se faire de l’argent” avec le Bitcoin, les NFTs, et tout le cryptobazar. C’est une bulle: tant qu’elle n’a pas explosé, il y a certainement moyen d’en profiter. J’aurais tendance à dire que ce n’est pas très éthique, et que les risques de tout perdre et/ou de participer malgré soi à quelque chose d’illégal sont un peu trop grands, mais chacun son truc.
  • Je n’ai jamais possédé la moindre cryptomonnaie et je ne compte pas en posséder un jour. Je n’ai donc aucun intérêt financier dans un sens ou dans l’autre. J’ai par contre un intérêt dans le fait que nos ressources technologiques et énergétiques servent à des choses moins dommageables pour le monde que de faire tourner des blockchains.
  • “Mais en vrai, Ethereum va quitter le Proof-of-Work et on peut faire de la blockchain qui ne détruit pas l’environnement, et en plus grâce aux blockchain on développe l’énergie solaire, etc., etc.” Non. Sorry, mais tout ça c’est du bullshit. Même à un coût environnemental réduit (et Ethereum “va quitter le Proof-of-Work” très bientôt depuis sept ans, donc la crédibilité est assez limitée), cela reste un énorme gaspillage. Quand aux sources d’énergies, les “mineurs” vont là où l’énergie est la moins chère. Parfois, c’est de l’énergie solaire ou géothermale, souvent c’est du charbon. Même si l’énergie était 100% verte, ce serait tout de même de l’énergie mieux utilisée ailleurs.
  • Y-a-t’il des utilisations légitimes et utiles de la blockchain? Certainement… pour certains de ces aspects, qui ne sont pas nouveaux et pas uniques à la blockchain. Il y a certainement des idées intéressantes en cryptographie et en gestion de systèmes décentralisés liés à des travaux sur la blockchain. Mais le milieu “de la crypto” est devenu tellement toxique que, à ce stade, toute association au concept de blockchain rend une idée suspecte. Il est temps de balayer tout, de jeter toutes les cryptomonnaies à la poubelle, et de passer à autre chose.

Ressources supplémentaires

Dr. Elisabeth Bik, manipulations d’images, et controverses scientifiques.

Le Dr. Elisabeth Bik est une microbiologiste qui s’est spécialisée dans la détection de manipulations potentiellement frauduleuses dans les articles scientifiques, et en particulier dans les images. Ces manipulations sont parfois très subtiles. Dans l’image ci-dessous, par exemple, on retrouve un exemple de ce que le Dr Bik appelle une duplication de “catégorie 2”, c’est-à-dire une image dupliquée avec un repositionnement.

Annotations par Elisabeth Bik sur PubPeer, illustration dans Yan et al [1].

Ce qu’on peut voir ici, avec de bons yeux, c’est que deux images de cette figure représentent clairement le même morceau de tissu cellulaire, légèrement décalé. Le problème est que, selon la méthodologie de l’article, ces deux images devraient normalement provenir de deux souris différentes. Un tel degré de similitude serait en ce cas une sacrée coïncidence.

Cela signifie soit qu’il y a eu un moment dans le processus un mélange qui a été fait dans la labellisation et l’identification des images (autrement dit: leurs fichiers images ne sont pas correctement reliés aux échantillons), soit qu’au moment de construire les figures il y a eu un “léger raccourci” qui a été fait, et que les auteurs ont décidés d’utiliser une image qui illustrait peut-être mieux leur propos et le résultat de leurs mesures, même si l’image ne correspondait pas aux labels associés. Dans les deux cas, cela rend très douteux les résultats de l’expérience, et a fortiori les conclusions de l’article.

Ce genre de fautes, le Dr. Bik en trouve des tonnes. Ses trouvailles se retrouvent sur PubPeer, et elle les publie régulièrement sur son compte Twitter. Dans de nombreux cas, les manipulations sont beaucoup plus flagrantes, et il est difficile de trouver une autre explication à la figure que “Photoshop”. Par exemple, ici:

Image partagée par Elisabeth Bik sur Twitter.

Dans la seconde ligne (Beta-Actin), les deux premières bandes (M et 1) sont l’image miroir des deux suivantes (2 et 3). La coupure est clairement visible, et c’est quelque chose qui ne pourrait juste pas apparaître naturellement dans ce genre d’images.

Jusque là, c’est embêtant mais ce n’est pas non plus un drame. Des articles sont publiés avec des erreurs, d’autres scientifiques trouvent ces erreurs, c’est comme ça que la science avance. Là où les choses deviennent plus inquiétantes, c’est quand on regarde ce qui se passe après que les erreurs soient identifiées.

Science et sociétés d’édition

En 2016, Bik et deux collègues ont publiés une étude dans laquelle elles ont analysé les images de plus de 20.000 articles publiés entre 1995 et 2014, et ont trouvé que prêt de 4% d’entre eux contenaient au moins une image problématique [2]. Mais lorsque ces erreurs sont rapportées aux journaux concernés, elles sont souvent entièrement ignorées. Dans certains cas, malgré des manipulations flagrantes, le journal demande juste aux auteur·rice·s de fournir une figure corrigée, sans que les résultats soient ré-examinés. Il faut souvent qu’un article attire une attention un peu trop soutenue pour que les éditeurs du journal se décident à envisager une rétraction.

Pourquoi les éditeurs (et les reviewers) ne font-ils pas correctement leur boulot? Même en l’absence de malversations ou de conflits d’intérêt, il reste un problème majeur dans le système.

Il y a en effet un conflit entre les besoins de la communauté scientifique, et les besoins des sociétés d’édition. La méthode scientifique est fondée sur une certaine “auto-régulation”: les résultats publiés doivent être reproductibles et vérifiables. Lorsque des erreurs sont découvertes, elles doivent être corrigées. Lorsque des manipulations sont découvertes, les résultats deviennent immédiatement suspects et doivent être rétractés.

Mais pour les sociétés d’édition, tout cela nécessiterait de mettre de sérieuses ressources dans le “contrôle de qualité”, ce qui va directement à l’opposé de leur objectif principal qui est, nécessairement, d’engranger un maximum de profit. Les éditeurs scientifiques ne sont (généralement) pas des ASBL. Springer Nature, Elsevier, Taylor & Francis… les plus grandes sociétés d’édition sont aujourd’hui des multinationales avec des revenus qui se comptent en milliards de dollars. Et la majorité des publications sont concentrées dans seulement une poignée de sociétés (5, selon une étude de 2015) [3].

Aujourd’hui, lorsqu’on publie un article, on a un processus dans lequel les auteurs payent le journal pour que leur article y apparaisse, les reviewers qui évaluent la qualité de l’article sont bénévoles, les éditeurs qui recrutent ces reviewers et prennent les décisions finales concernant la publication sont également souvent bénévoles (ou peu payés), et les universités payent des fortunes pour avoir accès aux articles, qui sont sinon souvent vendus “à la pièce” pour des tarifs de l’ordre de 30 à 40 dollars.

De nombreux journaux “offrent” maintenant la possibilité aux auteurs de publier en “Open Access”, pour que l’article soit accessible gratuitement à tous… et demandent pour ce faire aux auteurs de payer un tarif plus élevé, souvent de l’ordre de plusieurs milliers de dollars, jusqu’à plus de 10.000 dollars dans des cas extrêmes comme celui de Nature Neuroscience. Ce modèle d’Open Access fait que seul les laboratoires ayant un certain budget peuvent se permettre de rendre leur recherche accessible à tous (en dehors des solutions “alternatives” de diffusion comme sci-hub et autres, évidemment).

À l’ère de l’édition numérique, le travail de la société d’édition est devenu assez limité: repasser un coup sur l’article pour corriger la mise en page, et héberger des PDFs sur un serveur. Faire de “l’après-vente” sur ces articles, cela demanderait un travail supplémentaire qui retomberait soit sur des éditeurs bénévoles et déjà surchargés, soit nécessiterait pour la société d’édition de payer quelqu’un pour le faire. Et ça, ça couperait dans la marge de profit.

Elisabeth Bik note un cas particulièrement cynique (corrigé depuis) où Springer vendait un article pour $40 sans indiquer nul part qu’il avait été rétracté depuis plus de 15 ans… et si l’on tombait via un moteur de recherche comme PubMed sur la notice de rétraction, on pouvait également obtenir celle-ci… pour $40 supplémentaires.

La “symbiose” entre la communauté scientifique et les maisons d’édition ressemble de plus en plus à une relation parasitique où les scientifiques produisent l’essentiel du travail, et les sociétés d’édition récupèrent l’entièreté des bénéfices. Et rétracter des articles, ce n’est pas tellement bon pour le business.

Traders et Marseillais

Le plus souvent, les suites données aux remarques du Dr Bik et des autres contributeurs réguliers de PubPeer ou RetractionWatch (lorsque ce n’est pas juste du silence) restent fermement dans la sphère scientifique. Corrections, commentaires sur les corrections, rétractions: le processus est lent et frustrant, et souvent dysfonctionnel, mais les principaux acteurs des débats ont le mérite de rester dans le cadre prévu.

Et puis parfois, les choses débordent un peu.

Deux cas en particulier sortent du lot: celui de la firme pharmaceutique Cassava Sciences et, bien entendu, celui de l’inévitable IHU-Marseille du Professeur Didier Raoult.

Cassava Sciences: quand les traders s’en mêlent

Cassava Sciences développe un possible traitement pour la maladie d’Alzheimer. D’après les publications de la société, les essais cliniques “Phase 2” montrent un effet bénéfique sur les capacités cognitives pour leur médicament. (Pour résumer très grossièrement: la phase 1 cherche à déterminer avant tout si un médicament est dangereux, la phase 2 s’il a un effet bénéfique, la phase 3 si cet effet est meilleur que le meilleur traitement actuellement recommandé, et la phase 4 observe les effets long terme après que le médicament ait été mis sur le marché.)

En août 2021, un rapport a été envoyé à la FDA demandant l’arrêt des essais cliniques, notant une série de possibles manipulations dans les données et images publiées. Le Dr Bik détaille de son côté sur son blog sa propre analyse, après avoir lu le rapport et les articles originaux. Elle relève effectivement une série de possibles manipulations d’image.

Notons que quand on parle ici de “manipulation”, il ne s’agit pas nécessairement de “malversation”. Une manipulation peut être simplement faite pour respecter des contraintes de places, ou des besoins de clarté lors de la publication, et avoir été réalisée “de bonne foi”. Mais les explications fournies à ce jour par Cassava Sciences n’ont pas vraiment convaincu les experts.

Analyse de certaines figures par un utilisateur anonyme sur PubPeer mettant en évidence de possibles manipulations dans un article de Wang et al [4], avec notamment des discontinuités étranges dans le “bruit de fond” de l’image qui pourraient indiquer que certaines portions ont été découpées et viennent d’une autre image.

Une notice a été publiée sur au moins l’un des articles incriminés avertissant qu’une enquête était en cours… menée par l’Université où les auteurs de l’étude sont affiliés, ce qui ne sera peut-être pas suffisant pour éteindre les doutes.

Ce qui fait sortir l’affaire Cassava Sciences du lot, cependant, c’est que la quasi-entièreté des discussions sur le sujet est polluée par une bataille de traders. Parce qu’à la base de toute l’histoire, il y a la cotation en bourse de Cassava, et un grand conflit entre ceux qui ont pariés “à la hausse” et ceux qui ont pariés “à la baisse.” Après des premiers résultats d’essais cliniques “phase 2” décevants, le cours avait chuté. Quelques mois plus tard, ils reviennent sur leurs résultats et publient cette fois-ci des effets positifs remarquables… et l’action remonte. Les investisseurs ayant parié “à la baisse” crient à la fraude. Ceux ayant parié “à la hausse” défendent les résultats corps et âme (et portefeuille).

Sans être de mon côté un expert dans le domaine de la recherche médicamenteuse, je le suis suffisamment dans celui de l’analyse d’image pour voir que certains des problèmes relevés par le Dr Bik sont indéniables. Il y a eu des manipulations d’images, et sans une transparence totale de la part de la firme pharmaceutique et du laboratoire de recherche qui a effectué les expériences, on ne peut juste à ce stade pas faire confiance en leurs résultats.

Et s’il s’avère que ces manipulations ont une explication bénigne, et que les résultats sont effectivement prometteurs, tant mieux ! Un médicament réduisant les effets de la maladie d’Alzheimer serait formidable. Mais on ne peut pas mettre sur le marché ce médicament sans avoir levé les doutes qui subsistent aujourd’hui.

Gautret, Raoult, et l’excellence marseillaise

En mars 2020, Philippe Gautret et ses collègues de l’IHU-Méditerranée Infection, sous la direction de Didier Raoult, publient les fameux “essais cliniques” sur l’hydroxychloroquine pour traiter le COVID-19 [5].

Cet article est truffé de problèmes. Elisabeth Bik les détaille mieux que moi, mais en résumé on a:

  • Des patients “contrôle” (sans hydroxychloroquine) recrutés dans d’autres centres que les patients “test” (qui étaient tous suivis à l’IHU), introduisant immédiatement des facteurs de confusion dans toute analyse des résultats.
  • Une sélection non-aléatoire des patients “contrôle” et “test”, introduisant un possible biais de sélection.
  • Des protocoles de test différents selon le centre pour déterminer la charge virale.
  • Des patients qui changent de groupe ou qui sont retirés de l’étude lorsque les résultats ne vont pas dans le sens voulu (les patients qui vont en soins intensifs ou meurent avec le traitement hydroxychloroquine sont retirés de l’étude, mais les patients ayant des antécédents rendant le traitement inadéquat sont mis dans le groupe contrôle alors qu’eux devraient être retirés).
  • Des patients dont on a pas de données pour le “6e jour” du traitement mais à qui on attribue tout de même un résultat positif ou négatif selon les dernières données disponibles, malgré le fait qu’on voit régulièrement des résultats fluctuant d’un jour à l’autre chez d’autres patients.
  • Un énorme conflit d’intérêt non déclaré dans le processus de peer-review, avec l’un des auteurs de l’étude qui est aussi éditeur en chef du journal où elle est publiée. Avec en prime des délais extrêmement courts entre la réception du manuscrit et la date de publication (publié le lendemain de la réception, alors que la plupart des articles mettent des mois avant de recevoir une réponse positive ou négative).

Bref, cet article n’aurait clairement jamais dû être publié. Et vu le total refus par Raoult et compagnie d’accepter les critiques sur leur manuscrit, cela a forcément attiré l’attention sur leurs autres publications. Est-ce que toute la production scientifique de l’IHU-Marseille est à remettre en cause? En tout cas, Bik a depuis passé en revue de nombreux autres articles de la même équipe, et a relevé des problèmes de manipulation d’images, et de pratiques éthiques discutables dans des expériences sur des personnes sans domicile fixe et sur des populations africaines. Avec des publications qui sont très souvent faites dans des journaux où des membres de l’IHU occupent des positions éditoriales.

Peu désireux de se défendre sur le plan scientifique (il faut dire que, si pour Cassava il y a un réel doute sur la validité des résultats, il n’y a ici pas vraiment de défense possible), Raoult, son collègue Éric Chabrière et leurs partisans répondent aux critiques par du harcèlement et des menaces, et finalement à un dépôt de plainte contre le Dr Bik.

Notons que l’article de Gautret à l’origine de toute cette controverse n’a jamais été rétracté. Une déclaration de l’International Society of Antimicrobial Chemoterapy, qui est co-propriétaire de la revue avec Elsevier, note que l’article ne répond pas aux attentes de qualité de l’association, mais aucune action concrète n’a été entreprise par le journal.

Conclusions

Il y a pour l’instant une certaine crise de confiance du “grand public” vis-à-vis des scientifiques.

Il y a aussi une crise de confiance des scientifiques envers l’industrie de l’édition.

Il y a derrière ces crises un certain nombre de fantasmes complotistes. Il y a aussi des réalités inquiétantes.

Je suis convaincu que l’écrasante majorité des scientifiques cherchent à produire un travail de qualité. Mais le système académique aujourd’hui ne favorise pas la qualité. Pour avancer dans leur carrière, les scientifiques doivent publier, idéalement publier dans des “bonnes” revues, et idéalement publier beaucoup. Cela donne aux sociétés d’édition de ces revues un pouvoir immense, et cela incite les scientifiques à prendre des raccourcis méthodologiques.

Les journaux de leur côté n’hésitent pas à recruter des reviewers (bénévoles) de manière agressive pour augmenter la quantité d’articles qu’ils peuvent traiter, quitte à prendre des reviewers de moindre expertise.

Certaines initiatives sont de bonne augure pour le futur. Certains journaux, par exemple, cherchent maintenant au moins à rendre transparent le processus de peer-review, en nommant les reviewers qui ont participé au process et en publiant leurs commentaires. Cela permettrait déjà de plus facilement identifier les articles qui auraient pu bénéficier d’un “traitement de faveur” éditorial. Des journaux entièrement “open access” et avec des tarifs raisonnables de publication voient aussi régulièrement le jour.

Mais ils doivent faire face à une énorme inertie: pour qu’une publication ait de la valeur dans un CV académique, elle doit être faite dans un “bon journal”. Mais pour qu’un journal devienne “bon”, il faut que de bons chercheurs y publient leurs résultats. On a donc un cercle vicieux: les chercheurs vont toujours d’abord viser les journaux bien établis, et ne proposer aux nouveaux venus que les articles qui ont été refusés par des publications plus prestigieuses. Ceux-ci se retrouvent donc avec un contenu de moindre qualité, justifiant leur statut de “mauvais journal”, et le cycle continue.

Le travail d’Elisabeth Bik est révélateur des faiblesses du système actuel, et montre l’importance de voir le “peer review” autrement. Un processus continu, où auteurs et éditeurs peuvent être amené à rendre des comptes lorsque des problèmes majeurs sont identifiés. Où l’on n’accepte pas que des raccourcis soient pris dans des domaines aussi critiques que les essais cliniques sous prétexte que des investisseurs aimeraient bien voir une courbe monter ou descendre, ou qu’un directeur d’institut estime que ses travaux n’ont pas besoin d’être revus par ses pairs (après tout, c’est lui l’élite).

On ne peut qu’espérer que la médiatisation apportée par les controverses de Cassava Sciences et de l’IHU vont inspirer d’autres chercheurs à avoir un œil plus critique sur les articles qu’ils lisent, et à contribuer à ce processus continu. On peut aussi espérer que les journaux rendent plus facile l’intégration de remarques du reste de la communauté scientifique auprès des articles publiés, mais là ce n’est clairement pas gagné d’avance.

Come-back et Big Data

La finale de l’Australian Open de tennis 2022 était plutôt mal partie pour Rafael Nadal contre Daniil Medvedev. Sans surprise: Medvedev était favori (en tout cas, c’est ce que disait Justine Hénin, qui s’y connaît certainement mieux en tennis que moi!)

Mené 2 sets à 0, et avec trois balles de break au milieu du troisième set en faveur du Russe, l’affaire semblait pliée. Puis Nadal a décidé que, finalement, il avait quand même envie de le gagner, ce tournoi. La victoire, arrachée en 5h24, fait de Nadal le premier homme à avoir 21 titres de Grand Chelem au palmarès, soit 21 de plus que moi (à ce jour), s’approchant ainsi du record de 23 titres de Serena Williams (ou des 24 de Margaret Court, selon la définition qu’on donne aux Grands Chelems).

L’exploit tennistique est certainement impressionnant, mais il y a un autre aspect du match qui a attiré l’attention: le “win predictor” qui est apparu à l’écran alors que Medvedev avait l’ascendant pour annoncer que les chances de Nadal de remporter la partie s’étaient écroulées à 4%. Un mauvais jugement de la part de l’intelligence artificielle?

Win predictor en action. Image partagée par @Hectorg_F1 sur Twitter.

Avant même que le tournoi débute, la machine d’Infosys avait déjà dérapé, donnant Djokovic largement favori:

Championship predictor. Image partagée par @AustralianOpen sur Twitter

L’IA n’était visiblement pas au courant des déboires de Djoko avec les services d’immigration australiens.

Ce n’est pas la première fois que ce genre de “prédictions” montre de sérieuses limites. Lors du dernier Grand Prix de Formule 1 de la saison 2021 à Abu Dhabi, alors que Lewis Hamilton pourchassait Sergio Perez pour reprendre la tête de la course, une prédiction d’AWS était apparue à l’écran:

Hamilton contre Perez. Image partagée par Friar16 sur Reddit.

AWS prédisait un dépassement particulièrement facile. Mais Perez n’était pas de cet avis, et il réussit à tenir Hamilton en échec pendant de longs, très longs moments, permettant à son coéquipier Max Verstappen de revenir dans la course. À nouveau, l’homme (dans sa machine) défiait la machine (programmée par l’homme).

Big Data = Big Loser?

Alors, toutes ces intelligences artificielles nourries à coup de “Big Data” sont-elles pour autant à jeter à la poubelle? Après tout, 4%, ce n’est pas 0%: le modèle n’a pas dit que Nadal n’avait aucune chance. Mais… on ne peut pas rejouer la fin de match 100 fois dans les mêmes conditions pour vérifier l’exactitude de la prédiction. Alors… quel intérêt?

Le problème majeur de ces systèmes est dans leur présentation. “Win predictor”, “Battle forecast”… le message indique clairement une prédiction. Mais le problème d’un modèle prédictif, c’est que c’est très compliqué à faire.

Tous ces modèles sont basés sur un principe relativement simple: on regarde une série de données sur les événements passés, et on regarde qu’est-ce qui est généralement associé à une certaine performance.

Par exemple, Infosys utilise les classements Elo des joueurs, ajustés en fonction de leurs performances sur des surfaces similaires (ausopen.com). Probablement que, pour les prédictions en cours de match, ils ajustent en fonction du nombre de fois où des joueurs ont gagnés à partir de situations similaires.

AWS, de son côté, utilise certainement des données sur les fraîcheurs relatives des gommes de pneus des voitures, sur les temps réalisés lors des tours précédents, et sur les performances passées des pilotes et des voitures. Et selon ces données, AWS avait parfaitement raison: Hamilton était le meilleur pilote, dans (sans doute) la meilleure voiture. Il avait des pneus tous frais et roulait beaucoup plus vite que Perez, abandonné par son équipe sur des pneus usés dont il aurait déjà du se débarrasser depuis longtemps… si son objectif avait été de faire la meilleure course possible.

Mais c’est là où AWS se retrouve perdu: l’objectif de Perez n’était pas de faire une bonne course pour lui, comme dans l’écrasante majorité des situations dans la base de donnée du modèle. Son objectif unique était de ralentir Hamilton aussi longtemps que possible pour permettre à Verstappen de revenir. Hamilton, de son côté, ne cherchait pas juste à dépasser Perez. Il savait aussi qu’il devait le dépasser sans incident. En Formule 1, la moindre touchette peut amener à une crevaison, ou à des pertes de performances aérodynamiques, ou à un crash pur et simple, et Hamilton devait absolument finir devant Verstappen pour gagner le championnat. Hamilton devait dépasser en douceur, Perez pouvait prendre tous les risques nécessaires quitte à mettre sa propre course en l’air.

De même, Infosys ne pouvait pas savoir que Djokovic n’allait même pas participer au tournoi. Infosys ne dispose pas non plus dans son modèle d’informations sur l’état mental des joueurs, sur leur état de fatigue, sur ce qu’ils ont mangés la veille au soir, sur l’effet que la météo peut avoir sur leurs performance, sur l’effet du public, ni plus généralement sur la stratégie que chaque joueur a décidé d’utiliser pour le match, sur l’entraînement spécifique suivit pour le tournoi, sur la qualité de leur préparation physique.

Où est ma boule de cristal, alors?

Pour qu’un modèle prédictif fonctionne vraiment, il faut qu’il dispose de variables qui ont un lien de cause à effet avec ce qu’on cherche à prédire. Ce qui ne veut pas dire, d’ailleurs, qu’un modèle comme ceux d’AWS ou d’Infosys ne va pas, en général, donner de bons résultats. Mais ces résultats sont “généralement” bons parce que, “généralement”, il n’y a pas de surprises. Sinon ce ne serait plus des surprises.

Est-ce que ça existe seulement, un modèle prédictif, alors? Oui, même s’ils ont toujours des limitations (et les meilleurs modèles prédictifs sont ceux qui identifient au mieux ces limitations). Par exemple, si je passe à un sujet que je connais un peu mieux que le tennis ou la Formule 1, on a pour l’instant beaucoup d’applications de l’intelligence artificielle au diagnostic médical. Des modèles peuvent chercher à prédire, par exemple, l’évolution d’une tumeur sur base d’images prises dans une IRM. Fondamentalement, le principe de ces modèles va être le même: prendre une série d’images de patients dans le passé, et chercher le lien entre ce qu’on voit sur les images et la survie des patients.

La différence avec les modèles d’Infosys ou d’AWS, c’est que “ce qu’on voit sur les images” va (quand tout va bien) avoir un lien direct avec l’évolution future de la tumeur. La densité des tissus dans le cerveau peut être reliée à des phénomènes biologiques, pas toujours compris à 100%, mais dont on sait qu’ils sont liés à la diffusion des cellules cancéreuses. Réussir à comprendre si le modèle se base bien sur quelque chose de biologiquement cohérent, ou s’il a trouvé dans l’image quelque qui n’a rien à voir*, c’est un des challenges majeurs de l’intelligence artificielle aujourd’hui.

Tout ce que le “win predictor” peut dire, c’est que Nadal sortait d’une moins bonne série de matchs que Medvedev, et que c’est très rare qu’un joueur revienne lorsqu’il est aussi fort mené.

Le modèle n’est pas nécessairement mauvais, dans le sens où il a sans doute raison plus souvent qu’il n’a tort. Mais au final, ce qu’il apporte est avant tout une connaissance encyclopédique de l’historique des joueurs. Et cette connaissance se retrouve bien mal exploitée lorsqu’elle est résumée à un pauvre “4%” dénué de son contexte.

* Un exemple fictif (autant que je sache): si je fais des scans de pleins de biopsies, mais que les biopsies de patients décédés sont conservés dans un autre service que celles des patients encore vivants, et que je les scanne à chaque fois sur place dans des machines différentes, peut-être que ces deux machines auront un réglage légèrement différent qui fera que la couleur des images sera, par exemple, un peu plus bleues d’un côté que de l’autre. Mon super modèle va être très fort pour prédire la mortalité sur base de la couleur de l’image… mais uniquement sur ce jeu de données particulier. Le jour où j’essaie de l’utiliser pour du diagnostic sur des nouveaux patients, je vais avoir de sérieux soucis.

SpaceX : à qui appartient le ciel ?

Le 24 mai, le Dr Marco Langbroek (chercheur en archéologie paléolithique, météorites, astéroïdes et “satellites espions”) pointait son télescope vers le ciel nocturne et réussissait à capturer une vidéo impressionnante, publiée sur son blog et reprise par de nombreux médias :

Starlink, c’est quoi ?

Ce “train” de lumières est constitué de 60 satellites. Il s’agit de la deuxième vague de la “constellation” Starlink, rejoignant deux satellites lancés en février 2018. Starlink est un projet de SpaceX, l’entreprise aérospatiale d’Elon Musk. Il s’agit d’un “réseau de satellites capable de connecter le globe, et particulièrement les régions actuellement non-connectées, avec des services Internet haut-débit fiable et abordable.” (Starlink Press Kit, PDF)

Si 60 satellites se baladant en rang d’oignon impressionnent, ce n’est rien par rapport à ce qui est prévu pour la suite : d’ici 2027, près de 12.000 satellites devraient être déployés. Pour contextualiser, on recensait début 2019 un total de 4.987 satellites en orbite autour de la Terre. Si on ajoute les projets certes moins ambitieux d’Amazon, Telesat ou OneWeb, on parle ici de quadrupler le nombre de satellites en orbite sur les dix prochaines années.

Le débat déclenché par la vidéo du Dr Langbroek fait des vagues dans tous les médias. Le noyau de ce débat est simple : le projet d’Elon Musk (et des autres) va bien au-delà d’un simple projet de télécommunication. Il s’agit d’un changement radical de notre paysage orbital. Les conséquences exactes sont difficiles à prévoir. Estimer l’effet qu’auront ces milliers de nouveaux satellites sur le ciel nocturne est compliqué, et dépend de nombreux paramètres pas toujours disponibles : forme exacte des satellites (et de leurs éléments réfléchissants), altitude et position finales, position de l’observateur…

Dans le meilleur des cas, l’effet à l’oeil nu sera quasi nul. Dans le pire des cas, le ciel nocturne dans dix ans sera radicalement transformé. Quoi qu’il en soit, l’impact sera en tout cas directement visible pour les télescopes basés sur Terre.

Elon a dit

Au-delà du débat technique sur l’impact de ces nouvelles “constellations”, c’est une conversation Twitter (comme souvent avec Elon Musk) qui soulève à mon avis une question plus fondamentale. Interrogé par Varun Ramesh sur la “pollution lumineuse du ciel”, Elon Musk répond :

“Il y a déjà 4900 satellites en orbite, que les gens remarquent ~0% du temps. Starlink ne sera vu par personne sauf s’ils regardent avec beaucoup d’attention & l’impact sur les avancements en astronomie sera de ~0%. De toute façon, les télescopes devraient être mis en orbite. L’atténuation atmosphérique est terrible.”

Fraser Cain, éditeur du site Universe Today, fait remarquer que “s’ils aident des milliards de gens dans des lieux reculés à avoir un accès bon marché à Internet, c’est un prix que je suis prêt à payer.

Elon Musk :

“Exactement, potentiellement aider des milliards de gens économiquement désavantagés est pour le plus grand bien. Cela étant dit, nous nous assurerons que Starlink n’a aucun effet matériel sur les découvertes en astronomie. Nous nous soucions beaucoup de la science.

Voilà. Problème réglé, discussion close : Elon Musk a pesé le pour et le contre, a écouté nos arguments, et a tranché. À nous pauvres mortels d’accepter Sa décision. Le fait que le plus grand bien de l’humanité coïncide avec un revenu potentiel de “30 milliards par an” n’est bien sûr qu’un heureux hasard.

La question fondamentale, donc : SpaceX, Amazon & co peuvent-ils juste ignorer les critiques et faire ce qu’ils veulent ?

Qui a le droit ?

Petit moment “droit spatial” (désolé, ça m’a un peu fasciné de lire tout ça alors je partage). Donc, la réglementation autour de l’exploitation de l’espace pour les télécommunications est globalement le domaine de l’Union Internationale des Télécommunications, une agence des Nations Unies fondée en 1865 lors de la convention télégraphique internationale. Celle-ci fonctionne selon des principes énoncés dans une constitution (PDF) dont le préambule commence :

En reconnaissant pleinement à chaque Etat le droit souverain de réglementer ses télécommunications…

En terme de satellites, sa préoccupation principale est l’allocation des positions orbitales géostationnaires, et de coordonner les positions et les fréquences d’émission pour éviter les interférences.

Starlink n’occupe pas d’orbite géostationnaire : son lancement n’a donc besoin que de se référer à son État souverain, c’est-à-dire les États-Unis. SpaceX a donc requis l’autorisation de deux agences fédérales américaines : la FCC (pour l’utilisation des fréquences) et de la FAA (pour les lancements).

Et… c’est tout ?

Il n’y a pas de mécanisme prévu qui se préoccupe d’une quelconque manière (autant que j’aie pu trouver en tout cas) de l’impact des satellites ni sur la recherche scientifique, ni sur les astronomes amateurs (qui ne peuvent pas vraiment suivre la suggestion d’Elon Musk de mettre leur télescopes en orbite), ni sur cette ressource tellement banale qu’est le “ciel nocturne”.

Si par hasard un conflit survenait, et des tribunaux internationaux se retrouvaient impliqués dans l’affaire, et devaient donner leur avis face à cette brusque invasion du ciel par des sociétés privées, ils devraient sans doute faire un retour aux sources : le “Traité de l’Espace” de 1967, qui entérine les principes fondamentaux de l’utilisation de l’espace extra-atmosphérique [4]. Notons que celui-ci concerne les États, pas les sociétés privées, mais qu’il stipule que “les activités des entités non gouvernementales dans l’espace extra-atmosphérique (…) doivent faire l’objet d’une autorisation et d’une surveillance continue de la part de l’État approprié partie au Traité.” (Art. VI)

L’article I nous dit :

L’exploration et l’utilisation de l’espace extra-atmosphérique, y compris la lune et les autres corps célestes, doivent se faire pour le bien et dans l’intérêt de tous les pays, quel que soit le stade de leur développement économique ou scientifique ; elles sont l’apanage de l’humanité tout entière.

L’argument d’Elon Musk que Starlink est “pour le plus grand bien” n’est donc pas anodin. En insistant sur l’objectif de fournir des moyens de télécommunication à tous les pays, il place son projet commercial dans le cadre généralement admis des “bons projets” spatiaux, inattaquables.

Et si certains ne sont pas d’accord, il semblerait que pour l’instant, ce soit tant pis pour eux. Et que l’on peut s’estimer heureux si la pollution lumineuse reste un “dommage collatéral”. Car pour l’instant, rien dans le droit international n’empêcherait une société d’utiliser la visibilité des satellites à “orbite basse” dans un but plus ouvertement commercial… comme le proposerait une start-up Russe (honnêtement, en voyant leur site, je ne suis pas tout à fait convaincu que ce n’est pas une satire, mais en tout cas ils sont pris au sérieux par divers médias).

Capture d’écran : “the orbital display”, Vlad Sitnikov (https://vimeo.com/309893059)

Voir passer un satellite lors d’une belle nuit d’été à la campagne était jusqu’à présent un bref moment d’émerveillement en regardant les étoiles. Il s’agira peut-être bientôt d’une inévitable nuisance.