L’édition 2022 de “Ma Thèse en 180 secondes” va démarrer le mois prochain avec les sélections ULB le 31 mars. J’ai eu le plaisir de participer à l’édition 2021 (quelque peu perturbée par le COVID, mais c’était chouette quand même!). Je me rends compte que j’avais prévu de mettre la vidéo et mon texte ici et que j’ai complètement oubliée de le faire, donc avec à peu près un an de retard, les voici !
Je ne peux que conseiller l’exercice aux doctorant.e.s qui approchent de leur fin de thèse: synthétiser et vulgariser, ça pousse à se poser des bonnes questions sur les objectifs réels de ce qu’on est en train de faire.
16:07 – Introduction (Quentin Delhaye) 24:45 – Sébastien Lamproye – Le progrès technique et le partage du gâteau 28:25 – Léni Jodaitis – La bactérie : une boite de nuit très select 32:00 – Ruth Ringer – C’est quoi cette image ? 35:45 – Alexandre Popotas – La pneumonie vient de Mars, l’asthme de Vénus 39:15 – Adrien Foucart – Intelligence artificielle et histologie : un ingénieur au pays des médecins 42:55 – Intermède musical : Dolores – Kearo Zenn Quartet 47:05 – Cyrine Ben Dhaou – Trinquons à la chémérine contre le cancer 50:53 – Delphine Laho – Mise au point d’un test de diagnostic moléculaire rapide de l’otite moyenne aigüe chez l’enfant. 54:42 – Benjamin Swedlund – Choisir c’est renoncer : quand les cellules souches pluripotentes font le choix du coeur 58:25 – Valentin Fortier – Le Méthane sur Mars : d’où ça vient ? 1:02:10 – Charlotte Minsart – Implication de la protéine HMGB1 dans l’overdose au paracétamol 1:07:00 – Cyrine Ben Dhaou – Trinquons à la chémérine contre le cancer (deuxième présentation, suite à un problème technique) 1:13:00 – Intermède musical / Délibération : Joel Rabesolo / Aleph Quintet Music / Kearo Zenn Quartet / Isadora / Jean-Paul Groove 1:54:00 – Résultats du jury & du vote du public (Serge Schiffmann)
Mon texte
Ma thèse se trouve à cheval entre deux mondes : l’intelligence artificielle, dans le monde des ingénieurs, et l’histologie, dans le monde des médecins.
L’intelligence artificielle, on la retrouve partout. Prenez votre smartphone, par exemple. Si vous ouvrez l’appareil photo, un algorithme va détecter les visages et les entourer d’un petit rectangle. Pour créer un tel algorithme, on utilise des millions de photos, sur lesquelles on a noté où se trouvait chaque visage. Plus on a d’images différentes (de face, de profil, de loin, de près…), mieux l’algorithme sera capable de détecter les visages en toute circonstance.
Noter où se trouve un visage sur une photo, c’est facile, tout le monde peut le faire. Mais en histologie, dans le monde des médecins, les choses sont plus compliquées.
L’histologie, c’est ce qui se passe par exemple quand on prélève un morceau de tumeur durant une biopsie ou une opération. On le fixe ensuite dans un bloc de paraffine, qu’on coupe en fines tranches. On ajoute un peu de couleurs, et puis on peut venir regarder au microscope pour estimer la gravité du cancer et prendre les meilleures décisions pour le patient : faut-il opérer plus, faire une chimio, faire des rayons ?
Est-ce que vous pouvez dire quel type de cancer se trouve sur cette image ? Probablement pas. Les cellules cancéreuses ne portent pas de pancarte indiquant leur niveau de gravité. Les indicateurs sur lesquels se basent les médecins sont souvent subjectifs, et le désaccord entre experts est courant.
Produire et annoter les images histologiques prend du matériel spécialisé, des personnes expérimentées, et beaucoup de temps. On doit donc travailler sur des bases de données réduites, où les annotations sont incertaines, voire contradictoires d’un expert à l’autre.
Pour appliquer les techniques d’intelligence artificielle au monde de l’histologie, nous avons donc développé des méthodes qui permettent à nos algorithmes d’apprendre malgré les données imparfaites, et à donner des résultats utiles pour la recherche et le diagnostic.
Il faut aussi se poser la question de comment on peut évaluer nos résultats. Si je teste un algorithme qui détecte des visages, je peux prendre une série de photos et compter le nombre d’erreurs. Mais qu’est-ce qu’une « erreur » lorsque même les meilleurs experts ont des avis différents ? Là aussi, nous avons dû développer des méthodes qui tiennent compte de cette incertitude, et qui nous permettent de mieux évaluer si un algorithme est plus intéressant qu’un autre.
La rencontre du monde de l’ingénieur et du monde de la médecine apporte beaucoup des deux côtés. Le développement de nouvelles méthodes et de nouveaux algorithmes pour les uns ; la possibilité de faciliter le travail des médecins, et d’améliorer la qualité des soins proposés aux patients pour les autres.
Venant du côté des ingénieurs, c’est une rencontre qui n’est pas toujours facile. Le monde médical est compliqué, et réussir à s’adapter à cette complexité est toute la difficulté, et aussi pour moi tout l’intérêt, de ma thèse.
Il est difficile de ne pas voir une certaine responsabilité médiatique dans la vaste arnaque que sont les cryptomonnaies, NFTs, et autres “révolutions” de la blockchain. En traitant bien souvent les cryptomonnaies comme “un investissement” (risqué, certes, mais légitime) dont on rapporte les montées et descentes comme si c’était une action cotée en bourse, ils leur donne une aura de respectabilité qui aide à recruter les nouvelles générations d’investisseurs… qui se retrouvent bien souvent les cibles de la prochaine arnaque, ou simplement les victimes de la nature légèrement… “pyramidale” de l’investissement.
Au vu de la vaste quantité d’argent sale au cœur de cette “crypto-économie”, il me semble particulièrement important pour les médias de s’assurer que, dans leurs propres transactions avec le milieu, ils sont irréprochables et au-dessus de tout conflit d’intérêt. Ce qui m’amène à La Libre Belgique et à la société bit4you.
La Libre Belgique a attiré mon attention par leur couverture particulièrement positive et constante des cryptomonnaies. C’est peut-être une impression personnelle, mais je les vois plus que la plupart des autres médias francophones diffuser chaque montée du prix, et offrir une tribune à des entrepreneurs en blockchain et cryptomonnaies.
Avec parfois, me semble-t-il, un léger flou entre le contenu publicitaire et le contenu journalistique. Parce que La Libre publie des “publireportages”, contenu sponsorisé prenant le format d’un article “normal”. Par exemple: cette série de 6 articles “#Décrypto”. Ces articles sont clairement marqués comme “contenu de partenaire” et “PUBLICITE”, mais ils se retrouvent catégorisés dans la section “Placements et marchés” du site et sont écrits comme des articles “informatifs”. Plus récemment, on a ces articles “Le bitcoin, un nouvel eldorado pour les jeunes” et “Les jeunes investisseurs“, eux aussi marqués “publireportage” et avec une note indiquant qu’il s’agit d’un contenu publicitaire à la fin, mais visuellement absolument identiques à tous les articles “légitimes” (et aussi écris dans un style “neutre” qui cherche clairement à donner l’impression qu’il s’agit d’articles et pas de publicités).
Cette limite floue entre “contenu journalistique” et “publicité” est déjà un peu dérangeante, mais jusque là “ça peut aller”. Mais voici où les choses deviennent un peu plus franchement problématiques. Ces contenus publicitaires proviennent tous des “bit4you“, une plateforme d’échange de cryptomonnaies basée en Belgique et dirigée par un certain Marc Toledo.
Et, en même temps que La Libre se fait payer pour diffuser les contenus publicitaires de bit4you, ils diffusent aussi des “vrais” articles faisant les louanges de cette même société. Voir aussi ici et ici. Aucun de ces articles ne sont des publicités, mais ils mettent clairement en avant une société en particulier, et donnent largement la parole à Marc Toledo qui se retrouve de facto “l’expert” de prédilection sur les questions de cryptomonnaies pour le journal.
La relation entre La Libre et bit4you est donc trouble: d’un côté, c’est une relation commerciale, où bit4you paie La Libre pour y placer son contenu publicitaire. D’un autre côté, c’est une relation journalistique, où La Libre interview Marc Toledo en tant qu’expert pour alimenter du contenu informatif.
Est-ce illégal ou une faute professionnelle? Honnêtement, je n’en sais rien du tout. Mais ce qui me semble très clair, c’est que le milieu des cryptomonnaies est pourri jusqu’à l’os, est remplis d’arnaques et de sociétés à l’honnêteté plus que douteuse, et que face à ce genre de milieu les médias devraient faire preuve d’une attention particulière à éviter de se retrouver dans des situations de potentiel conflits d’intérêt, qui les rendraient (éthiquement si pas juridiquement) complices des malversations en tout genre qui font tourner cette “crypto-économie”.
J’ai partagé il y a peu l’excellente vidéo de Dan Olson “Line Goes Up – The Problem with NFTs”, que vous pouvez retrouver ici: https://www.youtube.com/watch?v=YQ_xWvX1n9g. C’est long, mais ça en vaut la peine. Dan couvre le sujet de Bitcoin, des “smart contracts”, des NFTs et du “Web 3.0”, et il y a clairement de quoi tenir les 2 heures qu’il prend pour tout expliquer.
C’est un sujet dont j’ai déjà eu envie de parler, mais sans jamais trouver un angle qui me convenait. Il y a juste trop de choses à couvrir. Les arnaques pures et simples, l’impact environnemental, l’inadéquation du bitcoin en tant que monnaie… Dan Olson réussit je trouve assez bien (en tout cas mieux que dans tous mes brouillons!) à trouver le juste milieu entre “assez exact” et “assez compréhensible”.
Il y a cependant un point que j’aimerais encore couvrir de mon côté. Même si on ignore l’aspect écologique, et l’aspect économique, et les arnaques… la blockchain reste fondamentalement une technologie absolument inutile dans l’écrasante majorité des secteurs pour lesquelles elle est aujourd’hui régulièrement proposée. Allons-y point par point.
1. L’intérêt théorique
L’intérêt théorique de la blockchain (par rapport à n’importe quel autre moyen de stocker des données) est dans son immutabilité (une fois qu’on met quelque chose dedans, on ne peut plus le changer), dans sa décentralisation (de multiples copies du contenu sont dispersées dans des ordinateurs différents), et dans l’absence d’entité de confiance (c’est-à-dire que le réseau entier est “garant” de l’intégrité des données via un processus de consensus, pas une ou plusieurs personnes désignées à qui il faut donc “faire confiance”).
C’est ce dernier point en particulier qui distingue réellement la blockchain d’autres systèmes. L’immutabilité peut se faire facilement dans une base de données standard si on peut fait confiance dans le fait que l’entité qui administre cette base de donnée l’a bien configurée. La décentralisation, elle non plus, ne nécessite pas de blockchain si on peut s’accorder sur une (ou quelques) entités de confiance qui “décident” de qui a raison si plusieurs versions de la base de donnée se trouvent en conflit.
2. Ce qu’on peut stocker
Une limitation fondamentale d’un système “décentralisé” et “immuable”, c’est que l’on multiplie dramatiquement les ressources nécessaires pour stocker les données. Tout ce qu’on veut mettre sur la blockchain doit être envoyé à tous les ordinateurs qui participent au réseau, et doit y être stocké. Si on limite le nombre de participants au consensus, on transforme nécessairement ces participants en “entités de confiance”. Si on augment le nombre de participants, on multiplie la bande passante et l’espace de stockage nécessaire à faire fonctionner la base de données.
Comme le système est immuable, on ne peut jamais supprimer une donnée une fois qu’elle est entrée. Même si elle était erronée, même si on est certain qu’elle ne sera plus jamais utilisée: elle doit rester stockée chez tous les participants du réseau. Si on n’a pas toutes les données, on ne peut pas garantir l’intégrité de la blockchain, et on ne peut donc pas participer au consensus.
Le résultat est que toutes les blockchains ne stockent que des données textuelles de petite taille. On ne stocke pas d’images, de vidéos, de musique, ou même de PDFs ou de larges fichiers de texte sur la blockchain.
3. Si on veut stocker une autre ressource numérique, la blockchain devient inutile
Le moyen typiquement utilisé dès qu’on veut stocker autre chose que du texte et tout de même utiliser la blockchain, c’est d’utiliser celle-ci pour stocker des liens vers une ressource extérieure. Par exemple, dans les NFTs, la blockchain contient des petits programmes (du texte, donc) qui font un lien entre le propriétaire du NFT et, typiquement, une URL vers une image qui est stockée quelque part. La blockchain devient donc un “index” qui peut diriger vers les bonnes ressources.
Et comme l’image est stockée quelque part, celui qui contrôle ce “quelque part” doit nécessairement être considéré comme une entité de confiance. S’il supprime le fichier vers lequel la blockchain pointait, ou s’il change l’adresse de son serveur, la blockchain ne peut rien faire pour l’en empêcher. Pire: comme la blockchain est immuable, on ne peut même pas décider de mettre une copie du fichier ailleurs et de modifier le lien. Modifier, c’est interdit. La blockchain dit que le fichier est là. S’il n’y est plus: pas de bol. Des hébergements “décentralisés” comme IPFS permettent de rendre le système un peu plus robuste, mais cela ne change rien au fond du problème: la blockchain en elle-même n’a pas le contrôle sur les biens qu’elle est supposée gérer.
Dès lors que celui, celle ou ceux qui stockent les ressources sont des entités de confiance, il est infiniment plus efficace qu’elles conservent aussi l’index, qui peut du coup être stocké dans une base de donnée traditionnelle qui ne consomme pas l’électricité d’une nation.
4. Si ce qu’on veut stocker est en lien avec le monde non-numérique, la blockchain devient inutile.
Dans les cas typiques de “blockchain qui vont révolutionner le monde”, on a régulièrement des idées qui ont trait à des “supply chains” (suivons le produit du producteur au consommateur, sur la blockchain!), ou à des certificats de propriété (remplaçons les notaires par une blockchain!), ou à diverses données sensibles (votre dossier médical sur la blockchain!).
L’idée derrière l’utilisation de la blockchain, dans tous ces cas, est de se prémunir contre une modification malveillante des données. On ne veut pas que quelqu’un vienne traficoter la base de donnée pour soudain se prétendre propriétaire d’une maison, ou que le produit a été livré quelque part.
Là encore, cependant, la blockchain est totalement inadaptée. Oui, il peut y avoir de gros soucis avec des données erronées dans toutes ces applications. Mais ces erreurs ne viennent pas de hackers qui se glissent sur le serveur et modifient les données avant de s’enfuir vers le soleil couchant. Elles viennent presque toujours, simplement, de l’encodage. Dès qu’on parle de données du “monde réel”, on a nécessairement pour toute donnée quelqu’un, quelque part, qui va être responsable de traduire le “monde réel” en sa représentation numérique. Scanner un QR code, entrer un numéro de client, signer un reçu électronique… S’il y a manipulation (ou erreur de bonne fois), c’est toujours à cet endroit là que ça se passe. Et la blockchain n’a évidemment aucun moyen de valider que ce qui est entré correspond à la réalité. La blockchain ne peut pas savoir si le produit “reçu” est bel et bien présent là où le QR code a été scanné.
C’est le problème du “Garbage In, Garbage Out”: si on rentre des données pourries dans le système, on en sortira des données pourries. Le problème est même aggravé par la blockchain car, à nouveau, immuabilité = impossible de corriger si c’est une vraie erreur. Maintenir une blockchain “synchronisée” avec le monde réel est inutilement compliqué. Et dans tous ces cas de figures, on a de toute façon quelque part une “autorité” qui sera chargée de résoudre les conflits lorsqu’il y a un doute. À nouveau, tout le monde gagnerait à ce que cette autorité gère directement la base de données… rendant la blockchain obsolète.
5. Qu’est-ce qu’il reste, alors?
La blockchain peut se justifier si on a une application où l’on ne doit stocker que des données qui prennent peu de place et qui sont entièrement numériques (donc qui existent indépendamment de tout objet réel).
Qu’est-ce qui remplit ces critères? Globalement: le Bitcoin (et ses divers successeurs). Ce n’est pas pour rien que, si “la blockchain” en tant que telle date du début des années 90, Bitcoin reste aujourd’hui la seule application réellement “fonctionnelle” du concept. Et elle fonctionne bien mal.
Certains diront que les “smart contracts” d’Ethereum sont fondamentalement une application différente, mais je pense que c’est tirer trop loin la définition de “fonctionnelle”. Tous les projets autour de ces smart contracts souffrent des défauts énoncés ici, et sont au mieux des mauvaises solutions à de réels problèmes. Et, dans la majorité des cas, ils sont une excuse pour une quelconque bulle spéculative comme les NFTs, et n’ont aucune “fonctionnalité” à proprement parler.
David Rosenthal explique assez bien ici pourquoi toute blockchain décentralisée finit nécessairement en bulle spéculative. En résumé: pour que le système soit décentralisé, il faut qu’il soit difficile (pratiquement impossible) d’attaquer le système de “consensus” en contrôlant plus de la moitié des participants. Pour cela, il faut que la participation ait un coût élevé (c’est le concept du “Proof-of-Work”). Pour que des gens veuillent quand même participer, il faut que ce coût soit au final couvert par une rémunération. Pour que le système reste décentralisé, il faut que cette rémunération soit générée “automatiquement” par le système (si on a une autorité centrale qui distribue des gains aux “bons” participants, elle a de facto le contrôle du système): on doit donc avoir une cryptomonnaie. Comme les coûts de participation (matériel, électricité…) ne sont a priori pas payables dans cette cryptomonnaie, les participants vont nécessairement vouloir écouler leur cryptomonnaie et la vendre contre de la vraie monnaie. Pour qu’ils puissent la vendre, il faut que des gens achètent. Et la seule raison qui va pousser assez de gens à acheter pour que le système continue à tourner, c’est l’espoir que la valeur monte. Les seules possibilités sont donc: le système se plante faute d’acheteurs, ou on a une bulle spéculative jusqu’à ce que le système se plante faute d’acheteurs.
Conclusions
Quelques remarques pour terminer:
Oui, tout cela n’empêche pas qu’on puisse “se faire de l’argent” avec le Bitcoin, les NFTs, et tout le cryptobazar. C’est une bulle: tant qu’elle n’a pas explosé, il y a certainement moyen d’en profiter. J’aurais tendance à dire que ce n’est pas très éthique, et que les risques de tout perdre et/ou de participer malgré soi à quelque chose d’illégal sont un peu trop grands, mais chacun son truc.
Je n’ai jamais possédé la moindre cryptomonnaie et je ne compte pas en posséder un jour. Je n’ai donc aucun intérêt financier dans un sens ou dans l’autre. J’ai par contre un intérêt dans le fait que nos ressources technologiques et énergétiques servent à des choses moins dommageables pour le monde que de faire tourner des blockchains.
“Mais en vrai, Ethereum va quitter le Proof-of-Work et on peut faire de la blockchain qui ne détruit pas l’environnement, et en plus grâce aux blockchain on développe l’énergie solaire, etc., etc.” Non. Sorry, mais tout ça c’est du bullshit. Même à un coût environnemental réduit (et Ethereum “va quitter le Proof-of-Work” très bientôt depuis sept ans, donc la crédibilité est assez limitée), cela reste un énorme gaspillage. Quand aux sources d’énergies, les “mineurs” vont là où l’énergie est la moins chère. Parfois, c’est de l’énergie solaire ou géothermale, souvent c’est du charbon. Même si l’énergie était 100% verte, ce serait tout de même de l’énergie mieux utilisée ailleurs.
Y-a-t’il des utilisations légitimes et utiles de la blockchain? Certainement… pour certains de ces aspects, qui ne sont pas nouveaux et pas uniques à la blockchain. Il y a certainement des idées intéressantes en cryptographie et en gestion de systèmes décentralisés liés à des travaux sur la blockchain. Mais le milieu “de la crypto” est devenu tellement toxique que, à ce stade, toute association au concept de blockchain rend une idée suspecte. Il est temps de balayer tout, de jeter toutes les cryptomonnaies à la poubelle, et de passer à autre chose.
Le Dr. Elisabeth Bik est une microbiologiste qui s’est spécialisée dans la détection de manipulations potentiellement frauduleuses dans les articles scientifiques, et en particulier dans les images. Ces manipulations sont parfois très subtiles. Dans l’image ci-dessous, par exemple, on retrouve un exemple de ce que le Dr Bik appelle une duplication de “catégorie 2”, c’est-à-dire une image dupliquée avec un repositionnement.
Annotations par Elisabeth Bik sur PubPeer, illustration dans Yan et al [1].
Ce qu’on peut voir ici, avec de bons yeux, c’est que deux images de cette figure représentent clairement le même morceau de tissu cellulaire, légèrement décalé. Le problème est que, selon la méthodologie de l’article, ces deux images devraient normalement provenir de deux souris différentes. Un tel degré de similitude serait en ce cas une sacrée coïncidence.
Cela signifie soit qu’il y a eu un moment dans le processus un mélange qui a été fait dans la labellisation et l’identification des images (autrement dit: leurs fichiers images ne sont pas correctement reliés aux échantillons), soit qu’au moment de construire les figures il y a eu un “léger raccourci” qui a été fait, et que les auteurs ont décidés d’utiliser une image qui illustrait peut-être mieux leur propos et le résultat de leurs mesures, même si l’image ne correspondait pas aux labels associés. Dans les deux cas, cela rend très douteux les résultats de l’expérience, et a fortiori les conclusions de l’article.
Ce genre de fautes, le Dr. Bik en trouve des tonnes. Ses trouvailles se retrouvent sur PubPeer, et elle les publie régulièrement sur son compte Twitter. Dans de nombreux cas, les manipulations sont beaucoup plus flagrantes, et il est difficile de trouver une autre explication à la figure que “Photoshop”. Par exemple, ici:
Dans la seconde ligne (Beta-Actin), les deux premières bandes (M et 1) sont l’image miroir des deux suivantes (2 et 3). La coupure est clairement visible, et c’est quelque chose qui ne pourrait juste pas apparaître naturellement dans ce genre d’images.
Jusque là, c’est embêtant mais ce n’est pas non plus un drame. Des articles sont publiés avec des erreurs, d’autres scientifiques trouvent ces erreurs, c’est comme ça que la science avance. Là où les choses deviennent plus inquiétantes, c’est quand on regarde ce qui se passe après que les erreurs soient identifiées.
Science et sociétés d’édition
En 2016, Bik et deux collègues ont publiés une étude dans laquelle elles ont analysé les images de plus de 20.000 articles publiés entre 1995 et 2014, et ont trouvé que prêt de 4% d’entre eux contenaient au moins une image problématique [2]. Mais lorsque ces erreurs sont rapportées aux journaux concernés, elles sont souvent entièrement ignorées. Dans certains cas, malgré des manipulations flagrantes, le journal demande juste aux auteur·rice·s de fournir une figure corrigée, sans que les résultats soient ré-examinés. Il faut souvent qu’un article attire une attention un peu trop soutenue pour que les éditeurs du journal se décident à envisager une rétraction.
Pourquoi les éditeurs (et les reviewers) ne font-ils pas correctement leur boulot? Même en l’absence de malversations ou de conflits d’intérêt, il reste un problème majeur dans le système.
Il y a en effet un conflit entre les besoins de la communauté scientifique, et les besoins des sociétés d’édition. La méthode scientifique est fondée sur une certaine “auto-régulation”: les résultats publiés doivent être reproductibles et vérifiables. Lorsque des erreurs sont découvertes, elles doivent être corrigées. Lorsque des manipulations sont découvertes, les résultats deviennent immédiatement suspects et doivent être rétractés.
Mais pour les sociétés d’édition, tout cela nécessiterait de mettre de sérieuses ressources dans le “contrôle de qualité”, ce qui va directement à l’opposé de leur objectif principal qui est, nécessairement, d’engranger un maximum de profit. Les éditeurs scientifiques ne sont (généralement) pas des ASBL. Springer Nature, Elsevier, Taylor & Francis… les plus grandes sociétés d’édition sont aujourd’hui des multinationales avec des revenus qui se comptent en milliards de dollars. Et la majorité des publications sont concentrées dans seulement une poignée de sociétés (5, selon une étude de 2015) [3].
Aujourd’hui, lorsqu’on publie un article, on a un processus dans lequel les auteurs payent le journal pour que leur article y apparaisse, les reviewers qui évaluent la qualité de l’article sont bénévoles, les éditeurs qui recrutent ces reviewers et prennent les décisions finales concernant la publication sont également souvent bénévoles (ou peu payés), et les universités payent des fortunes pour avoir accès aux articles, qui sont sinon souvent vendus “à la pièce” pour des tarifs de l’ordre de 30 à 40 dollars.
De nombreux journaux “offrent” maintenant la possibilité aux auteurs de publier en “Open Access”, pour que l’article soit accessible gratuitement à tous… et demandent pour ce faire aux auteurs de payer un tarif plus élevé, souvent de l’ordre de plusieurs milliers de dollars, jusqu’à plus de 10.000 dollars dans des cas extrêmes comme celui de Nature Neuroscience. Ce modèle d’Open Access fait que seul les laboratoires ayant un certain budget peuvent se permettre de rendre leur recherche accessible à tous (en dehors des solutions “alternatives” de diffusion comme sci-hub et autres, évidemment).
À l’ère de l’édition numérique, le travail de la société d’édition est devenu assez limité: repasser un coup sur l’article pour corriger la mise en page, et héberger des PDFs sur un serveur. Faire de “l’après-vente” sur ces articles, cela demanderait un travail supplémentaire qui retomberait soit sur des éditeurs bénévoles et déjà surchargés, soit nécessiterait pour la société d’édition de payer quelqu’un pour le faire. Et ça, ça couperait dans la marge de profit.
Elisabeth Bik note un cas particulièrement cynique (corrigé depuis) où Springer vendait un article pour $40 sans indiquer nul part qu’il avait été rétracté depuis plus de 15 ans… et si l’on tombait via un moteur de recherche comme PubMed sur la notice de rétraction, on pouvait également obtenir celle-ci… pour $40 supplémentaires.
La “symbiose” entre la communauté scientifique et les maisons d’édition ressemble de plus en plus à une relation parasitique où les scientifiques produisent l’essentiel du travail, et les sociétés d’édition récupèrent l’entièreté des bénéfices. Et rétracter des articles, ce n’est pas tellement bon pour le business.
Traders et Marseillais
Le plus souvent, les suites données aux remarques du Dr Bik et des autres contributeurs réguliers de PubPeer ou RetractionWatch (lorsque ce n’est pas juste du silence) restent fermement dans la sphère scientifique. Corrections, commentaires sur les corrections, rétractions: le processus est lent et frustrant, et souvent dysfonctionnel, mais les principaux acteurs des débats ont le mérite de rester dans le cadre prévu.
Et puis parfois, les choses débordent un peu.
Deux cas en particulier sortent du lot: celui de la firme pharmaceutique Cassava Sciences et, bien entendu, celui de l’inévitable IHU-Marseille du Professeur Didier Raoult.
Cassava Sciences: quand les traders s’en mêlent
Cassava Sciences développe un possible traitement pour la maladie d’Alzheimer. D’après les publications de la société, les essais cliniques “Phase 2” montrent un effet bénéfique sur les capacités cognitives pour leur médicament. (Pour résumer très grossièrement: la phase 1 cherche à déterminer avant tout si un médicament est dangereux, la phase 2 s’il a un effet bénéfique, la phase 3 si cet effet est meilleur que le meilleur traitement actuellement recommandé, et la phase 4 observe les effets long terme après que le médicament ait été mis sur le marché.)
En août 2021, un rapport a été envoyé à la FDA demandant l’arrêt des essais cliniques, notant une série de possibles manipulations dans les données et images publiées. Le Dr Bik détaille de son côté sur son blog sa propre analyse, après avoir lu le rapport et les articles originaux. Elle relève effectivement une série de possibles manipulations d’image.
Notons que quand on parle ici de “manipulation”, il ne s’agit pas nécessairement de “malversation”. Une manipulation peut être simplement faite pour respecter des contraintes de places, ou des besoins de clarté lors de la publication, et avoir été réalisée “de bonne foi”. Mais les explications fournies à ce jour par Cassava Sciences n’ont pas vraiment convaincu les experts.
Analyse de certaines figures par un utilisateur anonyme sur PubPeer mettant en évidence de possibles manipulations dans un article de Wang et al [4], avec notamment des discontinuités étranges dans le “bruit de fond” de l’image qui pourraient indiquer que certaines portions ont été découpées et viennent d’une autre image.
Une notice a été publiée sur au moins l’un des articles incriminés avertissant qu’une enquête était en cours… menée par l’Université où les auteurs de l’étude sont affiliés, ce qui ne sera peut-être pas suffisant pour éteindre les doutes.
Ce qui fait sortir l’affaire Cassava Sciences du lot, cependant, c’est que la quasi-entièreté des discussions sur le sujet est polluée par une bataille de traders. Parce qu’à la base de toute l’histoire, il y a la cotation en bourse de Cassava, et un grand conflit entre ceux qui ont pariés “à la hausse” et ceux qui ont pariés “à la baisse.” Après des premiers résultats d’essais cliniques “phase 2” décevants, le cours avait chuté. Quelques mois plus tard, ils reviennent sur leurs résultats et publient cette fois-ci des effets positifs remarquables… et l’action remonte. Les investisseurs ayant parié “à la baisse” crient à la fraude. Ceux ayant parié “à la hausse” défendent les résultats corps et âme (et portefeuille).
Sans être de mon côté un expert dans le domaine de la recherche médicamenteuse, je le suis suffisamment dans celui de l’analyse d’image pour voir que certains des problèmes relevés par le Dr Bik sont indéniables. Il y a eu des manipulations d’images, et sans une transparence totale de la part de la firme pharmaceutique et du laboratoire de recherche qui a effectué les expériences, on ne peut juste à ce stade pas faire confiance en leurs résultats.
Et s’il s’avère que ces manipulations ont une explication bénigne, et que les résultats sont effectivement prometteurs, tant mieux ! Un médicament réduisant les effets de la maladie d’Alzheimer serait formidable. Mais on ne peut pas mettre sur le marché ce médicament sans avoir levé les doutes qui subsistent aujourd’hui.
Gautret, Raoult, et l’excellence marseillaise
En mars 2020, Philippe Gautret et ses collègues de l’IHU-Méditerranée Infection, sous la direction de Didier Raoult, publient les fameux “essais cliniques” sur l’hydroxychloroquine pour traiter le COVID-19 [5].
Cet article est truffé de problèmes. Elisabeth Bik les détaille mieux que moi, mais en résumé on a:
Des patients “contrôle” (sans hydroxychloroquine) recrutés dans d’autres centres que les patients “test” (qui étaient tous suivis à l’IHU), introduisant immédiatement des facteurs de confusion dans toute analyse des résultats.
Une sélection non-aléatoire des patients “contrôle” et “test”, introduisant un possible biais de sélection.
Des protocoles de test différents selon le centre pour déterminer la charge virale.
Des patients qui changent de groupe ou qui sont retirés de l’étude lorsque les résultats ne vont pas dans le sens voulu (les patients qui vont en soins intensifs ou meurent avec le traitement hydroxychloroquine sont retirés de l’étude, mais les patients ayant des antécédents rendant le traitement inadéquat sont mis dans le groupe contrôle alors qu’eux devraient être retirés).
Des patients dont on a pas de données pour le “6e jour” du traitement mais à qui on attribue tout de même un résultat positif ou négatif selon les dernières données disponibles, malgré le fait qu’on voit régulièrement des résultats fluctuant d’un jour à l’autre chez d’autres patients.
Un énorme conflit d’intérêt non déclaré dans le processus de peer-review, avec l’un des auteurs de l’étude qui est aussi éditeur en chef du journal où elle est publiée. Avec en prime des délais extrêmement courts entre la réception du manuscrit et la date de publication (publié le lendemain de la réception, alors que la plupart des articles mettent des mois avant de recevoir une réponse positive ou négative).
Bref, cet article n’aurait clairement jamais dû être publié. Et vu le total refus par Raoult et compagnie d’accepter les critiques sur leur manuscrit, cela a forcément attiré l’attention sur leurs autres publications. Est-ce que toute la production scientifique de l’IHU-Marseille est à remettre en cause? En tout cas, Bik a depuis passé en revue de nombreux autres articles de la même équipe, et a relevé des problèmes de manipulation d’images, et de pratiques éthiques discutables dans des expériences sur des personnes sans domicile fixe et sur des populations africaines. Avec des publications qui sont très souvent faites dans des journaux où des membres de l’IHU occupent des positions éditoriales.
Peu désireux de se défendre sur le plan scientifique (il faut dire que, si pour Cassava il y a un réel doute sur la validité des résultats, il n’y a ici pas vraiment de défense possible), Raoult, son collègue Éric Chabrière et leurs partisans répondent aux critiques par du harcèlement et des menaces, et finalement à un dépôt de plainte contre le Dr Bik.
Notons que l’article de Gautret à l’origine de toute cette controverse n’a jamais été rétracté. Une déclaration de l’International Society of Antimicrobial Chemoterapy, qui est co-propriétaire de la revue avec Elsevier, note que l’article ne répond pas aux attentes de qualité de l’association, mais aucune action concrète n’a été entreprise par le journal.
Conclusions
Il y a pour l’instant une certaine crise de confiance du “grand public” vis-à-vis des scientifiques.
Il y a aussi une crise de confiance des scientifiques envers l’industrie de l’édition.
Il y a derrière ces crises un certain nombre de fantasmes complotistes. Il y a aussi des réalités inquiétantes.
Je suis convaincu que l’écrasante majorité des scientifiques cherchent à produire un travail de qualité. Mais le système académique aujourd’hui ne favorise pas la qualité. Pour avancer dans leur carrière, les scientifiques doivent publier, idéalement publier dans des “bonnes” revues, et idéalement publier beaucoup. Cela donne aux sociétés d’édition de ces revues un pouvoir immense, et cela incite les scientifiques à prendre des raccourcis méthodologiques.
Les journaux de leur côté n’hésitent pas à recruter des reviewers (bénévoles) de manière agressive pour augmenter la quantité d’articles qu’ils peuvent traiter, quitte à prendre des reviewers de moindre expertise.
Certaines initiatives sont de bonne augure pour le futur. Certains journaux, par exemple, cherchent maintenant au moins à rendre transparent le processus de peer-review, en nommant les reviewers qui ont participé au process et en publiant leurs commentaires. Cela permettrait déjà de plus facilement identifier les articles qui auraient pu bénéficier d’un “traitement de faveur” éditorial. Des journaux entièrement “open access” et avec des tarifs raisonnables de publication voient aussi régulièrement le jour.
Mais ils doivent faire face à une énorme inertie: pour qu’une publication ait de la valeur dans un CV académique, elle doit être faite dans un “bon journal”. Mais pour qu’un journal devienne “bon”, il faut que de bons chercheurs y publient leurs résultats. On a donc un cercle vicieux: les chercheurs vont toujours d’abord viser les journaux bien établis, et ne proposer aux nouveaux venus que les articles qui ont été refusés par des publications plus prestigieuses. Ceux-ci se retrouvent donc avec un contenu de moindre qualité, justifiant leur statut de “mauvais journal”, et le cycle continue.
Le travail d’Elisabeth Bik est révélateur des faiblesses du système actuel, et montre l’importance de voir le “peer review” autrement. Un processus continu, où auteurs et éditeurs peuvent être amené à rendre des comptes lorsque des problèmes majeurs sont identifiés. Où l’on n’accepte pas que des raccourcis soient pris dans des domaines aussi critiques que les essais cliniques sous prétexte que des investisseurs aimeraient bien voir une courbe monter ou descendre, ou qu’un directeur d’institut estime que ses travaux n’ont pas besoin d’être revus par ses pairs (après tout, c’est lui l’élite).
On ne peut qu’espérer que la médiatisation apportée par les controverses de Cassava Sciences et de l’IHU vont inspirer d’autres chercheurs à avoir un œil plus critique sur les articles qu’ils lisent, et à contribuer à ce processus continu. On peut aussi espérer que les journaux rendent plus facile l’intégration de remarques du reste de la communauté scientifique auprès des articles publiés, mais là ce n’est clairement pas gagné d’avance.