Ma Thèse en 180 secondes

L’édition 2022 de “Ma Thèse en 180 secondes” va démarrer le mois prochain avec les sélections ULB le 31 mars. J’ai eu le plaisir de participer à l’édition 2021 (quelque peu perturbée par le COVID, mais c’était chouette quand même!). Je me rends compte que j’avais prévu de mettre la vidéo et mon texte ici et que j’ai complètement oubliée de le faire, donc avec à peu près un an de retard, les voici !

Je ne peux que conseiller l’exercice aux doctorant.e.s qui approchent de leur fin de thèse: synthétiser et vulgariser, ça pousse à se poser des bonnes questions sur les objectifs réels de ce qu’on est en train de faire.

Le “Live”

“Facebook Live” de l’événement: https://www.facebook.com/watch/live/?v=1071437936709269&ref=watch_permalink

Timecodes des participant.e.s:

16:07 – Introduction (Quentin Delhaye)
24:45 – Sébastien Lamproye – Le progrès technique et le partage du gâteau
28:25 – Léni Jodaitis – La bactérie : une boite de nuit très select
32:00 – Ruth Ringer – C’est quoi cette image ?
35:45 – Alexandre Popotas – La pneumonie vient de Mars, l’asthme de Vénus
39:15 – Adrien Foucart – Intelligence artificielle et histologie : un ingénieur au pays des médecins
42:55 – Intermède musical : Dolores – Kearo Zenn Quartet
47:05 – Cyrine Ben Dhaou – Trinquons à la chémérine contre le cancer
50:53 – Delphine Laho – Mise au point d’un test de diagnostic moléculaire rapide de l’otite moyenne aigüe chez l’enfant.
54:42 – Benjamin Swedlund – Choisir c’est renoncer : quand les cellules souches pluripotentes font le choix du coeur
58:25 – Valentin Fortier – Le Méthane sur Mars : d’où ça vient ?
1:02:10 – Charlotte Minsart – Implication de la protéine HMGB1 dans l’overdose au paracétamol
1:07:00 – Cyrine Ben Dhaou – Trinquons à la chémérine contre le cancer (deuxième présentation, suite à un problème technique)
1:13:00 – Intermède musical / Délibération : Joel Rabesolo / Aleph Quintet Music / Kearo Zenn Quartet / Isadora / Jean-Paul Groove
1:54:00 – Résultats du jury & du vote du public (Serge Schiffmann)

Mon texte

Ma thèse se trouve à cheval entre deux mondes : l’intelligence artificielle, dans le monde des ingénieurs, et l’histologie, dans le monde des médecins.

L’intelligence artificielle, on la retrouve partout. Prenez votre smartphone, par exemple. Si vous ouvrez l’appareil photo, un algorithme va détecter les visages et les entourer d’un petit rectangle. Pour créer un tel algorithme, on utilise des millions de photos, sur lesquelles on a noté où se trouvait chaque visage. Plus on a d’images différentes (de face, de profil, de loin, de près…), mieux l’algorithme sera capable de détecter les visages en toute circonstance.

Noter où se trouve un visage sur une photo, c’est facile, tout le monde peut le faire. Mais en histologie, dans le monde des médecins, les choses sont plus compliquées.

L’histologie, c’est ce qui se passe par exemple quand on prélève un morceau de tumeur durant une biopsie ou une opération. On le fixe ensuite dans un bloc de paraffine, qu’on coupe en fines tranches. On ajoute un peu de couleurs, et puis on peut venir regarder au microscope pour estimer la gravité du cancer et prendre les meilleures décisions pour le patient : faut-il opérer plus, faire une chimio, faire des rayons ?

Est-ce que vous pouvez dire quel type de cancer se trouve sur cette image ? Probablement pas. Les cellules cancéreuses ne portent pas de pancarte indiquant leur niveau de gravité. Les indicateurs sur lesquels se basent les médecins sont souvent subjectifs, et le désaccord entre experts est courant.

Produire et annoter les images histologiques prend du matériel spécialisé, des personnes expérimentées, et beaucoup de temps. On doit donc travailler sur des bases de données réduites, où les annotations sont incertaines, voire contradictoires d’un expert à l’autre.

Pour appliquer les techniques d’intelligence artificielle au monde de l’histologie, nous avons donc développé des méthodes qui permettent à nos algorithmes d’apprendre malgré les données imparfaites, et à donner des résultats utiles pour la recherche et le diagnostic.

Il faut aussi se poser la question de comment on peut évaluer nos résultats. Si je teste un algorithme qui détecte des visages, je peux prendre une série de photos et compter le nombre d’erreurs. Mais qu’est-ce qu’une « erreur » lorsque même les meilleurs experts ont des avis différents ? Là aussi, nous avons dû développer des méthodes qui tiennent compte de cette incertitude, et qui nous permettent de mieux évaluer si un algorithme est plus intéressant qu’un autre.

La rencontre du monde de l’ingénieur et du monde de la médecine apporte beaucoup des deux côtés. Le développement de nouvelles méthodes et de nouveaux algorithmes pour les uns ; la possibilité de faciliter le travail des médecins, et d’améliorer la qualité des soins proposés aux patients pour les autres.

Venant du côté des ingénieurs, c’est une rencontre qui n’est pas toujours facile. Le monde médical est compliqué, et réussir à s’adapter à cette complexité est toute la difficulté, et aussi pour moi tout l’intérêt, de ma thèse.

Stop à la blockchain

J’ai partagé il y a peu l’excellente vidéo de Dan Olson “Line Goes Up – The Problem with NFTs”, que vous pouvez retrouver ici: https://www.youtube.com/watch?v=YQ_xWvX1n9g. C’est long, mais ça en vaut la peine. Dan couvre le sujet de Bitcoin, des “smart contracts”, des NFTs et du “Web 3.0”, et il y a clairement de quoi tenir les 2 heures qu’il prend pour tout expliquer.

C’est un sujet dont j’ai déjà eu envie de parler, mais sans jamais trouver un angle qui me convenait. Il y a juste trop de choses à couvrir. Les arnaques pures et simples, l’impact environnemental, l’inadéquation du bitcoin en tant que monnaie… Dan Olson réussit je trouve assez bien (en tout cas mieux que dans tous mes brouillons!) à trouver le juste milieu entre “assez exact” et “assez compréhensible”.

Il y a cependant un point que j’aimerais encore couvrir de mon côté. Même si on ignore l’aspect écologique, et l’aspect économique, et les arnaques… la blockchain reste fondamentalement une technologie absolument inutile dans l’écrasante majorité des secteurs pour lesquelles elle est aujourd’hui régulièrement proposée. Allons-y point par point.

1. L’intérêt théorique

L’intérêt théorique de la blockchain (par rapport à n’importe quel autre moyen de stocker des données) est dans son immutabilité (une fois qu’on met quelque chose dedans, on ne peut plus le changer), dans sa décentralisation (de multiples copies du contenu sont dispersées dans des ordinateurs différents), et dans l’absence d’entité de confiance (c’est-à-dire que le réseau entier est “garant” de l’intégrité des données via un processus de consensus, pas une ou plusieurs personnes désignées à qui il faut donc “faire confiance”).

C’est ce dernier point en particulier qui distingue réellement la blockchain d’autres systèmes. L’immutabilité peut se faire facilement dans une base de données standard si on peut fait confiance dans le fait que l’entité qui administre cette base de donnée l’a bien configurée. La décentralisation, elle non plus, ne nécessite pas de blockchain si on peut s’accorder sur une (ou quelques) entités de confiance qui “décident” de qui a raison si plusieurs versions de la base de donnée se trouvent en conflit.

2. Ce qu’on peut stocker

Une limitation fondamentale d’un système “décentralisé” et “immuable”, c’est que l’on multiplie dramatiquement les ressources nécessaires pour stocker les données. Tout ce qu’on veut mettre sur la blockchain doit être envoyé à tous les ordinateurs qui participent au réseau, et doit y être stocké. Si on limite le nombre de participants au consensus, on transforme nécessairement ces participants en “entités de confiance”. Si on augment le nombre de participants, on multiplie la bande passante et l’espace de stockage nécessaire à faire fonctionner la base de données.

Comme le système est immuable, on ne peut jamais supprimer une donnée une fois qu’elle est entrée. Même si elle était erronée, même si on est certain qu’elle ne sera plus jamais utilisée: elle doit rester stockée chez tous les participants du réseau. Si on n’a pas toutes les données, on ne peut pas garantir l’intégrité de la blockchain, et on ne peut donc pas participer au consensus.

Le résultat est que toutes les blockchains ne stockent que des données textuelles de petite taille. On ne stocke pas d’images, de vidéos, de musique, ou même de PDFs ou de larges fichiers de texte sur la blockchain.

3. Si on veut stocker une autre ressource numérique, la blockchain devient inutile

Le moyen typiquement utilisé dès qu’on veut stocker autre chose que du texte et tout de même utiliser la blockchain, c’est d’utiliser celle-ci pour stocker des liens vers une ressource extérieure. Par exemple, dans les NFTs, la blockchain contient des petits programmes (du texte, donc) qui font un lien entre le propriétaire du NFT et, typiquement, une URL vers une image qui est stockée quelque part. La blockchain devient donc un “index” qui peut diriger vers les bonnes ressources.

Et comme l’image est stockée quelque part, celui qui contrôle ce “quelque part” doit nécessairement être considéré comme une entité de confiance. S’il supprime le fichier vers lequel la blockchain pointait, ou s’il change l’adresse de son serveur, la blockchain ne peut rien faire pour l’en empêcher. Pire: comme la blockchain est immuable, on ne peut même pas décider de mettre une copie du fichier ailleurs et de modifier le lien. Modifier, c’est interdit. La blockchain dit que le fichier est là. S’il n’y est plus: pas de bol. Des hébergements “décentralisés” comme IPFS permettent de rendre le système un peu plus robuste, mais cela ne change rien au fond du problème: la blockchain en elle-même n’a pas le contrôle sur les biens qu’elle est supposée gérer.

Dès lors que celui, celle ou ceux qui stockent les ressources sont des entités de confiance, il est infiniment plus efficace qu’elles conservent aussi l’index, qui peut du coup être stocké dans une base de donnée traditionnelle qui ne consomme pas l’électricité d’une nation.

4. Si ce qu’on veut stocker est en lien avec le monde non-numérique, la blockchain devient inutile.

Dans les cas typiques de “blockchain qui vont révolutionner le monde”, on a régulièrement des idées qui ont trait à des “supply chains” (suivons le produit du producteur au consommateur, sur la blockchain!), ou à des certificats de propriété (remplaçons les notaires par une blockchain!), ou à diverses données sensibles (votre dossier médical sur la blockchain!).

L’idée derrière l’utilisation de la blockchain, dans tous ces cas, est de se prémunir contre une modification malveillante des données. On ne veut pas que quelqu’un vienne traficoter la base de donnée pour soudain se prétendre propriétaire d’une maison, ou que le produit a été livré quelque part.

Là encore, cependant, la blockchain est totalement inadaptée. Oui, il peut y avoir de gros soucis avec des données erronées dans toutes ces applications. Mais ces erreurs ne viennent pas de hackers qui se glissent sur le serveur et modifient les données avant de s’enfuir vers le soleil couchant. Elles viennent presque toujours, simplement, de l’encodage. Dès qu’on parle de données du “monde réel”, on a nécessairement pour toute donnée quelqu’un, quelque part, qui va être responsable de traduire le “monde réel” en sa représentation numérique. Scanner un QR code, entrer un numéro de client, signer un reçu électronique… S’il y a manipulation (ou erreur de bonne fois), c’est toujours à cet endroit là que ça se passe. Et la blockchain n’a évidemment aucun moyen de valider que ce qui est entré correspond à la réalité. La blockchain ne peut pas savoir si le produit “reçu” est bel et bien présent là où le QR code a été scanné.

C’est le problème du “Garbage In, Garbage Out”: si on rentre des données pourries dans le système, on en sortira des données pourries. Le problème est même aggravé par la blockchain car, à nouveau, immuabilité = impossible de corriger si c’est une vraie erreur. Maintenir une blockchain “synchronisée” avec le monde réel est inutilement compliqué. Et dans tous ces cas de figures, on a de toute façon quelque part une “autorité” qui sera chargée de résoudre les conflits lorsqu’il y a un doute. À nouveau, tout le monde gagnerait à ce que cette autorité gère directement la base de données… rendant la blockchain obsolète.

5. Qu’est-ce qu’il reste, alors?

La blockchain peut se justifier si on a une application où l’on ne doit stocker que des données qui prennent peu de place et qui sont entièrement numériques (donc qui existent indépendamment de tout objet réel).

Qu’est-ce qui remplit ces critères? Globalement: le Bitcoin (et ses divers successeurs). Ce n’est pas pour rien que, si “la blockchain” en tant que telle date du début des années 90, Bitcoin reste aujourd’hui la seule application réellement “fonctionnelle” du concept. Et elle fonctionne bien mal.

Certains diront que les “smart contracts” d’Ethereum sont fondamentalement une application différente, mais je pense que c’est tirer trop loin la définition de “fonctionnelle”. Tous les projets autour de ces smart contracts souffrent des défauts énoncés ici, et sont au mieux des mauvaises solutions à de réels problèmes. Et, dans la majorité des cas, ils sont une excuse pour une quelconque bulle spéculative comme les NFTs, et n’ont aucune “fonctionnalité” à proprement parler.

David Rosenthal explique assez bien ici pourquoi toute blockchain décentralisée finit nécessairement en bulle spéculative. En résumé: pour que le système soit décentralisé, il faut qu’il soit difficile (pratiquement impossible) d’attaquer le système de “consensus” en contrôlant plus de la moitié des participants. Pour cela, il faut que la participation ait un coût élevé (c’est le concept du “Proof-of-Work”). Pour que des gens veuillent quand même participer, il faut que ce coût soit au final couvert par une rémunération. Pour que le système reste décentralisé, il faut que cette rémunération soit générée “automatiquement” par le système (si on a une autorité centrale qui distribue des gains aux “bons” participants, elle a de facto le contrôle du système): on doit donc avoir une cryptomonnaie. Comme les coûts de participation (matériel, électricité…) ne sont a priori pas payables dans cette cryptomonnaie, les participants vont nécessairement vouloir écouler leur cryptomonnaie et la vendre contre de la vraie monnaie. Pour qu’ils puissent la vendre, il faut que des gens achètent. Et la seule raison qui va pousser assez de gens à acheter pour que le système continue à tourner, c’est l’espoir que la valeur monte. Les seules possibilités sont donc: le système se plante faute d’acheteurs, ou on a une bulle spéculative jusqu’à ce que le système se plante faute d’acheteurs.

Conclusions

Quelques remarques pour terminer:

  • Oui, tout cela n’empêche pas qu’on puisse “se faire de l’argent” avec le Bitcoin, les NFTs, et tout le cryptobazar. C’est une bulle: tant qu’elle n’a pas explosé, il y a certainement moyen d’en profiter. J’aurais tendance à dire que ce n’est pas très éthique, et que les risques de tout perdre et/ou de participer malgré soi à quelque chose d’illégal sont un peu trop grands, mais chacun son truc.
  • Je n’ai jamais possédé la moindre cryptomonnaie et je ne compte pas en posséder un jour. Je n’ai donc aucun intérêt financier dans un sens ou dans l’autre. J’ai par contre un intérêt dans le fait que nos ressources technologiques et énergétiques servent à des choses moins dommageables pour le monde que de faire tourner des blockchains.
  • “Mais en vrai, Ethereum va quitter le Proof-of-Work et on peut faire de la blockchain qui ne détruit pas l’environnement, et en plus grâce aux blockchain on développe l’énergie solaire, etc., etc.” Non. Sorry, mais tout ça c’est du bullshit. Même à un coût environnemental réduit (et Ethereum “va quitter le Proof-of-Work” très bientôt depuis sept ans, donc la crédibilité est assez limitée), cela reste un énorme gaspillage. Quand aux sources d’énergies, les “mineurs” vont là où l’énergie est la moins chère. Parfois, c’est de l’énergie solaire ou géothermale, souvent c’est du charbon. Même si l’énergie était 100% verte, ce serait tout de même de l’énergie mieux utilisée ailleurs.
  • Y-a-t’il des utilisations légitimes et utiles de la blockchain? Certainement… pour certains de ces aspects, qui ne sont pas nouveaux et pas uniques à la blockchain. Il y a certainement des idées intéressantes en cryptographie et en gestion de systèmes décentralisés liés à des travaux sur la blockchain. Mais le milieu “de la crypto” est devenu tellement toxique que, à ce stade, toute association au concept de blockchain rend une idée suspecte. Il est temps de balayer tout, de jeter toutes les cryptomonnaies à la poubelle, et de passer à autre chose.

Ressources supplémentaires

Dr. Elisabeth Bik, manipulations d’images, et controverses scientifiques.

Le Dr. Elisabeth Bik est une microbiologiste qui s’est spécialisée dans la détection de manipulations potentiellement frauduleuses dans les articles scientifiques, et en particulier dans les images. Ces manipulations sont parfois très subtiles. Dans l’image ci-dessous, par exemple, on retrouve un exemple de ce que le Dr Bik appelle une duplication de “catégorie 2”, c’est-à-dire une image dupliquée avec un repositionnement.

Annotations par Elisabeth Bik sur PubPeer, illustration dans Yan et al [1].

Ce qu’on peut voir ici, avec de bons yeux, c’est que deux images de cette figure représentent clairement le même morceau de tissu cellulaire, légèrement décalé. Le problème est que, selon la méthodologie de l’article, ces deux images devraient normalement provenir de deux souris différentes. Un tel degré de similitude serait en ce cas une sacrée coïncidence.

Cela signifie soit qu’il y a eu un moment dans le processus un mélange qui a été fait dans la labellisation et l’identification des images (autrement dit: leurs fichiers images ne sont pas correctement reliés aux échantillons), soit qu’au moment de construire les figures il y a eu un “léger raccourci” qui a été fait, et que les auteurs ont décidés d’utiliser une image qui illustrait peut-être mieux leur propos et le résultat de leurs mesures, même si l’image ne correspondait pas aux labels associés. Dans les deux cas, cela rend très douteux les résultats de l’expérience, et a fortiori les conclusions de l’article.

Ce genre de fautes, le Dr. Bik en trouve des tonnes. Ses trouvailles se retrouvent sur PubPeer, et elle les publie régulièrement sur son compte Twitter. Dans de nombreux cas, les manipulations sont beaucoup plus flagrantes, et il est difficile de trouver une autre explication à la figure que “Photoshop”. Par exemple, ici:

Image partagée par Elisabeth Bik sur Twitter.

Dans la seconde ligne (Beta-Actin), les deux premières bandes (M et 1) sont l’image miroir des deux suivantes (2 et 3). La coupure est clairement visible, et c’est quelque chose qui ne pourrait juste pas apparaître naturellement dans ce genre d’images.

Jusque là, c’est embêtant mais ce n’est pas non plus un drame. Des articles sont publiés avec des erreurs, d’autres scientifiques trouvent ces erreurs, c’est comme ça que la science avance. Là où les choses deviennent plus inquiétantes, c’est quand on regarde ce qui se passe après que les erreurs soient identifiées.

Science et sociétés d’édition

En 2016, Bik et deux collègues ont publiés une étude dans laquelle elles ont analysé les images de plus de 20.000 articles publiés entre 1995 et 2014, et ont trouvé que prêt de 4% d’entre eux contenaient au moins une image problématique [2]. Mais lorsque ces erreurs sont rapportées aux journaux concernés, elles sont souvent entièrement ignorées. Dans certains cas, malgré des manipulations flagrantes, le journal demande juste aux auteur·rice·s de fournir une figure corrigée, sans que les résultats soient ré-examinés. Il faut souvent qu’un article attire une attention un peu trop soutenue pour que les éditeurs du journal se décident à envisager une rétraction.

Pourquoi les éditeurs (et les reviewers) ne font-ils pas correctement leur boulot? Même en l’absence de malversations ou de conflits d’intérêt, il reste un problème majeur dans le système.

Il y a en effet un conflit entre les besoins de la communauté scientifique, et les besoins des sociétés d’édition. La méthode scientifique est fondée sur une certaine “auto-régulation”: les résultats publiés doivent être reproductibles et vérifiables. Lorsque des erreurs sont découvertes, elles doivent être corrigées. Lorsque des manipulations sont découvertes, les résultats deviennent immédiatement suspects et doivent être rétractés.

Mais pour les sociétés d’édition, tout cela nécessiterait de mettre de sérieuses ressources dans le “contrôle de qualité”, ce qui va directement à l’opposé de leur objectif principal qui est, nécessairement, d’engranger un maximum de profit. Les éditeurs scientifiques ne sont (généralement) pas des ASBL. Springer Nature, Elsevier, Taylor & Francis… les plus grandes sociétés d’édition sont aujourd’hui des multinationales avec des revenus qui se comptent en milliards de dollars. Et la majorité des publications sont concentrées dans seulement une poignée de sociétés (5, selon une étude de 2015) [3].

Aujourd’hui, lorsqu’on publie un article, on a un processus dans lequel les auteurs payent le journal pour que leur article y apparaisse, les reviewers qui évaluent la qualité de l’article sont bénévoles, les éditeurs qui recrutent ces reviewers et prennent les décisions finales concernant la publication sont également souvent bénévoles (ou peu payés), et les universités payent des fortunes pour avoir accès aux articles, qui sont sinon souvent vendus “à la pièce” pour des tarifs de l’ordre de 30 à 40 dollars.

De nombreux journaux “offrent” maintenant la possibilité aux auteurs de publier en “Open Access”, pour que l’article soit accessible gratuitement à tous… et demandent pour ce faire aux auteurs de payer un tarif plus élevé, souvent de l’ordre de plusieurs milliers de dollars, jusqu’à plus de 10.000 dollars dans des cas extrêmes comme celui de Nature Neuroscience. Ce modèle d’Open Access fait que seul les laboratoires ayant un certain budget peuvent se permettre de rendre leur recherche accessible à tous (en dehors des solutions “alternatives” de diffusion comme sci-hub et autres, évidemment).

À l’ère de l’édition numérique, le travail de la société d’édition est devenu assez limité: repasser un coup sur l’article pour corriger la mise en page, et héberger des PDFs sur un serveur. Faire de “l’après-vente” sur ces articles, cela demanderait un travail supplémentaire qui retomberait soit sur des éditeurs bénévoles et déjà surchargés, soit nécessiterait pour la société d’édition de payer quelqu’un pour le faire. Et ça, ça couperait dans la marge de profit.

Elisabeth Bik note un cas particulièrement cynique (corrigé depuis) où Springer vendait un article pour $40 sans indiquer nul part qu’il avait été rétracté depuis plus de 15 ans… et si l’on tombait via un moteur de recherche comme PubMed sur la notice de rétraction, on pouvait également obtenir celle-ci… pour $40 supplémentaires.

La “symbiose” entre la communauté scientifique et les maisons d’édition ressemble de plus en plus à une relation parasitique où les scientifiques produisent l’essentiel du travail, et les sociétés d’édition récupèrent l’entièreté des bénéfices. Et rétracter des articles, ce n’est pas tellement bon pour le business.

Traders et Marseillais

Le plus souvent, les suites données aux remarques du Dr Bik et des autres contributeurs réguliers de PubPeer ou RetractionWatch (lorsque ce n’est pas juste du silence) restent fermement dans la sphère scientifique. Corrections, commentaires sur les corrections, rétractions: le processus est lent et frustrant, et souvent dysfonctionnel, mais les principaux acteurs des débats ont le mérite de rester dans le cadre prévu.

Et puis parfois, les choses débordent un peu.

Deux cas en particulier sortent du lot: celui de la firme pharmaceutique Cassava Sciences et, bien entendu, celui de l’inévitable IHU-Marseille du Professeur Didier Raoult.

Cassava Sciences: quand les traders s’en mêlent

Cassava Sciences développe un possible traitement pour la maladie d’Alzheimer. D’après les publications de la société, les essais cliniques “Phase 2” montrent un effet bénéfique sur les capacités cognitives pour leur médicament. (Pour résumer très grossièrement: la phase 1 cherche à déterminer avant tout si un médicament est dangereux, la phase 2 s’il a un effet bénéfique, la phase 3 si cet effet est meilleur que le meilleur traitement actuellement recommandé, et la phase 4 observe les effets long terme après que le médicament ait été mis sur le marché.)

En août 2021, un rapport a été envoyé à la FDA demandant l’arrêt des essais cliniques, notant une série de possibles manipulations dans les données et images publiées. Le Dr Bik détaille de son côté sur son blog sa propre analyse, après avoir lu le rapport et les articles originaux. Elle relève effectivement une série de possibles manipulations d’image.

Notons que quand on parle ici de “manipulation”, il ne s’agit pas nécessairement de “malversation”. Une manipulation peut être simplement faite pour respecter des contraintes de places, ou des besoins de clarté lors de la publication, et avoir été réalisée “de bonne foi”. Mais les explications fournies à ce jour par Cassava Sciences n’ont pas vraiment convaincu les experts.

Analyse de certaines figures par un utilisateur anonyme sur PubPeer mettant en évidence de possibles manipulations dans un article de Wang et al [4], avec notamment des discontinuités étranges dans le “bruit de fond” de l’image qui pourraient indiquer que certaines portions ont été découpées et viennent d’une autre image.

Une notice a été publiée sur au moins l’un des articles incriminés avertissant qu’une enquête était en cours… menée par l’Université où les auteurs de l’étude sont affiliés, ce qui ne sera peut-être pas suffisant pour éteindre les doutes.

Ce qui fait sortir l’affaire Cassava Sciences du lot, cependant, c’est que la quasi-entièreté des discussions sur le sujet est polluée par une bataille de traders. Parce qu’à la base de toute l’histoire, il y a la cotation en bourse de Cassava, et un grand conflit entre ceux qui ont pariés “à la hausse” et ceux qui ont pariés “à la baisse.” Après des premiers résultats d’essais cliniques “phase 2” décevants, le cours avait chuté. Quelques mois plus tard, ils reviennent sur leurs résultats et publient cette fois-ci des effets positifs remarquables… et l’action remonte. Les investisseurs ayant parié “à la baisse” crient à la fraude. Ceux ayant parié “à la hausse” défendent les résultats corps et âme (et portefeuille).

Sans être de mon côté un expert dans le domaine de la recherche médicamenteuse, je le suis suffisamment dans celui de l’analyse d’image pour voir que certains des problèmes relevés par le Dr Bik sont indéniables. Il y a eu des manipulations d’images, et sans une transparence totale de la part de la firme pharmaceutique et du laboratoire de recherche qui a effectué les expériences, on ne peut juste à ce stade pas faire confiance en leurs résultats.

Et s’il s’avère que ces manipulations ont une explication bénigne, et que les résultats sont effectivement prometteurs, tant mieux ! Un médicament réduisant les effets de la maladie d’Alzheimer serait formidable. Mais on ne peut pas mettre sur le marché ce médicament sans avoir levé les doutes qui subsistent aujourd’hui.

Gautret, Raoult, et l’excellence marseillaise

En mars 2020, Philippe Gautret et ses collègues de l’IHU-Méditerranée Infection, sous la direction de Didier Raoult, publient les fameux “essais cliniques” sur l’hydroxychloroquine pour traiter le COVID-19 [5].

Cet article est truffé de problèmes. Elisabeth Bik les détaille mieux que moi, mais en résumé on a:

  • Des patients “contrôle” (sans hydroxychloroquine) recrutés dans d’autres centres que les patients “test” (qui étaient tous suivis à l’IHU), introduisant immédiatement des facteurs de confusion dans toute analyse des résultats.
  • Une sélection non-aléatoire des patients “contrôle” et “test”, introduisant un possible biais de sélection.
  • Des protocoles de test différents selon le centre pour déterminer la charge virale.
  • Des patients qui changent de groupe ou qui sont retirés de l’étude lorsque les résultats ne vont pas dans le sens voulu (les patients qui vont en soins intensifs ou meurent avec le traitement hydroxychloroquine sont retirés de l’étude, mais les patients ayant des antécédents rendant le traitement inadéquat sont mis dans le groupe contrôle alors qu’eux devraient être retirés).
  • Des patients dont on a pas de données pour le “6e jour” du traitement mais à qui on attribue tout de même un résultat positif ou négatif selon les dernières données disponibles, malgré le fait qu’on voit régulièrement des résultats fluctuant d’un jour à l’autre chez d’autres patients.
  • Un énorme conflit d’intérêt non déclaré dans le processus de peer-review, avec l’un des auteurs de l’étude qui est aussi éditeur en chef du journal où elle est publiée. Avec en prime des délais extrêmement courts entre la réception du manuscrit et la date de publication (publié le lendemain de la réception, alors que la plupart des articles mettent des mois avant de recevoir une réponse positive ou négative).

Bref, cet article n’aurait clairement jamais dû être publié. Et vu le total refus par Raoult et compagnie d’accepter les critiques sur leur manuscrit, cela a forcément attiré l’attention sur leurs autres publications. Est-ce que toute la production scientifique de l’IHU-Marseille est à remettre en cause? En tout cas, Bik a depuis passé en revue de nombreux autres articles de la même équipe, et a relevé des problèmes de manipulation d’images, et de pratiques éthiques discutables dans des expériences sur des personnes sans domicile fixe et sur des populations africaines. Avec des publications qui sont très souvent faites dans des journaux où des membres de l’IHU occupent des positions éditoriales.

Peu désireux de se défendre sur le plan scientifique (il faut dire que, si pour Cassava il y a un réel doute sur la validité des résultats, il n’y a ici pas vraiment de défense possible), Raoult, son collègue Éric Chabrière et leurs partisans répondent aux critiques par du harcèlement et des menaces, et finalement à un dépôt de plainte contre le Dr Bik.

Notons que l’article de Gautret à l’origine de toute cette controverse n’a jamais été rétracté. Une déclaration de l’International Society of Antimicrobial Chemoterapy, qui est co-propriétaire de la revue avec Elsevier, note que l’article ne répond pas aux attentes de qualité de l’association, mais aucune action concrète n’a été entreprise par le journal.

Conclusions

Il y a pour l’instant une certaine crise de confiance du “grand public” vis-à-vis des scientifiques.

Il y a aussi une crise de confiance des scientifiques envers l’industrie de l’édition.

Il y a derrière ces crises un certain nombre de fantasmes complotistes. Il y a aussi des réalités inquiétantes.

Je suis convaincu que l’écrasante majorité des scientifiques cherchent à produire un travail de qualité. Mais le système académique aujourd’hui ne favorise pas la qualité. Pour avancer dans leur carrière, les scientifiques doivent publier, idéalement publier dans des “bonnes” revues, et idéalement publier beaucoup. Cela donne aux sociétés d’édition de ces revues un pouvoir immense, et cela incite les scientifiques à prendre des raccourcis méthodologiques.

Les journaux de leur côté n’hésitent pas à recruter des reviewers (bénévoles) de manière agressive pour augmenter la quantité d’articles qu’ils peuvent traiter, quitte à prendre des reviewers de moindre expertise.

Certaines initiatives sont de bonne augure pour le futur. Certains journaux, par exemple, cherchent maintenant au moins à rendre transparent le processus de peer-review, en nommant les reviewers qui ont participé au process et en publiant leurs commentaires. Cela permettrait déjà de plus facilement identifier les articles qui auraient pu bénéficier d’un “traitement de faveur” éditorial. Des journaux entièrement “open access” et avec des tarifs raisonnables de publication voient aussi régulièrement le jour.

Mais ils doivent faire face à une énorme inertie: pour qu’une publication ait de la valeur dans un CV académique, elle doit être faite dans un “bon journal”. Mais pour qu’un journal devienne “bon”, il faut que de bons chercheurs y publient leurs résultats. On a donc un cercle vicieux: les chercheurs vont toujours d’abord viser les journaux bien établis, et ne proposer aux nouveaux venus que les articles qui ont été refusés par des publications plus prestigieuses. Ceux-ci se retrouvent donc avec un contenu de moindre qualité, justifiant leur statut de “mauvais journal”, et le cycle continue.

Le travail d’Elisabeth Bik est révélateur des faiblesses du système actuel, et montre l’importance de voir le “peer review” autrement. Un processus continu, où auteurs et éditeurs peuvent être amené à rendre des comptes lorsque des problèmes majeurs sont identifiés. Où l’on n’accepte pas que des raccourcis soient pris dans des domaines aussi critiques que les essais cliniques sous prétexte que des investisseurs aimeraient bien voir une courbe monter ou descendre, ou qu’un directeur d’institut estime que ses travaux n’ont pas besoin d’être revus par ses pairs (après tout, c’est lui l’élite).

On ne peut qu’espérer que la médiatisation apportée par les controverses de Cassava Sciences et de l’IHU vont inspirer d’autres chercheurs à avoir un œil plus critique sur les articles qu’ils lisent, et à contribuer à ce processus continu. On peut aussi espérer que les journaux rendent plus facile l’intégration de remarques du reste de la communauté scientifique auprès des articles publiés, mais là ce n’est clairement pas gagné d’avance.

Come-back et Big Data

La finale de l’Australian Open de tennis 2022 était plutôt mal partie pour Rafael Nadal contre Daniil Medvedev. Sans surprise: Medvedev était favori (en tout cas, c’est ce que disait Justine Hénin, qui s’y connaît certainement mieux en tennis que moi!)

Mené 2 sets à 0, et avec trois balles de break au milieu du troisième set en faveur du Russe, l’affaire semblait pliée. Puis Nadal a décidé que, finalement, il avait quand même envie de le gagner, ce tournoi. La victoire, arrachée en 5h24, fait de Nadal le premier homme à avoir 21 titres de Grand Chelem au palmarès, soit 21 de plus que moi (à ce jour), s’approchant ainsi du record de 23 titres de Serena Williams (ou des 24 de Margaret Court, selon la définition qu’on donne aux Grands Chelems).

L’exploit tennistique est certainement impressionnant, mais il y a un autre aspect du match qui a attiré l’attention: le “win predictor” qui est apparu à l’écran alors que Medvedev avait l’ascendant pour annoncer que les chances de Nadal de remporter la partie s’étaient écroulées à 4%. Un mauvais jugement de la part de l’intelligence artificielle?

Win predictor en action. Image partagée par @Hectorg_F1 sur Twitter.

Avant même que le tournoi débute, la machine d’Infosys avait déjà dérapé, donnant Djokovic largement favori:

Championship predictor. Image partagée par @AustralianOpen sur Twitter

L’IA n’était visiblement pas au courant des déboires de Djoko avec les services d’immigration australiens.

Ce n’est pas la première fois que ce genre de “prédictions” montre de sérieuses limites. Lors du dernier Grand Prix de Formule 1 de la saison 2021 à Abu Dhabi, alors que Lewis Hamilton pourchassait Sergio Perez pour reprendre la tête de la course, une prédiction d’AWS était apparue à l’écran:

Hamilton contre Perez. Image partagée par Friar16 sur Reddit.

AWS prédisait un dépassement particulièrement facile. Mais Perez n’était pas de cet avis, et il réussit à tenir Hamilton en échec pendant de longs, très longs moments, permettant à son coéquipier Max Verstappen de revenir dans la course. À nouveau, l’homme (dans sa machine) défiait la machine (programmée par l’homme).

Big Data = Big Loser?

Alors, toutes ces intelligences artificielles nourries à coup de “Big Data” sont-elles pour autant à jeter à la poubelle? Après tout, 4%, ce n’est pas 0%: le modèle n’a pas dit que Nadal n’avait aucune chance. Mais… on ne peut pas rejouer la fin de match 100 fois dans les mêmes conditions pour vérifier l’exactitude de la prédiction. Alors… quel intérêt?

Le problème majeur de ces systèmes est dans leur présentation. “Win predictor”, “Battle forecast”… le message indique clairement une prédiction. Mais le problème d’un modèle prédictif, c’est que c’est très compliqué à faire.

Tous ces modèles sont basés sur un principe relativement simple: on regarde une série de données sur les événements passés, et on regarde qu’est-ce qui est généralement associé à une certaine performance.

Par exemple, Infosys utilise les classements Elo des joueurs, ajustés en fonction de leurs performances sur des surfaces similaires (ausopen.com). Probablement que, pour les prédictions en cours de match, ils ajustent en fonction du nombre de fois où des joueurs ont gagnés à partir de situations similaires.

AWS, de son côté, utilise certainement des données sur les fraîcheurs relatives des gommes de pneus des voitures, sur les temps réalisés lors des tours précédents, et sur les performances passées des pilotes et des voitures. Et selon ces données, AWS avait parfaitement raison: Hamilton était le meilleur pilote, dans (sans doute) la meilleure voiture. Il avait des pneus tous frais et roulait beaucoup plus vite que Perez, abandonné par son équipe sur des pneus usés dont il aurait déjà du se débarrasser depuis longtemps… si son objectif avait été de faire la meilleure course possible.

Mais c’est là où AWS se retrouve perdu: l’objectif de Perez n’était pas de faire une bonne course pour lui, comme dans l’écrasante majorité des situations dans la base de donnée du modèle. Son objectif unique était de ralentir Hamilton aussi longtemps que possible pour permettre à Verstappen de revenir. Hamilton, de son côté, ne cherchait pas juste à dépasser Perez. Il savait aussi qu’il devait le dépasser sans incident. En Formule 1, la moindre touchette peut amener à une crevaison, ou à des pertes de performances aérodynamiques, ou à un crash pur et simple, et Hamilton devait absolument finir devant Verstappen pour gagner le championnat. Hamilton devait dépasser en douceur, Perez pouvait prendre tous les risques nécessaires quitte à mettre sa propre course en l’air.

De même, Infosys ne pouvait pas savoir que Djokovic n’allait même pas participer au tournoi. Infosys ne dispose pas non plus dans son modèle d’informations sur l’état mental des joueurs, sur leur état de fatigue, sur ce qu’ils ont mangés la veille au soir, sur l’effet que la météo peut avoir sur leurs performance, sur l’effet du public, ni plus généralement sur la stratégie que chaque joueur a décidé d’utiliser pour le match, sur l’entraînement spécifique suivit pour le tournoi, sur la qualité de leur préparation physique.

Où est ma boule de cristal, alors?

Pour qu’un modèle prédictif fonctionne vraiment, il faut qu’il dispose de variables qui ont un lien de cause à effet avec ce qu’on cherche à prédire. Ce qui ne veut pas dire, d’ailleurs, qu’un modèle comme ceux d’AWS ou d’Infosys ne va pas, en général, donner de bons résultats. Mais ces résultats sont “généralement” bons parce que, “généralement”, il n’y a pas de surprises. Sinon ce ne serait plus des surprises.

Est-ce que ça existe seulement, un modèle prédictif, alors? Oui, même s’ils ont toujours des limitations (et les meilleurs modèles prédictifs sont ceux qui identifient au mieux ces limitations). Par exemple, si je passe à un sujet que je connais un peu mieux que le tennis ou la Formule 1, on a pour l’instant beaucoup d’applications de l’intelligence artificielle au diagnostic médical. Des modèles peuvent chercher à prédire, par exemple, l’évolution d’une tumeur sur base d’images prises dans une IRM. Fondamentalement, le principe de ces modèles va être le même: prendre une série d’images de patients dans le passé, et chercher le lien entre ce qu’on voit sur les images et la survie des patients.

La différence avec les modèles d’Infosys ou d’AWS, c’est que “ce qu’on voit sur les images” va (quand tout va bien) avoir un lien direct avec l’évolution future de la tumeur. La densité des tissus dans le cerveau peut être reliée à des phénomènes biologiques, pas toujours compris à 100%, mais dont on sait qu’ils sont liés à la diffusion des cellules cancéreuses. Réussir à comprendre si le modèle se base bien sur quelque chose de biologiquement cohérent, ou s’il a trouvé dans l’image quelque qui n’a rien à voir*, c’est un des challenges majeurs de l’intelligence artificielle aujourd’hui.

Tout ce que le “win predictor” peut dire, c’est que Nadal sortait d’une moins bonne série de matchs que Medvedev, et que c’est très rare qu’un joueur revienne lorsqu’il est aussi fort mené.

Le modèle n’est pas nécessairement mauvais, dans le sens où il a sans doute raison plus souvent qu’il n’a tort. Mais au final, ce qu’il apporte est avant tout une connaissance encyclopédique de l’historique des joueurs. Et cette connaissance se retrouve bien mal exploitée lorsqu’elle est résumée à un pauvre “4%” dénué de son contexte.

* Un exemple fictif (autant que je sache): si je fais des scans de pleins de biopsies, mais que les biopsies de patients décédés sont conservés dans un autre service que celles des patients encore vivants, et que je les scanne à chaque fois sur place dans des machines différentes, peut-être que ces deux machines auront un réglage légèrement différent qui fera que la couleur des images sera, par exemple, un peu plus bleues d’un côté que de l’autre. Mon super modèle va être très fort pour prédire la mortalité sur base de la couleur de l’image… mais uniquement sur ce jeu de données particulier. Le jour où j’essaie de l’utiliser pour du diagnostic sur des nouveaux patients, je vais avoir de sérieux soucis.

SpaceX : à qui appartient le ciel ?

Le 24 mai, le Dr Marco Langbroek (chercheur en archéologie paléolithique, météorites, astéroïdes et “satellites espions”) pointait son télescope vers le ciel nocturne et réussissait à capturer une vidéo impressionnante, publiée sur son blog et reprise par de nombreux médias :

Starlink, c’est quoi ?

Ce “train” de lumières est constitué de 60 satellites. Il s’agit de la deuxième vague de la “constellation” Starlink, rejoignant deux satellites lancés en février 2018. Starlink est un projet de SpaceX, l’entreprise aérospatiale d’Elon Musk. Il s’agit d’un “réseau de satellites capable de connecter le globe, et particulièrement les régions actuellement non-connectées, avec des services Internet haut-débit fiable et abordable.” (Starlink Press Kit, PDF)

Si 60 satellites se baladant en rang d’oignon impressionnent, ce n’est rien par rapport à ce qui est prévu pour la suite : d’ici 2027, près de 12.000 satellites devraient être déployés. Pour contextualiser, on recensait début 2019 un total de 4.987 satellites en orbite autour de la Terre. Si on ajoute les projets certes moins ambitieux d’Amazon, Telesat ou OneWeb, on parle ici de quadrupler le nombre de satellites en orbite sur les dix prochaines années.

Le débat déclenché par la vidéo du Dr Langbroek fait des vagues dans tous les médias. Le noyau de ce débat est simple : le projet d’Elon Musk (et des autres) va bien au-delà d’un simple projet de télécommunication. Il s’agit d’un changement radical de notre paysage orbital. Les conséquences exactes sont difficiles à prévoir. Estimer l’effet qu’auront ces milliers de nouveaux satellites sur le ciel nocturne est compliqué, et dépend de nombreux paramètres pas toujours disponibles : forme exacte des satellites (et de leurs éléments réfléchissants), altitude et position finales, position de l’observateur…

Dans le meilleur des cas, l’effet à l’oeil nu sera quasi nul. Dans le pire des cas, le ciel nocturne dans dix ans sera radicalement transformé. Quoi qu’il en soit, l’impact sera en tout cas directement visible pour les télescopes basés sur Terre.

Elon a dit

Au-delà du débat technique sur l’impact de ces nouvelles “constellations”, c’est une conversation Twitter (comme souvent avec Elon Musk) qui soulève à mon avis une question plus fondamentale. Interrogé par Varun Ramesh sur la “pollution lumineuse du ciel”, Elon Musk répond :

“Il y a déjà 4900 satellites en orbite, que les gens remarquent ~0% du temps. Starlink ne sera vu par personne sauf s’ils regardent avec beaucoup d’attention & l’impact sur les avancements en astronomie sera de ~0%. De toute façon, les télescopes devraient être mis en orbite. L’atténuation atmosphérique est terrible.”

Fraser Cain, éditeur du site Universe Today, fait remarquer que “s’ils aident des milliards de gens dans des lieux reculés à avoir un accès bon marché à Internet, c’est un prix que je suis prêt à payer.

Elon Musk :

“Exactement, potentiellement aider des milliards de gens économiquement désavantagés est pour le plus grand bien. Cela étant dit, nous nous assurerons que Starlink n’a aucun effet matériel sur les découvertes en astronomie. Nous nous soucions beaucoup de la science.

Voilà. Problème réglé, discussion close : Elon Musk a pesé le pour et le contre, a écouté nos arguments, et a tranché. À nous pauvres mortels d’accepter Sa décision. Le fait que le plus grand bien de l’humanité coïncide avec un revenu potentiel de “30 milliards par an” n’est bien sûr qu’un heureux hasard.

La question fondamentale, donc : SpaceX, Amazon & co peuvent-ils juste ignorer les critiques et faire ce qu’ils veulent ?

Qui a le droit ?

Petit moment “droit spatial” (désolé, ça m’a un peu fasciné de lire tout ça alors je partage). Donc, la réglementation autour de l’exploitation de l’espace pour les télécommunications est globalement le domaine de l’Union Internationale des Télécommunications, une agence des Nations Unies fondée en 1865 lors de la convention télégraphique internationale. Celle-ci fonctionne selon des principes énoncés dans une constitution (PDF) dont le préambule commence :

En reconnaissant pleinement à chaque Etat le droit souverain de réglementer ses télécommunications…

En terme de satellites, sa préoccupation principale est l’allocation des positions orbitales géostationnaires, et de coordonner les positions et les fréquences d’émission pour éviter les interférences.

Starlink n’occupe pas d’orbite géostationnaire : son lancement n’a donc besoin que de se référer à son État souverain, c’est-à-dire les États-Unis. SpaceX a donc requis l’autorisation de deux agences fédérales américaines : la FCC (pour l’utilisation des fréquences) et de la FAA (pour les lancements).

Et… c’est tout ?

Il n’y a pas de mécanisme prévu qui se préoccupe d’une quelconque manière (autant que j’aie pu trouver en tout cas) de l’impact des satellites ni sur la recherche scientifique, ni sur les astronomes amateurs (qui ne peuvent pas vraiment suivre la suggestion d’Elon Musk de mettre leur télescopes en orbite), ni sur cette ressource tellement banale qu’est le “ciel nocturne”.

Si par hasard un conflit survenait, et des tribunaux internationaux se retrouvaient impliqués dans l’affaire, et devaient donner leur avis face à cette brusque invasion du ciel par des sociétés privées, ils devraient sans doute faire un retour aux sources : le “Traité de l’Espace” de 1967, qui entérine les principes fondamentaux de l’utilisation de l’espace extra-atmosphérique [4]. Notons que celui-ci concerne les États, pas les sociétés privées, mais qu’il stipule que “les activités des entités non gouvernementales dans l’espace extra-atmosphérique (…) doivent faire l’objet d’une autorisation et d’une surveillance continue de la part de l’État approprié partie au Traité.” (Art. VI)

L’article I nous dit :

L’exploration et l’utilisation de l’espace extra-atmosphérique, y compris la lune et les autres corps célestes, doivent se faire pour le bien et dans l’intérêt de tous les pays, quel que soit le stade de leur développement économique ou scientifique ; elles sont l’apanage de l’humanité tout entière.

L’argument d’Elon Musk que Starlink est “pour le plus grand bien” n’est donc pas anodin. En insistant sur l’objectif de fournir des moyens de télécommunication à tous les pays, il place son projet commercial dans le cadre généralement admis des “bons projets” spatiaux, inattaquables.

Et si certains ne sont pas d’accord, il semblerait que pour l’instant, ce soit tant pis pour eux. Et que l’on peut s’estimer heureux si la pollution lumineuse reste un “dommage collatéral”. Car pour l’instant, rien dans le droit international n’empêcherait une société d’utiliser la visibilité des satellites à “orbite basse” dans un but plus ouvertement commercial… comme le proposerait une start-up Russe (honnêtement, en voyant leur site, je ne suis pas tout à fait convaincu que ce n’est pas une satire, mais en tout cas ils sont pris au sérieux par divers médias).

Capture d’écran : “the orbital display”, Vlad Sitnikov (https://vimeo.com/309893059)

Voir passer un satellite lors d’une belle nuit d’été à la campagne était jusqu’à présent un bref moment d’émerveillement en regardant les étoiles. Il s’agira peut-être bientôt d’une inévitable nuisance.

Les leçons de “Wanna Cry”

Vendredi 12 mai, vers 9h du matin heure belge, le ransomware WannaCry” faisait son apparition sur les réseaux mondiaux.

Sa diffusion se passe en plusieurs étapes :

  1. Quelqu’un se laisse convaincre de l’installer sur sa machine (par exemple, en exécutant un programme reçu par mail).
  2. Le virus encrypte les données du disque dur et demande une “rançon”, a verser en utilisant la crypto-monnaie Bitcoin, en échange du décryptage. En cas de non paiement, le message menace de supprimer les données.
  3. Le virus scanne le réseau local et, en utilisant une faille de Windows XP/Vista/7 (dans les machines qui n’ont pas été mises à jour), s’installe automatiquement sur les autres machines du réseau.

Cette étape d’auto-réplication est ce qui a permis à WannaCry de se diffuser aussi vite. La plupart des ransomwares nécessitent, pour chaque machine, de convaincre l’utilisateur d’installer le virus. WannaCry n’a besoin que d’un utilisateur par réseau, ce qui facilite la propagation dans les grandes sociétés qui ont de vastes réseaux internes, et qui ont tendance à ne pas mettre à jour leurs machines par peur de voir des vieux programmes indispensables à leur business ne plus fonctionner.

WannaCry permet d’illustrer et de remettre en question un certain nombre de choses : sur les comportements des utilisateurs au sujet des mises à jour ; sur le plan de la lutte contre les infections, avec la façon dont l’infection a été contenue ; et sur la responsabilité de la NSA et les questions de politique de lutte contre le terrorisme et la cybercriminalité.

Le dilemme des mises à jour forcées

Je hais les mises à jour forcées de Windows 10.

Elles semblent toujours arriver au mauvais moment. J’ai systématiquement l’impression (probablement fausse) qu’elles ne font qu’ajouter des nouveaux bugs à un système d’opération qui en a déjà bien assez. Et j’ai une réaction épidermique à leur caractère inévitable : il s’agit de mon ordinateur, et je devrais pouvoir décider de quand il est mis à jour ! Arriver le matin à mon bureau pour voir que mon ordinateur a redémarré, alors que j’avais lancé dessus la veille au soir une série de calculs, et que je dois maintenant découvrir s’ils ont eu le temps d’être exécutés avant la mise à jour où si je peux tout recommencer est frustrant.

Pourtant, le cas de Wanna Cry montre que ces mises à jour forcées ont un intérêt non négligeable. Il s’agit, en fait, du même débat (avec de moindres conséquences) que celui de la vaccination obligatoire. Le choix de ne pas se vacciner – ou de ne pas mettre à jour son système d’opération, et se rendre vulnérable aux virus informatiques – n’est pas seulement un choix personnel, car il affecte aussi tous ceux avec qui l’on est en contact. Il suffit aux virus biologiques qu’un certain pourcentage de la population soit non-vacciné pour pouvoir continuer à se propager. Il suffit aux virus informatiques qu’un certain pourcentage des ordinateurs soit vulnérable pour potentiellement faire tomber tout un réseau.

Il y a je pense de la part de Microsoft un gros problème de communication par rapport à ses mises à jour, un travail pédagogique, et de présentation, qui devrait être fait pour éviter que ces mises à jour ne soient aussi énervantes et perturbatrices. Chaque cyberattaque à grande échelle comme WannaCry leur donne cependant raison sur l’idée de base : retarder les mises à jour met en danger tout les autres ordinateurs.

La responsabilité de la NSA

À l’heure actuelle, on ne peut plus parler de cybercriminalité sans entrer dans des questions de géopolitique. Les Russes sont souvent pointés du doigt pour leurs piratages politiques (comme celui du parti démocrate américain, ou du mouvement En Marche en France). Dans le cas de Wanna Cry, certains soupçonnent la Corée du Nord.

Ce qui est sûr à l’heure actuelle, c’est que la méthode utilisée par le virus pour se propager sur tous les ordinateurs d’un réseau utiliser une faille de sécurité de Windows qui a été détectée par la NSA il y a plus de dix ans… et n’a pas été communiquée à Microsoft, qui ne l’a donc pas réparée avant que les documents de la NSA ne fuitent, permettant à la fois à Microsoft de corriger ses systèmes, et aux hackers d’exploiter la faille.

La NSA n’a pas communiqué à Microsoft l’existence de la faille parce qu’elle voulait pouvoir l’utiliser à ses propres fins. Il est évidemment impossible de savoir dans quelle mesure ils l’ont utilisée, et quelle genre d’information ils ont pu gagner grâce à elle. Il est certain, par contre, que si la NSA avait communiqué avec Microsoft, l’attaque de ces derniers jours n’aurait pas pu avoir lieu.

Et c’est là le problème fondamental avec toutes les backdoors et vulnérabilités exploitées en secret par les différents organes de renseignement aux systèmes informatiques. On peut débattre du fait qu’ils partent d’une “bonne” intention. C’est le débat “perdre de la vie privée pour gagner de la sécurité”, qui est une question fondamentalement idéologique, à laquelle chacun peut avoir sa réponse. Le fait est que, invariablement, ces failles se retrouvent exploitées par des pirates. Le choix devient donc : “perdre de la vie privée pour peut-être gagner de la sécurité dans un domaine, et certainement perdre de la sécurité dans un autre”. C’est un jeu dangereux, où les risques dépassent sans doute les bénéfices. La NSA et autres agences gouvernementales protégeraient mieux les citoyens (de leur pays et du reste du monde) en collaborant avec les sociétés informatiques pour les aider à protéger leurs logiciels.

Comment l’infection a été contenue

MalwareTech est un site qui fournit des informations diverses sur les différentes attaques informatiques : virus, malware, botnets, etc… Ils analysent leur fonctionnement, et fournissent des outils, comme le “Botnet Tracker“, pour observer en temps réel la propagation des différentes attaques.

Dans un article publié samedi 13 mai, ils expliquent comment ils ont “accidentellement” arrêtés (temporairement, en tout cas) l’attaque WannaCry.

Lorsque l’attaque a commencé à prendre de l’ampleur vendredi, ils ont installés le virus sur une machine de test, et observés son fonctionnement. Le virus cherchait d’autres ordinateurs sur le réseau local, mais essayait aussi de contacter un nom de domaine inexistant sur Internet. MalwareTech a directement acheté ce nom de domaine, et l’a redirigé vers l’un de ses serveurs pour voir ce que le virus voulait communiquer (et aussi pour traquer sa propagation). Après que le domaine ait été enregistré, cependant, le virus a cessé de fonctionner. Il n’encryptait plus les données, et ne demandait plus de rançon.

En analysant le code, MalwareTech s’est rendu compte que le virus testait l’existence du domaine, et ne s’exécutait que s’il ne le trouvait pas. Pourquoi ? Il s’agit en fait d’une procédure relativement courante, apparemment, pour ce genre de virus. Il s’agit d’un moyen de détecter si le virus se trouve sur machine de test utilisée pour analyser son comportement (et qui aura tendance à simuler une connexion Internet en redirigeant toutes les requêtes vers une machine connue), ou sur une machine qu’il est intéressant d’infecter. Si le virus trouve le domaine, il suppose qu’il est sur une machine qui veut l’analyser, et ne s’exécute pas (pour ne pas fournir d’informations sur son comportement).

En achetant le nom de domaine, MalwareTech a donc accidentellement stoppé l’épidémie. Pas définitivement : il est clair que de nouvelles versions du virus vont faire leur apparition, sans cette faiblesse. Mais MalwareTech a évité de sérieux dégâts à beaucoup de sociétés, et de particuliers.

OneCoin : suite (et sans doute bientôt fin)

Mise à jour 2 décembre 2021: où en est OneCoin aujourd’hui? Après avoir engrangé 4 milliards de dollars de revenus, la fondatrice Ruja Ignatova a disparu de la circulation et son co-fondateur Sebastian Greenwood est en prison. Son frère, Konstantin Ignatov, a également été arrêté (source: investopedia.com). Aux États-Unis, ceux qui blanchissaient l’argent récolté par l’arnaque ont également été arrêtés (source: Bloomberg). Le site onecoin.eu est dorénavant inaccessible. Laurent Louis s’est temporairement reconverti dans Kuailian (source: Facebook), une autre arnaque similaire principalement active en Espagne et qui s’est déjà écroulée depuis (source: behindmlm.com). Son compte Facebook aujourd’hui est surtout occupé par du complotisme anti-vaccination, mais il semble toujours proposer des investissements en cryptomonnaie, sans que ce soit très clair à quelle arnaque il s’est attaché pour l’instant, ou s’il s’est simplement mis à son propre compte…

Mise à jour 9 février 2018: à lire aussi, l’enquête assez détaillée de StreetPress, qui semble assez bien faire le tour de la question.

Mise à jour 24 janvier 2018: une descente de police a eu lieu dans les bureaux de OneCoin en Bulgarie. “Interpol suspecte que du crime organisé, du blanchiment d’argent, et peut-être même du financement de terroristes sont liés à la monnaie.”

En avril dernier, j’ai écris un article sur l’arnaque OneCoin, une fausse “crypto-monnaie” à laquelle, de façon tout à fait improbable, l’ex-député Laurent Louis s’est retrouvé lié. Cet article est sans doute le plus lu de ce blog, et tous les jours quelques personnes tombent dessus en cherchant sur Google des informations sur OneCoin. J’espère avoir pu dissuader l’une ou l’autre d’entre elles de tomber dans le panneau.

Si je reparle de OneCoin, c’est parce qu’ils semblent entrer dans la phase finale de leur arnaque, et redoublent donc pour l’instant leurs efforts de promotion dans l’espoir d’attraper quelques derniers pigeons. Et il faut leur reconnaître quelque chose : en tant qu’arnaqueurs, ils sont assez forts.

Leur grande annonce, faite sur YouTube par leur “guru” Ruja Ignatova, et diffusée sur des sites de marketing de réseau et sur les réseaux sociaux : OneCoin va être cotée en bourse au second trimestre 2018, et une boutique en ligne va ouvrir très bientôt où l’on pourra dépenser ses OneCoins pour de vrais chez des vendeurs, prouvant ainsi aux vils détracteurs qui osent l’appeler une “fausse crypto-monnaie” (oups) qu’ils ne sont que des jaloux.

Tout à la fin de la vidéo, après que Mme Ignatova nous ait dit au revoir, un message annonce par ailleurs ceci :

Ce message bien lourd en jargon, comme la plupart des communications OneCoin, est la clé pour comprendre l’arnaque qui est en train de se dérouler. Tout le bazar est assez bien expliqué dans cet article sur le site behindmlm.com, mais voilà l’idée en gros :

OneCoin a un problème. Comme la monnaie n’existe pas (on peut l’assimiler à juste des points sur leur site web), sa valeur est donnée de façon purement arbitraire par la société OneLife qui gère le truc. OneLife ne gagne des sous que si les gens continuent à acheter des points, et ils en perdent si les gens échangent leurs points contre de l’argent réel. Pour pousser les gens à garder leurs points, OneLife en augmente régulièrement la valeur, comptant sur le fait que c’est difficile de quitter tant qu’on est sur la “pente ascendante”.

La valeur a atteint un point où elle devient dangereusement haute pour OneLife : si trop de gens décident de “retirer leur mise” d’un coup, ça va leur coûter des sous. Le seul endroit où il est possible d’échanger ses points contre de l’argent est le site xcoinx.com.

Solution, donc : fermer ce site d’échange. C’est fait : il est maintenant “en maintenance”. Plus personne, pour l’instant, ne peut donc échanger ses OneCoins (c’est à dire ses points sans valeurs) contre des euros ou des dollars. Évidemment, juste faire ça ce serait suspect. Arrive donc la phase 2 : l’IPO.

L’Initial Public Offer, c’est la mise en bourse d’actions pour la société. Mettre la société en bourse n’est pas vraiment quelque chose qu’une société pas-très-légale comme OneLife peut vraiment faire. Ils donnent donc une date éloignée (fin 2018).

Le coup de génie : proposer aux gens qui “possèdent” des OneCoins de les échanger contre des OFC : des certificats qui leur donneront droit à des actions quand la société sera en bourse. Autrement dit : échanger des points sans valeurs contre d’autres points sans valeur, en donnant l’impression qu’il s’agit d’un pas en avant vers un futur pactole. En réalité, avoir ces certificats au lieu des OneCoin ne sert absolument à rien… si ce n’est que c’est autant de OneCoin qui ne pourront pas être dépensés dans le “nouveau site d’e-commerce”.

C’est la deuxième partie de l’annonce, celle qui est supposée vraiment légitimer le tout : enfin, le OneCoin pourra être utilisé pour acheter des vraies choses ! Ils ont déjà, disent-ils, des milliers de vendeurs prêts à l’accepter sur cette boutique en ligne qui va “rivaliser Groupon” : DealShaker. Les deals seront payés dans une combinaison de OneCoin et… d’euros. Et OneCoin prend en commission 50% de la valeur en euros (bizarrement, ils ne prennent rien sur la valeur en OneCoin). Vu que les vendeurs n’ont pas d’autre choix pour utiliser les OneCoin ainsi reçus que de les réinjecter dans ce réseau fermé, le résultat est assez exceptionnel (pour OneLife) : si ce système est un jour activé, les propriétaires de OneCoin vont juste pouvoir s’acheter des trucs entre eux, en versant à chaque fois une commission à OneLife. Et pendant qu’ils font ça, ils ne se plaignent pas de ne pas pouvoir les échanger contre des euros.

Évidemment, c’est aussi sans doute le début de la fin. Ils trouveront certainement une excellente raison pour retarder l’IPO, mais ils finiront par devoir faire ce que toutes les arnaques du même genre finissent par faire : prendre l’argent, fermer tout, et se barrer en courant. En laissant derrière eux des pauvres gens ruinés, et des riches gens prêt à découvrir que “gagner de l’argent sans devoir payer de taxe via du marketing de réseau” n’est pas vraiment un concept très bien reconnu par la justice.

COP21 : Le Monde s’attaque aux mythes climato-sceptiques

En préparation de la COP21, la conférence de Paris sur le climat qui aura lieu du 30 novembre au 11 décembre, Le Monde publie une série d’articles sur les mythes propagés par les “climato-sceptiques” et autres conspirationnistes pour nier l’évidence du réchauffement climatique.

Comme quoi, des journalistes qui font du travail de fond, ça existe encore !

Les trois articles déjà publiés :

Un bon rappel de toutes les raisons pour lesquelles le réchauffement climatique rassemble un consensus presque total dans la communauté scientifique. Il devrait y avoir un article par semaine d’ici la COP21.

soleilImage : NASA / REUTERS via Le Monde

Santé et Nutrition : le business de la peur

Je suis tombé récemment sur le site sante-nutrition.org. Ses articles circulent régulièrement sur Facebook, et il a environ un million de visiteurs mensuels, ce qui est suffisant pour payer en revenus publicitaires le salaire de son administateur Yann Soinard et celui de deux autres personnes (d’après une interview avec Rue89). Le site publie quatre ou cinq articles par jour, avec pour thème général la gestion de la santé par les remèdes naturels et l’alimentation. “Que ton aliment soit ton médicament”, annonce la bannière.

sante-nutrition.org est aussi une arnaque dangereuse qui fournit au public une marée de désinformation. Il prône la méfiance et la peur envers les médicaments et les remèdes “chimiques”, et prodigue des conseils qui, si ils sont appliqués à la lettre, vont de l’inutile au léthal.

On trouve principalement deux types d’articles sur le site. Il y a ceux qui, d’un titre accrocheur, promettent des miracles avec un minimum d’efforts. “Comment se débarrasser des vergetures naturellement et rapidement”. “Voici comment régénérer votre cartilage du genou!” “Faites cette seule chose tous les matins pour stimuler la perte de poids!” “Jetez vos lunettes! Des milliers de personnes ont amélioré leur vision avec cette méthode!” “Comment perdre du poids rapidement et facilement avec le régime banane”.

sante-nutritionComplot !

Et puis il y a ceux qui annoncent qu’une maladie (généralement le cancer) peut être guérie à l’aide soit d’un ingrédient naturel, soit d’une technique connue depuis longtemps mais dont les scientifiques refusent de parler, parce qu’ils sont aux ordres de l’industrie pharmaceutique qui veut continuer à vendre ses médicaments chers et inefficaces. L’article “Le Plus Lu” du site d’après le menu est l’exemple-type : “Un homme a trouvé un « remède pour toutes les maladies » et a la décision du tribunal pour le prouver!

Ce remède ? Une “Thérapie détoxifiante intra-cellulaire Bio-Minerale” qui “supprime des années d’accumulation de produits toxiques dans l’organisme, en restaurant les cellules à leur état le plus pur”. Le Dr Sebi, l’homme en question, soigne les gens avec des remèdes à base “d’aliments électriques” qui “suppriment toute acidité qui peut être la cause de la maladie dans le corps.” Quand à la décision de tribunal qui prouve que ça marche… Il s’agit d’une victoire dans un procès pour exercice illégal de la médecine en 1988. Il a été acquitté car personne n’a pu prouver qu’il avait présenté ses remèdes comme des vrais médicaments, ni qu’il avait prétendu poser de vrais diagnostics médicaux. Le tribunal n’a bien entendu rien dit quand à la validité ou non de ses théories médicales… Il continue maintenant à vendre en ligne des mélanges naturels à 200 dollars le litre, par pure bonté d’âme.

Ce mélange de demi-vérités, de paranoïa (le héros de l’histoire est toujours persécuté par le système) et d’exagérations est typique des histoires de sante-nutrition.org.

Royal Rife avait Trouvé comment guérir le cancer en 1934“, nous dit un autre article, qui commence bien en déclarant que douter de Rife est un “négationnisme, [qui] n’aura pour égal que la négation des camps de la mort”. Quel est le remède ? Rife aurait construit une “machine tueuse de cancer avec un tube à plasma” qui va “« casser » les VIRUS de la même manière qu’un verre peut être brisé par un accord en résonance”. Pourquoi les virus ? Parce qu’ils sont “responsables formellement du cancer selon lui”. Comment se fait-il que sa merveilleuse invention n’ait pas survécu jusqu’à nous ? Mystère et complots… Des sombres histoires d’assassinats et de machines détruites par la semble-t-il toute puissante Association Médicale Américaine. Toutes les tentatives de reproduire ses résultats depuis ont malheureusement échouées, mais c’est sûrement parce que l’AMA reste vigilante !

Persil. Da weiss man, was man hat. Besser denn je.
Pas le même persil

sante-nutrition.org n’est pas le seul. Il y a à l’heure actuelle une foison de sites similaires sur le marché, qui généralement se copient les uns les autres, et surtout pompent des articles de sites américains. Certains se focalisent plus sur la perte de poids, d’autre sur le cancer.”Cette plante tue 86% des cellules du cancer du poumon” est un exemple des “remèdes naturels miracles” souvent mis en avant par le site, et un modèle de mauvaise interprétation de résultats scientifiques. À la base, il y a un article scientifique chinois qui trouve qu’une molécule présente dans le persil et le céleri a la capacité, à haute dose, de tuer les cellules cancéreuses du poumon. Par quelques tours de passe-passe, sante-nutrition.org en conclut que boire de l’infusion au persil (ils donnent même une recette) 3 fois par jour permet de prévenir le cancer du poumon. Oh, c’est aussi un remède qui “supprime le sable et les calculs rénaux, traite avec succès les infections urinaires et est un diurétique puissant.” Tout ça.

Ces sites sont dangereux. Yann Soinard n’est pas médecin. Il admet lui-même n’avoir aucune formation médicale (et se vante de ne pas être “formaté”). Lorsqu’il donne des conseils sur la santé, et que des gens décident de suivre ses conseils au lieu d’aller voir un professionnel, il va potentiellement les priver de soins dont ils ont besoin.

Se méfier de “trop de médicaments”, d’accord. Critiquer les pratiques parfois douteuses de l’industrie pharmaceutique, pourquoi pas. Mais jeter entièrement des siècles de progrès médicaux qui ont permis de réduire le taux de mortalité, d’éradiquer des maladies autrefois mortelles, et d’améliorer grandement la qualité de vie de toute la population pour les remplacer par des tisanes et des théories du complot, c’est irresponsable. Mais tant que des millions de visiteurs continueront à visiter ces sites et à payer les salaires de leurs administrateurs, il y a peu de chance qu’ils disparaissent.

UFO du Soir, bonsoir…

Le Soir, dans un grand moment de haut journalisme (ou parce qu’un stagiaire s’ennuyait), nous publie un superbe article (archivé ici pour si ils pensent à le retirer…) sur une découverte incroyable du robot “Curiosity”, en mission sur Mars depuis 2012 : il aurait découvert une femme ! Là, comme ça, qui se balade.

Comment se fait-il que tous les journaux n’en font pas leurs premiers titres ? Est-ce que Le Soir est simplement mieux informé ? Ont-ils des sources secrètes à la NASA ? Ou bien tout cela n’est-il que de la connerie réchauffée ?

ufo-proofLa preuve par l’image

Puisque Le Soir semble décidé à traiter le sujet avec sérieux, et à se demander si il s’agit “d’un humain ou d’une statue”, en concluant que “Ce n’est pas la première fois que Curiosity rapporte des photos qui laissent planer le doute sur la vie sur Mars”… Prenons le sujet au sérieux, et voyons ce que disent vraiment les images…

Première chose : quelle est la source ? Le Soir cite le très sérieux blog journalistique “UFO Sightings Daily” (sûrement une filiale méconnue du New York Times), lequel, il y a quatre jours, publiait la même information. On peut y lire “Date de découverte: Juillet 2015” et “Lieu de la découverte: Mars”, donc on sait directement que c’est confirmé. En plus, eux aussi sont sérieux et citent leurs sources : “This was discovered by UFOovni2012 of Youtube”. Si M. UFOovni2012 le dit…

La vidéo en question date du 20 juin 2015. Merde, voilà qui rend déjà plus difficile la théorie du “Découvert en Juillet 2015”. À moins que les Martiens ne puissent remonter dans le temps ? Que nous cache-t-on réellement ?

Heureusement, l’article accompagnant la découverte fournit même le lien vers l’image originale, publiée par la NASA. En fouillant un peu sur le site de la NASA, on finit même par trouver la vraie référence : il s’agit d’une photo prise par une caméra montée sur le “mât” de Curiosity. Sur ce schéma, c’est la “Left Mastcam”. La photo a été prise au “Sol 1001”, c’est à dire le 1001ème “jour martien” de la mission, ce qui correspond au 31 juin 2015, à 20h38min14s UTC. Bon, ça fait presque juillet, donc on va dire que c’est bon 31 mai 2015, à 20h38min14s UTC, ce qui nous change encore le mois de la découverte… [Corrigé : merci Ben!]

ufo-original-nasaL’original (NASA)

Ce qui est intéressant avec l’image originale, c’est qu’on voit assez vite que le contraste n’est pas du tout le même que sur la “preuve” montrée dans l’article du Soir (et dans les vidéos des Ufologues, mais eux ont l’excuse de ne pas être tenus à des standards journalistiques…). C’est donc un signe que la preuve, gasp, pourrait être falsifiée ? Impossible ! Si on découpe l’image originale de la NASA de la même manière que l’image “preuve” du Soir, on arrive à ceci :

nasa-croppedLa preuve par l’image ?

Alors, qu’est-ce qu’il se passe dans cette image ? Zoomons un peu :

nasa-cropped-big Tout s’éclaire !

Bon, qu’est-ce qui peut causer cette apparition fantomatique ? On voit ici plusieurs choses : premièrement, beaucoup d’artefacts de compression. Qu’est-ce que c’est ? Quand Curiosity envoie ses données sur Terre (ou quand la NASA les mets en ligne), elles sont “compressées” en format JPG. La connexion vers Mars est assez lente (pire que Belgacom), donc il vaut mieux économiser la bande passante quand ce n’est pas absolument nécessaire. Et quand on compresse une image en JPG, on obtient une image qui, vue de loin, correspond à peu près correctement à l’image originale (les “basses fréquences” de l’image sont préservées), mais est toute pourrie quand on zoom (les “hautes fréquences” sont dégommées). Du coup, on a pleins de pixels groupés bizarrement, et de manière générale on ne peut jamais être trop sûr de ce qu’on voit. Si on va vraiment à fond dans le zoom :

nasa-cropped-bigger Enhance !

Les artefacts sont beaucoup plus clairement visible que la fameuse femme mystérieuse. Bon, mais qu’est-ce que c’est, finalement, ce truc ? Je suis quasiment sûr que les “seins” de la demoiselle sont un rocher, et que la chevelure est l’ombre du rocher. Le “corps” est possiblement la combinaison des ombres de petits rochers autour et d’artefacts de compression.

Quand au phénomène très humains qui fait que l’on a tendance à voir dans n’importe quelle image de caillou des visages ou des silhouettes, il est bien connu et bien documenté, et s’appelle Paréidolie, et est du au fait que le cerveau humain est super fort pour reconnaître des objets connus dans des formes inconnues et aléatoires. Une théorie est que, d’un point de vue sélection naturelle, celui qui voit un tigre ou un ennemi humain dans les fourrés alors qu’il n’y avait que des ombres et des tâches survit, alors que celui qui dit “ah, c’est juste une ombre” alors qu’il y avait un tigre se fait bouffer la gueule. Du coup, on a tendance à être prudent et à dire “Tigre!” partout. (Ou dans ce cas-ci : “fille à moitié à poil!”, parce que les préoccupations humaines ont visiblement changé entre temps).

Tout ça pour dire : merci au Soir de faire du grand journalisme, je n’ai même plus besoin d’aller voir sur des sites de théorie du complot pour trouver des bêtises pareilles, ça arrive directement dans le journal !