La France à droite, bien à droite

Mise à jour 11/04/2022 avec les résultats définitifs du premier tour 2022.

Pour la deuxième élection consécutive, il n’y aura pas de candidat étiqueté “à gauche” au second tour de l’élection présidentielle française. Sur les cinq dernières élections, la gauche n’y aura été présente que deux fois: Ségolène Royal en 2007, et François Hollande en 2012.

On met souvent cette absence sur le dos d’une dispersion des voix de gauche entre de trop nombreux candidats, mais je ne pense pas que ce soit une analyse très juste (à part pour 2002, on y reviendra).

Si on veut compter la dispersion des voix “de gauche” en y incluant PS, les écolos, et les diverses mouvances communistes, ouvrières, etc., on doit la comparer avec la dispersion des voix “de droite” en y incluant Républicains, et les diverses mouvances nationalistes, identitaires, etc. Les convergences d’idées y sont certainement aussi forte (surtout ces dernières années, ou même les discours du “centre” macroniste sont parfois difficiles à distinguer de ceux de l’extrême-droite “adoucie” de Marine Le Pen).

En 2022, Jean-Luc Mélenchon aura obtenu 69% des suffrages “de gauche” (21,95%, contre 9.99% pour tous les autres candidat.e.s “de gauche” rassemblé.e.s). Marine Le Pen, de son côté, rassemble 62% des suffrages “de droite”. Quand on regarde toutes les élections depuis 2002, on voit que la concentration des voix “à gauche” n’est pas fondamentalement plus mauvaise qu’à droite:

Proportion des votes “de gauche” et “de droite” obtenu par le premier candidat de la faction.

En 2007, 2012 et 2022, la concentration des voix est relativement similaire. En 2017, les votes de droite se sont particulièrement dispersés entre Fillon et Le Pen (mais le total des voix “de gauche” était largement plus faible, les électeurs ayant été happés par le “centre” macroniste).

Et puis il y a 2002… Lionel Jospin n’avait obtenu que 34% des voix “de gauche”, une dispersion qui très clairement lui a coûté l’élection.

Car l’autre côté des chiffres, c’est la balance totale entre “la gauche” (et l’extrême-gauche), “la droite” (et l’extrême-droite) et “le centre”.

Distribution des voix entre “gauche/extrême-gauche”, “centre” et “droite/extrême-droite” depuis 2002.

Des cinq dernières élections, la seule dans laquelle la gauche a obtenu plus de voix que la droite au premier tour est celle de 2002, où malgré cette “victoire” le second tour s’était finalement joué entre Jacques Chirac et Jean-Marie Le Pen.

Il est clair en regardant l’évolution de la distribution des voix que le “centre” siphonne largement plus de voix à gauche qu’à droite. On pourrait y voir une indication que le centre français est un centre-gauche… mais ni le discours, ni le programme d’Emmanuel Macron ne colle avec cette analyse.

Non, le constat me semble plutôt que le réservoir de voix “de gauche” est, tout simplement, aujourd’hui trop faible en France que pour permettre de gagner des élections au niveau national.

Et aussi (mais ce n’est pas nouveau): le système présidentiel est vraiment nul. Le système belge est loin d’être parfait, mais chaque fois que je vois une élection française ou américaine, je me dis qu’on est quand même mieux lotis.


Notes: candidats inclus dans chaque “faction” pour les diverses élections:

Gauche / Extrême-gaucheCentreDroite / Extrême-droite
2022Mélenchon, Jadot, Roussel, Hidalgo, Poutou, ArthaudMacron, LassalleLe Pen, Zemmour, Pécresse, Dupont-Aignan
2017Mélenchon, Hamon, Poutou, Arthaud, CheminadeMacron, LassalleLe Pen, Fillon, Dupont-Aignan, Asselinau
2012Hollande, Mélenchon, Joly, Poutou, Arthaud, CheminadeBayrouSarkozy, Le Pen, Dupont-Aignan
2007Royal, Besancenot, Buffet, Voynet, Laguiller, Bové, Nihous, SchivardiBayrouSarkozy, Le Pen, de Villiers
2002Jospin, Laguiller, Chevènement, Mamère, Besancenot, Saint-Josse, Hue, Taubira, GlucksteinBayrou, LepageChirac, Le Pen, Madelin, Mégret, Boutin

Sources des données utilisées:

Suite: La Libre Belgique et bit4you

Je notais le 20 février dans l’article “Bitcoin et médias: La Libre Belgique et bit4you” le traitement douteux des cryptomonnaies par les médias, et en particulier les mauvaises pratiques apparentes de La Libre, dont le partenariat commercial avec la plateforme bit4you semblait parfois déborder dangereusement sur leur contenu journalistique.

Suite à cet article, j’ai signalé le problème au Conseil de Déontologie Journalistique, en notant en particulier:

  • Des tweets n’indiquant pas la nature publicitaire de certains “publireportages” de bit4you.
  • Un manque de clarté sur les pages de ces publireportages quand au fait qu’on regardait un contenu publicitaire.
  • Un possible conflit d’intérêt avec des articles non-publicitaires mettant largement en avant bit4you et son cofondateur Marc Toledo alors qu’une relation commerciale existe aussi entre La Libre et bit4you (exemples: [1, 2, 3]).

Réponse de La Libre

Suite à la transmission de ma plainte au journal, La Libre a supprimé les “tweets” incriminés (sauf un…), et a modifié l’apparence des publireportages pour les rendre plus distinctifs et plus visiblement “publicitaires”. Dans sa réponse au CDJ, M. Legge, rédacteur en chef de LaLibre.be, indique que les tweets sont le résultat d’un problème technique qui, de mi-janvier à mi-février, a perturbé leur système de publication automatique sur Twitter qui ne filtrait plus les publireportages. Ce problème serait maintenant résolu.

Avant / Après : nature publicitaire plus clairement établie
Avant / Après: apparence du publireportage

Concernant les articles “non-publicitaires”, ils invoquent l’indépendance de la rédaction qui implique de “ne pas exclure un interlocuteur pertinent parce qu’il est aussi un annonceur régulier ou pas”, ce qui serait contraire à “l’esprit de
l’indépendance journalistique”. M. Legge note également que La Libre a aussi publié des articles critiques des cryptomonnaies et pointe quelques exemples [1, 2, 3, 4].

Suffisant ?

Le CDJ m’a demandé si, suite à cette réponse, je souhaitais poursuivre et demander à ce qu’ils traitent la plainte sur le fond. J’ai répondu que non.

Je reste très dubitatif quand au choix rédactionnel de La Libre. Les plateformes d’échanges de cryptomonnaies ne sont pas de simples business. Il est impossible d’y participer sans être associé, directement ou indirectement, à des pratiques douteuses et/ou frauduleuses. Bit4you, par exemple, utilise pour toutes ses transactions la cryptomonnaie de la société “Tether” (USDT), qui est largement soupçonnée de fraude et de manipulation du marché. Il me semble qu’une attention particulière devrait être prise par les journalistes lorsqu’ils traitent avec de tels partenaires.

Mais il s’agit là d’un choix rédactionnel. Je pense que La Libre fait ici un mauvais choix, et qu’ils auraient besoin de se tourner vers d’autres experts pour traiter les questions relatives aux cryptomonnaies, mais je ne dispose pas d’éléments permettant de soupçonner de la malhonnêteté de la part du journal. Je pense que c’est du mauvais journalisme, mais ça c’est une toute autre question !

Ma Thèse en 180 secondes

L’édition 2022 de “Ma Thèse en 180 secondes” va démarrer le mois prochain avec les sélections ULB le 31 mars. J’ai eu le plaisir de participer à l’édition 2021 (quelque peu perturbée par le COVID, mais c’était chouette quand même!). Je me rends compte que j’avais prévu de mettre la vidéo et mon texte ici et que j’ai complètement oubliée de le faire, donc avec à peu près un an de retard, les voici !

Je ne peux que conseiller l’exercice aux doctorant.e.s qui approchent de leur fin de thèse: synthétiser et vulgariser, ça pousse à se poser des bonnes questions sur les objectifs réels de ce qu’on est en train de faire.

Le “Live”

“Facebook Live” de l’événement: https://www.facebook.com/watch/live/?v=1071437936709269&ref=watch_permalink

Timecodes des participant.e.s:

16:07 – Introduction (Quentin Delhaye)
24:45 – Sébastien Lamproye – Le progrès technique et le partage du gâteau
28:25 – Léni Jodaitis – La bactérie : une boite de nuit très select
32:00 – Ruth Ringer – C’est quoi cette image ?
35:45 – Alexandre Popotas – La pneumonie vient de Mars, l’asthme de Vénus
39:15 – Adrien Foucart – Intelligence artificielle et histologie : un ingénieur au pays des médecins
42:55 – Intermède musical : Dolores – Kearo Zenn Quartet
47:05 – Cyrine Ben Dhaou – Trinquons à la chémérine contre le cancer
50:53 – Delphine Laho – Mise au point d’un test de diagnostic moléculaire rapide de l’otite moyenne aigüe chez l’enfant.
54:42 – Benjamin Swedlund – Choisir c’est renoncer : quand les cellules souches pluripotentes font le choix du coeur
58:25 – Valentin Fortier – Le Méthane sur Mars : d’où ça vient ?
1:02:10 – Charlotte Minsart – Implication de la protéine HMGB1 dans l’overdose au paracétamol
1:07:00 – Cyrine Ben Dhaou – Trinquons à la chémérine contre le cancer (deuxième présentation, suite à un problème technique)
1:13:00 – Intermède musical / Délibération : Joel Rabesolo / Aleph Quintet Music / Kearo Zenn Quartet / Isadora / Jean-Paul Groove
1:54:00 – Résultats du jury & du vote du public (Serge Schiffmann)

Mon texte

Ma thèse se trouve à cheval entre deux mondes : l’intelligence artificielle, dans le monde des ingénieurs, et l’histologie, dans le monde des médecins.

L’intelligence artificielle, on la retrouve partout. Prenez votre smartphone, par exemple. Si vous ouvrez l’appareil photo, un algorithme va détecter les visages et les entourer d’un petit rectangle. Pour créer un tel algorithme, on utilise des millions de photos, sur lesquelles on a noté où se trouvait chaque visage. Plus on a d’images différentes (de face, de profil, de loin, de près…), mieux l’algorithme sera capable de détecter les visages en toute circonstance.

Noter où se trouve un visage sur une photo, c’est facile, tout le monde peut le faire. Mais en histologie, dans le monde des médecins, les choses sont plus compliquées.

L’histologie, c’est ce qui se passe par exemple quand on prélève un morceau de tumeur durant une biopsie ou une opération. On le fixe ensuite dans un bloc de paraffine, qu’on coupe en fines tranches. On ajoute un peu de couleurs, et puis on peut venir regarder au microscope pour estimer la gravité du cancer et prendre les meilleures décisions pour le patient : faut-il opérer plus, faire une chimio, faire des rayons ?

Est-ce que vous pouvez dire quel type de cancer se trouve sur cette image ? Probablement pas. Les cellules cancéreuses ne portent pas de pancarte indiquant leur niveau de gravité. Les indicateurs sur lesquels se basent les médecins sont souvent subjectifs, et le désaccord entre experts est courant.

Produire et annoter les images histologiques prend du matériel spécialisé, des personnes expérimentées, et beaucoup de temps. On doit donc travailler sur des bases de données réduites, où les annotations sont incertaines, voire contradictoires d’un expert à l’autre.

Pour appliquer les techniques d’intelligence artificielle au monde de l’histologie, nous avons donc développé des méthodes qui permettent à nos algorithmes d’apprendre malgré les données imparfaites, et à donner des résultats utiles pour la recherche et le diagnostic.

Il faut aussi se poser la question de comment on peut évaluer nos résultats. Si je teste un algorithme qui détecte des visages, je peux prendre une série de photos et compter le nombre d’erreurs. Mais qu’est-ce qu’une « erreur » lorsque même les meilleurs experts ont des avis différents ? Là aussi, nous avons dû développer des méthodes qui tiennent compte de cette incertitude, et qui nous permettent de mieux évaluer si un algorithme est plus intéressant qu’un autre.

La rencontre du monde de l’ingénieur et du monde de la médecine apporte beaucoup des deux côtés. Le développement de nouvelles méthodes et de nouveaux algorithmes pour les uns ; la possibilité de faciliter le travail des médecins, et d’améliorer la qualité des soins proposés aux patients pour les autres.

Venant du côté des ingénieurs, c’est une rencontre qui n’est pas toujours facile. Le monde médical est compliqué, et réussir à s’adapter à cette complexité est toute la difficulté, et aussi pour moi tout l’intérêt, de ma thèse.

Bitcoin et médias: La Libre Belgique et bit4you

Suite (18/3/2022).

Il est difficile de ne pas voir une certaine responsabilité médiatique dans la vaste arnaque que sont les cryptomonnaies, NFTs, et autres “révolutions” de la blockchain. En traitant bien souvent les cryptomonnaies comme “un investissement” (risqué, certes, mais légitime) dont on rapporte les montées et descentes comme si c’était une action cotée en bourse, ils leur donne une aura de respectabilité qui aide à recruter les nouvelles générations d’investisseurs… qui se retrouvent bien souvent les cibles de la prochaine arnaque, ou simplement les victimes de la nature légèrement… “pyramidale” de l’investissement.

Au vu de la vaste quantité d’argent sale au cœur de cette “crypto-économie”, il me semble particulièrement important pour les médias de s’assurer que, dans leurs propres transactions avec le milieu, ils sont irréprochables et au-dessus de tout conflit d’intérêt. Ce qui m’amène à La Libre Belgique et à la société bit4you.

La Libre Belgique a attiré mon attention par leur couverture particulièrement positive et constante des cryptomonnaies. C’est peut-être une impression personnelle, mais je les vois plus que la plupart des autres médias francophones diffuser chaque montée du prix, et offrir une tribune à des entrepreneurs en blockchain et cryptomonnaies.

Avec parfois, me semble-t-il, un léger flou entre le contenu publicitaire et le contenu journalistique. Parce que La Libre publie des “publireportages”, contenu sponsorisé prenant le format d’un article “normal”. Par exemple: cette série de 6 articles “#Décrypto”. Ces articles sont clairement marqués comme “contenu de partenaire” et “PUBLICITE”, mais ils se retrouvent catégorisés dans la section “Placements et marchés” du site et sont écrits comme des articles “informatifs”. Plus récemment, on a ces articles “Le bitcoin, un nouvel eldorado pour les jeunes” et “Les jeunes investisseurs“, eux aussi marqués “publireportage” et avec une note indiquant qu’il s’agit d’un contenu publicitaire à la fin, mais visuellement absolument identiques à tous les articles “légitimes” (et aussi écris dans un style “neutre” qui cherche clairement à donner l’impression qu’il s’agit d’articles et pas de publicités).

Cette limite floue entre “contenu journalistique” et “publicité” est déjà un peu dérangeante, mais jusque là “ça peut aller”. Mais voici où les choses deviennent un peu plus franchement problématiques. Ces contenus publicitaires proviennent tous des “bit4you“, une plateforme d’échange de cryptomonnaies basée en Belgique et dirigée par un certain Marc Toledo.

Et, en même temps que La Libre se fait payer pour diffuser les contenus publicitaires de bit4you, ils diffusent aussi des “vrais” articles faisant les louanges de cette même société. Voir aussi ici et ici. Aucun de ces articles ne sont des publicités, mais ils mettent clairement en avant une société en particulier, et donnent largement la parole à Marc Toledo qui se retrouve de facto “l’expert” de prédilection sur les questions de cryptomonnaies pour le journal.

La relation entre La Libre et bit4you est donc trouble: d’un côté, c’est une relation commerciale, où bit4you paie La Libre pour y placer son contenu publicitaire. D’un autre côté, c’est une relation journalistique, où La Libre interview Marc Toledo en tant qu’expert pour alimenter du contenu informatif.

Est-ce illégal ou une faute professionnelle? Honnêtement, je n’en sais rien du tout. Mais ce qui me semble très clair, c’est que le milieu des cryptomonnaies est pourri jusqu’à l’os, est remplis d’arnaques et de sociétés à l’honnêteté plus que douteuse, et que face à ce genre de milieu les médias devraient faire preuve d’une attention particulière à éviter de se retrouver dans des situations de potentiel conflits d’intérêt, qui les rendraient (éthiquement si pas juridiquement) complices des malversations en tout genre qui font tourner cette “crypto-économie”.

Stop à la blockchain

J’ai partagé il y a peu l’excellente vidéo de Dan Olson “Line Goes Up – The Problem with NFTs”, que vous pouvez retrouver ici: https://www.youtube.com/watch?v=YQ_xWvX1n9g. C’est long, mais ça en vaut la peine. Dan couvre le sujet de Bitcoin, des “smart contracts”, des NFTs et du “Web 3.0”, et il y a clairement de quoi tenir les 2 heures qu’il prend pour tout expliquer.

C’est un sujet dont j’ai déjà eu envie de parler, mais sans jamais trouver un angle qui me convenait. Il y a juste trop de choses à couvrir. Les arnaques pures et simples, l’impact environnemental, l’inadéquation du bitcoin en tant que monnaie… Dan Olson réussit je trouve assez bien (en tout cas mieux que dans tous mes brouillons!) à trouver le juste milieu entre “assez exact” et “assez compréhensible”.

Il y a cependant un point que j’aimerais encore couvrir de mon côté. Même si on ignore l’aspect écologique, et l’aspect économique, et les arnaques… la blockchain reste fondamentalement une technologie absolument inutile dans l’écrasante majorité des secteurs pour lesquelles elle est aujourd’hui régulièrement proposée. Allons-y point par point.

1. L’intérêt théorique

L’intérêt théorique de la blockchain (par rapport à n’importe quel autre moyen de stocker des données) est dans son immutabilité (une fois qu’on met quelque chose dedans, on ne peut plus le changer), dans sa décentralisation (de multiples copies du contenu sont dispersées dans des ordinateurs différents), et dans l’absence d’entité de confiance (c’est-à-dire que le réseau entier est “garant” de l’intégrité des données via un processus de consensus, pas une ou plusieurs personnes désignées à qui il faut donc “faire confiance”).

C’est ce dernier point en particulier qui distingue réellement la blockchain d’autres systèmes. L’immutabilité peut se faire facilement dans une base de données standard si on peut fait confiance dans le fait que l’entité qui administre cette base de donnée l’a bien configurée. La décentralisation, elle non plus, ne nécessite pas de blockchain si on peut s’accorder sur une (ou quelques) entités de confiance qui “décident” de qui a raison si plusieurs versions de la base de donnée se trouvent en conflit.

2. Ce qu’on peut stocker

Une limitation fondamentale d’un système “décentralisé” et “immuable”, c’est que l’on multiplie dramatiquement les ressources nécessaires pour stocker les données. Tout ce qu’on veut mettre sur la blockchain doit être envoyé à tous les ordinateurs qui participent au réseau, et doit y être stocké. Si on limite le nombre de participants au consensus, on transforme nécessairement ces participants en “entités de confiance”. Si on augment le nombre de participants, on multiplie la bande passante et l’espace de stockage nécessaire à faire fonctionner la base de données.

Comme le système est immuable, on ne peut jamais supprimer une donnée une fois qu’elle est entrée. Même si elle était erronée, même si on est certain qu’elle ne sera plus jamais utilisée: elle doit rester stockée chez tous les participants du réseau. Si on n’a pas toutes les données, on ne peut pas garantir l’intégrité de la blockchain, et on ne peut donc pas participer au consensus.

Le résultat est que toutes les blockchains ne stockent que des données textuelles de petite taille. On ne stocke pas d’images, de vidéos, de musique, ou même de PDFs ou de larges fichiers de texte sur la blockchain.

3. Si on veut stocker une autre ressource numérique, la blockchain devient inutile

Le moyen typiquement utilisé dès qu’on veut stocker autre chose que du texte et tout de même utiliser la blockchain, c’est d’utiliser celle-ci pour stocker des liens vers une ressource extérieure. Par exemple, dans les NFTs, la blockchain contient des petits programmes (du texte, donc) qui font un lien entre le propriétaire du NFT et, typiquement, une URL vers une image qui est stockée quelque part. La blockchain devient donc un “index” qui peut diriger vers les bonnes ressources.

Et comme l’image est stockée quelque part, celui qui contrôle ce “quelque part” doit nécessairement être considéré comme une entité de confiance. S’il supprime le fichier vers lequel la blockchain pointait, ou s’il change l’adresse de son serveur, la blockchain ne peut rien faire pour l’en empêcher. Pire: comme la blockchain est immuable, on ne peut même pas décider de mettre une copie du fichier ailleurs et de modifier le lien. Modifier, c’est interdit. La blockchain dit que le fichier est là. S’il n’y est plus: pas de bol. Des hébergements “décentralisés” comme IPFS permettent de rendre le système un peu plus robuste, mais cela ne change rien au fond du problème: la blockchain en elle-même n’a pas le contrôle sur les biens qu’elle est supposée gérer.

Dès lors que celui, celle ou ceux qui stockent les ressources sont des entités de confiance, il est infiniment plus efficace qu’elles conservent aussi l’index, qui peut du coup être stocké dans une base de donnée traditionnelle qui ne consomme pas l’électricité d’une nation.

4. Si ce qu’on veut stocker est en lien avec le monde non-numérique, la blockchain devient inutile.

Dans les cas typiques de “blockchain qui vont révolutionner le monde”, on a régulièrement des idées qui ont trait à des “supply chains” (suivons le produit du producteur au consommateur, sur la blockchain!), ou à des certificats de propriété (remplaçons les notaires par une blockchain!), ou à diverses données sensibles (votre dossier médical sur la blockchain!).

L’idée derrière l’utilisation de la blockchain, dans tous ces cas, est de se prémunir contre une modification malveillante des données. On ne veut pas que quelqu’un vienne traficoter la base de donnée pour soudain se prétendre propriétaire d’une maison, ou que le produit a été livré quelque part.

Là encore, cependant, la blockchain est totalement inadaptée. Oui, il peut y avoir de gros soucis avec des données erronées dans toutes ces applications. Mais ces erreurs ne viennent pas de hackers qui se glissent sur le serveur et modifient les données avant de s’enfuir vers le soleil couchant. Elles viennent presque toujours, simplement, de l’encodage. Dès qu’on parle de données du “monde réel”, on a nécessairement pour toute donnée quelqu’un, quelque part, qui va être responsable de traduire le “monde réel” en sa représentation numérique. Scanner un QR code, entrer un numéro de client, signer un reçu électronique… S’il y a manipulation (ou erreur de bonne fois), c’est toujours à cet endroit là que ça se passe. Et la blockchain n’a évidemment aucun moyen de valider que ce qui est entré correspond à la réalité. La blockchain ne peut pas savoir si le produit “reçu” est bel et bien présent là où le QR code a été scanné.

C’est le problème du “Garbage In, Garbage Out”: si on rentre des données pourries dans le système, on en sortira des données pourries. Le problème est même aggravé par la blockchain car, à nouveau, immuabilité = impossible de corriger si c’est une vraie erreur. Maintenir une blockchain “synchronisée” avec le monde réel est inutilement compliqué. Et dans tous ces cas de figures, on a de toute façon quelque part une “autorité” qui sera chargée de résoudre les conflits lorsqu’il y a un doute. À nouveau, tout le monde gagnerait à ce que cette autorité gère directement la base de données… rendant la blockchain obsolète.

5. Qu’est-ce qu’il reste, alors?

La blockchain peut se justifier si on a une application où l’on ne doit stocker que des données qui prennent peu de place et qui sont entièrement numériques (donc qui existent indépendamment de tout objet réel).

Qu’est-ce qui remplit ces critères? Globalement: le Bitcoin (et ses divers successeurs). Ce n’est pas pour rien que, si “la blockchain” en tant que telle date du début des années 90, Bitcoin reste aujourd’hui la seule application réellement “fonctionnelle” du concept. Et elle fonctionne bien mal.

Certains diront que les “smart contracts” d’Ethereum sont fondamentalement une application différente, mais je pense que c’est tirer trop loin la définition de “fonctionnelle”. Tous les projets autour de ces smart contracts souffrent des défauts énoncés ici, et sont au mieux des mauvaises solutions à de réels problèmes. Et, dans la majorité des cas, ils sont une excuse pour une quelconque bulle spéculative comme les NFTs, et n’ont aucune “fonctionnalité” à proprement parler.

David Rosenthal explique assez bien ici pourquoi toute blockchain décentralisée finit nécessairement en bulle spéculative. En résumé: pour que le système soit décentralisé, il faut qu’il soit difficile (pratiquement impossible) d’attaquer le système de “consensus” en contrôlant plus de la moitié des participants. Pour cela, il faut que la participation ait un coût élevé (c’est le concept du “Proof-of-Work”). Pour que des gens veuillent quand même participer, il faut que ce coût soit au final couvert par une rémunération. Pour que le système reste décentralisé, il faut que cette rémunération soit générée “automatiquement” par le système (si on a une autorité centrale qui distribue des gains aux “bons” participants, elle a de facto le contrôle du système): on doit donc avoir une cryptomonnaie. Comme les coûts de participation (matériel, électricité…) ne sont a priori pas payables dans cette cryptomonnaie, les participants vont nécessairement vouloir écouler leur cryptomonnaie et la vendre contre de la vraie monnaie. Pour qu’ils puissent la vendre, il faut que des gens achètent. Et la seule raison qui va pousser assez de gens à acheter pour que le système continue à tourner, c’est l’espoir que la valeur monte. Les seules possibilités sont donc: le système se plante faute d’acheteurs, ou on a une bulle spéculative jusqu’à ce que le système se plante faute d’acheteurs.

Conclusions

Quelques remarques pour terminer:

  • Oui, tout cela n’empêche pas qu’on puisse “se faire de l’argent” avec le Bitcoin, les NFTs, et tout le cryptobazar. C’est une bulle: tant qu’elle n’a pas explosé, il y a certainement moyen d’en profiter. J’aurais tendance à dire que ce n’est pas très éthique, et que les risques de tout perdre et/ou de participer malgré soi à quelque chose d’illégal sont un peu trop grands, mais chacun son truc.
  • Je n’ai jamais possédé la moindre cryptomonnaie et je ne compte pas en posséder un jour. Je n’ai donc aucun intérêt financier dans un sens ou dans l’autre. J’ai par contre un intérêt dans le fait que nos ressources technologiques et énergétiques servent à des choses moins dommageables pour le monde que de faire tourner des blockchains.
  • “Mais en vrai, Ethereum va quitter le Proof-of-Work et on peut faire de la blockchain qui ne détruit pas l’environnement, et en plus grâce aux blockchain on développe l’énergie solaire, etc., etc.” Non. Sorry, mais tout ça c’est du bullshit. Même à un coût environnemental réduit (et Ethereum “va quitter le Proof-of-Work” très bientôt depuis sept ans, donc la crédibilité est assez limitée), cela reste un énorme gaspillage. Quand aux sources d’énergies, les “mineurs” vont là où l’énergie est la moins chère. Parfois, c’est de l’énergie solaire ou géothermale, souvent c’est du charbon. Même si l’énergie était 100% verte, ce serait tout de même de l’énergie mieux utilisée ailleurs.
  • Y-a-t’il des utilisations légitimes et utiles de la blockchain? Certainement… pour certains de ces aspects, qui ne sont pas nouveaux et pas uniques à la blockchain. Il y a certainement des idées intéressantes en cryptographie et en gestion de systèmes décentralisés liés à des travaux sur la blockchain. Mais le milieu “de la crypto” est devenu tellement toxique que, à ce stade, toute association au concept de blockchain rend une idée suspecte. Il est temps de balayer tout, de jeter toutes les cryptomonnaies à la poubelle, et de passer à autre chose.

Ressources supplémentaires

Dr. Elisabeth Bik, manipulations d’images, et controverses scientifiques.

Le Dr. Elisabeth Bik est une microbiologiste qui s’est spécialisée dans la détection de manipulations potentiellement frauduleuses dans les articles scientifiques, et en particulier dans les images. Ces manipulations sont parfois très subtiles. Dans l’image ci-dessous, par exemple, on retrouve un exemple de ce que le Dr Bik appelle une duplication de “catégorie 2”, c’est-à-dire une image dupliquée avec un repositionnement.

Annotations par Elisabeth Bik sur PubPeer, illustration dans Yan et al [1].

Ce qu’on peut voir ici, avec de bons yeux, c’est que deux images de cette figure représentent clairement le même morceau de tissu cellulaire, légèrement décalé. Le problème est que, selon la méthodologie de l’article, ces deux images devraient normalement provenir de deux souris différentes. Un tel degré de similitude serait en ce cas une sacrée coïncidence.

Cela signifie soit qu’il y a eu un moment dans le processus un mélange qui a été fait dans la labellisation et l’identification des images (autrement dit: leurs fichiers images ne sont pas correctement reliés aux échantillons), soit qu’au moment de construire les figures il y a eu un “léger raccourci” qui a été fait, et que les auteurs ont décidés d’utiliser une image qui illustrait peut-être mieux leur propos et le résultat de leurs mesures, même si l’image ne correspondait pas aux labels associés. Dans les deux cas, cela rend très douteux les résultats de l’expérience, et a fortiori les conclusions de l’article.

Ce genre de fautes, le Dr. Bik en trouve des tonnes. Ses trouvailles se retrouvent sur PubPeer, et elle les publie régulièrement sur son compte Twitter. Dans de nombreux cas, les manipulations sont beaucoup plus flagrantes, et il est difficile de trouver une autre explication à la figure que “Photoshop”. Par exemple, ici:

Image partagée par Elisabeth Bik sur Twitter.

Dans la seconde ligne (Beta-Actin), les deux premières bandes (M et 1) sont l’image miroir des deux suivantes (2 et 3). La coupure est clairement visible, et c’est quelque chose qui ne pourrait juste pas apparaître naturellement dans ce genre d’images.

Jusque là, c’est embêtant mais ce n’est pas non plus un drame. Des articles sont publiés avec des erreurs, d’autres scientifiques trouvent ces erreurs, c’est comme ça que la science avance. Là où les choses deviennent plus inquiétantes, c’est quand on regarde ce qui se passe après que les erreurs soient identifiées.

Science et sociétés d’édition

En 2016, Bik et deux collègues ont publiés une étude dans laquelle elles ont analysé les images de plus de 20.000 articles publiés entre 1995 et 2014, et ont trouvé que prêt de 4% d’entre eux contenaient au moins une image problématique [2]. Mais lorsque ces erreurs sont rapportées aux journaux concernés, elles sont souvent entièrement ignorées. Dans certains cas, malgré des manipulations flagrantes, le journal demande juste aux auteur·rice·s de fournir une figure corrigée, sans que les résultats soient ré-examinés. Il faut souvent qu’un article attire une attention un peu trop soutenue pour que les éditeurs du journal se décident à envisager une rétraction.

Pourquoi les éditeurs (et les reviewers) ne font-ils pas correctement leur boulot? Même en l’absence de malversations ou de conflits d’intérêt, il reste un problème majeur dans le système.

Il y a en effet un conflit entre les besoins de la communauté scientifique, et les besoins des sociétés d’édition. La méthode scientifique est fondée sur une certaine “auto-régulation”: les résultats publiés doivent être reproductibles et vérifiables. Lorsque des erreurs sont découvertes, elles doivent être corrigées. Lorsque des manipulations sont découvertes, les résultats deviennent immédiatement suspects et doivent être rétractés.

Mais pour les sociétés d’édition, tout cela nécessiterait de mettre de sérieuses ressources dans le “contrôle de qualité”, ce qui va directement à l’opposé de leur objectif principal qui est, nécessairement, d’engranger un maximum de profit. Les éditeurs scientifiques ne sont (généralement) pas des ASBL. Springer Nature, Elsevier, Taylor & Francis… les plus grandes sociétés d’édition sont aujourd’hui des multinationales avec des revenus qui se comptent en milliards de dollars. Et la majorité des publications sont concentrées dans seulement une poignée de sociétés (5, selon une étude de 2015) [3].

Aujourd’hui, lorsqu’on publie un article, on a un processus dans lequel les auteurs payent le journal pour que leur article y apparaisse, les reviewers qui évaluent la qualité de l’article sont bénévoles, les éditeurs qui recrutent ces reviewers et prennent les décisions finales concernant la publication sont également souvent bénévoles (ou peu payés), et les universités payent des fortunes pour avoir accès aux articles, qui sont sinon souvent vendus “à la pièce” pour des tarifs de l’ordre de 30 à 40 dollars.

De nombreux journaux “offrent” maintenant la possibilité aux auteurs de publier en “Open Access”, pour que l’article soit accessible gratuitement à tous… et demandent pour ce faire aux auteurs de payer un tarif plus élevé, souvent de l’ordre de plusieurs milliers de dollars, jusqu’à plus de 10.000 dollars dans des cas extrêmes comme celui de Nature Neuroscience. Ce modèle d’Open Access fait que seul les laboratoires ayant un certain budget peuvent se permettre de rendre leur recherche accessible à tous (en dehors des solutions “alternatives” de diffusion comme sci-hub et autres, évidemment).

À l’ère de l’édition numérique, le travail de la société d’édition est devenu assez limité: repasser un coup sur l’article pour corriger la mise en page, et héberger des PDFs sur un serveur. Faire de “l’après-vente” sur ces articles, cela demanderait un travail supplémentaire qui retomberait soit sur des éditeurs bénévoles et déjà surchargés, soit nécessiterait pour la société d’édition de payer quelqu’un pour le faire. Et ça, ça couperait dans la marge de profit.

Elisabeth Bik note un cas particulièrement cynique (corrigé depuis) où Springer vendait un article pour $40 sans indiquer nul part qu’il avait été rétracté depuis plus de 15 ans… et si l’on tombait via un moteur de recherche comme PubMed sur la notice de rétraction, on pouvait également obtenir celle-ci… pour $40 supplémentaires.

La “symbiose” entre la communauté scientifique et les maisons d’édition ressemble de plus en plus à une relation parasitique où les scientifiques produisent l’essentiel du travail, et les sociétés d’édition récupèrent l’entièreté des bénéfices. Et rétracter des articles, ce n’est pas tellement bon pour le business.

Traders et Marseillais

Le plus souvent, les suites données aux remarques du Dr Bik et des autres contributeurs réguliers de PubPeer ou RetractionWatch (lorsque ce n’est pas juste du silence) restent fermement dans la sphère scientifique. Corrections, commentaires sur les corrections, rétractions: le processus est lent et frustrant, et souvent dysfonctionnel, mais les principaux acteurs des débats ont le mérite de rester dans le cadre prévu.

Et puis parfois, les choses débordent un peu.

Deux cas en particulier sortent du lot: celui de la firme pharmaceutique Cassava Sciences et, bien entendu, celui de l’inévitable IHU-Marseille du Professeur Didier Raoult.

Cassava Sciences: quand les traders s’en mêlent

Cassava Sciences développe un possible traitement pour la maladie d’Alzheimer. D’après les publications de la société, les essais cliniques “Phase 2” montrent un effet bénéfique sur les capacités cognitives pour leur médicament. (Pour résumer très grossièrement: la phase 1 cherche à déterminer avant tout si un médicament est dangereux, la phase 2 s’il a un effet bénéfique, la phase 3 si cet effet est meilleur que le meilleur traitement actuellement recommandé, et la phase 4 observe les effets long terme après que le médicament ait été mis sur le marché.)

En août 2021, un rapport a été envoyé à la FDA demandant l’arrêt des essais cliniques, notant une série de possibles manipulations dans les données et images publiées. Le Dr Bik détaille de son côté sur son blog sa propre analyse, après avoir lu le rapport et les articles originaux. Elle relève effectivement une série de possibles manipulations d’image.

Notons que quand on parle ici de “manipulation”, il ne s’agit pas nécessairement de “malversation”. Une manipulation peut être simplement faite pour respecter des contraintes de places, ou des besoins de clarté lors de la publication, et avoir été réalisée “de bonne foi”. Mais les explications fournies à ce jour par Cassava Sciences n’ont pas vraiment convaincu les experts.

Analyse de certaines figures par un utilisateur anonyme sur PubPeer mettant en évidence de possibles manipulations dans un article de Wang et al [4], avec notamment des discontinuités étranges dans le “bruit de fond” de l’image qui pourraient indiquer que certaines portions ont été découpées et viennent d’une autre image.

Une notice a été publiée sur au moins l’un des articles incriminés avertissant qu’une enquête était en cours… menée par l’Université où les auteurs de l’étude sont affiliés, ce qui ne sera peut-être pas suffisant pour éteindre les doutes.

Ce qui fait sortir l’affaire Cassava Sciences du lot, cependant, c’est que la quasi-entièreté des discussions sur le sujet est polluée par une bataille de traders. Parce qu’à la base de toute l’histoire, il y a la cotation en bourse de Cassava, et un grand conflit entre ceux qui ont pariés “à la hausse” et ceux qui ont pariés “à la baisse.” Après des premiers résultats d’essais cliniques “phase 2” décevants, le cours avait chuté. Quelques mois plus tard, ils reviennent sur leurs résultats et publient cette fois-ci des effets positifs remarquables… et l’action remonte. Les investisseurs ayant parié “à la baisse” crient à la fraude. Ceux ayant parié “à la hausse” défendent les résultats corps et âme (et portefeuille).

Sans être de mon côté un expert dans le domaine de la recherche médicamenteuse, je le suis suffisamment dans celui de l’analyse d’image pour voir que certains des problèmes relevés par le Dr Bik sont indéniables. Il y a eu des manipulations d’images, et sans une transparence totale de la part de la firme pharmaceutique et du laboratoire de recherche qui a effectué les expériences, on ne peut juste à ce stade pas faire confiance en leurs résultats.

Et s’il s’avère que ces manipulations ont une explication bénigne, et que les résultats sont effectivement prometteurs, tant mieux ! Un médicament réduisant les effets de la maladie d’Alzheimer serait formidable. Mais on ne peut pas mettre sur le marché ce médicament sans avoir levé les doutes qui subsistent aujourd’hui.

Gautret, Raoult, et l’excellence marseillaise

En mars 2020, Philippe Gautret et ses collègues de l’IHU-Méditerranée Infection, sous la direction de Didier Raoult, publient les fameux “essais cliniques” sur l’hydroxychloroquine pour traiter le COVID-19 [5].

Cet article est truffé de problèmes. Elisabeth Bik les détaille mieux que moi, mais en résumé on a:

  • Des patients “contrôle” (sans hydroxychloroquine) recrutés dans d’autres centres que les patients “test” (qui étaient tous suivis à l’IHU), introduisant immédiatement des facteurs de confusion dans toute analyse des résultats.
  • Une sélection non-aléatoire des patients “contrôle” et “test”, introduisant un possible biais de sélection.
  • Des protocoles de test différents selon le centre pour déterminer la charge virale.
  • Des patients qui changent de groupe ou qui sont retirés de l’étude lorsque les résultats ne vont pas dans le sens voulu (les patients qui vont en soins intensifs ou meurent avec le traitement hydroxychloroquine sont retirés de l’étude, mais les patients ayant des antécédents rendant le traitement inadéquat sont mis dans le groupe contrôle alors qu’eux devraient être retirés).
  • Des patients dont on a pas de données pour le “6e jour” du traitement mais à qui on attribue tout de même un résultat positif ou négatif selon les dernières données disponibles, malgré le fait qu’on voit régulièrement des résultats fluctuant d’un jour à l’autre chez d’autres patients.
  • Un énorme conflit d’intérêt non déclaré dans le processus de peer-review, avec l’un des auteurs de l’étude qui est aussi éditeur en chef du journal où elle est publiée. Avec en prime des délais extrêmement courts entre la réception du manuscrit et la date de publication (publié le lendemain de la réception, alors que la plupart des articles mettent des mois avant de recevoir une réponse positive ou négative).

Bref, cet article n’aurait clairement jamais dû être publié. Et vu le total refus par Raoult et compagnie d’accepter les critiques sur leur manuscrit, cela a forcément attiré l’attention sur leurs autres publications. Est-ce que toute la production scientifique de l’IHU-Marseille est à remettre en cause? En tout cas, Bik a depuis passé en revue de nombreux autres articles de la même équipe, et a relevé des problèmes de manipulation d’images, et de pratiques éthiques discutables dans des expériences sur des personnes sans domicile fixe et sur des populations africaines. Avec des publications qui sont très souvent faites dans des journaux où des membres de l’IHU occupent des positions éditoriales.

Peu désireux de se défendre sur le plan scientifique (il faut dire que, si pour Cassava il y a un réel doute sur la validité des résultats, il n’y a ici pas vraiment de défense possible), Raoult, son collègue Éric Chabrière et leurs partisans répondent aux critiques par du harcèlement et des menaces, et finalement à un dépôt de plainte contre le Dr Bik.

Notons que l’article de Gautret à l’origine de toute cette controverse n’a jamais été rétracté. Une déclaration de l’International Society of Antimicrobial Chemoterapy, qui est co-propriétaire de la revue avec Elsevier, note que l’article ne répond pas aux attentes de qualité de l’association, mais aucune action concrète n’a été entreprise par le journal.

Conclusions

Il y a pour l’instant une certaine crise de confiance du “grand public” vis-à-vis des scientifiques.

Il y a aussi une crise de confiance des scientifiques envers l’industrie de l’édition.

Il y a derrière ces crises un certain nombre de fantasmes complotistes. Il y a aussi des réalités inquiétantes.

Je suis convaincu que l’écrasante majorité des scientifiques cherchent à produire un travail de qualité. Mais le système académique aujourd’hui ne favorise pas la qualité. Pour avancer dans leur carrière, les scientifiques doivent publier, idéalement publier dans des “bonnes” revues, et idéalement publier beaucoup. Cela donne aux sociétés d’édition de ces revues un pouvoir immense, et cela incite les scientifiques à prendre des raccourcis méthodologiques.

Les journaux de leur côté n’hésitent pas à recruter des reviewers (bénévoles) de manière agressive pour augmenter la quantité d’articles qu’ils peuvent traiter, quitte à prendre des reviewers de moindre expertise.

Certaines initiatives sont de bonne augure pour le futur. Certains journaux, par exemple, cherchent maintenant au moins à rendre transparent le processus de peer-review, en nommant les reviewers qui ont participé au process et en publiant leurs commentaires. Cela permettrait déjà de plus facilement identifier les articles qui auraient pu bénéficier d’un “traitement de faveur” éditorial. Des journaux entièrement “open access” et avec des tarifs raisonnables de publication voient aussi régulièrement le jour.

Mais ils doivent faire face à une énorme inertie: pour qu’une publication ait de la valeur dans un CV académique, elle doit être faite dans un “bon journal”. Mais pour qu’un journal devienne “bon”, il faut que de bons chercheurs y publient leurs résultats. On a donc un cercle vicieux: les chercheurs vont toujours d’abord viser les journaux bien établis, et ne proposer aux nouveaux venus que les articles qui ont été refusés par des publications plus prestigieuses. Ceux-ci se retrouvent donc avec un contenu de moindre qualité, justifiant leur statut de “mauvais journal”, et le cycle continue.

Le travail d’Elisabeth Bik est révélateur des faiblesses du système actuel, et montre l’importance de voir le “peer review” autrement. Un processus continu, où auteurs et éditeurs peuvent être amené à rendre des comptes lorsque des problèmes majeurs sont identifiés. Où l’on n’accepte pas que des raccourcis soient pris dans des domaines aussi critiques que les essais cliniques sous prétexte que des investisseurs aimeraient bien voir une courbe monter ou descendre, ou qu’un directeur d’institut estime que ses travaux n’ont pas besoin d’être revus par ses pairs (après tout, c’est lui l’élite).

On ne peut qu’espérer que la médiatisation apportée par les controverses de Cassava Sciences et de l’IHU vont inspirer d’autres chercheurs à avoir un œil plus critique sur les articles qu’ils lisent, et à contribuer à ce processus continu. On peut aussi espérer que les journaux rendent plus facile l’intégration de remarques du reste de la communauté scientifique auprès des articles publiés, mais là ce n’est clairement pas gagné d’avance.

Come-back et Big Data

La finale de l’Australian Open de tennis 2022 était plutôt mal partie pour Rafael Nadal contre Daniil Medvedev. Sans surprise: Medvedev était favori (en tout cas, c’est ce que disait Justine Hénin, qui s’y connaît certainement mieux en tennis que moi!)

Mené 2 sets à 0, et avec trois balles de break au milieu du troisième set en faveur du Russe, l’affaire semblait pliée. Puis Nadal a décidé que, finalement, il avait quand même envie de le gagner, ce tournoi. La victoire, arrachée en 5h24, fait de Nadal le premier homme à avoir 21 titres de Grand Chelem au palmarès, soit 21 de plus que moi (à ce jour), s’approchant ainsi du record de 23 titres de Serena Williams (ou des 24 de Margaret Court, selon la définition qu’on donne aux Grands Chelems).

L’exploit tennistique est certainement impressionnant, mais il y a un autre aspect du match qui a attiré l’attention: le “win predictor” qui est apparu à l’écran alors que Medvedev avait l’ascendant pour annoncer que les chances de Nadal de remporter la partie s’étaient écroulées à 4%. Un mauvais jugement de la part de l’intelligence artificielle?

Win predictor en action. Image partagée par @Hectorg_F1 sur Twitter.

Avant même que le tournoi débute, la machine d’Infosys avait déjà dérapé, donnant Djokovic largement favori:

Championship predictor. Image partagée par @AustralianOpen sur Twitter

L’IA n’était visiblement pas au courant des déboires de Djoko avec les services d’immigration australiens.

Ce n’est pas la première fois que ce genre de “prédictions” montre de sérieuses limites. Lors du dernier Grand Prix de Formule 1 de la saison 2021 à Abu Dhabi, alors que Lewis Hamilton pourchassait Sergio Perez pour reprendre la tête de la course, une prédiction d’AWS était apparue à l’écran:

Hamilton contre Perez. Image partagée par Friar16 sur Reddit.

AWS prédisait un dépassement particulièrement facile. Mais Perez n’était pas de cet avis, et il réussit à tenir Hamilton en échec pendant de longs, très longs moments, permettant à son coéquipier Max Verstappen de revenir dans la course. À nouveau, l’homme (dans sa machine) défiait la machine (programmée par l’homme).

Big Data = Big Loser?

Alors, toutes ces intelligences artificielles nourries à coup de “Big Data” sont-elles pour autant à jeter à la poubelle? Après tout, 4%, ce n’est pas 0%: le modèle n’a pas dit que Nadal n’avait aucune chance. Mais… on ne peut pas rejouer la fin de match 100 fois dans les mêmes conditions pour vérifier l’exactitude de la prédiction. Alors… quel intérêt?

Le problème majeur de ces systèmes est dans leur présentation. “Win predictor”, “Battle forecast”… le message indique clairement une prédiction. Mais le problème d’un modèle prédictif, c’est que c’est très compliqué à faire.

Tous ces modèles sont basés sur un principe relativement simple: on regarde une série de données sur les événements passés, et on regarde qu’est-ce qui est généralement associé à une certaine performance.

Par exemple, Infosys utilise les classements Elo des joueurs, ajustés en fonction de leurs performances sur des surfaces similaires (ausopen.com). Probablement que, pour les prédictions en cours de match, ils ajustent en fonction du nombre de fois où des joueurs ont gagnés à partir de situations similaires.

AWS, de son côté, utilise certainement des données sur les fraîcheurs relatives des gommes de pneus des voitures, sur les temps réalisés lors des tours précédents, et sur les performances passées des pilotes et des voitures. Et selon ces données, AWS avait parfaitement raison: Hamilton était le meilleur pilote, dans (sans doute) la meilleure voiture. Il avait des pneus tous frais et roulait beaucoup plus vite que Perez, abandonné par son équipe sur des pneus usés dont il aurait déjà du se débarrasser depuis longtemps… si son objectif avait été de faire la meilleure course possible.

Mais c’est là où AWS se retrouve perdu: l’objectif de Perez n’était pas de faire une bonne course pour lui, comme dans l’écrasante majorité des situations dans la base de donnée du modèle. Son objectif unique était de ralentir Hamilton aussi longtemps que possible pour permettre à Verstappen de revenir. Hamilton, de son côté, ne cherchait pas juste à dépasser Perez. Il savait aussi qu’il devait le dépasser sans incident. En Formule 1, la moindre touchette peut amener à une crevaison, ou à des pertes de performances aérodynamiques, ou à un crash pur et simple, et Hamilton devait absolument finir devant Verstappen pour gagner le championnat. Hamilton devait dépasser en douceur, Perez pouvait prendre tous les risques nécessaires quitte à mettre sa propre course en l’air.

De même, Infosys ne pouvait pas savoir que Djokovic n’allait même pas participer au tournoi. Infosys ne dispose pas non plus dans son modèle d’informations sur l’état mental des joueurs, sur leur état de fatigue, sur ce qu’ils ont mangés la veille au soir, sur l’effet que la météo peut avoir sur leurs performance, sur l’effet du public, ni plus généralement sur la stratégie que chaque joueur a décidé d’utiliser pour le match, sur l’entraînement spécifique suivit pour le tournoi, sur la qualité de leur préparation physique.

Où est ma boule de cristal, alors?

Pour qu’un modèle prédictif fonctionne vraiment, il faut qu’il dispose de variables qui ont un lien de cause à effet avec ce qu’on cherche à prédire. Ce qui ne veut pas dire, d’ailleurs, qu’un modèle comme ceux d’AWS ou d’Infosys ne va pas, en général, donner de bons résultats. Mais ces résultats sont “généralement” bons parce que, “généralement”, il n’y a pas de surprises. Sinon ce ne serait plus des surprises.

Est-ce que ça existe seulement, un modèle prédictif, alors? Oui, même s’ils ont toujours des limitations (et les meilleurs modèles prédictifs sont ceux qui identifient au mieux ces limitations). Par exemple, si je passe à un sujet que je connais un peu mieux que le tennis ou la Formule 1, on a pour l’instant beaucoup d’applications de l’intelligence artificielle au diagnostic médical. Des modèles peuvent chercher à prédire, par exemple, l’évolution d’une tumeur sur base d’images prises dans une IRM. Fondamentalement, le principe de ces modèles va être le même: prendre une série d’images de patients dans le passé, et chercher le lien entre ce qu’on voit sur les images et la survie des patients.

La différence avec les modèles d’Infosys ou d’AWS, c’est que “ce qu’on voit sur les images” va (quand tout va bien) avoir un lien direct avec l’évolution future de la tumeur. La densité des tissus dans le cerveau peut être reliée à des phénomènes biologiques, pas toujours compris à 100%, mais dont on sait qu’ils sont liés à la diffusion des cellules cancéreuses. Réussir à comprendre si le modèle se base bien sur quelque chose de biologiquement cohérent, ou s’il a trouvé dans l’image quelque qui n’a rien à voir*, c’est un des challenges majeurs de l’intelligence artificielle aujourd’hui.

Tout ce que le “win predictor” peut dire, c’est que Nadal sortait d’une moins bonne série de matchs que Medvedev, et que c’est très rare qu’un joueur revienne lorsqu’il est aussi fort mené.

Le modèle n’est pas nécessairement mauvais, dans le sens où il a sans doute raison plus souvent qu’il n’a tort. Mais au final, ce qu’il apporte est avant tout une connaissance encyclopédique de l’historique des joueurs. Et cette connaissance se retrouve bien mal exploitée lorsqu’elle est résumée à un pauvre “4%” dénué de son contexte.

* Un exemple fictif (autant que je sache): si je fais des scans de pleins de biopsies, mais que les biopsies de patients décédés sont conservés dans un autre service que celles des patients encore vivants, et que je les scanne à chaque fois sur place dans des machines différentes, peut-être que ces deux machines auront un réglage légèrement différent qui fera que la couleur des images sera, par exemple, un peu plus bleues d’un côté que de l’autre. Mon super modèle va être très fort pour prédire la mortalité sur base de la couleur de l’image… mais uniquement sur ce jeu de données particulier. Le jour où j’essaie de l’utiliser pour du diagnostic sur des nouveaux patients, je vais avoir de sérieux soucis.

Hold On et vaccins: comment faire mentir des chiffres

“Hold On”, c’est le film anti-vaccination réalisé par “un collectif d’anciens journalistes.” Comme toujours dans les pseudo-documentaires complotistes, il y a tellement d’affirmations fausses ou sorties de leur contexte à la minute qu’il faut dix fois plus de temps pour les réfuter qu’il n’en a fallu pour produire le film. Je trouve cependant toujours intéressant de regarder la malhonnêteté avec laquelle ce genre de projets manipule les chiffres pour générer la peur, leur source principale de revenus.

Un exemple flagrant est celui des décès liés aux vaccins. Dans le film, une musique dramatique accompagne la révélation des chiffres “sous-évalués” et dont les médias “n’ont jamais parlé”. 905 décès Pfizer. 77 Moderna. 216 AstraZeneca. 24 Johnson & Johnson. D’une voix sombre, le narrateur annonce: “Ici, ces personnes ne sont pas mortes de maladie, elles étaient sans doute bien portantes.”

Les chiffres annoncés ont même une source: l’Agence Nationale de la Sécurité du Médicament, l’ANSM. Plus précisément, on peut les trouver dans le dossier thématique COVID-19 de cette agence. Ainsi, en ouvrant le rapport détaillé Pfizer [lien PDF] au 26 Août 2021, on trouve effectivement un tableau parlant de 905 décès (et un peu plus loin dans le même tableau 906, et plus loin dans le texte 907: une constante des données médicales, c’est que c’est toujours la galère pour avoir des données complètement fiables!). Il s’agit bien de décès déclarés en pharmacovigilance après une vaccination: le visuel ne contient pas de mensonge.

Mais des mensonges, il y en a deux dans ce passage: un direct, et un par omission. Le direct est à l’oral. Lorsque le narrateur dit que ces personnes étaient “sans doute bien portantes”, c’est entièrement faux, et il suffit de lire la suite du rapport pour s’en rendre compte. Les chiffres incluent par exemple des “décès en lien avec l’évolution d’une pathologie chronique déjà présente avant la vaccination.”

Ce qui nous amène au mensonge principal, qui consiste à omettre les éléments du rapport qui expliquent et contextualisent les chiffres en question. Pour commencer, le fait que un décès déclaré “après une vaccination” ne signifie évidemment pas décès “causé par une vaccination”. Dès qu’une personne décède peu de temps après avoir reçu le vaccin (et ce “peu de temps” peut aller jusqu’à plusieurs semaines!), le décès est rapporté aux agences de pharmacovigilance pour qu’une enquête puisse avoir lieu. Le décès rentre alors directement dans les chiffres. Bien souvent, il est impossible de déterminer avec certitude au cas par cas si le vaccin est en cause. Parfois, il y a une autre cause très clairement établie.

Par exemple, dans ce rapport, on détaille les 36 décès survenu parmi les moins de 50 ans. On a des “causes inconnues” où “aucun élément transmis n’indiquait un rôle potentiel du vaccin”, des décès liés “à une évolution d’une maladie
préexistante”, et une série de 8 cas où les causes ont pu être établies de manière plus détaillées:

  • Une réaction allergique aux arachides (le patient avait “ingéré une sauce à base d’arachides” juste avant que les symptômes n’apparaissent).
  • Des problèmes d’AVC, rupture d’aneurisme, embolie pulmonaires, etc… qui sont arrivés entre deux semaines et deux mois après la vaccination, avec pour tous les patients sauf un des antécédents d’obésité/surcharge pondérale.
  • Un cas d’AVC le soir même de l’injection chez un patient avec des antécédents d’hypertension artérielle.

Le coeur du mensonge est là: “Hold On” cherche clairement à présenter ces chiffres comme si il s’agissait des morts causées par le vaccin. Ce n’est pas le cas. Ces morts ont été déclarées après une vaccination, et le rôle de la pharmacovigilance est d’analyser tous les rapports de problèmes de santés déclarés après une vaccination pour déterminer si un lien existe.

Comment peut-on établir ce lien? En plus des enquêtes détaillées sur chaque décès qui permettent de voir si certains indices inquiétants en ressortent, on peut regarder si la mortalité après vaccination est plus ou moins importante que la mortalité attendue en temps normal. Ainsi, le rapport de l’ANSM indique que, pour près de 17 millions de vaccinés Pfizer de moins de 50 ans, on s’attendrait à avoir environ 700 décès sur la période étudiée. On en a 36. Cela ne signifie bien entendu pas que le vaccin Pfizer protège de toutes les autres causes de décès: on peut supposer que, par exemple, si quelqu’un décède après s’être fait renverser par un bus, on ne le signalera pas à l’ANSM même s’il sortait du centre de vaccination. Ces chiffres sont aussi évidemment à mettre en relation avec un autre: combien de décès liés au COVID durant cette même période?

En France, un peu plus de 900 décès pour prêt de 40 millions de vaccinés Pfizer (incluant des cas où il n’y a clairement pas de lien entre le vaccin et le décès). Toujours en France, 120.000 décès directement liés au COVID (pour environ 7,5 millions de cas rapportés).

Quand on regarde tous les chiffres, la conclusion est claire: se vacciner est, certainement pour les adultes (et probablement pour les enfants aussi), de très très loin la meilleure option.

Provinces-Unies de Belgique?

Le système électoral américain est, pour être poli, archaïque. Chaque fois qu’une de leurs élections menace de plonger le monde dans le chaos pour quatre ans, je me retrouve à jouer au “et si…” : et si la Belgique avait un système similaire ?

Il serait complètement idiot d’essayer de jouer avec les résultats électoraux belges dans un système américain et d’en tirer une quelconque conclusion : les partis, l’électorat, les médias traiteraient l’élection de manière tellement différente que les résultats seraient drastiquement changés. Idiot, mais moi je trouve ça un peu rigolo quand même, donc allons-y.

Voyons d’abord les caractéristiques principales du système électoral américain.

  • Chaque État (et Washington DC) tient le même jour une élection.
  • Chaque État dispose d’un nombre de “grands électeurs” égal au nombre de représentants de cet état au Congrès, soit deux sénateurs et un nombre de représentants à la chambre qui dépend de la population de l’État. Le District de Columbia (Washington DC) dispose de 3 grand électeurs, même s’ils n’ont pas de représentants au Congrès.
  • Chaque État* donne l’ensemble des voix de ses “grands électeurs” au candidat qui y a obtenu le plus de voix.

* Sauf le Maine et le Nebraska, mais honnêtement on ne va pas commencer à s’embourber dans toutes les subtilités et absurdités du système sinon on ne s’en sortira jamais !

Comment pourrait-on traduire ce système à la Belgique ? Je vais faire au plus simple :

  • Chaque Province (et Bruxelles-Capitale) tient le même jour une élection.
  • Chaque Province (et Bruxelles-Capitale) dispose d’un nombre de grands électeurs égal au nombre de représentants à la Chambre. Le Sénat ne compte pas, parce que les délégués ne sont pas liés aux provinces, et que “le Sénat ne compte pas”, c’est un peu l’idée générale en Belgique. Vous allez me dire : les provinces aussi. C’est pas faux. Tant pis, ceci n’est pas un travail académique.
  • Chaque Province (et Bruxelles) donne l’ensemble des voix de ses grands électeurs au ou à la président·e du parti qui y a obtenu le plus de voix.

Il y a 150 sièges à la Chambre. Le but du jeu est donc d’obtenir 76 voix auprès des grands électeurs. À quoi aurait ressemblé la carte électorale après les élections législatives de 2019, si tout le monde avait bizarrement voté pareil malgré ce système complètement différent ?

Commençons par les grands perdants de ces élections : tous les partis néerlandophones qui ne sont pas la N-VA. Bart De Wever est en tête dans toute la Flandre, et rafle 87 grands électeurs pour immédiatement devenir Premier Ministre. Aucun suspense, les médias peuvent annoncer le vainqueur dès la fermeture des bureaux de vote. Aucun autre parti flamand n’apparaît sur la carte.

Autre perdant de ce système : le MR, avec 9 grands électeurs (contre 14 sièges réellement gagnés aux élections). Il n’est en tête que dans les deux provinces les moins peuplées de Belgique, le Brabant Wallon et le Luxembourg, où leurs 200 voix d’avances sur le cdH leur permet tout de même de rafler les électeurs de la province. Le cdH, tout comme le PTB et DéFI, disparaissent de la circulation.

Ecolo s’en sort mieux en nombre de grands électeurs qu’en nombre de sièges effectivement gagnés dans le système belge. Avec 8.000 voix d’avance à Bruxelles, ils obtiennent 15 grands électeurs et devient le troisième parti politique du pays. Le PS conserve le “mur rouge” du sillon Sambre-et-Meuse, et obtient 39 voix.

Toutes ces considérations de “nombre de siège” contre “nombre de grands électeurs” étant bien sûr sans impact : dans le système américain, seul le gagnant compte. Quoique, si on remonte suffisamment loin dans le temps, leur système originel voulait que le second devienne vice-président, ce qui nous permettrait de voir aux commandes le tandem De Wever – Di Rupo.

Tout cet exercice était parfaitement inutile. J’assume !

Coronavirus: faire le point

Je ne suis pas médecin. Je ne suis pas épidémiologiste. Je ne suis pas virologue. Je n’ai une compréhension que très partielle des modes de contamination et de l’efficacité des différentes mesures que l’on peut mettre en place pour limiter l’épidémie.

Comment dès lors se faire une opinion raisonnée et raisonnable sur ce qu’il faut faire, et sur le risque réel posé par ce qui est désormais officiellement une pandémie mondiale ?

Mon réflexe face à une déferlante médiatique alarmiste est toujours de relativiser (“la grippe saisonnière fait plus de morts”) et de soutenir les solutions minimales (“ne cédons pas à la panique”). Mais je veux aussi regarder les chiffres (parce que ça, je sais faire!) et en tirer les conclusions nécessaires.

Chiffres issus des communiqués du SPF Santé Publique (https://www.info-coronavirus.be/fr/news/)

Quelques faits qui me semblent importants :

  • Les chiffres publiés tous les jours par le SPF Santé sont à prendre avec beaucoup de précautions. Les “nouveaux cas détectés” sont principalement corrélés avec le nombre de tests effectués (et donc avec la disponibilité de ces tests).
  • Vu le temps important entre l’infection et les symptômes (et donc les détections), il y a un décalage de une à deux semaines entre la “courbe des infections réelles” et la “courbe des infections détectées“. (voir par exemple cette étude). En se basant sur les données de Hubei, par exemple, les ~300 cas détectés en Belgique aujourd’hui correspondent possiblement à ~2000 personnes réellement infectées aujourd’hui. Notons bien que la marge d’erreur sur une telle extrapolation est énorme. Le nombre de cas réel pourrait tout aussi bien être de 500 que de 5000.
  • Conséquence importante de ce “décalage des courbes”: la croissance exponentielle de la contamination – si on est dans une croissance exponentielle – continue environ 10 jours après que des mesures drastiques de confinement soient mises en place.

La question pour la Belgique est: faisons-nous face à une croissance exponentielle actuellement ? La réponse n’est pas, pour l’instant, possible à obtenir. Le début d’une croissance exponentielle est impossible à distinguer d’une croissance linéaire. L’incertitude sur les chiffres actuels est trop grande.

Le principe de précaution veut, dans ce cas, qu’on utilise l’hypothèse la plus défavorable. Si nous sommes aujourd’hui sur une croissance exponentielle, nous aurons dans une semaine ou deux (quelles que soient les mesures prises dans les jours qui viennent) plusieurs milliers de cas détectés. Si aucune autre mesure n’est prise dans les jours qui viennent, il n’est pas irréaliste de s’attendre à plusieurs dizaines de milliers de cas d’ici trois à quatre semaines.

En attendant que la courbe soit clairement exponentielle (comme en Italie, en Iran, en Corée du Sud, et maintenant en Espagne ou en France…) pour mettre en place des “mesures drastiques“, on court un risque élevé de prendre ces mesures trop tard.

Aujourd’hui, l’Italie ferme les commerces, les bars, les restaurants. Si la situation suit l’exemple chinois, ils devront malgré cela faire face à encore dix jours de croissance du nombre de personnes infectées, alors que leurs infrastructures médicales sont déjà surchargées aujourd’hui. Il est facile de critiquer leur gestion de la crise a posteriori: s’ils avaient pris ces mesures il y a deux semaines, la situation serait restées sous contrôle.

Il y a deux semaines, il y avait 650 cas détectés en Italie. Aujourd’hui, il y en a 300 en Belgique… et plus de 12.000 en Italie. Nous avons le luxe en Belgique de pouvoir profiter de ce décalage de deux semaines entre l’arrivée du virus en Italie et son arrivée chez nous pour garder la courbe en-dessous du taux de saturation des hôpitaux.

Faut-il alors fermer aujourd’hui les écoles, les bars, les restaurants, les crèches, les clubs sportifs ? Je n’ai pas la moindre idée de ce qui peut être laissés ouvert et ce ce qu’il faut fermer pour être le plus efficace. Mais si le gouvernement a un plan pour le “stade 3” – comme ils s’apprêtent sans doute à le faire en France – c’est en l’activant le plus tôt possible qu’on limitera le plus le dégâts.