Non, GPT-o3 n'a pas un QI de 157

Tous les quelques mois, il faut réaffirmer au monde que cette fois, c’est la bonne, l’IA Révolutionnaire Qui Va Tout Changer est là. Comment convaincre sinon les investisseurs de remettre des milliards dans ce gouffre financier qu’est l’IA générative¹ ?

Cette fois-ci, l’annonce qui circule parmi les “influenceurs” technophiles concerne “o3”, la dernière version de GPT. o3 est un modèle extrêmement coûteux: une requête prend plus de dix minutes et coûte plus de 1.000€ à exécuter (ce qui vient aussi avec un bon gros tas de CO2, et d’eau consommée pour le refroidissement des serveurs, évidemment) ².

Il paraît, nous dit-on, que o3 a un QI de 157. Souvent, on ajoute que le QI d’Einstein est de 160. Pour “preuve”: ce tableau de résultats:

QI estimé de différents modèles d’OpenAI

Il est difficile de trouver l’origine exacte de ce tableau. Le partage le plus ancien que je trouve vient de Twitter/X, et l’origine y est attribuée “au serveur Discord” (lequel? mystère!).

Quoi qu’il en soit… “o3 a un QI de 157, presque comme Einstein” est du pur non-sens. Prenons ces éléments un par un:

o3 n’a pas un QI de 157.
Mesurer le QI de o3 n’a pas de sens.
On ne connaît pas le QI d’Einstein.

D’où vient le score de 157?

Le score de 157 est un “QI estimé”. Estimé comment? Facile: en prenant le score réalisé par o3 sur la plate-forme Codeforces, un site de programmation compétitive. o3 aurait participé à une série de concours sur ce site, et se classerait dans le top 0,0075% des programmeurs participants. Et le “top 0,0075%” des humains sur un test de QI, ça donne 157.

Il va de soi (en tout cas il devrait aller de soi) que l’intelligence – même dans sa définition réduite à “l’intelligence mesurée par un test de QI – n’est pas uniquement une affaire de capacité à programmer. Et que la population des gens qui participe à Codeforces n’est sans doute pas représentative de la population générale sur laquelle un test de QI serait normalement calibré.

Donc non, ce score ne permet pas de dire que o3 a un QI de 157. Ni même que o3 est un super bon programmeur, d’ailleurs. Il permet tout au plus de dire que o3 est probablement capable de résoudre des exercices de programmation.

Le QI d’une machine?

Ce n’est pas la première fois qu’on nous sort des résultats de QI pour montrer l’évolution de modèles IA, parfois même en leur faisant passer des “vrais” tests de QI plutôt que d’utiliser une “table de conversion” ridicule³.

Ça ne rend pas ces résultats plus intéressants pour autant. Le test de QI est un outil de diagnostic qui n’a de sens que lorsqu’il est appliqué à des humains, par des professionnels capable d’en interpréter les résultats. Déjà pour un humain, dire “un tel a un QI de 157” n’a pas beaucoup de sens sans autre information. Un test de QI est calibré sur une population cible: on peut donc avoir un QI de 157 si le test est calibré d’une certaine façon, et de 100 si on a calibré le test autrement. Un critère important étant l’âge, puisque l’une des utilisations légitimes principales du test de QI est d’identifier les enfants ayant besoins d’enseignement adapté⁴.

Le QI est basé sur des tâches qui, chez les humains, permettent de détecter qu’une personne est fortement différente ou non de la moyenne des autres humains du même âge et – idéalement – de conditions socio-culturelles similaires. Utiliser le QI comme un “score absolu” d’intelligence n’a pas beaucoup de sens pour un humain, et n’en a aucun pour une machine.

Le QI d’Einstein?

À ce stade, il est clair que la question de savoir si o3 a un QI équivalent à celui d’Einstein n’a pas de sens. Mais tant qu’on y est: est-ce que Einstein a vraiment un QI de 160? Selon le Dr Russel T. Warne, qui s’y connaît certainement beaucoup mieux que moi sur le sujet et qui s’est plongé dans les archives, il semble qu’Einstein n’ait probablement jamais fait de test de QI. Toutes les sources sur “le QI d’Einstein” semblent basée sur de la pure spéculation, et les valeurs données “varient entre 150 et 207”.

Autrement dit: Einstein était un gars plutôt malin.

Conclusions

La bonne nouvelle, c’est que les médias semblent cette fois-ci ne pas avoir mordu à l’hameçon. Contrairement aux “100.000 milliards de paramètres” de GPT-4 qui avaient été repris par Le Soir et La Libre, je n’ai pas vu le QI de 157 circuler ailleurs que sur les réseaux sociaux et des blogs. De manière générale, le traitement médiatique de l’IA s’est grandement amélioré depuis le total manque de lucidité à la sortie de ChatGPT.

Les annonces hyperboliques sur les capacités des IAs ont malheureusement encore la belle vie sur les réseaux sociaux. Le QI de 157 est la dernière en date, nul doute que la prochaine sera tout aussi détachée de la réalité.

K. Wiggers, OpenAI is losing money on its pricey ChatGPT Pro plan, CEO Sam Altman says. techchrunch.com, 5 janvier 2025.↩︎
M. Zeff, OpenAI’s o3 suggests AI models are scaling in new ways — but so are the costs techcrunch.com ↩︎
AI Tools Korner. OpenAI’s New o1’s Mensa IQ Test Result, medium.com, 17 septembre 2024.↩︎
E. Sender, Test QI : comment mesure-t-on le QI et quelles sont ses limites ? Sciences et Avenir, 10 mai 2019.↩︎

Si ce post vous fait réagir, vous pouvez contacter l'auteur (moi) par mail: adrien@adfoucart.be