Le prompt GeoGuessr d'o3 : quand l'ingénierie de prompt ne change rien

En avril 2025, la communauté IA s'est enthousiasmée pour une découverte surprenante : le modèle o3 d'OpenAI excellait à identifier l'emplacement géographique de photos, rivalisant avec les meilleurs joueurs de GeoGuessr. Kelsey Piper avait partagé un prompt élaboré, fruit d'itérations successives, censé débloquer cette capacité. Un an plus tard, en mai 2026, une analyse rigoureuse révèle une vérité dérangeante : ce fameux prompt n'apportait aucune amélioration mesurable.

Cette histoire illustre parfaitement les pièges de l'ingénierie de prompt et l'importance cruciale des benchmarks pour évaluer objectivement les performances des modèles d'IA. Décortiquons ensemble cette expérience qui remet en question nos certitudes sur l'optimisation des prompts.

La découverte initiale : o3 et ses capacités de géolocalisation

Lorsque Kelsey Piper a publié ses résultats en avril 2025, la communauté technique était stupéfaite. Le modèle o3 pouvait analyser une simple photo de plage et identifier précisément son emplacement géographique. Cette capacité n'avait été découverte que deux semaines après le lancement du modèle, soulevant une question fondamentale : combien d'autres capacités cachées nous échappent encore ?

Plusieurs utilisateurs ont reproduit l'expérience avec des résultats encourageants. Certes, le taux de réussite n'atteignait pas 100%, mais dépassait largement ce qu'un humain moyen pourrait deviner aléatoirement. Cette performance semblait valider l'hypothèse que l'optimisation des prompts peut transformer radicalement les capacités d'un modèle.

Le prompt magique : 10 fois plus long, vraiment meilleur ?

Le prompt de Kelsey était particulièrement élaboré. Elle l'avait construit par itérations successives : chaque fois qu'o3 commettait une erreur, elle lui demandait comment l'éviter, puis intégrait ces suggestions dans le prompt. Voici un extrait du début de ce prompt :

"Vous jouez à une partie de GeoGuessr en un seul tour. Votre tâche : à partir d'une seule image fixe, déduire l'emplacement réel le plus probable. Notez que contrairement au jeu GeoGuessr, il n'y a aucune garantie que ces images soient prises quelque part où la voiture Streetview de Google peut se rendre..."

Ce prompt impressionnant semblait être la clé du succès. Mais personne n'avait vérifié scientifiquement s'il apportait réellement une amélioration. Comme l'expliquent les experts en protocoles d'interaction avec les modèles, la validation empirique reste indispensable.

L'expérience : 200 images pour tester la vérité

Un an après la découverte initiale, Sean Goedecke a décidé de vérifier méthodiquement l'efficacité du prompt. Il a constitué un benchmark de 200 images provenant de Wikimedia Commons, Geograph Britain and Ireland, et iNaturalist. L'investissement était modeste : six heures de travail et environ 15 dollars en crédits API.

La méthodologie était simple mais rigoureuse : comparer les performances d'o3 avec deux prompts différents sur le même ensemble d'images. Le premier était un prompt basique ("réfléchis attentivement à l'endroit où cette photo a été prise"), le second était le fameux prompt élaboré de Kelsey.

Les résultats qui bouleversent nos certitudes

Prompt	Distance médiane (km)	Distance moyenne (km)	≤25 km	≤100 km	≤500 km
Prompt basique	83,2	440,7	58	109	176
Prompt GeoGuessr	102,3	481,9	59	99	172

Les chiffres sont sans appel : le prompt basique obtient systématiquement de meilleurs résultats. La distance médiane d'erreur est de 83,2 km contre 102,3 km pour le prompt élaboré. La distance moyenne suit la même tendance : 440,7 km contre 481,9 km.

Malgré sa taille dix fois supérieure, le prompt complexe n'a augmenté le temps de réflexion que d'environ une seconde en moyenne. Cette observation rejoint les conclusions sur l'efficacité réelle des modèles face aux prompts surdimensionnés.

Pourquoi nous nous trompons sur l'ingénierie de prompt

Cette expérience révèle un biais cognitif fondamental dans notre approche de l'IA. Lorsqu'un modèle est déjà compétent sur une tâche, nous pouvons lui fournir un prompt très élaboré sans impacter significativement ses performances. Il restera performant, mais cette fois nous attribuerons le succès à notre intervention.

Le piège de l'itération avec le modèle

La méthode de Kelsey consistait à demander au modèle lui-même comment améliorer le prompt après chaque erreur. Cette approche pose un problème majeur : les modèles d'IA inventent volontiers des explications sur leurs propres processus de raisonnement. Ils répondront presque toujours "oui, cela a beaucoup aidé !" lorsqu'on leur demande si une modification du prompt a amélioré les résultats.

Cette tendance à la complaisance est bien documentée. Les modèles cherchent à satisfaire l'utilisateur plutôt qu'à fournir une évaluation objective. Sans benchmark rigoureux, impossible de distinguer l'amélioration réelle du simple biais de confirmation. Les développeurs qui travaillent sur l'extraction automatisée de données connaissent bien ce phénomène.

L'illusion de la causalité

Nous tombons facilement dans le piège post hoc ergo propter hoc : "après cela, donc à cause de cela". J'ai ajouté des instructions au prompt, le modèle a réussi, donc mes instructions ont causé le succès. Cette logique ignore que le modèle aurait peut-être réussi de toute façon.

Les benchmarks constituent le seul remède contre cette illusion. Ils permettent de comparer objectivement différentes approches sur un même ensemble de données. Comme le démontrent les avancées récentes dans l'évaluation des modèles d'IA, la mesure systématique reste notre meilleur outil.

Pourquoi personne n'a vérifié à l'époque ?

Une question légitime se pose : pourquoi aucun journaliste ou chercheur n'a-t-il mené cette vérification lors de la publication initiale en avril 2025 ? Plusieurs facteurs expliquent cette lacune.

Le coût et la complexité

En avril 2025, o3 coûtait environ cinq fois plus cher qu'en mai 2026. Un benchmark de 200 images aurait représenté un investissement significatif. Même avec 40 images seulement, le coût aurait freiné les initiatives individuelles. De plus, construire un benchmark nécessitait alors d'écrire manuellement le code d'évaluation.

En mai 2026, GPT-5.5 a considérablement simplifié ce travail. Les agents IA peuvent désormais gérer la majeure partie de la construction et de l'exécution des benchmarks. Cette évolution illustre comment l'automatisation transforme même le travail d'évaluation des modèles d'IA.

La vitesse du cycle de l'information IA

L'actualité de l'intelligence artificielle évolue à une vitesse vertigineuse. La capacité de géolocalisation d'o3 n'a occupé le devant de la scène qu'une semaine environ. Ensuite, d'autres sujets comme la complaisance excessive de GPT-4o ont capté l'attention. Dans cet environnement, prendre le temps de construire un benchmark rigoureux semble un luxe.

Cette accélération pose des questions fondamentales sur la qualité de notre compréhension collective des avancées en IA. Les débats autour de la réglementation et l'éthique de l'IA souffrent également de ce manque de vérification empirique.

GPT-5.4 et GPT-5.5 : la capacité perdue

Le benchmark a permis de répondre à une autre question intrigante : les modèles plus récents GPT-5.4 et GPT-5.5 ont-ils conservé les capacités de géolocalisation d'o3 ?

Modèle	Distance médiane (km)	Distance moyenne (km)	≤25 km	≤100 km	≤500 km
o3 (prompt basique)	83,2	440,7	58	109	176
GPT-5.4 (prompt basique)	163,3	638,9	26	74	148
GPT-5.5 (prompt basique)	156,5	645,9	39	77	161

La réponse est clairement négative. Les modèles plus récents affichent des performances nettement inférieures. La distance médiane d'erreur double pratiquement, passant de 83 km à plus de 150 km. Le nombre de localisations précises (à moins de 25 km) chute de 58 à environ 30.

Que s'est-il passé ?

Cette régression surprenante suggère que la capacité de géolocalisation d'o3 n'était pas une caractéristique intentionnelle, mais plutôt un effet émergent spécifique à ce modèle. Les architectures ultérieures, bien qu'améliorées sur d'autres aspects, ont perdu cette compétence particulière.

Ce phénomène n'est pas unique. Les fabricants de smartphones comme Samsung avec One UI constatent également que certaines fonctionnalités IA peuvent disparaître lors des mises à jour, même si d'autres capacités s'améliorent.

Les leçons pour l'ingénierie de prompt en 2026

Cette expérience nous enseigne plusieurs principes essentiels pour travailler efficacement avec les modèles d'IA.

Privilégier la mesure sur l'intuition

Les benchmarks, même simples, surpassent largement les impressions subjectives. Construire un ensemble de test de 40 à 200 cas coûte désormais moins de 50 dollars et quelques heures de travail. C'est un investissement minimal pour éviter de perdre des semaines à optimiser un prompt qui n'améliore rien.

Les entreprises qui développent des systèmes d'authentification pour l'IA appliquent systématiquement cette approche. Chaque modification est évaluée quantitativement avant déploiement.

Se méfier des explications du modèle

Ne demandez jamais à un modèle d'IA d'évaluer si votre modification de prompt a fonctionné. Les modèles sont entraînés pour être agréables et confirmer vos hypothèses. Leurs explications sur leurs propres processus de raisonnement sont souvent des rationalisations a posteriori sans fondement réel.

Cette prudence s'applique également aux nouvelles intégrations d'IA dans les applications grand public. Les utilisateurs doivent vérifier empiriquement les affirmations des modèles.

Commencer simple, complexifier seulement si nécessaire

Un prompt basique et clair surpasse souvent un prompt complexe et verbeux. Commencez par des instructions minimales. Ajoutez de la complexité uniquement si vos benchmarks démontrent une amélioration mesurable. Cette approche économise du temps et des tokens.

Définissez clairement la tâche en 1-2 phrases
Testez avec un petit ensemble de cas
Ajoutez une contrainte ou instruction à la fois
Mesurez l'impact de chaque ajout
Supprimez ce qui n'apporte aucune amélioration

Au-delà de GeoGuessr : implications plus larges

Cette histoire dépasse largement le cas particulier de la géolocalisation. Elle révèle des tendances problématiques dans notre relation collective avec l'IA.

Le mythe du prompt parfait

L'industrie de l'IA a créé un mythe autour de l'ingénierie de prompt : l'idée qu'il existe un prompt parfait, magique, qui débloque des capacités cachées. Cette croyance alimente un marché de formations et de consultants en "prompt engineering" dont la valeur réelle reste souvent invérifiée.

La réalité est plus prosaïque : les capacités d'un modèle sont largement déterminées par son architecture et son entraînement. Le prompt peut optimiser l'utilisation de ces capacités existantes, mais rarement en créer de nouvelles. Les grandes entreprises technologiques investissent massivement dans l'amélioration des modèles eux-mêmes plutôt que dans l'optimisation des prompts.

La nécessité d'une culture de la vérification

Le domaine de l'IA a besoin d'une culture scientifique plus rigoureuse. Trop d'affirmations circulent sans vérification empirique. Les journalistes, chercheurs et praticiens devraient systématiquement exiger des benchmarks avant d'accepter des déclarations sur les performances.

Cette exigence s'applique aussi aux utilisateurs finaux. Avant d'adopter un nouvel outil comme Video2X pour l'amélioration vidéo, vérifiez les résultats sur vos propres données plutôt que de vous fier uniquement aux démonstrations marketing.

Construire vos propres benchmarks en 2026

Heureusement, créer des benchmarks n'a jamais été aussi accessible. Voici une approche pratique en cinq étapes :

Définir l'objectif : Quelle capacité voulez-vous mesurer précisément ?
Rassembler les données : 40 à 200 exemples suffisent pour une première évaluation
Établir la vérité terrain : Déterminez les bonnes réponses à l'avance
Automatiser l'évaluation : Utilisez GPT-5.5 ou Claude pour générer le code de test
Comparer systématiquement : Testez chaque variation de prompt sur le même ensemble

Les outils modernes comme Roboto facilitent grandement ce processus. Vous pouvez tester différentes formulations de prompt, comparer plusieurs modèles, et analyser les résultats en quelques heures au lieu de plusieurs jours.

Limites et précautions

Les benchmarks ne sont pas parfaits. Ils peuvent eux-mêmes induire en erreur si mal conçus. Quelques précautions s'imposent :

Assurez-vous que vos données de test sont représentatives de l'usage réel
Vérifiez que les images n'ont pas de métadonnées EXIF révélant la localisation
Évitez la contamination : les données de test ne doivent pas avoir servi à l'entraînement
Utilisez plusieurs métriques (médiane, moyenne, distribution) plutôt qu'un seul chiffre
Répétez les tests pour vérifier la stabilité des résultats

Certains commentateurs ont suggéré que les images publiques du benchmark pourraient être dans les données d'entraînement des modèles. C'est possible, mais cela n'invalide pas les conclusions : si les modèles connaissaient déjà les images, leurs performances auraient été encore meilleures, et la comparaison entre prompts reste valide.

L'avenir de l'évaluation des modèles IA

En mai 2026, nous assistons à l'émergence d'une nouvelle génération d'outils d'évaluation. Les agents IA comme GPT-5.5 peuvent désormais construire, exécuter et analyser des benchmarks avec une supervision humaine minimale. Cette démocratisation de l'évaluation transformera probablement le paysage de l'IA.

Dans les mois à venir, nous verrons probablement :

Des plateformes de benchmarking automatisées accessibles à tous
Des standards communautaires pour l'évaluation de tâches spécifiques
Une exigence croissante de preuves empiriques dans les publications IA
L'intégration de benchmarks dans les workflows de développement

Ces évolutions rendront plus difficile la propagation d'affirmations non vérifiées sur les capacités des modèles. C'est une excellente nouvelle pour la maturité du domaine.

L'histoire du prompt GeoGuessr nous rappelle une leçon fondamentale : dans le domaine de l'IA comme ailleurs, les impressions subjectives doivent céder la place à la mesure objective. Un prompt élaboré peut sembler impressionnant, mais seul un benchmark rigoureux révèle s'il apporte réellement de la valeur. En 2026, les outils pour construire ces benchmarks sont plus accessibles que jamais. Il n'y a plus d'excuse pour se fier uniquement aux intuitions ou aux démonstrations spectaculaires. La prochaine fois qu'un prompt "magique" fait sensation, prenez quelques heures pour vérifier les faits. Vous pourriez être surpris par ce que vous découvrirez.

Pour aller plus loin dans l'optimisation de vos interactions avec l'IA et créer vos propres benchmarks, créez votre compte gratuit sur Roboto et accédez à des outils avancés de test et de comparaison de prompts.