Claude Opus 4.7 est le nouveau modèle phare d’Anthropic, lancé le 16 avril 2026. Il reprend le trône du LLM commercial le plus puissant avec 87,6 % sur SWE-bench Verified (+6,8 points par rapport à Opus 4.6) et 64,3 % sur SWE-bench Pro, devançant GPT-5.4 et Gemini 3.1 Pro sur les benchmarks de codage agentique.

J’ai eu accès au modèle dès les premières heures. Ce guide couvre les benchmarks, les nouvelles fonctionnalités, le pricing et ce qui change concrètement par rapport à Opus 4.6. Toutes les données proviennent de l’annonce officielle d’Anthropic et de la documentation de pricing.

Comparaison des benchmarks entre Claude Opus 4.7, GPT-5.4 et Gemini 3.1 Pro - barres horizontales montrant les scores sur SWE-bench Pro, GPQA Diamond et Terminal-Bench 2.0 Opus 4.7 domine le code avec 64,3 % sur SWE-bench Pro, +6,6 points devant GPT-5.4.

Benchmarks : Opus 4.7 domine le code, talonne sur le raisonnement

Les gains les plus nets d’Opus 4.7 concernent le code. Sur les benchmarks de raisonnement pur, la compétition reste serrée.

BenchmarkOpus 4.7Opus 4.6GPT-5.4Gemini 3.1 Pro
SWE-bench Verified87,6 %80,8 %
SWE-bench Pro64,3 %53,4 %57,7 %54,2 %
CursorBench70 %58 %
GPQA Diamond94,2 %91,3 %94,4 %94,3 %
Terminal-Bench 2.069,4 %65,4 %75,1 %

Quatre points à retenir de ces chiffres.

Le code est le terrain d’Opus 4.7. Le bond de 53,4 % à 64,3 % sur SWE-bench Pro, c’est plus de 10 points de gain. Sur CursorBench, le score passe de 58 % à 70 %. Anthropic rapporte que le modèle résout 3 fois plus de tâches de production que Opus 4.6 sur le benchmark interne de Rakuten.

Le raisonnement scientifique est un match nul. Sur GPQA Diamond, les trois modèles se tiennent en 0,2 point : GPT-5.4 à 94,4 %, Gemini 3.1 Pro à 94,3 %, Opus 4.7 à 94,2 %. À ce niveau, l’écart n’est pas significatif.

Le raisonnement multilingue progresse peu. Sur MMMLU, Opus 4.7 atteint 91,5 % contre 91,1 % pour Opus 4.6, tandis que Gemini 3.1 Pro mène à 92,6 %. La marge de progression est faible sur ce type de benchmark.

Terminal-Bench reste un point faible relatif. GPT-5.4 conserve l’avantage sur Terminal-Bench 2.0 avec 75,1 % contre 69,4 % pour Opus 4.7. C’est le seul benchmark majeur où OpenAI devance clairement Anthropic.

Schéma hub and spoke des 6 nouveautés de Claude Opus 4.7 - vision HD 3,75 MP, effort xhigh, nouveau tokenizer, task budgets, ultrareview et blocage cybersécurité Les 6 nouveautés majeures d’Opus 4.7 par rapport à Opus 4.6.

Ce qui change par rapport à Opus 4.6

Opus 4.7 n’est pas qu’une mise à jour de benchmarks. Plusieurs changements techniques affectent votre utilisation quotidienne.

Vision haute résolution

La résolution d’image passe de ~1,15 mégapixel (1 568 pixels sur le bord long) à 3,75 mégapixels (2 576 pixels sur le bord long). C’est plus de trois fois la capacité visuelle des modèles Claude précédents. En pratique, Opus 4.7 lit correctement les diagrammes techniques, les structures chimiques et les captures d’écran détaillées que ses prédécesseurs peinaient à interpréter.

Nouveau niveau d’effort : xhigh

Anthropic introduit un palier d’effort xhigh entre high et max. Ce réglage offre un contrôle plus fin du compromis entre profondeur de raisonnement et latence. Anthropic recommande high ou xhigh pour les tâches de codage et les workflows agentiques, en réservant max aux problèmes nécessitant un raisonnement exhaustif.

Nouveau tokenizer

Opus 4.7 utilise un tokenizer mis à jour. Selon Anthropic, le facteur de conversion varie entre 1,0 et 1,35 selon le type de contenu. En clair : pour le même texte, Opus 4.7 peut consommer jusqu’à 35 % de tokens en plus que Opus 4.6. C’est un point à surveiller si vous optimisez vos coûts API.

Task budgets (bêta publique)

Les task budgets permettent de définir un plafond de dépenses en tokens pour une session d’agent. Au lieu de laisser Claude consommer indéfiniment, vous fixez une enveloppe. Cette fonctionnalité est en bêta publique.

/ultrareview dans Claude Code

La nouvelle commande /ultrareview lance une session de revue de code dédiée dans Claude Code. J’ai testé cette commande sur plusieurs pull requests : elle produit des revues plus structurées que le mode standard, avec des suggestions classées par sévérité.

Blocage automatique des usages cybersécurité

Opus 4.7 est le premier modèle Claude à intégrer un système de détection et blocage automatique des requêtes liées à des usages prohibés en cybersécurité. Les chercheurs en sécurité légitimes peuvent rejoindre le Cyber Verification Program d’Anthropic pour obtenir un accès dédié. Ce mécanisme est directement lié aux préoccupations soulevées par Claude Mythos et Project Glasswing.

Pricing : inchangé

Le tarif reste strictement identique à Opus 4.6.

ComposanteTarif
Entrée5 $ / MTok
Sortie25 $ / MTok
Cache hit0,50 $ / MTok
Batch API2,50 $ / 12,50 $

C’est la bonne nouvelle : plus de performance au même prix. Le Fast Mode (30 $ / 150 $ en entrée/sortie) reste disponible uniquement sur Opus 4.6 pour le moment. Aucune raison de rester sur Opus 4.6 sauf si vous avez des dépendances spécifiques au tokenizer ou si vous utilisez le Fast Mode.

Opus 4.7 vs GPT-5.4 vs Gemini 3.1 Pro

La question que tout le monde se pose : quel modèle choisir en avril 2026 ?

CritèreOpus 4.7GPT-5.4Gemini 3.1 Pro
Code (SWE-bench Pro)64,3 %57,7 %54,2 %
Raisonnement (GPQA)94,2 %94,4 %94,3 %
Terminal-Bench 2.069,4 %75,1 %
Vision3,75 MP10,24 MP (original)2 MP
Contexte1M tokens1M tokens2M tokens
Prix entrée5 $/MTok2,50 $/MTok2 $/MTok
Prix sortie25 $/MTok15 $/MTok12 $/MTok

Si votre priorité est le code : Opus 4.7 est le meilleur choix disponible. L’écart de 6,6 points sur SWE-bench Pro par rapport à GPT-5.4 est significatif.

Si votre priorité est le raisonnement : les trois modèles sont quasi interchangeables sur GPQA Diamond. Le choix se fait sur d’autres critères (prix, contexte, écosystème).

Si le prix compte : GPT-5.4 offre le meilleur rapport qualité-prix pour les usages intensifs avec 2,50 $/MTok en entrée et 15 $/MTok en sortie. Gemini 3.1 Pro est encore moins cher en entrée (2 $/MTok) mais légèrement plus cher en sortie (12 $/MTok). Les deux restent nettement moins chers qu’Opus 4.7 en entrée.

Pour un comparatif détaillé entre Opus et Sonnet, consultez notre guide Opus vs Sonnet qui sera mis à jour avec les données Opus 4.7.

Opus 4.7 et Mythos : deux modèles, deux stratégies

Anthropic joue désormais sur deux tableaux. Opus 4.7 est le modèle commercial destiné à tous les utilisateurs et développeurs. Mythos Preview est le modèle de recherche, plus puissant mais restreint à environ 50 organisations partenaires (dont 12 membres fondateurs comme AWS, Apple, Google, Microsoft et NVIDIA) dans le cadre de Project Glasswing.

Anthropic reconnaît explicitement qu’Opus 4.7 reste « less broadly capable » que Mythos Preview. En clair : Mythos est l’avant-garde, Opus 4.7 est la version commercialement viable de ce qui suivra.

Pour les utilisateurs, cette stratégie à deux vitesses est nouvelle chez Anthropic. Elle rappelle le modèle de recherche d’OpenAI (GPT-5 vs o3) ou de Google (Gemini Ultra vs Gemini Pro). Le message implicite : attendez-vous à un Opus 5.0 ou un « Mythos GA » dans les prochains mois.

Migration depuis Opus 4.6

La migration est simple : remplacez claude-opus-4-6 par claude-opus-4-7 dans vos appels API. Anthropic recommande cependant de tester vos prompts, car le modèle suit les instructions de manière plus stricte qu’Opus 4.6. Certains prompts « imprécis » qui fonctionnaient par inférence avec 4.6 peuvent nécessiter des ajustements.

Deux points d’attention :

  1. Le tokenizer a changé. Le même texte peut coûter jusqu’à 35 % de tokens en plus. Surveillez vos factures les premiers jours.
  2. Les efforts xhigh et max consomment plus de tokens de sortie. Opus 4.7 produit un raisonnement plus approfondi aux niveaux d’effort élevés. C’est une amélioration qualitative, mais elle a un coût.

Pour optimiser vos prompts, consultez notre guide sur le prompt engineering pour Claude.

Ce qu’il faut retenir

Opus 4.7 confirme l’avance d’Anthropic sur le codage agentique. Les gains sur SWE-bench (+10 points sur Pro, +6,8 sur Verified) et CursorBench (+12 points) parlent d’eux-mêmes. La vision haute résolution et le niveau xhigh apportent un vrai plus au quotidien pour les développeurs.

Mon avis : si vous utilisez déjà Opus 4.6 pour du code, la migration vers 4.7 est évidente. Si vous hésitez entre Opus et GPT-5.4, le choix dépend de votre cas d’usage principal. Pour le code, Opus gagne. Pour le prix, GPT-5.4 est nettement moins cher (2,50 $/MTok en entrée contre 5 $/MTok pour Opus). Pour le raisonnement, les deux sont au coude-à-coude. Pour une vue d’ensemble des différences entre Claude et ChatGPT, consultez notre comparatif Claude vs ChatGPT.

Le vrai changement stratégique, c’est la coexistence Opus/Mythos. Anthropic montre qu’il dispose d’un modèle bien plus puissant qu’il ne met pas encore sur le marché. Opus 4.7 est un aperçu de ce que Mythos deviendra une fois démocratisé.