Technologie

Le Benchmark Claw-Anything de Huawei Place GPT-5.5 à 34,5% de Réussite

Dan Saada · 28 mai 2026 · 5 min de lecture

Huawei's Claw-Anything Benchmark Puts GPT-5.5 at 34.5% Pass Rate — Le Benchmark Claw-Anything de Huawei Place GPT-5.5 à 34,5% de Réussite

Community Trust ScoreProbablement Réel

76%

Réel

Probablement Réel17 votes

Mis à jour 2 mois il y a

Huawei a créé un benchmark. Il s’appelle Claw-Anything. Et les résultats sont assez rudes pour l’industrie de l’IA.

Le test a plongé des assistants IA dans des environnements numériques simulés — essentiellement des versions fictives mais détaillées de la vie numérique qu’une personne gère quotidiennement. Planification, prise de décision, exécution de tâches, changement de contexte. Le genre de choses que les humains font sans y penser à deux fois. GPT-5.5, actuellement le modèle d’IA le plus avancé disponible, n’a réussi que 34,5% des tâches du benchmark. Ce n’est pas une erreur de frappe. Trente-quatre virgule cinq pour cent. Pour un modèle censé représenter la pointe de ce que l’IA peut faire actuellement, c’est un chiffre difficile à enjoliver.

Pas fameux.

Ce que Claw-Anything Teste Réellement

Huawei a conçu Claw-Anything spécifiquement pour tester les assistants IA sur la gestion de la vie numérique. Le benchmark ne se contente pas de lancer des énigmes logiques à un modèle ou de lui demander d’écrire du code. Il simule le type de prise de décision désordonnée et dépendante du contexte que la véritable existence numérique exige — le genre de chose où la bonne réponse dépend de qui vous êtes, de ce que vous faisiez il y a cinq étapes et de ce que vous essayez probablement d’accomplir ensuite.

C’est un animal différent de la plupart des benchmarks d’IA. Beaucoup de tests standard récompensent le raisonnement brut ou la reconnaissance de motifs. Claw-Anything semble se soucier davantage de l’adaptabilité. Le modèle peut-il gérer une situation qu’il n’a pas vue clairement auparavant ? Peut-il gérer des priorités concurrentes sans perdre le fil ? Peut-il se comporter, en gros, comme une personne naviguant dans une journée numérique normale ?

GPT-5.5 ne le pouvait principalement pas. Ou du moins, il ne le pouvait qu’environ un tiers du temps.

L’écart entre ce que le benchmark exige et ce que le modèle a livré est large. Le design de Huawei demande essentiellement : si nous vous confions la gestion de la vie numérique de quelqu’un, à quelle fréquence vous en sortiriez-vous ? La réponse, pour le meilleur modèle actuellement disponible, est moins de quatre fois sur dix.

C’est le titre.

Pourquoi un Taux de 34,5% Est Important

Il y a une tentation à lire un résultat de benchmark et à hausser les épaules. Les benchmarks sont manipulés. Les tests sont critiqués. Les chiffres sont reformulés. Mais 34,5% est difficile à reformuler autrement que comme un problème de plafond pour les systèmes d’IA actuels.

Ce n’est pas que GPT-5.5 soit un mauvais modèle. Selon la plupart des mesures standard, c’est le meilleur disponible actuellement. Le point est que « le meilleur disponible » est encore loin de ce qui serait nécessaire pour gérer véritablement une existence numérique comme le fait un humain. Le modèle peut probablement gérer des tâches isolées suffisamment bien. C’est l’intégration — la gestion soutenue, adaptative et contextuellement consciente d’un environnement numérique complet — où les choses s’effondrent.

Et cet écart est important pour quiconque réfléchit sérieusement aux agents IA, aux assistants IA, ou à l’idée plus large de confier à l’IA une autonomie significative sur les tâches numériques. Les résultats de Claw-Anything sont un rappel de la réalité. Peut-être nécessaire.

Huawei n’a pas publié de commentaire immédiat sur les prochaines étapes après la sortie des résultats du benchmark. Pas de feuille de route, pas de calendrier de suivi. On ne sait pas si d’autres itérations du test sont prévues ou si les résultats alimenteront directement les orientations de développement des modèles.

Où Va le Développement de l’IA à Partir d’Ici

L’industrie de l’IA a passé beaucoup de temps dernièrement à parler d’agents — des modèles qui ne se contentent pas de répondre à des questions mais qui font réellement des choses pour vous. Réserver la réunion. Classer le document. Gérer la boîte de réception. Gérer le flux de travail. Le pitch est convaincant. Les résultats de Claw-Anything rappellent que le pitch et la réalité sont encore assez éloignés.

Pour que l’IA fonctionne comme un véritable gestionnaire de vie numérique, elle doit probablement s’améliorer beaucoup dans quelques domaines spécifiques. La mémoire contextuelle — garder une trace de ce qui s’est passé plus tôt et pourquoi cela compte maintenant. La priorisation adaptative — déterminer ce qui compte le plus lorsque les tâches sont en concurrence. Et quelque chose de plus difficile à nommer mais facile à reconnaître, la capacité à gérer l’ambiguïté sans par défaut donner une mauvaise réponse avec confiance.

GPT-5.5 à 34,5% signifie que la génération actuelle de modèles n’a pas résolu ces problèmes. Pas même proche, vraiment.

Les benchmarks comme Claw-Anything sont utiles précisément parce qu’ils sont difficiles à manipuler. Lorsqu’un test simule un environnement numérique complet plutôt qu’une compétence étroite, les modèles ne peuvent pas simplement reconnaître des motifs pour obtenir un score élevé. Ils doivent réellement performer. Et la performance, en ce moment, est limitée.

La communauté plus large du développement de l’IA prêtera probablement attention à ces résultats. Le benchmark de Huawei est un type spécifique de test de pression, et un plafond de 34,5% sur le modèle le plus avancé est le genre de point de données qui façonne où vont les fonds de recherche et les efforts d’ingénierie ensuite.

Que la prochaine génération de modèles fasse mieux de manière significative sur Claw-Anything — incertain. Personne n’a dit. Mais la barre est maintenant fixée, et elle est à 34,5%.

Questions Fréquentes

Qu’est-ce que le benchmark Claw-Anything ?

Claw-Anything est un benchmark conçu par Huawei qui teste les assistants IA en les plaçant dans des environnements numériques simulés, évaluant leur capacité à gérer les tâches et les décisions comme le ferait une personne dans un contexte numérique réel.

Comment GPT-5.5 a-t-il performé sur le benchmark Claw-Anything ?

GPT-5.5, actuellement le modèle d’IA le plus avancé disponible, a atteint un taux de réussite de 34,5% sur le benchmark Claw-Anything, le score le plus élevé parmi les modèles testés.

Community Trust IndexModerate Confidence

76%

Réel

Réel76%24%Fake

17 community signals