Technologie
Par Dan Saada
1 / 15
Ce que Claw-Anything Teste Réellement. Huawei a conçu Claw-Anything spécifiquement pour tester les assistants IA sur la gestion de la vie…
2 / 15
Pourquoi un Taux de 34,5% Est Important. Il y a une tentation à lire un résultat de benchmark et à hausser les épaules.
3 / 15
Où Va le Développement de l'IA à Partir d'Ici. L'industrie de l'IA a passé beaucoup de temps dernièrement à parler d'agents — des modèles qui ne…
4 / 15
Huawei a créé un benchmark. Il s'appelle Claw-Anything. Et les résultats sont assez rudes pour l'industrie de l'IA.
5 / 15
Le test a plongé des assistants IA dans des environnements numériques simulés — essentiellement des versions fictives mais détaillées de la vie numérique qu'une personne gère…
6 / 15
C'est un animal différent de la plupart des benchmarks d'IA. Beaucoup de tests standard récompensent le raisonnement brut ou la reconnaissance de motifs.
7 / 15
GPT-5.5 ne le pouvait principalement pas. Ou du moins, il ne le pouvait qu'environ un tiers du temps.
8 / 15
L'écart entre ce que le benchmark exige et ce que le modèle a livré est large. Le design de Huawei demande essentiellement : si nous vous confions la gestion de la vie numérique…
9 / 15
Il y a une tentation à lire un résultat de benchmark et à hausser les épaules. Les benchmarks sont manipulés. Les tests sont critiqués. Les chiffres sont reformulés.
10 / 15
À lire aussi: Le cofondateur de Bankless, Hoffman, vend tout son Ethereum, doutant de sa capture de valeur
11 / 15
Voir aussi : Levier Bitcoin Atteint Zone de Danger Alors que les Spéculateurs de Détail Affluent
12 / 15
Ce n'est pas que GPT-5.5 soit un mauvais modèle. Selon la plupart des mesures standard, c'est le meilleur disponible actuellement.
13 / 15
Et cet écart est important pour quiconque réfléchit sérieusement aux agents IA, aux assistants IA, ou à l'idée plus large de confier à l'IA une autonomie significative sur les…
14 / 15
Huawei n'a pas publié de commentaire immédiat sur les prochaines étapes après la sortie des résultats du benchmark. Pas de feuille de route, pas de calendrier de suivi.
15 / 15
L'industrie de l'IA a passé beaucoup de temps dernièrement à parler d'agents — des modèles qui ne se contentent pas de répondre à des questions mais qui font réellement des…
TCA France
Lire la suite ?