Décryptage : Le chercheur « Pliny the Liberator » affirme percer le système de sécurité de Fable 5…

Technologie Par Pankaj K

1 / 15 Ce que Pliny prétend avoir trouvé. L'argument central du chercheur est que Fable 5 a un problème de décalage.

2 / 15 Anthropic n'a pas dit un mot. Et ce silence est notable. Anthropic n'a pas publiquement abordé aucune de ces affirmations.

3 / 15 Le problème plus large pour la sécurité de l'IA. Ce qui rend cette situation particulière inconfortable, ce n'est pas seulement l'affirmation…

4 / 15 Un chercheur en IA se faisant appeler "Pliny the Liberator" affirme avoir trouvé de véritables failles dans Fable 5 d'Anthropic — un système conçu spécifiquement pour maintenir…

5 / 15 Fable 5 a été lancé avec beaucoup de fanfare. Anthropic l'a présenté comme un pas sérieux vers la prévention de l'orientation de l'IA vers des résultats nuisibles ou non éthiques.

6 / 15 L'argument central du chercheur est que Fable 5 a un problème de décalage. Ce pour quoi le système a été conçu et ce qu'il fait réellement sous pression sont deux choses…

7 / 15 Ce genre d'affirmation est difficile à rejeter d'emblée. L'histoire de la recherche sur la sécurité de l'IA est essentiellement une longue série de moments où quelqu'un a dit…

8 / 15 Ce qui est flou, ce sont les détails spécifiques. Il n'a pas publié de détails techniques publiquement, du moins pas sous une forme que la communauté de recherche plus large peut…

9 / 15 Et ce silence est notable. Anthropic n'a pas publiquement abordé aucune de ces affirmations. Pas de déclaration, pas de réfutation, pas de reconnaissance.

10 / 15 La communauté de l'IA est à l'écoute. Les chercheurs qui se soucient des cadres de sécurité font probablement leurs propres évaluations discrètes en ce moment, essayant de…

11 / 15 Sur le même sujet: Une publicité politique deepfake au Minnesota met la publicité IA sous le feu des critiques

12 / 15 Voir aussi : Une attaque publicitaire deepfake dans le Minnesota met la publicité politique par IA sous le feu des critiques

13 / 15 C'est une dynamique familière. Un outsider prétend briser quelque chose. L'entreprise reste silencieuse. Tout le monde débat pour savoir qui a raison.

14 / 15 Ce qui rend cette situation particulière inconfortable, ce n'est pas seulement l'affirmation elle-même — c'est ce que l'affirmation représente.

15 / 15 La dynamique du chat et de la souris entre les développeurs d'IA et les personnes essayant d'exploiter leurs systèmes ne va pas disparaître.

TCA France Lire la suite ?