Ce matin, Anthropic a officiellement dépassé OpenAI en annonçant sa nouvelle valorisation et en publiant Claude Opus 4.8, la dernière version de son produit phare, dont la sortie était attendue depuis deux jours.
Ce matin, Anthropic a officiellement dépassé OpenAI en annonçant sa nouvelle valorisation et en publiant Claude Opus 4.8, la dernière version de son produit phare, dont la sortie était attendue depuis deux jours. Nous l'avons immédiatement testée et avons recueilli les premiers retours de la communauté d'utilisateurs. Conclusion : plus performante, son utilisation est cependant devenue plus complexe. Test APPSO : l'intelligence a progressé, mais la communication a décliné. Nous n'avons pas utilisé les scénarios de test fournis par Anthropic, mais l'avons testée avec nos propres besoins réels : extraire et archiver l'intégralité de l'historique des conversations d'une plateforme de collaboration en ligne. Le volume de données dépassait 30 Mo, dispersés dans l'interface, sans bouton d'exportation facilement accessible. Ce type de tâche ne teste pas la capacité du modèle à écrire du code, mais plutôt sa capacité à collaborer avec un développeur non professionnel pour comprendre et mener à bien la tâche de A à Z. Tout a commencé par une découverte fortuite. Nos collègues testeurs ont remarqué que l'interface utilisateur de la plateforme affichait par intermittence d'anciens enregistrements historiques, comme si des données étaient brièvement chargées côté client puis retirées. Il a transmis cette observation à l'équipe 4.8 sans aucune explication technique, se contentant de dire : « J'ai vu d'anciens messages apparaître brièvement puis disparaître. »
4.8 J'ai compris son intention et j'ai émis le bon jugement : les données sont chargées via une requête d'interface et peuvent être interceptées au niveau de la couche réseau du navigateur. J'ai ensuite fourni un plan opérationnel, détaillant les étapes : outils de développement, panneau Réseau, filtrage par mots-clés et localisation de la requête cible. Le jugement était juste et le raisonnement clair. Mais voici la contradiction du point 4.8 : la capacité de réflexion est forte, mais l'expression est… lourde. Chaque solution technique est correcte, mais l'explication de chaque étape nécessite deux ou trois phrases. On pose une question sur une méthode, et on nous répond d'abord : « Bien sûr ! Procédons étape par étape », puis on nous présente une liste à puces, et enfin on ajoute une « explication complémentaire » à la fin de la liste pour expliquer pourquoi il faut procéder ainsi. Ce qui pourrait être expliqué en trois phrases prend trois écrans de texte. Je ne sais tout simplement pas coder, ce n'est pas comme si j'avais perdu la tête.
Ce problème n'est pas nouveau dans la version 4.8 ; il s'agit d'un souci récurrent de la série Opus depuis la version 4.7. Malgré des critiques répétées, cette version n'a apporté aucune amélioration et pourrait même être pire. La phase la plus chronophage est la correction des erreurs : après une première solution, un utilisateur rencontre une nouvelle erreur. La version 4.8 identifie précisément le problème, propose une nouvelle solution et évite de répéter les étapes infructueuses. C'est nettement mieux que la version 4.6, où il arrivait que les erreurs oublient les tentatives effectuées lors de plusieurs cycles de correction. Reconnaître ses erreurs est une bonne chose, mais il n'est pas nécessaire d'être trop rigide. Ajouter une analyse des causes et une liste à puces donne au document un style trop formel, comme un courriel de service client, alors qu'il est censé s'agir d'une analyse technique.
Au final, les données ont été exportées intégralement au format HAR, et le nettoyage et la mise en couches à l'aide de scripts personnalisés ont été réalisés avec succès. Certains utilisateurs n'ont pas encore reçu la mise à jour Claude Code, mais Claude pour Chrome est déjà disponible en version 4.8 et a également été déployé dans des outils bureautiques majeurs comme Notion. Nous avons testé Claude pour effectuer des tâches simples telles que la recherche et le remplissage de formulaires dans Chrome.